偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

入門必讀!多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解) 精華

發(fā)布于 2024-9-12 10:31
瀏覽
0收藏

入門必讀!多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

文章鏈接:https://arxiv.org/abs/2402.12451


連接文本和視覺模態(tài)在生成式AI中起著至關(guān)重要的作用。受到大語言模型(本文簡稱LLM)成功的啟發(fā),人們正在致力于開發(fā)多模態(tài)大語言模型(MLLMs)。這些模型可以無縫地集成視覺和文本模態(tài),既作為輸入又作為輸出,同時(shí)提供基于對話的界面和指令遵循的能力。本文全面回顧了最近基于視覺的MLLMs,分析了它們的架構(gòu)選擇、多模態(tài)對齊策略和訓(xùn)練技術(shù)。還對這些模型在各種任務(wù)上進(jìn)行了詳細(xì)分析,包括視覺定位、圖像生成和編輯、視覺理解以及領(lǐng)域特定應(yīng)用。此外編制并描述了訓(xùn)練數(shù)據(jù)集和評(píng)估基準(zhǔn),對現(xiàn)有模型在性能和計(jì)算要求方面進(jìn)行了比較??傮w上,本綜述提供了對當(dāng)前技術(shù)水平的全面概述,為未來MLLMs奠定了基礎(chǔ)。

介紹

注意力算子和Transformer架構(gòu)的引入使得我們可以創(chuàng)建大規(guī)模的,能夠處理各種模態(tài)的模型。這一進(jìn)步主要?dú)w因于算子的多功能性和架構(gòu)的適應(yīng)性。最初,它們主要應(yīng)用于語言模型,但很快就擴(kuò)展到支持視覺處理骨干,并最終用于集成多種模態(tài)的模型。

隨著復(fù)雜的大語言模型的激增,尤其是它們在上下文學(xué)習(xí)方面的能力的進(jìn)步,鼓勵(lì)研究人員將這些模型的范圍擴(kuò)大到多種模態(tài),既作為輸入又作為輸出。這種擴(kuò)展促使了像GPT-4V和Gemini這樣的尖端模型的開發(fā),并展現(xiàn)了相當(dāng)先進(jìn)的能力。


多模態(tài)大語言模型(MLLMs)的發(fā)展涉及將視覺和語言的單模態(tài)架構(gòu)進(jìn)行融合,通過視覺到語言適配器之間建立有效的連接,并創(chuàng)造出新的訓(xùn)練方法,這些方法對于確保模態(tài)對齊和準(zhǔn)確遵循指令的能力至關(guān)重要。


當(dāng)前新模型發(fā)布迅速,我們的目標(biāo)是提供關(guān)于MLLM領(lǐng)域的詳盡概述,并重點(diǎn)關(guān)注利用視覺模態(tài)的模型。本綜述既是對當(dāng)前現(xiàn)狀的更新,也是對未來發(fā)展的啟示。

本文定義了這類模型的三個(gè)核心方面:它們的架構(gòu)、訓(xùn)練方法和設(shè)計(jì)任務(wù)。本文首先詳細(xì)介紹了當(dāng)前流行的視覺編碼器和適配器模塊,這些模塊賦予了LLMs跨模態(tài)的能力。接著,深入探討了訓(xùn)練過程和使用的數(shù)據(jù)。然后,探討了MLLMs所涉及的任務(wù)范圍。最后討論了該領(lǐng)域持續(xù)存在的挑戰(zhàn)以及未來研究的方向。關(guān)于訓(xùn)練數(shù)據(jù)、評(píng)估數(shù)據(jù)集以及性能和計(jì)算要求的更多細(xì)節(jié)可以在原文的附錄中找到。

為LLMs賦予多模態(tài)能力

基礎(chǔ)知識(shí)

「大語言模型」 Brown等人發(fā)現(xiàn),在提示中添加幾個(gè)示例,演示LLM的期望輸出,即上下文學(xué)習(xí),可以提高其性能,尤其是在新任務(wù)上。為LLM提供每個(gè)訓(xùn)練樣本所需任務(wù)的一段自然語言描述可以進(jìn)一步提高泛化能力。這種技術(shù)被稱為指令微調(diào),它對于調(diào)整LLM的行為與人類行為一致至關(guān)重要,最終通過從人類反饋中增強(qiáng)學(xué)習(xí)(RLHF)。


「PEFT (Parameter-Efficient Fine-Tuning) 參數(shù)高效微調(diào)」 當(dāng)需要將預(yù)訓(xùn)練的LLM應(yīng)用于特定領(lǐng)域時(shí),參數(shù)高效微調(diào)(PEFT)就成為訓(xùn)練整個(gè)LLM的一個(gè)重要替代方案,因?yàn)檫@些領(lǐng)域只引入了少量的新參數(shù)。其中,prompt調(diào)整學(xué)習(xí)了一小組向量,在輸入文本之前作為軟提示輸入到模型中。另一方面,LoRA(Low-Rank Adaptation of Large Language Models)通過學(xué)習(xí)低秩矩陣來限制新權(quán)重的數(shù)量。這種技術(shù)與量化方法(如QLoRA(Quant LoRA))是正交的,后者相比通常的半精度權(quán)重進(jìn)一步減少了LLM的內(nèi)存占用。

「向多模態(tài)LLMs的方向發(fā)展」 MLLMs的發(fā)展路徑與LLMs類似,F(xiàn)lamingo是第一個(gè)在視覺-語言領(lǐng)域大規(guī)模探索上下文學(xué)習(xí)的模型。然后,視覺指令微調(diào)迅速成為多模態(tài)領(lǐng)域中最突出的訓(xùn)練范式,連帶使用PEFT技術(shù)微調(diào)LLM。任何MLLM至少包含三個(gè)組件(見下圖1):LLM骨干作為與用戶的接口,一個(gè)(或多個(gè))視覺編碼器,以及一個(gè)或多個(gè)視覺到語言適配器模塊。

入門必讀!多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

常用的LLM主體通常屬于LLaMA家族系列,因?yàn)樗鼈兊臋?quán)重可以自由調(diào)整,它們只在公共數(shù)據(jù)上進(jìn)行了訓(xùn)練,并且擁有不同的尺寸以適應(yīng)各種場景。此外,它們的衍生版本也很受歡迎,如Alpaca和Vicuna。前者在使用GPT-3編寫的指令上對LLaMA進(jìn)行微調(diào),而后者利用用戶與ChatGPT分享的對話。其他選擇包括OPT、Magnet、MPT以及指令微調(diào)或多語言版本的T5(一個(gè)為多個(gè)任務(wù)預(yù)先訓(xùn)練的編碼器-解碼器語言模型)。


本文調(diào)研的MLLMs的總結(jié)如下表1所示。對于每個(gè)模型,表中列出了它所基于的LLM,視覺編碼器,連接視覺和語言組件的適配器,MLLM是否使用視覺指令調(diào)整進(jìn)行訓(xùn)練,以及主要任務(wù)和能力。

入門必讀!多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

視覺編碼器

在MLLMs中,視覺編碼器是一個(gè)關(guān)鍵組件,它專門用于向LLM提供從視覺中提取的特征。通常采用凍結(jié)的預(yù)訓(xùn)練視覺編碼器,同時(shí)僅訓(xùn)練一個(gè)可學(xué)習(xí)的接口,將視覺特征與基礎(chǔ)LLM連接起來。最常用的視覺編碼器基于預(yù)訓(xùn)練的Vision Transformer(ViT)模型,它基于CLIP,目的是利用CLIP嵌入的固有對齊性。


一些常用的選擇包括:CLIP中的ViT-L模型、OpenCLIP中的ViT-H骨干和EVA-CLIP中的ViT-g版本。CLIP和OpenCLIP編碼器是在網(wǎng)絡(luò)收集的圖像上訓(xùn)練的,采用對比方法來對齊正確的圖像-文本對。相反,EVA-CLIP是一系列模型,為訓(xùn)練CLIP模型提供了實(shí)用且有效的解決方案:EVA模型是預(yù)訓(xùn)練的,以可見圖像塊為條件,重建遮擋的圖像-文本對齊的視覺圖像特征。


更強(qiáng)大的圖像編碼器會(huì)提高性能?;谶@一認(rèn)識(shí),一些研究者提出了一種凍結(jié)的視覺骨干的合集,以捕獲強(qiáng)大的視覺表示和不同層次的信息粒度。與此同時(shí),PaLI模型注意到語言和視覺參數(shù)之間存在不平衡,提議將視覺骨干擴(kuò)展到一個(gè)40億和220億參數(shù)的ViT。


利用這些強(qiáng)大的模型的通常做法是在訓(xùn)練過程中保持視覺編碼器凍結(jié)。然而,使用凍結(jié)的視覺編碼器也存在一些局限性,主要是由于參數(shù)數(shù)量受限,導(dǎo)致視覺和語言模態(tài)之間無法準(zhǔn)確對齊。具體來說,當(dāng)輸入語言模型時(shí),從視覺模型中提取的密集特征可能會(huì)破壞細(xì)粒度的圖像信息,并且由于序列長度而引入大量計(jì)算。


為了緩解這個(gè)問題,其他研究人員采用了一個(gè)兩階段的訓(xùn)練范式。在第一階段,他們將一個(gè)可訓(xùn)練的視覺骨干引入,同時(shí)保持預(yù)訓(xùn)練的LLM凍結(jié)。根據(jù)他們的研究結(jié)果,使視覺編碼器可訓(xùn)練可以提升視覺問題回答或視覺描述等任務(wù)的性能。然而,這可能導(dǎo)致其他任務(wù)性能下降,表明這種方案存在一定程度的遺忘,而且破壞了通用視覺表示。

視覺——語言適配器

由于來自不同模態(tài)的輸入同時(shí)存在,那么在這些單模態(tài)內(nèi)整合能夠描繪其潛在對應(yīng)關(guān)系的模塊就十分必要了,這些模塊被稱為“適配器”,目的在于促進(jìn)視覺和文本領(lǐng)域之間的互通性。在常見的MLLMs中,使用了各種適配器,從基本的架構(gòu)(如線性層或多層感知機(jī)(MLP)),到高級(jí)方法(如基于Transformer的解決方案,例如Q-Former模型),并在LLM中添加了條件交叉注意力層。


「線性MLP投影」 將視覺輸入投影到文本embedding的最直接的方法,它涉及到學(xué)習(xí)線性映射,即將視覺特征轉(zhuǎn)換為相同維度的對應(yīng)文本。一些方法只使用單個(gè)線性層來執(zhí)行多模態(tài)連接,如LLaMA-Adapter和FROMAGe,而LLaVA-1.5采用了兩層MLP,顯示出改進(jìn)的多模態(tài)能力。盡管線性投影在早期MLLMs中被廣泛采用,但即使在最近的對視覺輸入有更高級(jí)理解的方法中,線性投影的使用也被證明非常有效。因此,這是一種簡單但有效的技術(shù),用于將視覺特征與文本對應(yīng)物對齊。另一種方法提出用卷積層替換線性層,也有適當(dāng)?shù)牡母倪M(jìn)。


「Q-Former」 是在BLIP-2中提出的基于Transformer的模型,并在之后的幾種其他方法中使用。它的特點(diǎn)是其可適應(yīng)性架構(gòu),由兩個(gè)Transformer塊組成,這些塊共享各自的自注意力層,促進(jìn)了視覺和文本表示之間的對齊過程。它包括一組可學(xué)習(xí)的query,這些query在自注意力層內(nèi)進(jìn)行交互,并通過交叉注意力機(jī)制與視覺特征進(jìn)行交互。而文本和視覺元素通過模塊內(nèi)的共享自注意力進(jìn)行通信。


受到Q-Former的啟發(fā),又誕生了各種修改版本。比如,mPLUG-Owl模型簡化了Q-Former的架構(gòu),并提出了一個(gè)視覺抽象器組件,通過將視覺信息壓縮成不同的可學(xué)習(xí)token,從而獲得更豐富的語義視覺表示。在同樣的方向上,Qwen-VL使用一個(gè)單層交叉注意力模塊壓縮視覺特征,該模塊具有可學(xué)習(xí)的query,并且還包含2D位置編碼。


「附加跨注意力層」 這種方法在Flamingo中提出,通過在現(xiàn)有的預(yù)訓(xùn)練LLM層之間集成密集的交叉注意力塊。新添加的層通常與初始化的tanh-gating機(jī)制結(jié)合在一起,以確保在初始化時(shí),條件模型的行為與其原始版本相同。使用額外的交叉注意力層需要從頭開始訓(xùn)練它們,增加了可訓(xùn)練參數(shù)的數(shù)量,與其他替代方案相比。為了降低計(jì)算復(fù)雜度,這種策略通常與一個(gè)Perceiver-based組件配對,該組件在傳遞到LLM之前減少了視覺token的數(shù)量。自其引入以來,幾個(gè)模型使用這種技術(shù)來將視覺模態(tài)與基礎(chǔ)LLM連接起來,提升了訓(xùn)練穩(wěn)定性和性能。

多模態(tài)訓(xùn)練

從預(yù)訓(xùn)練的LLM開始,MLLM的訓(xùn)練經(jīng)歷了單階段或兩階段的過程。在兩種情況下,都使用標(biāo)準(zhǔn)的交叉熵?fù)p失來預(yù)測下一個(gè)token,作為自回歸目標(biāo)。


「單階段訓(xùn)練」 這是LLaMA-Adapter模型探索的,該模型引入了額外的可訓(xùn)練參數(shù),以同時(shí)封裝視覺知識(shí)并管理僅支持文本的指令學(xué)習(xí)。為了實(shí)現(xiàn)這一點(diǎn),模型通過使用圖像-文本對和指令進(jìn)行聯(lián)合訓(xùn)練,操作不同的參數(shù)。與此同時(shí),還有一些模型通過將兩個(gè)對比損失函數(shù)用于圖像-文本檢索,以此來調(diào)整最終損失函數(shù)。在訓(xùn)練過程中,只有三個(gè)線性層被更新。另一方面,Kosmos-1考慮了一個(gè)凍結(jié)的視覺骨干,并從零開始訓(xùn)練了1.3B(13億)參數(shù)的語言模型。


相反,F(xiàn)lamingo及其開源變體訓(xùn)練交叉注意力層和基于Perceiver的組件,以連接視覺特征與凍結(jié)的LLM模塊。此外,Otter擴(kuò)展了Flamingo的訓(xùn)練,以增強(qiáng)其上下文能力。

考慮到當(dāng)前可用的大量訓(xùn)練數(shù)據(jù),像SPHINX-X這樣的模型選擇執(zhí)行單個(gè)一體化訓(xùn)練階段,更新所有模型組件,還可以僅使用文本數(shù)據(jù)來保留LLM的對話能力。


「兩階段訓(xùn)練」 在兩個(gè)訓(xùn)練階段中的第一階段,目標(biāo)是將圖像特征與文本embedding空間對齊。在此階段之后,輸出往往會(huì)出現(xiàn)碎片且不連貫。因此,實(shí)施第二步以提高多模態(tài)對話能力。LLaVA是最早引入視覺指令跟隨訓(xùn)練方案的模型之一,該方案作為第二個(gè)訓(xùn)練階段,更新了多模態(tài)適配器和LLM的參數(shù)。在第一階段,只有多模態(tài)適配器是可訓(xùn)練的。與之不同的是,MiniGPT-4僅訓(xùn)練負(fù)責(zé)兩個(gè)階段中的多模態(tài)對齊的線性層。在第二階段,它使用經(jīng)過第一階段模型自身收集和精煉的過濾數(shù)據(jù)。


另一種方法在"InstructBLIP"中提到,它涉及凍結(jié)視覺編碼器和LLM。在兩個(gè)訓(xùn)練階段中,只有Q-Former和連接模塊是可訓(xùn)練的。與先前的方法不同,在這些方法中,視覺骨干保持凍結(jié)狀態(tài),而"mPLUG-Owl"在初始階段更新視覺骨干,有助于捕獲低級(jí)和高級(jí)視覺信息。此外,在第二階段,文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)一起使用,以增加對齊度。與此不同的是,"Shikra"在兩個(gè)階段中更新所有權(quán)重,不同之處是保持視覺骨干凍結(jié)狀態(tài)。


「訓(xùn)練數(shù)據(jù)」 在第一訓(xùn)練階段(或者單階段)中,通常使用來自不同來源的圖像-文本對,使用諸如LAION-2B、LAION-400M、Conceptual Captions、COYO-700M和DataComp等數(shù)據(jù)集。一些方法將這些數(shù)據(jù)與一個(gè)或多個(gè)特點(diǎn)是文本與圖像交錯(cuò)的數(shù)據(jù)集(通常是從網(wǎng)絡(luò)上抓取的)結(jié)合使用,比如WebLI、MMC4、MMDialog和OBELICS。為了解決先前數(shù)據(jù)集中的偏差和噪聲,StableLLaVA在第一階段引入了新收集的數(shù)據(jù)。該方法利用ChatGPT生成圖像提示和基于內(nèi)容的對話的數(shù)據(jù),并利用Stable Diffusion生成相應(yīng)的圖像。


在接下來的階段中,利用了用于視覺指令微調(diào)的數(shù)據(jù)集。其中,常用的LLaVA-Instruct利用GPT-4生成的指令擴(kuò)展了COCO。隨著這一趨勢的發(fā)展,有人通過整合手工制作和生成的高質(zhì)量多樣化數(shù)據(jù),擴(kuò)大了維度規(guī)模。此外,還提出了其他多輪對話數(shù)據(jù)集,例如引入了一個(gè)將26個(gè)公開可用數(shù)據(jù)集轉(zhuǎn)換為其視覺指令版本的數(shù)據(jù)集,LLR-Instruction旨在通過更強(qiáng)大的指令減少幻覺,而LLaVAR則專注于文本豐富的圖像。

利用MLLMs處理視覺任務(wù)

標(biāo)準(zhǔn)MLLMs可以處理視覺理解任務(wù),如視覺問答(VQA)、圖像描述和多輪對話。然而,最近人們對解決更精細(xì)的視覺任務(wù)表現(xiàn)出了興趣,如視覺定位和圖像生成。

視覺定位

MLLM的視覺定位能力指能夠與用戶進(jìn)行包括內(nèi)容定位的對話,也被稱為指代對話。也有人將指代定義為理解輸入?yún)^(qū)域內(nèi)容的能力,可以在區(qū)域描述和指代表達(dá)生成等任務(wù)上進(jìn)行評(píng)估。相反,視覺定位則與定位給定文本描述的區(qū)域相關(guān)聯(lián),對應(yīng)于任務(wù),如指代表達(dá)理解(REC)、指代表達(dá)分割(RES)、短語定位和定位式圖像描述生成。為了賦予MLLMs這些能力,需要兩個(gè)核心功能:一個(gè)用于處理輸入?yún)^(qū)域的區(qū)域轉(zhuǎn)換序列方法,以及一個(gè)用于將名詞和短語與區(qū)域關(guān)聯(lián)的序列到區(qū)域方法。下表2總結(jié)了具有視覺定位能力的MLLMs。

入門必讀!多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

「區(qū)域轉(zhuǎn)換文本」 輸出區(qū)域的最常見方式是直接將它們插入生成的文本中,作為一系列坐標(biāo),表示成數(shù)字或?qū)S糜谖恢梅秶奶厥鈽?biāo)記。Shikra、Kosmos-2、MiniGPT-v2、Ferret、CogVLM、SPHINX、QwenVL和Griffon通過指定兩個(gè)點(diǎn)將邊界框轉(zhuǎn)換為文本。VisionLLM、VistaLLM、LLaFS和ChatSpot允許MLLM通過將多邊形表示為一系列點(diǎn)的方式來處理它們。


「Embedding-as-Region」 另一種解決方案是通過區(qū)域編碼器讀取輸入?yún)^(qū)域,并將輸出區(qū)域作為MLLM最后一層提取的embedding傳遞給解碼器。對于輸入?yún)^(qū)域,GLaMM、GPT4RoI、ASM和ChatterBox利用圖像編碼器的特征對邊界框執(zhí)行ROI對齊,而PVIT則利用RegionCLIP。PixelLLM和LLaVA-G分別使用SAM的提示編碼器和Semantic-SAM。對于輸出區(qū)域,LISA、GLaMM、GSVA、NeXtChat和LISA++將與特殊標(biāo)記對應(yīng)的embedding發(fā)送到SAM的mask解碼器。LLaVA-G轉(zhuǎn)換為OpenSeeD,Lenna轉(zhuǎn)換為Grounding-DINO,PixelLM轉(zhuǎn)換為自定義輕量級(jí)像素解碼器。


不同的是,ContextDET引入了一個(gè)解碼器,接收帶有可學(xué)習(xí)query的名詞的潛在embedding,執(zhí)行與圖像特征的交叉注意力,然后使用分割頭。ChatterBox將iTPN-B編碼器和MLLM的特征組合起來,并提供給DINO檢測器。GELLA在Mask2Former中提出了一個(gè)融合模塊,基于多模態(tài)圖像特征提出mask,并使用關(guān)聯(lián)模塊將潛在embedding分配給它們。PaLI-3通過VQ-VAE解碼器將embedding轉(zhuǎn)換為分割mask。


「文本轉(zhuǎn)換位置」 其他方法基于接受文本類別作為輸入的開放詞匯模型。DetGPT為Grounding-DINO生成類別列表。BuboGPT利用RAM、Grounding-DINO和SAM的組合,并將標(biāo)簽與輸出序列中的名詞進(jìn)行匹配。

圖像生成與編輯

雖然最初的MLLMs展示了從視覺數(shù)據(jù)中提取信息的能力,但最新研究已經(jīng)將其重點(diǎn)擴(kuò)展到了生成視覺輸出。這一進(jìn)展是通過將MLLM框架與圖像生成機(jī)制相結(jié)合實(shí)現(xiàn)的,主要體現(xiàn)在 Stable Diffusion模型中。這些模型具有一個(gè)以文本或視覺embedding為條件的去噪U(xiǎn)-Net架構(gòu),通過交叉注意力層實(shí)現(xiàn)。所分析模型的完整列表如下表3所示。

入門必讀!多模態(tài)大語言模型的演變?nèi)仡櫍。ㄒ曈X定位、圖像生成、編輯、理解)-AI.x社區(qū)

「將MLLM與擴(kuò)散模型連接起來」 GILL是將MLLM的輸出embedding空間映射到凍結(jié)擴(kuò)散模型的輸出空間的先驅(qū)。具體來說,受Q-Former啟發(fā),他們訓(xùn)練了一個(gè)映射組件,通過最小化語言模型的圖像輸出表示與擴(kuò)散模型的預(yù)期條件embedding之間的?2距離來實(shí)現(xiàn)。

雖然GILL避免了對LLM和擴(kuò)散U-Net進(jìn)行微調(diào),但是替代方法仍然微調(diào)了語言模型以擴(kuò)展其多模態(tài)生成能力。在這方面,Kosmos-G是通過一個(gè)訓(xùn)練方案開發(fā)的,該方案將LLM的輸出與編碼器-解碼器結(jié)構(gòu)相結(jié)合,利用重構(gòu)損失和在CLIP-文本embedding中的距離最小化。類似地,MiniGPT-5除了GILL的對齊損失外,還包括擴(kuò)散模型的重構(gòu)損失。


此外,它將整個(gè)訓(xùn)練過程分為兩個(gè)不同的階段:初始階段專注于文本到圖像的生成,而后續(xù)階段則專注于交錯(cuò)的視覺和語言生成。顯然,研究人員已經(jīng)研究了從輸入圖像中提取的離散和連續(xù)視覺標(biāo)記與Stable Diffusion條件embedding的對齊。這通常通過對文本模型進(jìn)行微調(diào)來實(shí)現(xiàn)。當(dāng)然,也有人微調(diào)了LLM和Stable Diffusion U-Net。


有研究者提出了一種不同的方法,他們建議通過添加兩個(gè)特殊標(biāo)記(即start和end)對LLM進(jìn)行微調(diào),并直接使用Stable Diffusion模型中的文本編碼器在這兩個(gè)標(biāo)記之間對生成的文本進(jìn)行編碼。LLM被訓(xùn)練以輸出詳細(xì)的基于語言的生成提示,這些提示用于生成或編輯任務(wù)。U-Net通過更長、更詳細(xì)的文本說明進(jìn)行微調(diào)。此外,在DreamLLM中,放棄了對齊損失,而是選擇了分?jǐn)?shù)蒸餾損失,同時(shí)保持U-Net凍結(jié)。此外,其他研究者還進(jìn)行了額外的研究努力,將MLLM引入圖像編輯領(lǐng)域。


「端到端Pipelines」 另一個(gè)方向是開發(fā)端到端訓(xùn)練策略。Stable Diffusion U-Net直接通過LLM生成的連續(xù)視覺embedding進(jìn)行微調(diào)。使用特征同步器,在LLM和擴(kuò)散解碼器的中間層中跨多尺度高分辨率圖像特征進(jìn)行交叉關(guān)注。此外,端到端訓(xùn)練方法已經(jīng)被用于非基于擴(kuò)散的生成器,比如VQ-GAN。Aiello提出了一種不同的方法,通過雙向跨模型架構(gòu)的交叉關(guān)注來混合LLM架構(gòu)和自回歸生成器CM3Leon。

其他模態(tài)與應(yīng)用

「視頻理解」 前面提到的大部分研究都集中在圖像上,但也有一些工作提出了專門用于處理視頻序列的MLLMs。這些模型獨(dú)立地處理視頻幀,使用基于CLIP的骨干提取幀級(jí)特征,然后利用池化機(jī)制或基于Q-Former的解決方案將這些特征組合起來。視覺特征與語言模型之間的連接和基于圖像的MLLMs趨勢一致,最常見的選擇是線性投影。然而,也有一些嘗試開發(fā)視頻特定的適配器,可以捕獲細(xì)粒度的時(shí)間信息。除了編碼視頻幀外,一些工作還利用音頻特征來豐富輸入視頻序列的表示。


「任意模態(tài)模型」 到目前為止,幾乎所有描述的模型都將單一模態(tài)作為LLM的輸入。然而,也有大量工作集中在設(shè)計(jì)出能夠有效處理多模態(tài)的解決方案。通常,這是通過使用Transformer塊(如Q-Former和Perceiver)來對齊多模態(tài)特征實(shí)現(xiàn)的,或者通過利用ImageBind來有效提取固有多模態(tài)特征。圖像、視頻和音頻是最常處理的模態(tài)。此外,一些工作還有效地編碼了3D數(shù)據(jù)和IMU傳感器信號(hào)。盡管所有這些解決方案都可以管理多模態(tài)輸入,但像NExT-GPT和Unified-IO 2這樣的方法也能夠生成不同模態(tài)的輸出。


「特定領(lǐng)域的MLLM」 除了處理通用的視覺輸入之外,一些研究工作致力于開發(fā)針對特定領(lǐng)域和應(yīng)用的MLLM,可以從預(yù)訓(xùn)練的LLM開始訓(xùn)練模型,也可以使用特定領(lǐng)域的數(shù)據(jù)對現(xiàn)有的MLLM進(jìn)行微調(diào)。一些例子包括用于文檔分析和文本密集型視覺輸入的MLLM,為體驗(yàn)式人工智能和機(jī)器人技術(shù)設(shè)計(jì)的MLLM,以及針對特定領(lǐng)域(如醫(yī)學(xué)和自動(dòng)駕駛)量身定制的MLLM。附錄中展示了不同特定領(lǐng)域的MLLM的完整列表。

總結(jié)與未來方向

本綜述提供了對MLLM最近發(fā)展的全面概述,首先關(guān)注了如何為LLM提供多模態(tài)能力,然后探討了這些模型解決的主要任務(wù)。根據(jù)綜述分析,闡述了后續(xù)重要的開放性挑戰(zhàn)和有前景的未來研究方向,以進(jìn)一步增強(qiáng)MLLM的能力。


「幻覺矯正」 一些研究表明,MLLMs在生成較長對話時(shí)出現(xiàn)幻覺的概率較高。雖然一些解決方案正在嘗試解決這一問題,但理解和糾正幻覺的根本原因仍然是一個(gè)重要的挑戰(zhàn)。對于將這些模型應(yīng)用于更為關(guān)鍵的場境(例如醫(yī)學(xué)),解決這一問題并確保其準(zhǔn)確性和可信度至關(guān)重要。


「預(yù)防生成有害和偏見內(nèi)容」 社會(huì)非常關(guān)注大模型的安全性和公平性。最新的研究表明,使用網(wǎng)絡(luò)抓取的數(shù)據(jù)訓(xùn)練的模型很容易生成不當(dāng)和有偏見的內(nèi)容。盡管最近在努力減少文本到圖像生成模型中這種現(xiàn)象了,但需要進(jìn)一步探索如何防止MLLMs中出現(xiàn)相同的行為。


「降低計(jì)算負(fù)載」 正如補(bǔ)充資料所示,MLLMs需要極高的計(jì)算資源。需要采取有效策略(Chu等,2024)來降低計(jì)算需求,從而使MLLMs的開發(fā)更加容易??赡艿姆较虬p少模型規(guī)模和數(shù)據(jù)量方面的訓(xùn)練要求,并優(yōu)化推理階段。


本文轉(zhuǎn)自 AI生成未來 ,作者:Davide Caffagni等


原文鏈接:??https://mp.weixin.qq.com/s/0VeVvO7ETFTfnbWzuc38-g??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦