多模態(tài)擴(kuò)散模型開(kāi)始爆發(fā),這次是高速可控還能學(xué)習(xí)推理的LaViDa
近段時(shí)間,已經(jīng)出現(xiàn)了不少基于擴(kuò)散模型的語(yǔ)言模型,而現(xiàn)在,基于擴(kuò)散模型的視覺(jué)-語(yǔ)言模型(VLM)也來(lái)了,即能夠聯(lián)合處理視覺(jué)和文本信息的模型。今天我們介紹的這個(gè)名叫 LaViDa,繼承了擴(kuò)散語(yǔ)言模型高速且可控的優(yōu)點(diǎn),并在實(shí)驗(yàn)中取得了相當(dāng)不錯(cuò)的表現(xiàn)。
現(xiàn)目前,幾乎所有流行的 VLM 都是基于大型語(yǔ)言模型(LLM)構(gòu)建的,而這些模型采用的范式是自回歸(AR),即按照從左到右的順序逐一生成 token。
在很多任務(wù)上,自回歸模型都表現(xiàn)出色,不過(guò)缺點(diǎn)也仍然存在。首先,由于它們是按順序生成,因此這個(gè)過(guò)程本質(zhì)上難以并行化,從而導(dǎo)致推理速度緩慢。另外,由于它們是從左到右生成,因此難以處理需要雙向上下文或結(jié)構(gòu)約束的任務(wù) —— 例如文本填空。
例如,生成一首每行都以特定音節(jié)開(kāi)頭的詩(shī)歌,或從預(yù)定義 JSON 格式的圖像中提取結(jié)構(gòu)化信息 —— 這些任務(wù)通常需要模型填充或協(xié)調(diào)整個(gè)序列中的內(nèi)容。即使使用精心設(shè)計(jì)的提示詞和演示,自回歸模型仍然難以穩(wěn)定地滿(mǎn)足此類(lèi)約束。
近段時(shí)間,離散的擴(kuò)散模型(DM)開(kāi)始崛起,甚至被許多人認(rèn)為是自回歸 LLM 的一種有力替代,比如我們?cè)鴪?bào)道過(guò)的首個(gè) 8B 擴(kuò)散大語(yǔ)言模型 LLaDA、擴(kuò)散推理模型 Dream 7B 以及首個(gè)商業(yè)級(jí)擴(kuò)散 LLM Mercury。
不同于自回歸 LLM,擴(kuò)散模型是將文本生成視為在離散 token 上的擴(kuò)散過(guò)程。會(huì)有一個(gè)前向過(guò)程逐漸將離散文本 token 序列退化(corrupt)為一個(gè)掩碼 token 序列。在推理過(guò)程中,則是從一個(gè)掩碼 token 序列開(kāi)始,并通過(guò)一個(gè)學(xué)習(xí)到的反向過(guò)程逐漸將其轉(zhuǎn)換為一個(gè)有意義的文本 token 序列。
相比于自回歸 LLM,擴(kuò)散模型具有多項(xiàng)理論優(yōu)勢(shì),可直接解決自回歸生成的局限性。
首先,自回歸 LLM 的吞吐量是固定的 —— 每次生成一個(gè) token;而擴(kuò)散模型則可以通過(guò)調(diào)整擴(kuò)散步驟的數(shù)量來(lái)靈活地控制速度與質(zhì)量之間的平衡。此外,它們能夠建模雙向上下文,這使得它們非常適合文本填空等任務(wù),從而實(shí)現(xiàn)更有效的約束生成和結(jié)構(gòu)化的輸出格式化 —— 這些功能在視覺(jué)-語(yǔ)言環(huán)境中尤其有價(jià)值,因?yàn)槠漭敵隹赡苄枰裱囟ǖ哪J健?/span>
基于這些觀察和實(shí)踐,LaViDa 誕生了,其全稱(chēng)為 Large Vision-Language Diffusion Model with Masking,即「帶掩碼的大型視覺(jué)-語(yǔ)言擴(kuò)散模型」。
- 論文標(biāo)題:LaViDa: A Large Diffusion Language Model for Multimodal Understanding
- 論文地址:https://arxiv.org/pdf/2505.16839
該模型來(lái)自加利福尼亞大學(xué)洛杉磯分校、松下、Adobe 和 Salesforce,算得上是首批基于擴(kuò)散的 VLM 之一,我們之前還報(bào)道過(guò)的另外幾個(gè)多模態(tài)的擴(kuò)散語(yǔ)言模型可供對(duì)照:
- 比 Gemini Diffusion 更全能!首個(gè)多模態(tài)擴(kuò)散大語(yǔ)言模型 MMaDA 發(fā)布,同時(shí)實(shí)現(xiàn)強(qiáng)推理與高可控性
- 舍棄自回歸!國(guó)內(nèi)團(tuán)隊(duì)打造純擴(kuò)散多模態(tài)大模型 LLaDA-V,理解任務(wù)新 SOTA
- 谷歌之后,英偉達(dá)入局?jǐn)U散大語(yǔ)言模型,F(xiàn)ast-dLLM推理速度狂飆27.6倍
簡(jiǎn)單來(lái)說(shuō),為了使預(yù)訓(xùn)練的擴(kuò)散模型能夠感知視覺(jué)輸入,LaViDa 的做法是使用一個(gè)視覺(jué)編碼器將視覺(jué)特征整合進(jìn)擴(kuò)散主干網(wǎng)絡(luò) —— 類(lèi)似于 LLaVA 使用視覺(jué)輸入增強(qiáng)大型語(yǔ)言模型 (LLM) 的方式。訓(xùn)練方法上,他們采用了以擴(kuò)散為目標(biāo)的兩階段訓(xùn)練流程:先進(jìn)行預(yù)訓(xùn)練,然后進(jìn)行監(jiān)督微調(diào)。
下面來(lái)詳細(xì)看看 LaViDa 的具體方法和實(shí)驗(yàn)表現(xiàn)。
LaViDa 是如何構(gòu)建的?
LaViDa 的模型架構(gòu)與 LLaVa 等常見(jiàn)的自回歸視覺(jué)-語(yǔ)言模型(VLM)類(lèi)似。它由視覺(jué)編碼器和擴(kuò)散語(yǔ)言模型組成。這兩部分通過(guò)一個(gè) MLP 投射網(wǎng)絡(luò)連接。其整體設(shè)計(jì)如圖 2 所示。
視覺(jué)編碼器:給定輸入圖像 I 和文本提示詞 P,首先將圖像大小調(diào)整為 7682,并將其分成四個(gè) 3842 的不重疊視圖,記為 I_{1:4}。另外,按照之前的相關(guān)研究,也將原始圖像的大小調(diào)整為 3842,以獲得第五個(gè)視圖 I_5。
這五個(gè)視圖分別由視覺(jué)編碼器(SigLIP-400M)獨(dú)立編碼,每個(gè)視圖產(chǎn)生 272 個(gè)嵌入,記為 V_{1:5}??偟膩?lái)算,每個(gè)圖像會(huì)產(chǎn)生 3645 個(gè)嵌入。
為了減少序列長(zhǎng)度以提高訓(xùn)練效率,該團(tuán)隊(duì)還會(huì)在每個(gè)視圖上應(yīng)用 2×2 平均池化,從而將嵌入減少到了每個(gè)視圖 142 個(gè),即總共 980 個(gè)。
然后,這五個(gè)視圖的嵌入會(huì)被展平并連接成一維序列,然后由投射網(wǎng)絡(luò)處理,從而獲得擴(kuò)散語(yǔ)言模型的最終視覺(jué)上下文。此過(guò)程與自回歸 LLM 的視覺(jué)編碼過(guò)程相似,如圖 2 底部所示。
擴(kuò)散語(yǔ)言模型:這里的擴(kuò)散語(yǔ)言模型是一個(gè)多層 Transformer,其架構(gòu)與 LLM 類(lèi)似。唯一的主要區(qū)別是:它的注意力掩碼是非因果式的,并且它使用的建模目標(biāo)是如下擴(kuò)散語(yǔ)言建模目標(biāo),而不是自回歸模型使用的下一個(gè) token 預(yù)測(cè)。
擴(kuò)散語(yǔ)言模型的輸入包括投射的視覺(jué)嵌入、提示詞 P ,以及部分遮掩的響應(yīng) X_t 。最后一個(gè) Transformer 塊的輸出會(huì)經(jīng)過(guò)最終線性層,以獲得無(wú)掩碼的響應(yīng) X_0 的逐 token logit 。在其實(shí)驗(yàn)中,他們探索了 LLaDA-8B(默認(rèn))和 Dream-7B 作為擴(kuò)散語(yǔ)言模型。該過(guò)程如圖 2 的上半部分所示。
下圖展示了 LaViDa 的更多技術(shù)細(xì)節(jié),而有關(guān)其訓(xùn)練算法和推理算法的更詳細(xì)描述請(qǐng)參閱原論文。
LaViDa 的實(shí)驗(yàn)表現(xiàn)如何?
從高層面看,LaViDa 總體上采用了一種兩階段訓(xùn)練流程。
在預(yù)訓(xùn)練階段(階段 1),僅更新投射算子,從而讓視覺(jué)嵌入與 DLM 的隱空間對(duì)齊。
在微調(diào)階段(階段 2),對(duì)所有組件進(jìn)行端到端聯(lián)合訓(xùn)練,以實(shí)現(xiàn)指令遵循。此外,該團(tuán)隊(duì)還對(duì)階段 2 的模型進(jìn)行了進(jìn)一步微調(diào),并得到了兩個(gè)分別用于推理和文本填空任務(wù)的專(zhuān)用模型。
主要結(jié)果
評(píng)估使用了多種視覺(jué)-語(yǔ)言任務(wù)。表 1 報(bào)告了在視覺(jué)理解任務(wù)上,LaViDa 使用 LLaDA-8B(LaViDa-L)和 Dream-7B(LaViDa-D)作為語(yǔ)言主干網(wǎng)絡(luò)的結(jié)果,另外還有一些對(duì)比模型的結(jié)果。
可以看到,在一般任務(wù)、推理、光學(xué)字符識(shí)別 (OCR) 和科學(xué)等類(lèi)別的眾多任務(wù)上,LaViDa 展現(xiàn)出極具競(jìng)爭(zhēng)力的性能。
其中,在一般性的視覺(jué)-語(yǔ)言理解方面,LaViDa-L 在 MMMU 上取得了最高分 (43.3),優(yōu)于所有同類(lèi)模型。LaViDa-D 在該類(lèi)別的多個(gè)基準(zhǔn)測(cè)試中也排名第二。
在推理任務(wù)方面,這兩個(gè)模型在數(shù)學(xué)密集型和基于空間的基準(zhǔn)測(cè)試中均超越了規(guī)模相似的基線模型。
在科學(xué)方面,LaViDa 在 ScienceQA 上取得了最高分和第二高的成績(jī)(分別為 81.4 分和 80.2 分),同時(shí)在基于復(fù)雜圖表的基準(zhǔn) AI2D 上的表現(xiàn)與 Open-Llava-Next 相當(dāng)。
最后,在 OCR 方面,LaViDa 表現(xiàn)還算不錯(cuò),但落后于一些最新的自回歸模型。該團(tuán)隊(duì)分析表示,這種差距主要是因?yàn)?LaViDa 使用了平均池化進(jìn)行視覺(jué) token 壓縮,這會(huì)導(dǎo)致細(xì)粒度空間信息丟失。雖然這在計(jì)算預(yù)算方面是必要的權(quán)衡,但對(duì)于需要精確文本識(shí)別和布局理解的任務(wù)來(lái)說(shuō),這會(huì)帶來(lái)困難。
整體來(lái)看,這些結(jié)果凸顯了 LaViDa 的優(yōu)勢(shì),表明基于擴(kuò)散的方法頗具競(jìng)爭(zhēng)力,可以與自回歸模型一樣 scale,同時(shí)在多種視覺(jué)-語(yǔ)言任務(wù)上取得穩(wěn)健的表現(xiàn)。
推理蒸餾
為了提升 LaViDa 模型的推理能力,該團(tuán)隊(duì)使用從 VL-Rethinker-7B 蒸餾出的 1.92 萬(wàn)個(gè) CoT 樣本又進(jìn)行第三階段訓(xùn)練。最終,他們得到了一個(gè)推理模型 LaViDa-Reason,并在 MathVista、MathVerse 和 MathVision 上進(jìn)行了評(píng)估,結(jié)果見(jiàn)表 2a。
在這些任務(wù)中,最大生成長(zhǎng)度 L 設(shè)置為 1024。從結(jié)果可以看到,LaViDa-Reason 在所有基準(zhǔn)測(cè)試中均優(yōu)于 LaViDa,在最難的 MathVision 推理數(shù)據(jù)集上更是提升明顯(相對(duì)提升了 18%)。
文本填空
LaViDa 為文本生成提供了強(qiáng)大的可控性,尤其是在文本填空方面。
給定一份由 L 個(gè) token 構(gòu)成的草稿,其中包含 L_M 個(gè)掩碼,跳轉(zhuǎn)到時(shí)間步驟 t = L_M / L 并運(yùn)行標(biāo)準(zhǔn)推理直到 t = 0。這會(huì)直接將 L_M 個(gè)掩碼替換為 L_M 個(gè) token。
然而,在實(shí)踐中,補(bǔ)全所需的 token 數(shù)量可能會(huì)更少 —— 例如,There is a [M][M][M][M] in the image 可能會(huì)變成 dog 或 traffic light。
為了支持長(zhǎng)度可變的補(bǔ)全,該團(tuán)隊(duì)使用階段 2 數(shù)據(jù)一個(gè) 20% 的子集進(jìn)行了額外的階段 3 訓(xùn)練,并將該模型命名為 LaViDa-FIM。
在訓(xùn)練期間,他們會(huì)在文本中間插入隨機(jī)長(zhǎng)度的 [S]...[S][FIM] 序列。在推理時(shí),則將 [FIM] 附加到已遮掩的片段(例如 [M][M][M][M][FIM])以為靈活的終止提供信號(hào)。然后,該模型可以生成類(lèi)似 [dog][S][S][S][FIM] 或 [traffic][light][S][S][FIM] 形式的補(bǔ)全。
雖然 FIM 目標(biāo)通常是在語(yǔ)言任務(wù)(例如代碼補(bǔ)全)的語(yǔ)境中討論,但它們與多模態(tài)應(yīng)用同樣相關(guān)。
圖 4a 展示了有約束詩(shī)歌生成的定性結(jié)果,其中模型需要生成一首描述圖像的詩(shī)歌,并且每行要以特定的音節(jié)開(kāi)頭。與自回歸模型不同,LaViDa 和 LaViDa-FIM 都成功完成了任務(wù)。值得注意的是,LaViDa-FIM 會(huì)動(dòng)態(tài)調(diào)整每行的 token 數(shù)量。
表 2b 則展示了 100 個(gè)樣本的定量結(jié)果:這兩個(gè) LaViDa 變體均實(shí)現(xiàn)了 100% 的約束滿(mǎn)足率,而對(duì)比的自回歸模型則均在 50% 以下。
速度與質(zhì)量的權(quán)衡
通過(guò)控制離散化步數(shù) K,LaViDa 提供了一種便捷的方法來(lái)實(shí)現(xiàn)速度與質(zhì)量的權(quán)衡。
基于 COCO 2017 val 數(shù)據(jù)集的 500 張圖像,該團(tuán)隊(duì)比較了不同 K 值下的圖像描述性能。其中 K ∈ {32, 24, 16, 8},等價(jià)地 NFE∈ {100%, 75%, 50%, 25%}。
圖 4b 報(bào)告了在單個(gè) A5000 GPU 上測(cè)得的每張圖像的平均延遲和 CIDEr 分?jǐn)?shù)。
當(dāng) NFE=100% 時(shí),LaViDa 的 CIDEr 得分高于自回歸基線,但速度略慢。當(dāng) NFE=75% 和 NFE=50% 時(shí),LaViDa 的速度比自回歸基線更快,并且質(zhì)量更好。當(dāng) NFE=25% 時(shí),速度明顯更快,但性能略遜一籌。這表明 LaViDa 可以根據(jù)應(yīng)用需求靈活調(diào)整其推理速度,允許用戶(hù)根據(jù)具體需求在生成延遲和輸出質(zhì)量之間進(jìn)行權(quán)衡。
此外,該團(tuán)隊(duì)還研究了 KV 緩存的影響和噪聲調(diào)度,并進(jìn)行了消融研究,詳見(jiàn)原論文。