偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

舍棄自回歸!國(guó)內(nèi)團(tuán)隊(duì)打造純擴(kuò)散多模態(tài)大模型LLaDA-V,理解任務(wù)新SOTA

人工智能 新聞
研究團(tuán)隊(duì)將 LLaDA 作為語(yǔ)言基座,通過(guò)引入視覺(jué)編碼器(SigLIP 2)和 MLP 連接器,將視覺(jué)特征投影到語(yǔ)言嵌入空間,實(shí)現(xiàn)了有效的多模態(tài)對(duì)齊。LLaDA-V 在訓(xùn)練和采樣階段均采用離散擴(kuò)散機(jī)制,擺脫了自回歸范式。

本文介紹的工作由中國(guó)人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團(tuán)隊(duì)與螞蟻集團(tuán)共同完成。游澤彬和聶燊是中國(guó)人民大學(xué)高瓴人工智能學(xué)院的博士生,導(dǎo)師為李崇軒副教授。該研究基于團(tuán)隊(duì)前期發(fā)布的、首個(gè)性能比肩 LLaMA 3 的 8B 擴(kuò)散大語(yǔ)言模型 LLaDA。

此次,團(tuán)隊(duì)將 LLaDA 拓展至多模態(tài)領(lǐng)域,推出了 LLaDA-V—— 集成了視覺(jué)指令微調(diào)的純擴(kuò)散多模態(tài)大語(yǔ)言模型(MLLM)。這項(xiàng)工作標(biāo)志著對(duì)當(dāng)前以自回歸為主流的多模態(tài)方法的一次重要突破,展示了擴(kuò)散模型在多模態(tài)理解領(lǐng)域的巨大潛力。

近年來(lái),多模態(tài)大語(yǔ)言模型(MLLMs)在處理圖像、音頻、視頻等多種輸入模態(tài)方面取得了顯著進(jìn)展。然而,現(xiàn)有的大多數(shù)方法依賴自回歸模型。雖然有研究嘗試將擴(kuò)散模型引入 MLLMs,但往往采用混合架構(gòu)(自回歸 + 擴(kuò)散)或者受限于語(yǔ)言建模能力,導(dǎo)致性能不佳。

繼 LLaDA 成功證明擴(kuò)散模型在純語(yǔ)言任務(wù)上能與自回歸模型(如 LLaMA3-8B)競(jìng)爭(zhēng)后,一個(gè)關(guān)鍵問(wèn)題隨之而來(lái):擴(kuò)散語(yǔ)言模型能否在多模態(tài)任務(wù)中也達(dá)到與自回歸模型相當(dāng)?shù)男阅??LLaDA-V 正是對(duì)這一問(wèn)題的有力回答。

研究團(tuán)隊(duì)將 LLaDA 作為語(yǔ)言基座,通過(guò)引入視覺(jué)編碼器(SigLIP 2)和 MLP 連接器,將視覺(jué)特征投影到語(yǔ)言嵌入空間,實(shí)現(xiàn)了有效的多模態(tài)對(duì)齊。LLaDA-V 在訓(xùn)練和采樣階段均采用離散擴(kuò)散機(jī)制,擺脫了自回歸范式。

圖片

  • 論文標(biāo)題:LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning
  • 論文鏈接:https://arxiv.org/abs/2505.16933
  • 項(xiàng)目地址:https://ml-gsai.github.io/LLaDA-V-demo/
  • 代碼倉(cāng)庫(kù):https://github.com/ML-GSAI/LLaDA-V

團(tuán)隊(duì)預(yù)計(jì)近期開(kāi)源訓(xùn)練推理代碼以及 LLaDA-V 權(quán)重。

性能亮點(diǎn)

數(shù)據(jù)可擴(kuò)展性強(qiáng),多項(xiàng)基準(zhǔn)表現(xiàn)優(yōu)異

大規(guī)模的實(shí)驗(yàn)評(píng)估揭示了 LLaDA-V 的多個(gè)引人注目的特性:

1. 卓越的數(shù)據(jù)可擴(kuò)展性與競(jìng)爭(zhēng)力。團(tuán)隊(duì)將 LLaDA-V 與使用 LLaMA3-8B 作為語(yǔ)言基座、但其他部分完全相同的自回歸基線 LLaMA3-V 進(jìn)行了對(duì)比。

結(jié)果顯示,LLaDA-V 展現(xiàn)出更強(qiáng)的數(shù)據(jù)可擴(kuò)展性,特別是在多學(xué)科知識(shí)(如 MMMU)基準(zhǔn)上。令人印象深刻的是,盡管 LLaDA-8B 在純文本任務(wù)上略遜于 LLaMA3-8B,但 LLaDA-V 在 11 個(gè) 多模態(tài)任務(wù)中超越了 LLaMA3-V。這表明擴(kuò)散架構(gòu)在多模態(tài)任務(wù)上面具備一定的優(yōu)勢(shì)。

圖片

圖片

2. 純擴(kuò)散與混合架構(gòu)中的 SOTA:與現(xiàn)有的混合自回歸 - 擴(kuò)散模型(如 MetaMorph, Show-o)和純擴(kuò)散模型相比,LLaDA-V 在多模態(tài)理解任務(wù)上達(dá)到了當(dāng)前最佳(SOTA)性能。這證明了基于強(qiáng)大語(yǔ)言擴(kuò)散模型的 MLLM 架構(gòu)的有效性。

圖片

3. 縮小與頂尖自回歸 MLLM 的差距:盡管 LLaDA 的語(yǔ)言能力明顯弱于 Qwen2-7B,但 LLaDA-V 在某些基準(zhǔn)(如 MMStar)上顯著縮小了與強(qiáng)大的 Qwen2-VL 的性能差距,達(dá)到了相當(dāng)?shù)乃剑?0.1 vs. 60.7)。這進(jìn)一步印證了擴(kuò)散模型在多模態(tài)領(lǐng)域的潛力。

下圖是 LLaDA-V 同用戶進(jìn)行交流的場(chǎng)景。

圖片

LLaDA-V 準(zhǔn)確描述出了一幅寧?kù)o而富有層次感的瑞士阿爾卑斯山景:一條綠色小路蜿蜒延伸,一位行人沿路行走,遠(yuǎn)處是山谷中的白色教堂和被薄霧環(huán)繞的巍峨群山,藍(lán)天白云為畫(huà)面增添了寧?kù)o氛圍,整體構(gòu)圖清晰,意境優(yōu)美。

核心方法

LLaDA-V 的核心在于將視覺(jué)指令微調(diào)框架與 LLaDA 的掩碼擴(kuò)散機(jī)制相結(jié)合。下圖展示了 LLaDA-V 的訓(xùn)練和推理過(guò)程:

圖片

架構(gòu): 采用經(jīng)典的「視覺(jué)編碼器 + MLP 投影器 + 語(yǔ)言模型」架構(gòu)。視覺(jué)編碼器(SigLIP 2)提取圖像特征,MLP 投影器將其映射到 LLaDA 的嵌入空間。LLaDA 語(yǔ)言塔則負(fù)責(zé)處理融合后的多模態(tài)輸入并生成回復(fù)。特別地,LLaDA-V 采用了雙向注意力機(jī)制,允許模型在預(yù)測(cè)時(shí)全面理解對(duì)話上下文,這在消融實(shí)驗(yàn)中被證明略優(yōu)于對(duì)話因果注意力機(jī)制。

訓(xùn)練目標(biāo): LLaDA-V 擴(kuò)展了 LLaDA 的訓(xùn)練目標(biāo),以支持多輪多模態(tài)對(duì)話。其核心思想是在訓(xùn)練時(shí)保持圖像特征和用戶提示(Prompt),僅對(duì)模型的回復(fù)(Response)進(jìn)行隨機(jī)掩碼,訓(xùn)練目標(biāo)僅對(duì)被掩碼部分計(jì)算交叉熵?fù)p失。

圖片

推理過(guò)程: LLaDA-V 的生成過(guò)程并非自回歸式的逐詞預(yù)測(cè),而是通過(guò)擴(kuò)散模型的反向去噪過(guò)程。從一個(gè)完全被掩碼的回復(fù)開(kāi)始,模型在多個(gè)步驟中迭代地預(yù)測(cè)被掩碼的詞元,逐步恢復(fù)出完整的回復(fù)。研究采用了 LLaDA 的低置信度重掩碼策略,優(yōu)先保留高置信度的預(yù)測(cè),提升了生成質(zhì)量。

總結(jié)與展望

LLaDA-V 成功地將視覺(jué)指令微調(diào)與掩碼擴(kuò)散模型相結(jié)合,證明了擴(kuò)散模型不僅能在語(yǔ)言任務(wù)上與自回歸模型一較高下,在多模態(tài)理解領(lǐng)域同樣展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力和獨(dú)特的優(yōu)勢(shì),尤其是在數(shù)據(jù)可擴(kuò)展性方面。

這項(xiàng)工作不僅為 MLLM 的發(fā)展開(kāi)辟了一條新的技術(shù)路徑,也挑戰(zhàn)了多模態(tài)智能必須依賴自回歸模型的傳統(tǒng)觀念。隨著語(yǔ)言擴(kuò)散模型的不斷發(fā)展,我們有理由相信,基于擴(kuò)散的 MLLM 將在未來(lái)扮演更重要的角色,進(jìn)一步推動(dòng)多模態(tài) AI 的邊界。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-03-25 12:40:19

訓(xùn)練模型

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2023-07-17 11:02:36

模型開(kāi)源

2025-06-10 09:18:53

2024-06-17 00:00:00

MiCo模態(tài)人腦

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2025-05-20 13:02:23

2025-05-20 09:08:59

2025-04-28 14:13:43

開(kāi)源SOTA多模態(tài)

2024-04-26 12:51:48

2025-01-08 08:21:16

2025-02-17 12:30:00

2025-04-16 02:55:00

2023-06-28 13:55:30

模型AI

2024-01-16 17:17:30

模型訓(xùn)練

2023-10-17 12:34:04

2023-03-13 15:56:00

模型框架

2025-05-28 03:30:00

AI人工智能大數(shù)據(jù)

2023-07-27 13:58:19

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)