偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越CoT!微軟劍橋中科院提出MVoT,直接可視化多模態(tài)推理過程

人工智能 新聞
近日,微軟和劍橋大學(xué)公布推理新方法:多模態(tài)思維可視化MVoT。新方法可以邊推理,邊「想象」,同時(shí)利用文本和圖像信息學(xué)習(xí),在實(shí)驗(yàn)中比CoT擁有更好的可解釋性和穩(wěn)健性,復(fù)雜情況下甚至比CoT強(qiáng)20%。還可以與CoT組合,進(jìn)一步提升模型性能。

大模型也學(xué)會(huì)了「空間想象力」?還可以自己解釋自己?

在大語(yǔ)言模型(LLMs)和多模態(tài)大語(yǔ)言模型(MLLMs)中,思維鏈(CoT)在復(fù)雜推理方面非常有效。

然而,對(duì)于復(fù)雜的空間推理,CoT表現(xiàn)不佳。

但人類的認(rèn)知能力不僅限于語(yǔ)言,還能夠同時(shí)用詞語(yǔ)和圖像推理。

受這一機(jī)制的啟發(fā),來自微軟研究院、劍橋大學(xué)和中科院的研究人員,在思維鏈提示的基礎(chǔ)上,提出了空間推理(spatial reasoning)新范式:多模態(tài)思維可視化(MVoT)。


論文地址:https://arxiv.org/pdf/2501.07542

將思維鏈(CoT)擴(kuò)展到多模態(tài)模型,已有的方法盡管能夠處理文本和圖像,但或者嚴(yán)重依賴于獨(dú)立的視覺模塊或外部工具,難以適應(yīng)更復(fù)雜的空間推理任務(wù);或者可視化太過簡(jiǎn)化,推理過程難以理解。

論文作者Chengzu Li在X上解釋MVoT的核心設(shè)計(jì)理念:「MVoT超越了思維鏈(CoT),可以讓AI利用生成的視覺圖像去想象它的思考。通過融合語(yǔ)言和視覺推理,MVoT使復(fù)雜問題的解決變得更加直觀、可更具解釋性、更加強(qiáng)大。」

具體而言,MVoT要微調(diào)自回歸多模態(tài)大語(yǔ)言模型(MLLM)。為了提升推理過程的可視化質(zhì)量,引入了token差異損失,彌補(bǔ)了分別訓(xùn)練的分詞器(tokenizer)的差距。

文章亮點(diǎn):

  • 多模態(tài)思維可視化(MVoT)將文本與視覺統(tǒng)一在推理過程中,將自然生成視覺思維作為推理過程的一部分。
  • 在Chameleon-7B中實(shí)現(xiàn)了MVoT,并在自回歸多模態(tài)大語(yǔ)言模型(MLLM)中引入了token差異損失(token discrepancy loss),以彌補(bǔ)分別訓(xùn)練的文本分詞器和圖像分詞器之間的差距。
  • 實(shí)驗(yàn)結(jié)果表明,MVoT在復(fù)雜場(chǎng)景中比思維鏈(CoT)更優(yōu)的適應(yīng)性和穩(wěn)健性。
  • MVoT和CoT組合可以進(jìn)一步提高性能上限。

架構(gòu)

給定一個(gè)多模態(tài)輸入序列,模型需要生成交織的多模態(tài)思維,作為推理過程的組成部分,并最終生成最終答案。

設(shè)表示一個(gè)預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MLLM),其參數(shù)為θ,x表示多模態(tài)輸入序列,z和v分別表示語(yǔ)言思維序列和圖像思維序列。

在多跳(multi-hop)空間推理任務(wù)中,給定輸入x,思維鏈(CoT)提示生成中間步驟 其中每個(gè)樣本基于輸入和之前生成的步驟順序采樣。最終的輸出基于所有先前的步驟得出。

MVoT通過為每個(gè)中間步驟添加圖像v^i可視化來增強(qiáng)這一過程,然后根據(jù)先前的步驟和可視化采樣后續(xù)步驟,如圖1所示。

圖1:多模態(tài)思維可視化(MVoT)推理過程與其他方法的對(duì)比

多模態(tài)思維可視化(MVoT)讓多模態(tài)大語(yǔ)言模型(MLLMs)能在不同模態(tài)之間生成交織的推理軌跡。

傳統(tǒng)的CoT僅依賴于語(yǔ)言思維,而MVoT則通過促進(jìn)視覺思維來可視化推理軌跡。

這個(gè)推理范式類似于人類的認(rèn)知方式,能夠無(wú)縫地在文字和圖像之間進(jìn)行思維。

訓(xùn)練

多模態(tài)序列建模如圖3所示,使用Chameleon的架構(gòu),利用統(tǒng)一的Transformer來處理圖像和文本token。

該架構(gòu)集成了兩個(gè)tokenizer:圖像tokenizer使用離散的碼本(codebook)將輸入圖像編碼為一系列圖像token;文本tokenizer則將文本數(shù)據(jù)映射為相應(yīng)的token序列。

這些token序列被連接在一起并由因果Transformer模型處理。

損失函數(shù)

因果Transformer模型利用下一個(gè)token預(yù)測(cè)目標(biāo)進(jìn)行微調(diào),同時(shí)兩個(gè)tokenizer在整個(gè)過程中保持凍結(jié)狀態(tài)。

訓(xùn)練的損失函數(shù)要同時(shí)考慮圖像token差異損失,以及文本token和圖像token的交叉熵?fù)p失,定義如下。

其中token差異損失要對(duì)與真實(shí)標(biāo)簽顯著偏離的token施加懲罰,彌合了語(yǔ)言建模與視覺嵌入空間之間的差距,同時(shí)確保梯度的連續(xù)性。

實(shí)驗(yàn)結(jié)果

有效性實(shí)驗(yàn)

作者在三個(gè)動(dòng)態(tài)空間推理任務(wù)中進(jìn)行大量實(shí)驗(yàn),驗(yàn)證了MVoT的有效性。

MAZE和MINIBEHAVIOR聚焦于與空間布局的交互,而FROZENLAKE強(qiáng)調(diào)在動(dòng)態(tài)環(huán)境中的細(xì)粒度模式識(shí)別。

實(shí)驗(yàn)結(jié)果表明,MVoT在任務(wù)中的表現(xiàn)具有競(jìng)爭(zhēng)力,在高難度的FROZENLAKE場(chǎng)景中,MVoT的表現(xiàn)比傳統(tǒng)的思維鏈(CoT)高出了20%多。

不同系統(tǒng)變體在任務(wù)中的實(shí)驗(yàn)結(jié)果。

三個(gè)模擬任務(wù)的實(shí)驗(yàn)結(jié)果表明,Direct存在過擬合問題,準(zhǔn)確率約為70%。GPT-4o的表現(xiàn)更差。相比之下,MVoT展現(xiàn)出不斷的改進(jìn)。

在MAZE和MINIBEHAVIOR上,MVoT的準(zhǔn)確率超過90%,可與CoT相媲美。

而在FROZENLAKE上,MVoT的準(zhǔn)確率為85.60%,優(yōu)于Direct和CoT。

這表明MVoT比CoT擁有更好的穩(wěn)定性和穩(wěn)健性。

此外,MVoT還提供了語(yǔ)言和視覺形式的中間推理狀態(tài),可以更清晰、更直觀地理解推理過程。

定性分析

圖4展示了FROZENLAKE中生成圖像的正確與錯(cuò)誤示例。

可視化生成的錯(cuò)誤分類如下:

(1)錯(cuò)誤可視化(Wrong Visualization):生成的可視化內(nèi)容不準(zhǔn)確。

(2)多余圖形(Redundant Patterns):在預(yù)期修改區(qū)域外可視化了不必要或無(wú)關(guān)的圖形。

圖4:定性分析示意圖。

此外,與MAZE和MINIBEHAVIOR相比,在FROZENLAKE任務(wù)中,觀察到隨著模式復(fù)雜度的增加,生成圖像的細(xì)節(jié)經(jīng)常會(huì)變得模糊。

在重建的圖像與原始圖像之間也觀察到類似的差異。

這種變異性經(jīng)常導(dǎo)致細(xì)粒度細(xì)節(jié)的丟失或擾動(dòng),反映了MLLM在表達(dá)能力上的局限性。

定量分析

為了評(píng)估生成的視覺推理的質(zhì)量,基于已識(shí)別的錯(cuò)誤類型定義了自動(dòng)化評(píng)估指標(biāo):

  • 可視化準(zhǔn)確率(V-Acc.):衡量在網(wǎng)格中對(duì)應(yīng)于下一步操作的預(yù)期修改是否被準(zhǔn)確可視化。
  • 可視化模式冗余度(V-Red.):評(píng)估目標(biāo)修改區(qū)域之外是否存在非預(yù)期的視覺模式。
  • 可視化正確步驟(V-Steps):操作序列中前k個(gè)連續(xù)正確可視化的平均長(zhǎng)度。
  • 可視化正確比率(V-Ratio):操作序列中前k個(gè)連續(xù)正確可視化的平均比例。

作者報(bào)告了MAZE和MINIBEHAVIOR中可視化位置的定量結(jié)果,如下所示。

表3:token差異損失對(duì)MVoT視覺思維定量指標(biāo)的影響

上圖中,最佳結(jié)果以加粗形式標(biāo)出。帶有↑的指標(biāo)表示值越高性能越好,反之亦然。

Token差異損失函數(shù)分析

Token差異損失提高了可視化的準(zhǔn)確性并減少了冗余。

如表3所示,token差異損失增強(qiáng)的MVoT能夠生成高度準(zhǔn)確且模式冗余最小的可視化內(nèi)容。

即使在遞歸生成場(chǎng)景中,在推理過程中依然實(shí)現(xiàn)了95%的平均正確和連續(xù)可視化。

相比之下,缺少token差異損失會(huì)顯著降低生成質(zhì)量:沒有的MVoT經(jīng)常會(huì)生成多余圖形,且未能準(zhǔn)確捕捉狀態(tài)轉(zhuǎn)換。

這些結(jié)果與圖像編輯場(chǎng)景中的發(fā)現(xiàn)一致,如圖5所示,圖中展示了MAZE在不同訓(xùn)練周期的定量指標(biāo)。

圖5:MAZE在不同訓(xùn)練周期的定量指標(biāo)

MVoT和CoT的組合

MVoT在推理中與CoT的能力可以互相補(bǔ)充

正如作者Chengzu Li所言:「MVoT不會(huì)取代CoT,而是提升了CoT。通過組合MVoT和CoT,多模態(tài)推理和語(yǔ)言推理的協(xié)同作用解鎖了性能上限,證明兩種推理范式可能比一種更好!」

在兩種方法的組合中,如果MVoT或CoT中的任一方法生成了正確的預(yù)測(cè),則認(rèn)為該數(shù)據(jù)點(diǎn)正確。

如表4所示,在MAZE和MINIBEHAVIOR上,上限性能達(dá)到了接近100%的準(zhǔn)確率;在FROZENLAKE上,達(dá)到了92%的準(zhǔn)確率。

表4:通過組合CoT和MVoT在三個(gè)任務(wù)中的預(yù)測(cè)所達(dá)到的性能上限。

文中也討論了消融實(shí)驗(yàn),并在附錄中給出了更多的實(shí)驗(yàn)細(xì)節(jié)。

當(dāng)然,這項(xiàng)研究也有局限性,作者建議借鑒擴(kuò)散模型中的圖像生成技術(shù),作為未來改進(jìn)的方向。

此外,在推理過程中,顯式生成可視化會(huì)引入計(jì)算開銷。

為了解決這一問題,作者倡導(dǎo)進(jìn)一步研究使用更少token的緊湊的圖像表示,以降低可視化生成的計(jì)算成本。

作者介紹

共一作者Chengzu Li在微軟研究院實(shí)習(xí)時(shí)參與了全程工作。目前,他是劍橋大學(xué)語(yǔ)言技術(shù)實(shí)驗(yàn)室的計(jì)算、認(rèn)知與語(yǔ)言學(xué)博士生。在攻讀博士學(xué)位之前,他在劍橋大學(xué)計(jì)算機(jī)科學(xué)系獲得了高級(jí)計(jì)算機(jī)科學(xué)碩士學(xué)位。他本科就讀于西安交通大學(xué)自動(dòng)化專業(yè)。

共一作者Wenshan Wu, 目前是微軟亞洲研究院(MSRA)的高級(jí)研究軟件開發(fā)工程師。之前,曾在騰訊擔(dān)任軟件工程師。她從中國(guó)科學(xué)院獲得了碩士學(xué)位。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-05-09 08:40:00

2024-08-08 13:04:28

2023-05-15 12:14:02

ChatGPT語(yǔ)音模型

2023-04-18 10:12:06

模型解碼

2025-03-11 13:49:20

2024-06-05 09:22:43

2018-02-28 16:20:57

中科睿芯

2025-03-31 09:22:00

強(qiáng)化學(xué)習(xí)模型AI

2022-10-31 09:36:47

深度學(xué)習(xí)數(shù)據(jù)集

2017-05-15 15:07:36

納米材料農(nóng)藥

2024-12-31 09:10:00

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫(kù)

2025-02-26 13:00:00

2023-05-30 10:23:45

模型研究

2009-09-18 09:40:57

浪潮中科院合肥

2024-09-14 09:29:37

2025-04-30 09:00:00

模型推理AI

2024-11-04 13:30:00

模型AI

2022-03-28 13:14:50

機(jī)器學(xué)習(xí)語(yǔ)言訓(xùn)練AI

2016-04-19 12:51:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)