偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tt id="rmwem"><form id="rmwem"></form></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

推理越多，幻覺(jué)越重？多模態(tài)推理模型的「幻覺(jué)悖論」

2025-06-27 08:40:00

人工智能新聞

多模態(tài)推理模型真的「越想越明白」嗎？研究表明，R1系列模型在推理鏈條加長(zhǎng)的過(guò)程中，其視覺(jué)感知能力出現(xiàn)下降趨勢(shì)，生成內(nèi)容有時(shí)會(huì)偏離圖像本身，出現(xiàn)「看見(jiàn)」不存在事物的幻覺(jué)現(xiàn)象。

在多模態(tài)大模型的飛速發(fā)展中，R1 系列多模態(tài)推理模型憑借顯式的長(zhǎng)鏈推理機(jī)制，在復(fù)雜任務(wù)中屢屢突破傳統(tǒng)「快思考」范式的性能瓶頸。

然而，研究發(fā)現(xiàn)，隨著推理鏈條的加長(zhǎng)，這類模型的視覺(jué)感知能力卻呈現(xiàn)出明顯下滑的趨勢(shì)，逐漸轉(zhuǎn)而依賴語(yǔ)言先驗(yàn)進(jìn)行「腦補(bǔ)」，生成內(nèi)容也越來(lái)越容易脫離圖像本身，甚至出現(xiàn)憑空捏造的幻覺(jué)現(xiàn)象。

這一「推理增強(qiáng)—感知削弱」的悖論，凸顯了當(dāng)前多模態(tài)推理模型在推理能力與感知準(zhǔn)確性之間面臨的平衡挑戰(zhàn)。

為進(jìn)一步驗(yàn)證這一現(xiàn)象，來(lái)自加州大學(xué)圣克魯茲分校、圣塔芭芭拉分校和斯坦福大學(xué)的研究團(tuán)隊(duì)開(kāi)展了系統(tǒng)性分析。

通過(guò)引入推理長(zhǎng)度控制機(jī)制與可解釋性注意力可視化方法，研究者發(fā)現(xiàn)：隨著推理鏈的延長(zhǎng)，模型對(duì)圖像內(nèi)容的關(guān)注顯著下降，而對(duì)語(yǔ)言提示的依賴不斷增強(qiáng)，凸顯出語(yǔ)言主導(dǎo)下的視覺(jué)偏離趨勢(shì)。

論文鏈接：https://arxiv.org/pdf/2505.21523

項(xiàng)目鏈接：https://mlrm-halu.github.io

代碼鏈接：https://github.com/MLRM-Halu/MLRM-Halu

在此基礎(chǔ)上，團(tuán)隊(duì)提出了全新的評(píng)估指標(biāo)RH-AUC，并構(gòu)建了配套的診斷性基準(zhǔn)集RH-Bench，首次系統(tǒng)量化了多模態(tài)推理模型在推理能力與視覺(jué)感知穩(wěn)定性之間的平衡表現(xiàn)。

該工具不僅提升了模型幻覺(jué)風(fēng)險(xiǎn)的可測(cè)性，也為未來(lái)多模態(tài)系統(tǒng)的穩(wěn)健性評(píng)估與改進(jìn)提供了重要參考。

推理增強(qiáng)帶來(lái)的視覺(jué)幻覺(jué)放大效應(yīng)

在當(dāng)前多模態(tài)大模型的演進(jìn)中，R1 類推理模型因引入顯式的長(zhǎng)鏈語(yǔ)言推理過(guò)程（Reasoning Chain），在復(fù)雜任務(wù)上展現(xiàn)出強(qiáng)大的表達(dá)能力。

然而，研究人員系統(tǒng)性觀察到一個(gè)被廣泛忽視的現(xiàn)象：隨著推理鏈長(zhǎng)度的加深，模型在感知任務(wù)中的視覺(jué)對(duì)齊能力顯著下降，幻覺(jué)風(fēng)險(xiǎn)隨之放大。

這一趨勢(shì)在多組實(shí)證對(duì)比中被清晰觀察到。

例如，在圖 (b) 中，研究人員對(duì)比了多個(gè) 7B 規(guī)模的多模態(tài)模型在推理與感知兩類任務(wù)中的表現(xiàn)：盡管 R1-OneVision-7B 等模型在推理準(zhǔn)確率上具備一定優(yōu)勢(shì)，但其在感知任務(wù)中的準(zhǔn)確率卻降至最低，顯著低于同規(guī)模的非推理模型（如Qwen2.5-VL-7B）。

這表明推理鏈的加深并非「無(wú)代價(jià)」的增強(qiáng)，而是以犧牲圖像感知能力為代價(jià)，放大了幻覺(jué)。

具體來(lái)說(shuō)，當(dāng)模型在圖文任務(wù)中逐步延展其語(yǔ)言鏈條時(shí)，原本應(yīng)支撐答案的圖像證據(jù)信號(hào)卻被悄然邊緣化。

以典型視覺(jué)問(wèn)答任務(wù)為例，在推理模型中生成的冗長(zhǎng)輸出往往并未真正參考圖像內(nèi)容，而是依賴語(yǔ)言常識(shí)「腦補(bǔ)」出一個(gè)聽(tīng)上去合理、但圖像中并不存在的答案。這種現(xiàn)象在多個(gè)感知評(píng)測(cè)基準(zhǔn)（如MMVP、MMHAL）中反復(fù)出現(xiàn)。

如圖所示，在多個(gè)視覺(jué)感知任務(wù)的綜合評(píng)估中，R1類模型普遍低于同規(guī)模的Base模型，尤其在需要細(xì)致圖像對(duì)齊能力的MMHAL和MMVP上，差距更為顯著。

這進(jìn)一步印證了：推理鏈的增強(qiáng)不僅沒(méi)有提升感知質(zhì)量，反而加劇了模型「脫圖而答」的幻覺(jué)傾向。

綜上，推理鏈的增強(qiáng)并非無(wú)代價(jià)，「更聰明」的推理模型在感知類任務(wù)上反而可能「看得更少」。

越「聰明」越容易出錯(cuò)？

為了深入理解多模態(tài)推理模型為何更容易產(chǎn)生幻覺(jué)，研究團(tuán)隊(duì)對(duì)模型內(nèi)部的注意力分布進(jìn)行了系統(tǒng)分析，揭示出一種結(jié)構(gòu)性機(jī)制：推理增強(qiáng)并非免費(fèi)午餐，它以犧牲視覺(jué)關(guān)注為代價(jià)換取語(yǔ)言推理能力的提升。

具體來(lái)說(shuō)，相較于非推理模型，R1類推理模型在生成過(guò)程中顯著減少了對(duì)視覺(jué)token的關(guān)注，取而代之的是將大量注意力分配給指令token與語(yǔ)言上下文（圖a）。

更為關(guān)鍵的是，這種「注意力遷移」并非固定偏差，而是隨著推理鏈條的延展而逐層加劇——越往后層，模型越傾向于忽略圖像輸入，而完全依賴語(yǔ)言信號(hào)進(jìn)行推理。

如圖 (b) 所示，在視覺(jué)聚焦任務(wù)中，非推理模型（Qwen2.5-VL）在多層均展現(xiàn)出對(duì)圖中關(guān)鍵區(qū)域（如奶酪）的穩(wěn)定關(guān)注；而R1模型（R1-OneVision）在同樣問(wèn)題下，其注意力熱圖呈現(xiàn)出明顯的視覺(jué)退化，深層幾乎完全失焦。

這種結(jié)構(gòu)性偏移使得模型即使面對(duì)明確依賴圖像的問(wèn)題，也往往「憑語(yǔ)言猜」，最終生成與圖像嚴(yán)重脫節(jié)的幻覺(jué)答案。

不僅如此，研究發(fā)現(xiàn)這一現(xiàn)象在模型進(jìn)入「過(guò)度思考」（Overthinking）階段時(shí)表現(xiàn)得尤為明顯。

隨著推理鏈的延長(zhǎng)，模型對(duì)視覺(jué)token的關(guān)注持續(xù)減弱，而對(duì)指令等語(yǔ)言token的注意力則顯著增強(qiáng)，導(dǎo)致生成過(guò)程越來(lái)越依賴語(yǔ)言線索而非圖像內(nèi)容。

推理鏈「長(zhǎng)度悖論」：思考越多，幻覺(jué)越大？

模型推理鏈條的長(zhǎng)短，真的越長(zhǎng)越好嗎？研究團(tuán)隊(duì)對(duì)比了三種不同的推理長(zhǎng)度控制策略在多個(gè)基準(zhǔn)測(cè)試中（Token Budget Forcing、Test-Time Scaling與Latent State Steering），首次系統(tǒng)揭示了一個(gè)關(guān)鍵現(xiàn)象：推理鏈條的長(zhǎng)度與模型表現(xiàn)之間，呈現(xiàn)出非單調(diào)的「倒U型」關(guān)系。

如圖所示，在以推理為主的任務(wù)中（左兩圖），模型準(zhǔn)確率先隨推理鏈延長(zhǎng)而提升，但當(dāng)鏈條過(guò)長(zhǎng)后反而回落，說(shuō)明「過(guò)度思考」并不一定帶來(lái)更強(qiáng)的reasoning能力。

而在以感知為主的任務(wù)中（右兩圖），隨著推理長(zhǎng)度的增加，幻覺(jué)率則持續(xù)上升，表明冗余語(yǔ)言生成會(huì)系統(tǒng)性干擾視覺(jué)對(duì)齊。

這一趨勢(shì)強(qiáng)調(diào)：合理控制推理長(zhǎng)度，是提升模型穩(wěn)健性與感知–推理平衡能力的關(guān)鍵。

RH-AUC等指標(biāo)的引入，也為這一非線性關(guān)系提供了更具解釋力的定量刻畫。

RH-AUC：推理與幻覺(jué)的動(dòng)態(tài)權(quán)衡評(píng)估

面對(duì)多模態(tài)模型中推理增強(qiáng)與幻覺(jué)放大的兩難局面，研究團(tuán)隊(duì)提出了一項(xiàng)全新評(píng)估指標(biāo)：RH-AUC（Reasoning-Hallucination Area Under Curve）。

不同于傳統(tǒng)指標(biāo)只在單一推理長(zhǎng)度上評(píng)估準(zhǔn)確率或幻覺(jué)率，RH-AUC從整體視角出發(fā)，衡量模型在不同推理深度下「思考力」與「看清力」的動(dòng)態(tài)平衡水平。

具體做法是：在新構(gòu)建的RH-Bench數(shù)據(jù)集中（包含1000個(gè)跨感知與推理的樣本），分別統(tǒng)計(jì)模型在不同推理長(zhǎng)度下的reasoning accuracy與hallucination risk，然后計(jì)算兩者構(gòu)成曲線下的面積。

RH-AUC越高，說(shuō)明模型在推理增強(qiáng)的同時(shí)，視覺(jué)對(duì)齊能力保持得越好——既能「想得深」，也能「看得清」。

實(shí)驗(yàn)結(jié)果揭示出三個(gè)關(guān)鍵趨勢(shì)：

1. 更大規(guī)模模型更具穩(wěn)健性：如圖 (a) 所示，7B 模型在不同思考深度下展現(xiàn)出更平滑的 RH-AUC 曲線，并在峰值處取得更高分?jǐn)?shù)，說(shuō)明其具備更強(qiáng)的推理–感知整合能力。

2. RL-only 訓(xùn)練范式優(yōu)于SFT+RL：如圖 (b) 所示，在不同訓(xùn)練策略下，純RL訓(xùn)練的模型平均 RH-AUC 均高于混合范式，尤其在長(zhǎng)推理鏈條件下差距顯著（0.57vs0.50）。

這表明RL-only更傾向于自適應(yīng)生成高質(zhì)量的推理路徑，而SFT+RL更容易陷入冗余模仿，從而干擾感知判斷。

3. 數(shù)據(jù)「類型」比規(guī)模更重要：實(shí)驗(yàn)發(fā)現(xiàn)，與其盲目擴(kuò)展訓(xùn)練集規(guī)模，不如引入少量具備領(lǐng)域感知特征的樣本（如數(shù)學(xué)推理或圖像感知任務(wù)），更有助于引導(dǎo)模型在「看圖」與「思考」之間實(shí)現(xiàn)平衡。

RH-AUC不僅填補(bǔ)了評(píng)估維度上的空白，也為未來(lái)多模態(tài)模型的訓(xùn)練目標(biāo)提供了更明確的參考方向：推理不是越多越好，保持在「看見(jiàn)圖像」與「想通問(wèn)題」之間的張力，才是更優(yōu)范式。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型推理 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="8hjul"></abbr>