偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!

發(fā)布于 2024-4-2 12:17
瀏覽
0收藏

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

論文題目:

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

論文地址:

??https://arxiv.org/abs/2311.17911??

代碼地址:

??https://github.com/shikiw/OPERA??

01 背景

從 LLaVA 到 Qwen-VL,從 GPT-4V 到 Claude 3,幻覺(Hallucination)問題一直是當(dāng)前多模態(tài)大模型(MLLM)的重要問題。當(dāng)前大多數(shù)的多模態(tài)大模型對于用戶提供的圖像和提問,容易因為幻覺給出非常離譜的回答,例如說出圖像上根本不存在的事物,識別出與圖像上物體的顏色、數(shù)量和位置關(guān)系不符的特征。


而這一現(xiàn)象,在多模態(tài)大模型生成較長回答時尤其常見。試想一下,如果將有嚴(yán)重幻覺問題的多模態(tài)大模型部署在自動駕駛上,在高速公路上前方無車的情況下,由于模型出現(xiàn)前方有車的幻覺而下令急剎車,將會導(dǎo)致嚴(yán)重的交通追尾事故。


例如 LLaVA-1.5 的 7B 模型在描述圖中的食物時,一開始會表達得較為準(zhǔn)確,但隨著回答越來越長會說出許多“不存在”的事物:

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

對于多模態(tài)大模型中幻覺問題的成因,研究者們至今仍未找到確切答案。為了解決這一問題,近期提出了多種不同的方法。其中一些方法涉及構(gòu)建額外的訓(xùn)練數(shù)據(jù),并將其融入到訓(xùn)練過程中;而另一些方法則依賴于外部知識或強大的模型來進行輔助。


然而,這些方法通常會帶來巨大的額外成本,并且許多方法并未對幻覺的機制與由來進行深入分析。因此,人們不禁思考,多模態(tài)幻覺的成因究竟是什么?同時,是否存在一種方法,可以在不需要額外知識和訓(xùn)練的情況下輕松解決多模態(tài)大模型的幻覺問題呢?

02 分析

為此,中科大等單位的研究人員從可視化模型在推理時的 Self-Attention 權(quán)重出發(fā),希望尋找得到一些有趣的結(jié)論。他們首先觀察到,在模型生成幻覺內(nèi)容時,最后一層的 Self-Attention 權(quán)重大概率會在幻覺部分之前呈現(xiàn)出明顯的“柱狀”特征,這導(dǎo)致幻覺部分的 Self-Attention 權(quán)重表現(xiàn)出一種“過度信賴”的趨勢。以多模態(tài)大模型 InstructBLIP 為例:

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

可以清晰地觀察到,在幻覺句子出現(xiàn)之前,存在一個 token,其對后續(xù)所有 token 都具有較高的注意力權(quán)值。通常情況下,這種現(xiàn)象并不合乎常理,因為從輸出的回答來看,這個詞并不一定包含豐富的語義信息。那么問題來了,這些自注意力圖上的“柱狀”特征究竟是什么呢?


研究者們分析認(rèn)為,這種現(xiàn)象可能是多模態(tài)大模型在生成較長語句時展現(xiàn)的一種“自動總結(jié)”本能。這些“柱狀”特征所對應(yīng)的 token 正是模型推理過程中的 summary token,這一觀察與同期在 EMNLP best paper 中 “anchor token” [1] 類似,進一步揭示了大模型內(nèi)部的運作機制。


由于現(xiàn)有多模態(tài)大模型的基座取自大語言模型,其因果語言模型的特點使其在淺層時將前文 token 的信息聚合到 summary token,同時在深層時主要利用 summary token 中聚合的信息來預(yù)測整個序列的下一個 token(見下圖圖 a)。


這一現(xiàn)象非常類似于人類在處理長文本時也經(jīng)常使用的階段性總結(jié)的習(xí)慣,有助于更高效地處理大量信息。那么這樣的機制又是如何影響到多模態(tài)幻覺的產(chǎn)生的呢?

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)


研究者們先讓多模態(tài)大模型根據(jù)給定的圖作出較長的回答,再根據(jù)各個 summary token 出現(xiàn)的不同位置將模型的回答劃分為不同的子句,并且計算每個子句的 CHAIR 指標(biāo)來評估子句中出現(xiàn)幻覺內(nèi)容的程度。CHAIR 值越高代表幻覺程度越嚴(yán)重。


如上圖圖 b、c,隨著序列中 summary token 數(shù)量的增多,子句的幻覺程度也在逐漸提升。這說明了在序列中出現(xiàn)越多 summary token 會越容易讓模型輸出幻覺內(nèi)容。


對此,研究者們給出了基于信息流的解釋:他們認(rèn)為在生成的文本序列越來越長的同時,通常位于序列前段的 vision tokens 所提供的視覺信息會在 summary token 之間信息流動的過程中逐漸被稀釋(因為一個 summary token 很難將序列中所有前文 token 所包含的信息都完整地記錄)。


因此,越往后生成的 token 越容易忽視 vision tokens,并“過度信賴”某些 summary tokens,從而產(chǎn)生幻覺內(nèi)容。研究者們將這一現(xiàn)象描述為 “partial over-trust”,并發(fā)現(xiàn)大模型的這種階段性總結(jié)可能是導(dǎo)致幻覺問題的一大“元兇”!同時,研究者們進行了數(shù)值統(tǒng)計,在不同模型中都觀察到了這一現(xiàn)象與幻覺之間的相關(guān)性。

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

研究者們通過隨機采樣 100 張圖像,并向不同的多模態(tài)大模型提出問題。他們發(fā)現(xiàn)在所有出現(xiàn)幻覺回答的情況下,有 80%~90% 的回答都呈現(xiàn)出了“過度信賴”現(xiàn)象,進一步證實了這一現(xiàn)象與幻覺之間的伴生關(guān)系。

03 方法

為此,研究者們提出了一種名為 OPERA 的解碼方法,該方法基于注意力懲罰與回退策略,成功地在不借助外部知識并不引入額外訓(xùn)練的情況下緩解了多模態(tài)大模型的幻覺問題。


研究者們希望通過改變解碼策略來緩解這種“過度信賴”現(xiàn)象的出現(xiàn),從而來減輕幻覺問題。在經(jīng)典解碼方法 Beam Search 的基礎(chǔ)上,他們首先在解碼過程中對每個 token 的輸出概率引入了一個額外的懲罰項,來懲罰其出現(xiàn)“過度信賴”的注意力特征。


具體來說,他們首先在自注意力的權(quán)重圖上劃分出一個局部窗口,然后將這些權(quán)重在數(shù)值進行放大,同時使用列乘法得到一個得分向量,最后選擇得分向量中的最大得分作為懲罰得分。這個懲罰得分越大說明出現(xiàn)生成句子中存在“過度信賴”的特征越明顯,越可能出現(xiàn)幻覺。


最后,這個懲罰得分的作用會體現(xiàn)在每個序列的 Beam 得分上,得分較低的序列最后將被淘汰。

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)


由于這種“過度信賴”的特征具有“滯后性”,即只有在解碼的過程中輸出了若干 token 之后才能發(fā)現(xiàn)這樣的特征。為了解決這種滯后帶來的局限性,研究者們還提出了“回退-再分配”的策略。


具體來說,可以計算最近幾個 token 的得分向量的最大值下標(biāo),并檢查該下標(biāo)連續(xù)出現(xiàn)的次數(shù)是否大于一定閾值。如果高于閾值,則將當(dāng)前序列的解碼過程回退到這一下標(biāo)所在 token 的位置,并重新選擇詞表中概率次高的詞(除了之前已經(jīng)選擇的詞之外)。

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)


結(jié)合所提出的“過度信賴”懲罰與“回退-再分配”策略,研究者們提出一個新的多模態(tài)大模型解碼方法 OPERA,極大地緩解了模型的尤其是在生成長文的幻覺現(xiàn)象。

04 實驗

研究者們在 InstructBLIP,MiniGPT-4,LLaVA-1.5 以及 Shikra 等多種多模態(tài)大模型的 7B 模型上進行了測試,在不同維度上進行了統(tǒng)計驗證。相比于之前的解碼方法,所提出的 OPERA 解碼方法在緩解幻覺上均表現(xiàn)出優(yōu)越的性能。

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

此外,研究者們還引入了 GPT-4 和 GPT-4V 進行打分測試,在生成內(nèi)容的準(zhǔn)確程度與具體程度上,OPERA 同樣也表現(xiàn)出優(yōu)越的性能。

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)


同時,研究者們還意外地發(fā)現(xiàn) OPERA 能夠幫助 LLaVA-1.5 等多模態(tài)模型成功在 MME、MMBench 等多模態(tài) benchmark 上漲點。例如,在 LLaVA-1.5 的 7B 模型上的結(jié)果如下:

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)


此外,研究者們還給出了 OPERA 的一些具體表現(xiàn)的實例:

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了!-AI.x社區(qū)

總的來說,本文從一個獨特的視角解釋了現(xiàn)有多模態(tài)大模型幻覺產(chǎn)生的原因。作為一種通過改進解碼策略來減輕多模態(tài)大模型幻覺的方法,OPERA 具有易于在不同模型和架構(gòu)上部署的特點,同時也激發(fā)了更多研究者從機制層面研究和解決多模態(tài)大模型的幻覺問題。

 

本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/qAYImdyACrhd4ipMNh39XA??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦