當視覺大模型陷入認知失調(diào),馬里蘭大學構(gòu)建了一個幻覺自動生成框架
本文的共同第一作者是馬里蘭大學電子計算機工程系的博士生吳曦旸(https://wuxiyang1996.github.io/)和計算機科學系的關(guān)天瑞(https://tianruiguan.phd/)。吳曦旸的研究方向主要涵蓋強化學習、自動駕駛,以及大語言模型在機器人導航和計算機視覺中的應(yīng)用。關(guān)天瑞的研究則聚焦于計算機視覺和視覺語言模型在機器人、自動駕駛等領(lǐng)域的應(yīng)用。本文的指導老師為李典奇,周天翼教授 (https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。
想象一下,有一天你在沙漠中看到一個雪人,或者在雪地里發(fā)現(xiàn)一棵棕櫚樹。面對這些與周圍環(huán)境格格不入的景象,你是否會感到心理上的不適?
在認知科學領(lǐng)域,研究者普遍認為人腦傾向于利用以往的經(jīng)驗來解讀觀察到的信息并構(gòu)建記憶。然而,當人腦接收到與以往認知不符的信息時,可能會因為 “認知失調(diào)”(Cognitive Dissonance)而對外部環(huán)境產(chǎn)生誤判,進而在行為上表現(xiàn)出矛盾。例如,我們通常認為電腦是由人類操控的,但如果我們看到一只章魚在操控電腦,這種不符合常理的場景會讓人腦產(chǎn)生認知失調(diào)的不適感。
隨著對大模型的深入研究,研究人員發(fā)現(xiàn),在認知和推理任務(wù)上,大模型的思維過程與人腦有一定相似之處。因此,針對人腦認知失調(diào)特點設(shè)計的實驗也能使大模型出現(xiàn)類似的 “幻覺” 現(xiàn)象。
基于這一觀察,馬里蘭大學的研究團隊提出了一個名為 AutoHallusion 的視覺大模型幻覺自動生成框架。這一工作基于團隊之前在 CVPR 2024 上發(fā)表的工作 HalluionBench(https://arxiv.org/pdf/2310.14566)。它通過在場景圖像中插入或刪除特定物體,并針對這些修改后的圖像提問,從而檢測大模型在回答時可能出現(xiàn)的幻覺現(xiàn)象。
這一方法能夠自動生成大量的大模型幻覺案例,有效緩解當前大模型幻覺研究中數(shù)據(jù)集缺乏的問題。在 GPT-4V、Gemini 和 Claude 等大模型上的實驗表明,這些模型在本文提出的提出的基準數(shù)據(jù)集上問答準確率最高僅為 66.0%。該研究成果已發(fā)表于 EMNLP 2024。
- 論文標題:AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
- 論文鏈接:https://arxiv.org/pdf/2406.10900
- 項目主頁及代碼:https://wuxiyang1996.github.io/autohallusion_page/
文章概述
大型視覺語言模型(LVLMs)在內(nèi)容生成、自動駕駛和機器人等領(lǐng)域中扮演著重要角色。然而,它們也會出現(xiàn) “幻覺” 現(xiàn)象,即生成的響應(yīng)中包含視覺內(nèi)容中不存在的信息。這些幻覺通常是由于語言模塊過度依賴語言先驗信息而忽略視覺輸入所致。
為了解決這一問題,之前的工作通常收集幻覺案例建立基準數(shù)據(jù)集,并以此對大模型進行微調(diào),以減少可能存在的幻覺。然而,手動創(chuàng)建幻覺案例和基準既耗時又昂貴。此外,之前的工作對大模型產(chǎn)生幻覺的機制研究有限,在缺乏足夠代表性案例的情況下對大模型進行微調(diào),可能會導致模型出現(xiàn)過擬合現(xiàn)象。
為此,本文提出了 AUTOHALLUSION 框架,可以自動生成各種幻覺案例并進行批量生產(chǎn)。該框架基于認知科學原理,針對大模型產(chǎn)生幻覺的原因,提出了三種主要策略:插入異常物體、插入成對物體和移除相關(guān)物體,通過操控場景中的物體構(gòu)成來創(chuàng)建與語言先驗相沖突的圖像。
為了生成能夠觸發(fā)大模型幻覺的(圖像 - 問題)組合,本文針對修改后的圖像,設(shè)計相應(yīng)的問題探測大模型的語言模塊,定位特定物體或其在相關(guān)情境中的語言先驗信息。如果大模型的推理受到語言先驗的偏見影響,例如在根據(jù)圖片回答某一特定物體的問題時,大模型根據(jù)場景圖片的先驗知識而非物體本身傳遞的信息來作答,那么就可能生成與事實不符或前后不一致的響應(yīng),從而導致幻覺現(xiàn)象。
AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上進行了實驗,并整理發(fā)布了一個基準數(shù)據(jù)集,來評估模型性能。在該基準數(shù)據(jù)集上的實驗結(jié)果表明,GPT-4V 等大模型的問答準確率最高僅為 66.0%。
數(shù)據(jù)集地址:https://github.com/wuxiyang1996/AutoHallusion
研究方法
AUTOHALLUSION 的整體流程分為四個部分:
1. 場景生成:AUTOHALLUSION 使用合成或真實世界圖像作為場景圖。例如,在辦公室場景中,假設(shè)場景中有電腦、辦公桌、辦公椅等與辦公室主題一致的物體,而不會有炒鍋等與主題無關(guān)的物體。圖像可以通過 DALL-E 等圖像生成模型根據(jù)提示生成,也可以從 MSCOCO 等公開數(shù)據(jù)集中提取場景。
2. 圖像處理:AUTOHALLUSION 采用三種策略操控場景中的物體構(gòu)成,以創(chuàng)建與語言先驗相沖突的圖像:
- 插入異常物體:將與場景主題不相關(guān)的異常物體添加到場景中,例如,在辦公室場景中添加通常不會出現(xiàn)的炒鍋。
- 插入成對物體:對通常一起出現(xiàn)的兩個物體進行分離,保留一個并移除另一個。例如,牙刷和牙膏通常一起出現(xiàn),而在修改后的圖像中,只保留牙刷并移除牙膏。
- 移除相關(guān)物體:從原場景中移除一個相關(guān)物體,例如,在辦公室場景中抹除顯示器。
3. 構(gòu)造問題:AUTOHALLUSION 針對圖像處理過程中插入或刪除的物體進行提問,并相應(yīng)地構(gòu)造事實信息。問題主要分為兩類:
- 存在性問題:詢問目標物體是否存在于圖像中,問題提示信息的細節(jié)級別不一,從不提供額外信息到提供完整的圖像描述。
- 空間關(guān)系問題:詢問目標物體與場景中其他物體的相對位置,并在問題提示中提供場景物體的名稱或描述。
4. 幻覺檢測:AUTOHALLUSION 通過對比大模型的回答與事實信息或其他回答,來判斷其回答中是否存在幻覺。目前,AUTOHALLUSION 能夠檢測以下兩種類型的大模型幻覺:
- 正確性:大模型的回答與基本事實不一致。
- 一致性:大模型在面對包括不同級別的補充信息的問題時,無法給出一致的答案,或者在針對某一特定物體的提問中,未能提供與圖像描述一致的答案。
實驗結(jié)果
下表展示了通過 AutoHallusion 生成的大模型幻覺案例的成功率,結(jié)果顯示出以下幾個主要發(fā)現(xiàn):
- 插入物體的幻覺生成策略比刪除物體的策略更有效。
- 基于物體存在性構(gòu)建的問題比基于物體空間關(guān)系的問題更容易引發(fā)幻覺。
- GPT-4V 在防止大模型幻覺方面表現(xiàn)最好。
- 針對真實世界數(shù)據(jù)集構(gòu)建的幻覺案例成功率高于合成數(shù)據(jù)集。本文認為,這可能是由于大模型難以處理真實世界圖像中物體語義關(guān)系的復(fù)雜性所致。
下圖展示了針對物體 - 場景對齊關(guān)系的消融實驗結(jié)果。在該實驗中,本文采用不同的大模型來生成用于圖像編輯的物體,并在視覺問答(VQA)任務(wù)中進行評估。
基準數(shù)據(jù)集指標
本文從以下三個方面評估了通過 AutoHallusion 生成的基準數(shù)據(jù)集:
- 多樣性:衡量數(shù)據(jù)集中不同場景和對象的數(shù)量,包括 200 個(合成)/160 個(真實世界)樣本。
- 圖像質(zhì)量:通過原始圖像和編輯圖像的 IS(Inception Score)分數(shù),以及原始圖像與編輯圖像之間的 Frechet Inception Distance (FID) 距離來評估。
- 有效性:通過每個樣本中引發(fā)幻覺的平均問題數(shù)量來衡量。
下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在通過 AutoHallusion 生成的基準數(shù)據(jù)集上的表現(xiàn)。