AI畫手總是六根手指?阿大/美團(tuán)/上交首次系統(tǒng)量化擴(kuò)散模型計(jì)數(shù)幻覺
擴(kuò)散概率模型(diffusion probability models,DPMs)在圖像生成任務(wù)上取得了卓越的成就,但它們?nèi)灶l繁產(chǎn)生與現(xiàn)實(shí)世界知識(shí)相悖的“幻覺樣本”(hallucinations),例如生成有六根手指的手掌或者漂浮在空中的多余物體 。
盡管這類問題普遍存在,社區(qū)卻一直缺乏系統(tǒng)性量化這些事實(shí)性錯(cuò)誤的方法,這阻礙了下一代高可信度生成模型的研發(fā)進(jìn)程。
為填補(bǔ)這一空白,來自阿德萊德大學(xué)、美團(tuán)和上海交通大學(xué)的研究團(tuán)隊(duì),首次對(duì)擴(kuò)散模型中的一類特殊幻覺——“計(jì)數(shù)幻覺” (counting hallucination)進(jìn)行了系統(tǒng)性的研究 。
他們提出了幾個(gè)關(guān)鍵問題:
- 如何準(zhǔn)確量化擴(kuò)散模型“數(shù)錯(cuò)數(shù)”的問題?
- 增加采樣步數(shù)等常用求解器優(yōu)化技巧是改善還是加劇了這個(gè)問題?
- FID等主流圖像質(zhì)量評(píng)價(jià)指標(biāo)能否有效捕捉到這類細(xì)粒度的錯(cuò)誤?以及如何緩解擴(kuò)散模型中的計(jì)數(shù)幻覺問題?
為了回答這些問題,該團(tuán)隊(duì)構(gòu)建了首個(gè)用于量化計(jì)數(shù)幻覺的數(shù)據(jù)集套件CountHalluSet,并通過大量實(shí)驗(yàn)揭示了計(jì)數(shù)幻覺與擴(kuò)散模型中不同采樣條件之間的復(fù)雜關(guān)系。

更重要的是,他們基于實(shí)驗(yàn)提出了一種簡(jiǎn)單而有效的聯(lián)合擴(kuò)散模型(Joint-Diffusion Model,JDM),能夠顯著減少復(fù)雜真實(shí)圖像中的計(jì)數(shù)幻覺和其它非計(jì)數(shù)類失敗問題。

CountHalluSet: 計(jì)數(shù)幻覺評(píng)測(cè)基準(zhǔn)
研究團(tuán)隊(duì)構(gòu)建了包含三個(gè)數(shù)據(jù)集的CountHalluSet套件,其可數(shù)物體的形態(tài)復(fù)雜性逐級(jí)遞增:
- ToyShape: 包含簡(jiǎn)單的幾何圖形(三角形、正方形、五邊形)。
- SimObject: 包含照片級(jí)逼真度的日常三維物體(杯子、蘋果、時(shí)鐘)。
- RealHand: 包含真實(shí)的、姿態(tài)各異的人手圖像。

CountHalluSet由三個(gè)覆蓋不同形態(tài)復(fù)雜度層級(jí)的可計(jì)數(shù)對(duì)象數(shù)據(jù)集組成:ToyShape(三角形、正方形、五邊形)、SimObject(馬克杯、蘋果、時(shí)鐘)以及RealHand(手指)。
此外,每個(gè)數(shù)據(jù)集有著各自的計(jì)數(shù)規(guī)則。在ToyShape和SimObject數(shù)據(jù)集中,每張圖像最多包含每個(gè)類別的一個(gè)實(shí)例,且至少包含一個(gè)對(duì)象,而在RealHand數(shù)據(jù)集中,每張圖像必須嚴(yán)格包含五根手指。
所謂計(jì)數(shù)幻覺,是指生成模型產(chǎn)生的圖像違反了該數(shù)據(jù)集的計(jì)數(shù)事實(shí),例如在一張圖中生成了兩個(gè)蘋果,或僅生成了背景而沒有任何對(duì)象,而這些模式在SimObject數(shù)據(jù)集中從未出現(xiàn)過。

各個(gè)數(shù)據(jù)集的計(jì)數(shù)幻覺評(píng)測(cè)流程如上圖所示。對(duì)于ToyShape與SimObject數(shù)據(jù)集,生成圖像可直接用于計(jì)數(shù)評(píng)估,由于它們的簡(jiǎn)單性和罕見的嚴(yán)重低質(zhì)量圖像。
而在RealHand數(shù)據(jù)集中,團(tuán)隊(duì)引入了“可計(jì)數(shù)性指示器(counting-ready indicator)”,用于區(qū)分計(jì)數(shù)幻覺樣本與其他非計(jì)數(shù)類失敗樣本(如嚴(yán)重變形的手指)情況。
具體地,他們使用了一個(gè)MaxViT作為可計(jì)數(shù)性指示器,它是二分類器,在超過2.5千張代表性樣本上訓(xùn)練得到。對(duì)于ToyShape與SimObject數(shù)據(jù)集,團(tuán)隊(duì)構(gòu)建了一個(gè)超過400,000個(gè)樣本的大型ToyShape/SimObject數(shù)據(jù)集,每個(gè)樣本出現(xiàn)0-3次,以微調(diào)ResNet-50得到它們對(duì)應(yīng)的“計(jì)數(shù)模型(counting model)”。
對(duì)于RealHand數(shù)據(jù)集,他們?cè)诔^2k張手部生成圖像上對(duì)YOLO-12模型進(jìn)行了微調(diào),訓(xùn)練檢測(cè)指尖,來得到該數(shù)據(jù)集的計(jì)數(shù)模型。
利用這些計(jì)數(shù)模型,團(tuán)隊(duì)可以檢測(cè)生成圖像中的對(duì)象出現(xiàn)次數(shù),從而判斷它們是否違反了數(shù)據(jù)集中的計(jì)數(shù)規(guī)則,最終實(shí)現(xiàn)量化計(jì)數(shù)幻覺。
比如,給定一個(gè)counting-ready樣本,如果YOLO模型檢測(cè)出該樣本存在6個(gè)指尖,那么它就會(huì)被歸類為計(jì)數(shù)幻覺樣本。
實(shí)驗(yàn)及核心發(fā)現(xiàn)
量化實(shí)驗(yàn)
研究者們?cè)跀U(kuò)散模型不同的采樣條件下,量化了各個(gè)數(shù)據(jù)集生成樣本的計(jì)數(shù)幻覺率,結(jié)果如下表所示:

發(fā)現(xiàn)一:采樣步數(shù)對(duì)幻覺的影響呈現(xiàn)“合成–真實(shí)”分化趨勢(shì)
研究發(fā)現(xiàn),在常用的ODE求解器(25、50、100步)設(shè)置下,增加采樣步數(shù)能有效降低合成數(shù)據(jù)集(ToyShape、SimObject)的計(jì)數(shù)幻覺率(CHR),但在真實(shí)數(shù)據(jù)集(RealHand)中卻反而提升了計(jì)數(shù)幻覺率。
這表明:合成數(shù)據(jù)因結(jié)構(gòu)簡(jiǎn)單、分布規(guī)則,能從更細(xì)粒度的求解器中獲益;而真實(shí)數(shù)據(jù)分布更復(fù)雜,額外的采樣步可能過度擬合局部不一致,從而放大幻覺。
發(fā)現(xiàn)二:更高階的ODE求解器可降低總體失敗率,卻提升計(jì)數(shù)幻覺率
作為另一種ODE優(yōu)化策略,DPM-Solver-2在相同步數(shù)下生成質(zhì)量一般優(yōu)于DPM-Solver-1。盡管這一策略顯著降低了RealHand數(shù)據(jù)集的總體失敗率(TFR),但卻增加了計(jì)數(shù)幻覺率。
這揭示出:更高階求解器雖能穩(wěn)定全局結(jié)構(gòu),但可能削弱了模型對(duì)對(duì)象計(jì)數(shù)約束的敏感性。
發(fā)現(xiàn)三:祖先采樣(DDPM)在幻覺抑制上表現(xiàn)最優(yōu)
在所有對(duì)比中,DDPM始終實(shí)現(xiàn)最低的計(jì)數(shù)幻覺率、非計(jì)數(shù)類失敗率和總體失敗率。
這意味著:祖先采樣為生成模型的失敗率提供了一個(gè)現(xiàn)實(shí)下限,尤其在計(jì)算效率不是主要限制時(shí),是最有效的減幻覺策略。
發(fā)現(xiàn)四:更合理的初始噪聲可顯著降低幻覺率
相較于標(biāo)準(zhǔn)高斯噪聲(Normal),使用“擴(kuò)散”噪聲(Ground-truth初始噪聲)能同時(shí)降低計(jì)數(shù)幻覺率、非計(jì)數(shù)類失敗率和總體失敗率。
這一結(jié)果表明:初始化的一致性對(duì)生成穩(wěn)定性至關(guān)重要,更符合訓(xùn)練分布的噪聲可有效緩解幻覺現(xiàn)象。
發(fā)現(xiàn)五:對(duì)象形態(tài)越復(fù)雜,計(jì)數(shù)幻覺越顯著
隨著對(duì)象形態(tài)從簡(jiǎn)單幾何體(ToyShape)、中等復(fù)雜的合成物體(SimObject)到真實(shí)生物結(jié)構(gòu)(RealHand)逐漸復(fù)雜,計(jì)數(shù)幻覺率持續(xù)上升。
這表明:結(jié)構(gòu)復(fù)雜性顯著挑戰(zhàn)了擴(kuò)散模型保持正確對(duì)象計(jì)數(shù)的能力。模型在處理高復(fù)雜度形態(tài)時(shí)更容易出現(xiàn)對(duì)象的“遺漏”或“重復(fù)”,解釋了為何當(dāng)前擴(kuò)散模型盡管生成能力強(qiáng)大,卻仍普遍存在幻覺問題。
相關(guān)性實(shí)驗(yàn)
計(jì)數(shù)幻覺本質(zhì)上是事實(shí)性幻覺的一種具體的形式。直覺上,人們或許會(huì)認(rèn)為,當(dāng)擴(kuò)散模型在感知層面生成質(zhì)量更高、分布差距更小的圖像(即更低的FID)時(shí),其事實(shí)一致性也會(huì)相應(yīng)提升。然而,該研究團(tuán)隊(duì)的系統(tǒng)性實(shí)驗(yàn)結(jié)果表明——事實(shí)并非如此。
研究者們?cè)诓煌瑪?shù)據(jù)集與求解器條件下進(jìn)行了相關(guān)性分析,發(fā)現(xiàn)如下表所示:

發(fā)現(xiàn)一:計(jì)數(shù)幻覺與FID之間的相關(guān)性并非固有,而取決于數(shù)據(jù)集與求解器類型
在SimObject數(shù)據(jù)集中,計(jì)數(shù)幻覺率(CHR)與FID呈顯著正相關(guān)(Pearson = 0.8762, p = 0.0119),表明更低的FID對(duì)應(yīng)更少的計(jì)數(shù)幻覺;然而在RealHand中卻出現(xiàn)強(qiáng)負(fù)相關(guān)(Pearson = -0.9134, p = 0.0109),說明兩者關(guān)系可能反轉(zhuǎn)。
進(jìn)一步地,當(dāng)將DDPM結(jié)果納入分析時(shí)(“incl. DDPM”),這種相關(guān)性顯著減弱,揭示了其依賴于采樣條件與求解器的非穩(wěn)定性。
發(fā)現(xiàn)二:非計(jì)數(shù)類失敗率與FID之間的相關(guān)性則穩(wěn)定且顯著
與計(jì)數(shù)幻覺率(CHR)不同,非計(jì)數(shù)失敗率(NCFR)與總體失敗率(TFR)在各條件下均與FID高度正相關(guān)(Pearson/Spearman>0.94,p<0.001),說明FID更能反映模型在整體視覺一致性上的表現(xiàn),而在刻畫對(duì)象計(jì)數(shù)等事實(shí)性特征時(shí)存在明顯局限。 這些結(jié)果共同揭示:FID雖能衡量視覺質(zhì)量,卻不能代表模型的事實(shí)可靠性。
解決方案:聯(lián)合擴(kuò)散模型(Joint-Diffusion Model,JDM)
既然模型在處理簡(jiǎn)單結(jié)構(gòu)時(shí)不易出錯(cuò),研究者提出了一個(gè)問題:如果在擴(kuò)散過程中為模型提供明確的結(jié)構(gòu)性約束,能否引導(dǎo)其生成正確的物體數(shù)量?
基于此,團(tuán)隊(duì)設(shè)計(jì)了聯(lián)合擴(kuò)散模型(JDM)。該模型在訓(xùn)練時(shí),將原始手部圖像和其對(duì)應(yīng)的分割掩碼(作為結(jié)構(gòu)約束)在通道維度上進(jìn)行拼接,使模型能夠在共享的潛在空間中同時(shí)學(xué)習(xí)視覺表征與結(jié)構(gòu)化的事實(shí)約束。具體而言,他們利用SAM-2提取的手部掩碼進(jìn)行通道級(jí)連接,為擴(kuò)散模型提供清晰的像素級(jí)結(jié)構(gòu)約束,從而在生成過程中顯式控制空間布局。

這種機(jī)制使模型不僅遵守預(yù)定義的空間結(jié)構(gòu),還能在隱式層面形成語義一致且解剖合理的手部生成結(jié)果。通過在共享潛在空間內(nèi)聯(lián)合學(xué)習(xí)視覺特征與結(jié)構(gòu)掩碼約束,JDM顯著提升了生成結(jié)果的語義一致性與視覺可信度,有效緩解了計(jì)數(shù)幻覺問題。
討論與未來展望
這項(xiàng)工作的核心意義在于,它首次將擴(kuò)散模型中模糊、主觀的“幻覺”問題,轉(zhuǎn)化為一個(gè)可定義、可量化、可系統(tǒng)性分析的“計(jì)數(shù)幻覺”問題。
研究結(jié)果對(duì)當(dāng)前領(lǐng)域的一些普遍認(rèn)知構(gòu)成了挑戰(zhàn):讓人們不能再盲目相信“更多的采樣步數(shù)、更高階的求解器總能帶來更好的結(jié)果”,也不能再完全依賴FID這類傳統(tǒng)指標(biāo)來評(píng)判模型的“事實(shí)準(zhǔn)確性” 。
這項(xiàng)研究為社區(qū)提供了一套全新的評(píng)測(cè)基準(zhǔn)(CountHalluSet)和評(píng)估視角,推動(dòng)行業(yè)從僅僅關(guān)注“生成得美不美”,轉(zhuǎn)向同時(shí)關(guān)注“生成得對(duì)不對(duì)”,這對(duì)提升生成模型的可靠性和可信度至關(guān)重要。
未來,這項(xiàng)工作為探索更高階的“事實(shí)一致性”生成模型開辟了廣闊的道路:
從“計(jì)數(shù)”到“萬物”:當(dāng)前研究聚焦于物體數(shù)量,未來的工作可將這種量化分析方法擴(kuò)展到更復(fù)雜的幻覺類型,如不合邏輯的空間關(guān)系、違反物理規(guī)律的現(xiàn)象(例如錯(cuò)誤的光影反射)以及幾何結(jié)構(gòu)錯(cuò)誤等。
更泛化的約束方法:本文提出的JDM模型驗(yàn)證了引入顯式結(jié)構(gòu)約束的有效性 。未來的研究可以探索如何將更抽象、更復(fù)雜的知識(shí)(如場(chǎng)景圖、物理規(guī)則、符號(hào)邏輯)融入擴(kuò)散過程,發(fā)展出一種“事實(shí)約束下的生成”新范式。
最終目標(biāo):解決計(jì)數(shù)幻覺只是構(gòu)建可信AI的第一步。通過持續(xù)攻克各類事實(shí)性錯(cuò)誤,團(tuán)隊(duì)有望將生成模型從一個(gè)單純的“創(chuàng)意工具”轉(zhuǎn)變?yōu)橐粋€(gè)可靠的“世界模型(world model)”,使其在科學(xué)模擬、工程設(shè)計(jì)、醫(yī)學(xué)影像等對(duì)準(zhǔn)確性要求極高的關(guān)鍵領(lǐng)域中發(fā)揮核心作用 。
論文地址:https://arxiv.org/pdf/2510.13080
代碼主頁:https://github.com/ShyFoo/CountHallu-Diff



































