偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI畫手總是六根手指?阿大/美團(tuán)/上交首次系統(tǒng)量化擴(kuò)散模型計(jì)數(shù)幻覺

人工智能 新聞
來自阿德萊德大學(xué)、美團(tuán)和上海交通大學(xué)的研究團(tuán)隊(duì),首次對(duì)擴(kuò)散模型中的一類特殊幻覺——“計(jì)數(shù)幻覺” (counting hallucination)進(jìn)行了系統(tǒng)性的研究 。

擴(kuò)散概率模型(diffusion probability models,DPMs)在圖像生成任務(wù)上取得了卓越的成就,但它們?nèi)灶l繁產(chǎn)生與現(xiàn)實(shí)世界知識(shí)相悖的“幻覺樣本”(hallucinations),例如生成有六根手指的手掌或者漂浮在空中的多余物體 。

盡管這類問題普遍存在,社區(qū)卻一直缺乏系統(tǒng)性量化這些事實(shí)性錯(cuò)誤的方法,這阻礙了下一代高可信度生成模型的研發(fā)進(jìn)程。

為填補(bǔ)這一空白,來自阿德萊德大學(xué)、美團(tuán)和上海交通大學(xué)的研究團(tuán)隊(duì),首次對(duì)擴(kuò)散模型中的一類特殊幻覺——“計(jì)數(shù)幻覺” (counting hallucination)進(jìn)行了系統(tǒng)性的研究 。

他們提出了幾個(gè)關(guān)鍵問題:

  • 如何準(zhǔn)確量化擴(kuò)散模型“數(shù)錯(cuò)數(shù)”的問題?
  • 增加采樣步數(shù)等常用求解器優(yōu)化技巧是改善還是加劇了這個(gè)問題?
  • FID等主流圖像質(zhì)量評(píng)價(jià)指標(biāo)能否有效捕捉到這類細(xì)粒度的錯(cuò)誤?以及如何緩解擴(kuò)散模型中的計(jì)數(shù)幻覺問題?

為了回答這些問題,該團(tuán)隊(duì)構(gòu)建了首個(gè)用于量化計(jì)數(shù)幻覺的數(shù)據(jù)集套件CountHalluSet,并通過大量實(shí)驗(yàn)揭示了計(jì)數(shù)幻覺與擴(kuò)散模型中不同采樣條件之間的復(fù)雜關(guān)系。

更重要的是,他們基于實(shí)驗(yàn)提出了一種簡(jiǎn)單而有效的聯(lián)合擴(kuò)散模型(Joint-Diffusion Model,JDM),能夠顯著減少復(fù)雜真實(shí)圖像中的計(jì)數(shù)幻覺和其它非計(jì)數(shù)類失敗問題。

CountHalluSet: 計(jì)數(shù)幻覺評(píng)測(cè)基準(zhǔn)

研究團(tuán)隊(duì)構(gòu)建了包含三個(gè)數(shù)據(jù)集的CountHalluSet套件,其可數(shù)物體的形態(tài)復(fù)雜性逐級(jí)遞增:

  • ToyShape: 包含簡(jiǎn)單的幾何圖形(三角形、正方形、五邊形)。
  • SimObject: 包含照片級(jí)逼真度的日常三維物體(杯子、蘋果、時(shí)鐘)。
  • RealHand: 包含真實(shí)的、姿態(tài)各異的人手圖像。

CountHalluSet由三個(gè)覆蓋不同形態(tài)復(fù)雜度層級(jí)的可計(jì)數(shù)對(duì)象數(shù)據(jù)集組成:ToyShape(三角形、正方形、五邊形)、SimObject(馬克杯、蘋果、時(shí)鐘)以及RealHand(手指)。

此外,每個(gè)數(shù)據(jù)集有著各自的計(jì)數(shù)規(guī)則。在ToyShape和SimObject數(shù)據(jù)集中,每張圖像最多包含每個(gè)類別的一個(gè)實(shí)例,且至少包含一個(gè)對(duì)象,而在RealHand數(shù)據(jù)集中,每張圖像必須嚴(yán)格包含五根手指。

所謂計(jì)數(shù)幻覺,是指生成模型產(chǎn)生的圖像違反了該數(shù)據(jù)集的計(jì)數(shù)事實(shí),例如在一張圖中生成了兩個(gè)蘋果,或僅生成了背景而沒有任何對(duì)象,而這些模式在SimObject數(shù)據(jù)集中從未出現(xiàn)過。

各個(gè)數(shù)據(jù)集的計(jì)數(shù)幻覺評(píng)測(cè)流程如上圖所示。對(duì)于ToyShape與SimObject數(shù)據(jù)集,生成圖像可直接用于計(jì)數(shù)評(píng)估,由于它們的簡(jiǎn)單性和罕見的嚴(yán)重低質(zhì)量圖像。

而在RealHand數(shù)據(jù)集中,團(tuán)隊(duì)引入了“可計(jì)數(shù)性指示器(counting-ready indicator)”,用于區(qū)分計(jì)數(shù)幻覺樣本與其他非計(jì)數(shù)類失敗樣本(如嚴(yán)重變形的手指)情況。

具體地,他們使用了一個(gè)MaxViT作為可計(jì)數(shù)性指示器,它是二分類器,在超過2.5千張代表性樣本上訓(xùn)練得到。對(duì)于ToyShape與SimObject數(shù)據(jù)集,團(tuán)隊(duì)構(gòu)建了一個(gè)超過400,000個(gè)樣本的大型ToyShape/SimObject數(shù)據(jù)集,每個(gè)樣本出現(xiàn)0-3次,以微調(diào)ResNet-50得到它們對(duì)應(yīng)的“計(jì)數(shù)模型(counting model)”。

對(duì)于RealHand數(shù)據(jù)集,他們?cè)诔^2k張手部生成圖像上對(duì)YOLO-12模型進(jìn)行了微調(diào),訓(xùn)練檢測(cè)指尖,來得到該數(shù)據(jù)集的計(jì)數(shù)模型。

利用這些計(jì)數(shù)模型,團(tuán)隊(duì)可以檢測(cè)生成圖像中的對(duì)象出現(xiàn)次數(shù),從而判斷它們是否違反了數(shù)據(jù)集中的計(jì)數(shù)規(guī)則,最終實(shí)現(xiàn)量化計(jì)數(shù)幻覺。

比如,給定一個(gè)counting-ready樣本,如果YOLO模型檢測(cè)出該樣本存在6個(gè)指尖,那么它就會(huì)被歸類為計(jì)數(shù)幻覺樣本。

實(shí)驗(yàn)及核心發(fā)現(xiàn)

量化實(shí)驗(yàn)

研究者們?cè)跀U(kuò)散模型不同的采樣條件下,量化了各個(gè)數(shù)據(jù)集生成樣本的計(jì)數(shù)幻覺率,結(jié)果如下表所示:

發(fā)現(xiàn)一:采樣步數(shù)對(duì)幻覺的影響呈現(xiàn)“合成–真實(shí)”分化趨勢(shì)

研究發(fā)現(xiàn),在常用的ODE求解器(25、50、100步)設(shè)置下,增加采樣步數(shù)能有效降低合成數(shù)據(jù)集(ToyShape、SimObject)的計(jì)數(shù)幻覺率(CHR),但在真實(shí)數(shù)據(jù)集(RealHand)中卻反而提升了計(jì)數(shù)幻覺率。

這表明:合成數(shù)據(jù)因結(jié)構(gòu)簡(jiǎn)單、分布規(guī)則,能從更細(xì)粒度的求解器中獲益;而真實(shí)數(shù)據(jù)分布更復(fù)雜,額外的采樣步可能過度擬合局部不一致,從而放大幻覺。

發(fā)現(xiàn)二:更高階的ODE求解器可降低總體失敗率,卻提升計(jì)數(shù)幻覺率

作為另一種ODE優(yōu)化策略,DPM-Solver-2在相同步數(shù)下生成質(zhì)量一般優(yōu)于DPM-Solver-1。盡管這一策略顯著降低了RealHand數(shù)據(jù)集的總體失敗率(TFR),但卻增加了計(jì)數(shù)幻覺率。

這揭示出:更高階求解器雖能穩(wěn)定全局結(jié)構(gòu),但可能削弱了模型對(duì)對(duì)象計(jì)數(shù)約束的敏感性。

發(fā)現(xiàn)三:祖先采樣(DDPM)在幻覺抑制上表現(xiàn)最優(yōu)

在所有對(duì)比中,DDPM始終實(shí)現(xiàn)最低的計(jì)數(shù)幻覺率、非計(jì)數(shù)類失敗率和總體失敗率。

這意味著:祖先采樣為生成模型的失敗率提供了一個(gè)現(xiàn)實(shí)下限,尤其在計(jì)算效率不是主要限制時(shí),是最有效的減幻覺策略。

發(fā)現(xiàn)四:更合理的初始噪聲可顯著降低幻覺率

相較于標(biāo)準(zhǔn)高斯噪聲(Normal),使用“擴(kuò)散”噪聲(Ground-truth初始噪聲)能同時(shí)降低計(jì)數(shù)幻覺率、非計(jì)數(shù)類失敗率和總體失敗率。

這一結(jié)果表明:初始化的一致性對(duì)生成穩(wěn)定性至關(guān)重要,更符合訓(xùn)練分布的噪聲可有效緩解幻覺現(xiàn)象。

發(fā)現(xiàn)五:對(duì)象形態(tài)越復(fù)雜,計(jì)數(shù)幻覺越顯著

隨著對(duì)象形態(tài)從簡(jiǎn)單幾何體(ToyShape)、中等復(fù)雜的合成物體(SimObject)到真實(shí)生物結(jié)構(gòu)(RealHand)逐漸復(fù)雜,計(jì)數(shù)幻覺率持續(xù)上升。

這表明:結(jié)構(gòu)復(fù)雜性顯著挑戰(zhàn)了擴(kuò)散模型保持正確對(duì)象計(jì)數(shù)的能力。模型在處理高復(fù)雜度形態(tài)時(shí)更容易出現(xiàn)對(duì)象的“遺漏”或“重復(fù)”,解釋了為何當(dāng)前擴(kuò)散模型盡管生成能力強(qiáng)大,卻仍普遍存在幻覺問題。

相關(guān)性實(shí)驗(yàn)

計(jì)數(shù)幻覺本質(zhì)上是事實(shí)性幻覺的一種具體的形式。直覺上,人們或許會(huì)認(rèn)為,當(dāng)擴(kuò)散模型在感知層面生成質(zhì)量更高、分布差距更小的圖像(即更低的FID)時(shí),其事實(shí)一致性也會(huì)相應(yīng)提升。然而,該研究團(tuán)隊(duì)的系統(tǒng)性實(shí)驗(yàn)結(jié)果表明——事實(shí)并非如此。

研究者們?cè)诓煌瑪?shù)據(jù)集與求解器條件下進(jìn)行了相關(guān)性分析,發(fā)現(xiàn)如下表所示:

發(fā)現(xiàn)一:計(jì)數(shù)幻覺與FID之間的相關(guān)性并非固有,而取決于數(shù)據(jù)集與求解器類型

在SimObject數(shù)據(jù)集中,計(jì)數(shù)幻覺率(CHR)與FID呈顯著正相關(guān)(Pearson = 0.8762, p = 0.0119),表明更低的FID對(duì)應(yīng)更少的計(jì)數(shù)幻覺;然而在RealHand中卻出現(xiàn)強(qiáng)負(fù)相關(guān)(Pearson = -0.9134, p = 0.0109),說明兩者關(guān)系可能反轉(zhuǎn)。

進(jìn)一步地,當(dāng)將DDPM結(jié)果納入分析時(shí)(“incl. DDPM”),這種相關(guān)性顯著減弱,揭示了其依賴于采樣條件與求解器的非穩(wěn)定性。

發(fā)現(xiàn)二:非計(jì)數(shù)類失敗率與FID之間的相關(guān)性則穩(wěn)定且顯著

與計(jì)數(shù)幻覺率(CHR)不同,非計(jì)數(shù)失敗率(NCFR)與總體失敗率(TFR)在各條件下均與FID高度正相關(guān)(Pearson/Spearman>0.94,p<0.001),說明FID更能反映模型在整體視覺一致性上的表現(xiàn),而在刻畫對(duì)象計(jì)數(shù)等事實(shí)性特征時(shí)存在明顯局限。 這些結(jié)果共同揭示:FID雖能衡量視覺質(zhì)量,卻不能代表模型的事實(shí)可靠性。

解決方案:聯(lián)合擴(kuò)散模型(Joint-Diffusion Model,JDM)

既然模型在處理簡(jiǎn)單結(jié)構(gòu)時(shí)不易出錯(cuò),研究者提出了一個(gè)問題:如果在擴(kuò)散過程中為模型提供明確的結(jié)構(gòu)性約束,能否引導(dǎo)其生成正確的物體數(shù)量?

基于此,團(tuán)隊(duì)設(shè)計(jì)了聯(lián)合擴(kuò)散模型(JDM)。該模型在訓(xùn)練時(shí),將原始手部圖像和其對(duì)應(yīng)的分割掩碼(作為結(jié)構(gòu)約束)在通道維度上進(jìn)行拼接,使模型能夠在共享的潛在空間中同時(shí)學(xué)習(xí)視覺表征與結(jié)構(gòu)化的事實(shí)約束。具體而言,他們利用SAM-2提取的手部掩碼進(jìn)行通道級(jí)連接,為擴(kuò)散模型提供清晰的像素級(jí)結(jié)構(gòu)約束,從而在生成過程中顯式控制空間布局。

這種機(jī)制使模型不僅遵守預(yù)定義的空間結(jié)構(gòu),還能在隱式層面形成語義一致且解剖合理的手部生成結(jié)果。通過在共享潛在空間內(nèi)聯(lián)合學(xué)習(xí)視覺特征與結(jié)構(gòu)掩碼約束,JDM顯著提升了生成結(jié)果的語義一致性與視覺可信度,有效緩解了計(jì)數(shù)幻覺問題。

討論與未來展望

這項(xiàng)工作的核心意義在于,它首次將擴(kuò)散模型中模糊、主觀的“幻覺”問題,轉(zhuǎn)化為一個(gè)可定義、可量化、可系統(tǒng)性分析的“計(jì)數(shù)幻覺”問題。

研究結(jié)果對(duì)當(dāng)前領(lǐng)域的一些普遍認(rèn)知構(gòu)成了挑戰(zhàn):讓人們不能再盲目相信“更多的采樣步數(shù)、更高階的求解器總能帶來更好的結(jié)果”,也不能再完全依賴FID這類傳統(tǒng)指標(biāo)來評(píng)判模型的“事實(shí)準(zhǔn)確性” 。

這項(xiàng)研究為社區(qū)提供了一套全新的評(píng)測(cè)基準(zhǔn)(CountHalluSet)和評(píng)估視角,推動(dòng)行業(yè)從僅僅關(guān)注“生成得美不美”,轉(zhuǎn)向同時(shí)關(guān)注“生成得對(duì)不對(duì)”,這對(duì)提升生成模型的可靠性和可信度至關(guān)重要。

未來,這項(xiàng)工作為探索更高階的“事實(shí)一致性”生成模型開辟了廣闊的道路:

從“計(jì)數(shù)”到“萬物”:當(dāng)前研究聚焦于物體數(shù)量,未來的工作可將這種量化分析方法擴(kuò)展到更復(fù)雜的幻覺類型,如不合邏輯的空間關(guān)系、違反物理規(guī)律的現(xiàn)象(例如錯(cuò)誤的光影反射)以及幾何結(jié)構(gòu)錯(cuò)誤等。

更泛化的約束方法:本文提出的JDM模型驗(yàn)證了引入顯式結(jié)構(gòu)約束的有效性 。未來的研究可以探索如何將更抽象、更復(fù)雜的知識(shí)(如場(chǎng)景圖、物理規(guī)則、符號(hào)邏輯)融入擴(kuò)散過程,發(fā)展出一種“事實(shí)約束下的生成”新范式。

最終目標(biāo):解決計(jì)數(shù)幻覺只是構(gòu)建可信AI的第一步。通過持續(xù)攻克各類事實(shí)性錯(cuò)誤,團(tuán)隊(duì)有望將生成模型從一個(gè)單純的“創(chuàng)意工具”轉(zhuǎn)變?yōu)橐粋€(gè)可靠的“世界模型(world model)”,使其在科學(xué)模擬、工程設(shè)計(jì)、醫(yī)學(xué)影像等對(duì)準(zhǔn)確性要求極高的關(guān)鍵領(lǐng)域中發(fā)揮核心作用 。

論文地址:https://arxiv.org/pdf/2510.13080

代碼主頁:https://github.com/ShyFoo/CountHallu-Diff

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-11 10:54:55

2025-07-24 09:15:00

2025-10-28 08:40:00

2022-06-17 11:54:17

數(shù)據(jù)模型系統(tǒng)

2025-05-08 06:00:00

AI幻覺AI人工智能

2023-11-14 12:07:43

美團(tuán)沙龍

2023-10-11 12:32:26

模型訓(xùn)練

2025-09-02 10:05:33

2024-08-05 09:14:14

2020-02-12 14:05:41

系統(tǒng)緩存架構(gòu)

2022-03-15 10:20:00

云原生系統(tǒng)實(shí)踐

2016-11-27 20:43:26

云計(jì)算迭代

2018-10-29 15:50:23

深度學(xué)習(xí)工程實(shí)踐技術(shù)

2013-08-20 13:11:58

技術(shù)美團(tuán)

2025-02-19 10:01:51

AIChatGPT人工智能

2022-03-03 16:45:02

美團(tuán)述職反饋

2025-02-20 10:14:04

2025-08-19 08:53:00

AI模型開源

2025-06-13 08:06:41

2025-03-18 09:29:54

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)