偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

AI畫手總是六根手指？阿大/美團(tuán)/上交首次系統(tǒng)量化擴(kuò)散模型計(jì)數(shù)幻覺

2025-10-20 08:47:00

人工智能新聞

來自阿德萊德大學(xué)、美團(tuán)和上海交通大學(xué)的研究團(tuán)隊(duì)，首次對(duì)擴(kuò)散模型中的一類特殊幻覺——“計(jì)數(shù)幻覺” （counting hallucination）進(jìn)行了系統(tǒng)性的研究。

擴(kuò)散概率模型（diffusion probability models，DPMs）在圖像生成任務(wù)上取得了卓越的成就，但它們?nèi)灶l繁產(chǎn)生與現(xiàn)實(shí)世界知識(shí)相悖的“幻覺樣本”（hallucinations），例如生成有六根手指的手掌或者漂浮在空中的多余物體。

盡管這類問題普遍存在，社區(qū)卻一直缺乏系統(tǒng)性量化這些事實(shí)性錯(cuò)誤的方法，這阻礙了下一代高可信度生成模型的研發(fā)進(jìn)程。

為填補(bǔ)這一空白，來自阿德萊德大學(xué)、美團(tuán)和上海交通大學(xué)的研究團(tuán)隊(duì)，首次對(duì)擴(kuò)散模型中的一類特殊幻覺——“計(jì)數(shù)幻覺” （counting hallucination）進(jìn)行了系統(tǒng)性的研究。

他們提出了幾個(gè)關(guān)鍵問題：

如何準(zhǔn)確量化擴(kuò)散模型“數(shù)錯(cuò)數(shù)”的問題？
增加采樣步數(shù)等常用求解器優(yōu)化技巧是改善還是加劇了這個(gè)問題？
FID等主流圖像質(zhì)量評(píng)價(jià)指標(biāo)能否有效捕捉到這類細(xì)粒度的錯(cuò)誤？以及如何緩解擴(kuò)散模型中的計(jì)數(shù)幻覺問題？

為了回答這些問題，該團(tuán)隊(duì)構(gòu)建了首個(gè)用于量化計(jì)數(shù)幻覺的數(shù)據(jù)集套件CountHalluSet，并通過大量實(shí)驗(yàn)揭示了計(jì)數(shù)幻覺與擴(kuò)散模型中不同采樣條件之間的復(fù)雜關(guān)系。

更重要的是，他們基于實(shí)驗(yàn)提出了一種簡(jiǎn)單而有效的聯(lián)合擴(kuò)散模型（Joint-Diffusion Model，JDM），能夠顯著減少復(fù)雜真實(shí)圖像中的計(jì)數(shù)幻覺和其它非計(jì)數(shù)類失敗問題。

CountHalluSet: 計(jì)數(shù)幻覺評(píng)測(cè)基準(zhǔn)

研究團(tuán)隊(duì)構(gòu)建了包含三個(gè)數(shù)據(jù)集的CountHalluSet套件，其可數(shù)物體的形態(tài)復(fù)雜性逐級(jí)遞增：

ToyShape: 包含簡(jiǎn)單的幾何圖形（三角形、正方形、五邊形）。
SimObject: 包含照片級(jí)逼真度的日常三維物體（杯子、蘋果、時(shí)鐘）。
RealHand: 包含真實(shí)的、姿態(tài)各異的人手圖像。

CountHalluSet由三個(gè)覆蓋不同形態(tài)復(fù)雜度層級(jí)的可計(jì)數(shù)對(duì)象數(shù)據(jù)集組成：ToyShape（三角形、正方形、五邊形）、SimObject（馬克杯、蘋果、時(shí)鐘）以及RealHand（手指）。

此外，每個(gè)數(shù)據(jù)集有著各自的計(jì)數(shù)規(guī)則。在ToyShape和SimObject數(shù)據(jù)集中，每張圖像最多包含每個(gè)類別的一個(gè)實(shí)例，且至少包含一個(gè)對(duì)象，而在RealHand數(shù)據(jù)集中，每張圖像必須嚴(yán)格包含五根手指。

所謂計(jì)數(shù)幻覺，是指生成模型產(chǎn)生的圖像違反了該數(shù)據(jù)集的計(jì)數(shù)事實(shí)，例如在一張圖中生成了兩個(gè)蘋果，或僅生成了背景而沒有任何對(duì)象，而這些模式在SimObject數(shù)據(jù)集中從未出現(xiàn)過。

各個(gè)數(shù)據(jù)集的計(jì)數(shù)幻覺評(píng)測(cè)流程如上圖所示。對(duì)于ToyShape與SimObject數(shù)據(jù)集，生成圖像可直接用于計(jì)數(shù)評(píng)估，由于它們的簡(jiǎn)單性和罕見的嚴(yán)重低質(zhì)量圖像。

而在RealHand數(shù)據(jù)集中，團(tuán)隊(duì)引入了“可計(jì)數(shù)性指示器（counting-ready indicator）”，用于區(qū)分計(jì)數(shù)幻覺樣本與其他非計(jì)數(shù)類失敗樣本（如嚴(yán)重變形的手指）情況。

具體地，他們使用了一個(gè)MaxViT作為可計(jì)數(shù)性指示器，它是二分類器，在超過2.5千張代表性樣本上訓(xùn)練得到。對(duì)于ToyShape與SimObject數(shù)據(jù)集，團(tuán)隊(duì)構(gòu)建了一個(gè)超過400，000個(gè)樣本的大型ToyShape/SimObject數(shù)據(jù)集，每個(gè)樣本出現(xiàn)0-3次，以微調(diào)ResNet-50得到它們對(duì)應(yīng)的“計(jì)數(shù)模型（counting model）”。

對(duì)于RealHand數(shù)據(jù)集，他們?cè)诔^2k張手部生成圖像上對(duì)YOLO-12模型進(jìn)行了微調(diào)，訓(xùn)練檢測(cè)指尖，來得到該數(shù)據(jù)集的計(jì)數(shù)模型。

利用這些計(jì)數(shù)模型，團(tuán)隊(duì)可以檢測(cè)生成圖像中的對(duì)象出現(xiàn)次數(shù)，從而判斷它們是否違反了數(shù)據(jù)集中的計(jì)數(shù)規(guī)則，最終實(shí)現(xiàn)量化計(jì)數(shù)幻覺。

比如，給定一個(gè)counting-ready樣本，如果YOLO模型檢測(cè)出該樣本存在6個(gè)指尖，那么它就會(huì)被歸類為計(jì)數(shù)幻覺樣本。

實(shí)驗(yàn)及核心發(fā)現(xiàn)

量化實(shí)驗(yàn)

研究者們?cè)跀U(kuò)散模型不同的采樣條件下，量化了各個(gè)數(shù)據(jù)集生成樣本的計(jì)數(shù)幻覺率，結(jié)果如下表所示：

發(fā)現(xiàn)一：采樣步數(shù)對(duì)幻覺的影響呈現(xiàn)“合成–真實(shí)”分化趨勢(shì)

研究發(fā)現(xiàn)，在常用的ODE求解器（25、50、100步）設(shè)置下，增加采樣步數(shù)能有效降低合成數(shù)據(jù)集（ToyShape、SimObject）的計(jì)數(shù)幻覺率（CHR），但在真實(shí)數(shù)據(jù)集（RealHand）中卻反而提升了計(jì)數(shù)幻覺率。

這表明：合成數(shù)據(jù)因結(jié)構(gòu)簡(jiǎn)單、分布規(guī)則，能從更細(xì)粒度的求解器中獲益；而真實(shí)數(shù)據(jù)分布更復(fù)雜，額外的采樣步可能過度擬合局部不一致，從而放大幻覺。

發(fā)現(xiàn)二：更高階的ODE求解器可降低總體失敗率，卻提升計(jì)數(shù)幻覺率

作為另一種ODE優(yōu)化策略，DPM-Solver-2在相同步數(shù)下生成質(zhì)量一般優(yōu)于DPM-Solver-1。盡管這一策略顯著降低了RealHand數(shù)據(jù)集的總體失敗率（TFR），但卻增加了計(jì)數(shù)幻覺率。

這揭示出：更高階求解器雖能穩(wěn)定全局結(jié)構(gòu)，但可能削弱了模型對(duì)對(duì)象計(jì)數(shù)約束的敏感性。

發(fā)現(xiàn)三：祖先采樣（DDPM）在幻覺抑制上表現(xiàn)最優(yōu)

在所有對(duì)比中，DDPM始終實(shí)現(xiàn)最低的計(jì)數(shù)幻覺率、非計(jì)數(shù)類失敗率和總體失敗率。

這意味著：祖先采樣為生成模型的失敗率提供了一個(gè)現(xiàn)實(shí)下限，尤其在計(jì)算效率不是主要限制時(shí)，是最有效的減幻覺策略。

發(fā)現(xiàn)四：更合理的初始噪聲可顯著降低幻覺率

相較于標(biāo)準(zhǔn)高斯噪聲（Normal），使用“擴(kuò)散”噪聲（Ground-truth初始噪聲）能同時(shí)降低計(jì)數(shù)幻覺率、非計(jì)數(shù)類失敗率和總體失敗率。

這一結(jié)果表明：初始化的一致性對(duì)生成穩(wěn)定性至關(guān)重要，更符合訓(xùn)練分布的噪聲可有效緩解幻覺現(xiàn)象。

發(fā)現(xiàn)五：對(duì)象形態(tài)越復(fù)雜，計(jì)數(shù)幻覺越顯著

隨著對(duì)象形態(tài)從簡(jiǎn)單幾何體（ToyShape）、中等復(fù)雜的合成物體（SimObject）到真實(shí)生物結(jié)構(gòu)（RealHand）逐漸復(fù)雜，計(jì)數(shù)幻覺率持續(xù)上升。

這表明：結(jié)構(gòu)復(fù)雜性顯著挑戰(zhàn)了擴(kuò)散模型保持正確對(duì)象計(jì)數(shù)的能力。模型在處理高復(fù)雜度形態(tài)時(shí)更容易出現(xiàn)對(duì)象的“遺漏”或“重復(fù)”，解釋了為何當(dāng)前擴(kuò)散模型盡管生成能力強(qiáng)大，卻仍普遍存在幻覺問題。

相關(guān)性實(shí)驗(yàn)

計(jì)數(shù)幻覺本質(zhì)上是事實(shí)性幻覺的一種具體的形式。直覺上，人們或許會(huì)認(rèn)為，當(dāng)擴(kuò)散模型在感知層面生成質(zhì)量更高、分布差距更小的圖像（即更低的FID）時(shí)，其事實(shí)一致性也會(huì)相應(yīng)提升。然而，該研究團(tuán)隊(duì)的系統(tǒng)性實(shí)驗(yàn)結(jié)果表明——事實(shí)并非如此。

研究者們?cè)诓煌瑪?shù)據(jù)集與求解器條件下進(jìn)行了相關(guān)性分析，發(fā)現(xiàn)如下表所示：

發(fā)現(xiàn)一：計(jì)數(shù)幻覺與FID之間的相關(guān)性并非固有，而取決于數(shù)據(jù)集與求解器類型

在SimObject數(shù)據(jù)集中，計(jì)數(shù)幻覺率（CHR）與FID呈顯著正相關(guān)（Pearson = 0.8762, p = 0.0119），表明更低的FID對(duì)應(yīng)更少的計(jì)數(shù)幻覺；然而在RealHand中卻出現(xiàn)強(qiáng)負(fù)相關(guān)（Pearson = -0.9134, p = 0.0109），說明兩者關(guān)系可能反轉(zhuǎn)。

進(jìn)一步地，當(dāng)將DDPM結(jié)果納入分析時(shí)（“incl. DDPM”），這種相關(guān)性顯著減弱，揭示了其依賴于采樣條件與求解器的非穩(wěn)定性。

發(fā)現(xiàn)二：非計(jì)數(shù)類失敗率與FID之間的相關(guān)性則穩(wěn)定且顯著

與計(jì)數(shù)幻覺率（CHR）不同，非計(jì)數(shù)失敗率（NCFR）與總體失敗率（TFR）在各條件下均與FID高度正相關(guān)（Pearson/Spearman>0.94，p<0.001），說明FID更能反映模型在整體視覺一致性上的表現(xiàn)，而在刻畫對(duì)象計(jì)數(shù)等事實(shí)性特征時(shí)存在明顯局限。這些結(jié)果共同揭示：FID雖能衡量視覺質(zhì)量，卻不能代表模型的事實(shí)可靠性。

解決方案：聯(lián)合擴(kuò)散模型（Joint-Diffusion Model，JDM）

既然模型在處理簡(jiǎn)單結(jié)構(gòu)時(shí)不易出錯(cuò)，研究者提出了一個(gè)問題：如果在擴(kuò)散過程中為模型提供明確的結(jié)構(gòu)性約束，能否引導(dǎo)其生成正確的物體數(shù)量？

基于此，團(tuán)隊(duì)設(shè)計(jì)了聯(lián)合擴(kuò)散模型（JDM）。該模型在訓(xùn)練時(shí)，將原始手部圖像和其對(duì)應(yīng)的分割掩碼（作為結(jié)構(gòu)約束）在通道維度上進(jìn)行拼接，使模型能夠在共享的潛在空間中同時(shí)學(xué)習(xí)視覺表征與結(jié)構(gòu)化的事實(shí)約束。具體而言，他們利用SAM-2提取的手部掩碼進(jìn)行通道級(jí)連接，為擴(kuò)散模型提供清晰的像素級(jí)結(jié)構(gòu)約束，從而在生成過程中顯式控制空間布局。

這種機(jī)制使模型不僅遵守預(yù)定義的空間結(jié)構(gòu)，還能在隱式層面形成語義一致且解剖合理的手部生成結(jié)果。通過在共享潛在空間內(nèi)聯(lián)合學(xué)習(xí)視覺特征與結(jié)構(gòu)掩碼約束，JDM顯著提升了生成結(jié)果的語義一致性與視覺可信度，有效緩解了計(jì)數(shù)幻覺問題。

討論與未來展望

這項(xiàng)工作的核心意義在于，它首次將擴(kuò)散模型中模糊、主觀的“幻覺”問題，轉(zhuǎn)化為一個(gè)可定義、可量化、可系統(tǒng)性分析的“計(jì)數(shù)幻覺”問題。

研究結(jié)果對(duì)當(dāng)前領(lǐng)域的一些普遍認(rèn)知構(gòu)成了挑戰(zhàn)：讓人們不能再盲目相信“更多的采樣步數(shù)、更高階的求解器總能帶來更好的結(jié)果”，也不能再完全依賴FID這類傳統(tǒng)指標(biāo)來評(píng)判模型的“事實(shí)準(zhǔn)確性” 。

這項(xiàng)研究為社區(qū)提供了一套全新的評(píng)測(cè)基準(zhǔn)（CountHalluSet）和評(píng)估視角，推動(dòng)行業(yè)從僅僅關(guān)注“生成得美不美”，轉(zhuǎn)向同時(shí)關(guān)注“生成得對(duì)不對(duì)”，這對(duì)提升生成模型的可靠性和可信度至關(guān)重要。

未來，這項(xiàng)工作為探索更高階的“事實(shí)一致性”生成模型開辟了廣闊的道路：

從“計(jì)數(shù)”到“萬物”：當(dāng)前研究聚焦于物體數(shù)量，未來的工作可將這種量化分析方法擴(kuò)展到更復(fù)雜的幻覺類型，如不合邏輯的空間關(guān)系、違反物理規(guī)律的現(xiàn)象（例如錯(cuò)誤的光影反射）以及幾何結(jié)構(gòu)錯(cuò)誤等。

更泛化的約束方法：本文提出的JDM模型驗(yàn)證了引入顯式結(jié)構(gòu)約束的有效性。未來的研究可以探索如何將更抽象、更復(fù)雜的知識(shí)（如場(chǎng)景圖、物理規(guī)則、符號(hào)邏輯）融入擴(kuò)散過程，發(fā)展出一種“事實(shí)約束下的生成”新范式。

最終目標(biāo)：解決計(jì)數(shù)幻覺只是構(gòu)建可信AI的第一步。通過持續(xù)攻克各類事實(shí)性錯(cuò)誤，團(tuán)隊(duì)有望將生成模型從一個(gè)單純的“創(chuàng)意工具”轉(zhuǎn)變?yōu)橐粋€(gè)可靠的“世界模型(world model)”，使其在科學(xué)模擬、工程設(shè)計(jì)、醫(yī)學(xué)影像等對(duì)準(zhǔn)確性要求極高的關(guān)鍵領(lǐng)域中發(fā)揮核心作用。

論文地址：https://arxiv.org/pdf/2510.13080

代碼主頁：https://github.com/ShyFoo/CountHallu-Diff

責(zé)任編輯：張燕妮來源：量子位

AI 模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<button id="kmqxx"></button>

<thead id="kmqxx"></thead>