UofT、UBC、MIT和復(fù)旦等聯(lián)合發(fā)布:擴(kuò)散模型驅(qū)動的異常檢測與生成全面綜述
擴(kuò)散模型(Diffusion Models, DMs)近年來展現(xiàn)出巨大的潛力,在計算機(jī)視覺和自然語言處理等諸多任務(wù)中取得了顯著進(jìn)展,而異常檢測(Anomaly Detection, AD)作為人工智能領(lǐng)域的關(guān)鍵研究任務(wù),在工業(yè)制造、金融風(fēng)控、醫(yī)療診斷等眾多實際場景中發(fā)揮著重要作用。近期,來自多倫多大學(xué)、不列顛哥倫比亞大學(xué)、麻省理工學(xué)院、悉尼大學(xué)、卡迪夫大學(xué)和復(fù)旦大學(xué)等知名機(jī)構(gòu)的研究者合作完成題為 “Anomaly Detection and Generation with Diffusion Models: A Survey” 的長文綜述,首次聚焦于 DMs 在異常檢測與生成領(lǐng)域的應(yīng)用。該綜述系統(tǒng)性地梳理了圖像、視頻、時間序列、表格和多模態(tài)異常檢測任務(wù)的最新進(jìn)展并從擴(kuò)散模型視角提供了全面的分類體系,結(jié)合生成式 AI 的研究動向展望了未來趨勢和發(fā)展機(jī)遇,有望引導(dǎo)該領(lǐng)域的研究者和從業(yè)者。

- 論文標(biāo)題:
Anomaly Detection and Generation with Diffusion Models: A Survey - 論文鏈接:
https://arxiv.org/pdf/2506.09368 - 項目主頁:
https://github.com/fudanyliu/ADGDM 

圖 2 異常檢測、生成和擴(kuò)散模型的研究熱度分析
二、擴(kuò)散模型與異常檢測
擴(kuò)散模型通過正向擴(kuò)散與反向去噪的馬爾可夫過程實現(xiàn)數(shù)據(jù)分布建模。正向過程遵循隨機(jī)微分方程,逐步將數(shù)據(jù)分布轉(zhuǎn)化為高斯噪聲;反向過程通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)去噪映射,漸進(jìn)式恢復(fù)原始數(shù)據(jù)。其生成機(jī)制在捕捉復(fù)雜數(shù)據(jù)分布的細(xì)微差異上具有顯著優(yōu)勢。與傳統(tǒng)的廣泛用于無監(jiān)督 AD 任務(wù)的 GANs、VAE 和 Transformer 等相比,DMs 在生成樣本的質(zhì)量和多樣性方面表現(xiàn)出色,在 AD 領(lǐng)域展示出出色潛力。

圖 3 基于擴(kuò)散模型的異常評分機(jī)制
基于 DMs 的異常檢測通過建模數(shù)據(jù)分布的內(nèi)在結(jié)構(gòu),將異常定義為與正常數(shù)據(jù)模式的顯著偏離。根據(jù)異常評分機(jī)制不同,可分為三大核心范式,如圖 3 所示。
基于重構(gòu)評分的方法通過擴(kuò)散模型反向去噪過程重構(gòu)輸入樣本,以重構(gòu)誤差作為異常分?jǐn)?shù)。正常樣本因符合學(xué)習(xí)到的分布,重構(gòu)誤差??;異常樣本偏離分布,重構(gòu)誤差顯著增大。典型應(yīng)用如工業(yè)質(zhì)檢中,利用 U-Net 架構(gòu)的擴(kuò)散模型通過像素級重構(gòu)誤差定位異常。
基于密度的評分方法利用擴(kuò)散模型對數(shù)據(jù)概率密度的估計能力,將負(fù)對數(shù)似然作為異常分?jǐn)?shù)。正常樣本對應(yīng)高概率密度,負(fù)對數(shù)似然值低;異常樣本位于低概率區(qū)域,分?jǐn)?shù)超過閾值即判定為異常。
基于分?jǐn)?shù)的評分方法利用數(shù)據(jù)分布的梯度信息(分?jǐn)?shù)函數(shù))量化樣本與數(shù)據(jù)流形的偏離程度。正常樣本位于流形表面,梯度范數(shù)??;異常樣本處于低概率區(qū)域,梯度范數(shù)顯著增大。
三種方法從不同維度刻畫異常:重構(gòu)評分基于樣本空間距離,密度評分基于概率分布似然,分?jǐn)?shù)評分基于流形幾何梯度。實際應(yīng)用中,重構(gòu)方法對圖像局部異常更敏感,密度方法適合時序數(shù)據(jù)全局檢測,分?jǐn)?shù)方法在高維非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)更優(yōu)。
三、擴(kuò)散模型驅(qū)動的異常檢測與生成
3.1 圖像異常檢測
在圖像異常檢測(Image Anomaly Detection, IAD)領(lǐng)域,DMs 面臨兩大核心挑戰(zhàn):“恒等快捷方式”(Identity Shortcut)問題與高昂的計算成本。前者指模型在重構(gòu)時傾向于直接復(fù)制輸入中的異常區(qū)域,從而掩蓋了異常;后者則源于擴(kuò)散過程固有的多步迭代推理,限制了其實時應(yīng)用。為應(yīng)對這些挑戰(zhàn),綜述中探討了一系列前沿方法。例如,通過掩碼重構(gòu)、潛空間特征編輯或?qū)剐杂?xùn)練來打破 “恒等快捷方式”,迫使模型學(xué)習(xí)正常數(shù)據(jù)的深層分布而非簡單復(fù)制。同時,為解決計算效率問題,研究者們提出了模型蒸餾、高效 ODE 求解器、潛空間擴(kuò)散(Latent Diffusion Models, LDMs)以及模型稀疏化等多種加速策略。這些方法通過減少采樣步數(shù)或在更低維的空間中操作,顯著降低了推理時間和資源消耗,為擴(kuò)散模型在工業(yè)質(zhì)檢、醫(yī)療影像分析等高要求的 IAD 場景中的實際部署鋪平了道路。

圖 4:圖像異常檢測方法示意圖。(a)展示了基礎(chǔ)的基于重構(gòu)的方法;(b)展示了為解決 “恒等快捷方式” 問題而設(shè)計的條件式或多階段變體方法,旨在提升對異常的敏感度
3.2 視頻異常檢測
視頻異常檢測(Video Anomaly Detection, VAD)的核心在于處理時序維度和復(fù)雜的運(yùn)動模式,這使其比靜態(tài)圖像檢測更具挑戰(zhàn)性。異??赡鼙憩F(xiàn)為反常的動作序列或與既定模式不符的動態(tài)變化。因此,有效的 VAD 框架必須能夠?qū)r空依賴性進(jìn)行建模。綜述指出,先進(jìn)的擴(kuò)散模型通過引入光流、運(yùn)動矢量或集成時空 Transformer 架構(gòu),將運(yùn)動信息顯式地融入到生成過程中。這種設(shè)計使模型能夠?qū)W習(xí)正常事件的時空演化規(guī)律,從而敏銳地捕捉到速度、方向或加速度上的異常變化。例如,模型通過對過去幀或運(yùn)動表征進(jìn)行條件化,預(yù)測未來的正常幀,并將預(yù)測結(jié)果與實際觀測進(jìn)行比較。這種基于運(yùn)動和時序上下文的建模方式,極大地提升了模型在監(jiān)控、自動駕駛等動態(tài)場景中檢測復(fù)雜異常事件的準(zhǔn)確性和魯棒性。

圖 5:視頻異常檢測框架示意圖。該框架集成了時空特征提取與運(yùn)動建模,通過光流或 Transformer 等技術(shù)將運(yùn)動信息融入擴(kuò)散模型,以有效識別空間外觀和時間演變中的異常
3.3 時間序列異常檢測
時間序列異常檢測(Time Series Anomaly Detection, TSAD)面臨的挑戰(zhàn)源于數(shù)據(jù)的內(nèi)在時序依賴性、不規(guī)則采樣和潛在的長期關(guān)聯(lián)。綜述歸納了擴(kuò)散模型在該領(lǐng)域的兩大主流范式:基于重構(gòu)(reconstruction-based)與基于插補(bǔ)(imputation-based)?;谥貥?gòu)的方法利用擴(kuò)散模型強(qiáng)大的生成能力來復(fù)原輸入的時間序列,那些無法被精確重構(gòu)、導(dǎo)致較大誤差的數(shù)據(jù)點或片段被視為異常。而基于插補(bǔ)的方法則巧妙地將異常檢測任務(wù)轉(zhuǎn)化為一個缺失值填補(bǔ)問題,模型嘗試填補(bǔ)序列中的部分?jǐn)?shù)據(jù),異常點會因其與上下文的低 “協(xié)調(diào)性” 而導(dǎo)致插補(bǔ)質(zhì)量顯著下降,從而被識別出來。為了有效捕捉時間序列的復(fù)雜動態(tài),這些模型通常會集成循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)或注意力機(jī)制(Attention),以增強(qiáng)對長短期依賴關(guān)系的建模能力,使其在金融欺詐檢測、設(shè)備故障預(yù)警等任務(wù)中表現(xiàn)出色。

圖 6:時間序列異常檢測(TSAD)框架示意圖。該圖展示了基于擴(kuò)散模型的兩種主流 TSAD 路徑:(a)基于重構(gòu)的路徑通過比較原始序列與重構(gòu)序列的差異來計算異常分?jǐn)?shù);(b)基于插補(bǔ)的路徑則通過評估模型對缺失值的插補(bǔ)質(zhì)量來判斷異常
3.4 表格異常檢測
表格數(shù)據(jù)因其混合數(shù)據(jù)類型(如數(shù)值型、分類型、序數(shù)型)和普遍存在的缺失值,對異常檢測構(gòu)成了獨(dú)特的挑戰(zhàn)。直接應(yīng)用為圖像設(shè)計的擴(kuò)散模型往往效果不佳。為此,該領(lǐng)域的研究重點在于開發(fā)專門的預(yù)處理技術(shù)和模型架構(gòu)。綜述中提到,擴(kuò)散模型驅(qū)動的表格異常檢測(Tabular Anomaly Detection, TAD)方法通常首先通過專門的嵌入層將異構(gòu)數(shù)據(jù)統(tǒng)一到連續(xù)的表征空間。隨后,經(jīng)過改造的 DMs(如結(jié)合 Transformer 架構(gòu)或高斯混合模型)在這一空間中學(xué)習(xí)正常數(shù)據(jù)的聯(lián)合分布。在推理階段,通過計算樣本的重構(gòu)損失或生成概率來識別異常。針對缺失值問題,一些方法在訓(xùn)練中引入掩碼機(jī)制,使模型學(xué)會在存在數(shù)據(jù)缺失的情況下進(jìn)行穩(wěn)健的推理。這些適應(yīng)性設(shè)計使得擴(kuò)散模型能夠有效處理金融、醫(yī)療等領(lǐng)域的復(fù)雜表格數(shù)據(jù),精確識別其中的欺詐、病變等異常模式。

圖 7:表格異常檢測框架示意圖。該框架展示了處理包含混合數(shù)據(jù)類型(如數(shù)值型、分類型)的表格數(shù)據(jù)的典型流程。數(shù)據(jù)首先經(jīng)過專門的預(yù)處理和嵌入模塊,然后輸入到適用于表格數(shù)據(jù)的擴(kuò)散模型中,最終通過計算重構(gòu)損失來識別異常
3.5 多模態(tài)異常檢測
多模態(tài)異常檢測(Multimodal Anomaly Detection, MAD)通過融合來自不同數(shù)據(jù)源(如圖像、文本、傳感器數(shù)據(jù))的互補(bǔ)信息,顯著提升了檢測系統(tǒng)的準(zhǔn)確性和魯棒性。其核心挑戰(zhàn)在于如何有效對齊和融合異構(gòu)的模態(tài)信息。綜述總結(jié)了三種主流的融合策略:早期融合在輸入層即合并特征;晚期融合在決策層結(jié)合各模態(tài)的獨(dú)立輸出;而動態(tài)融合則能根據(jù)輸入數(shù)據(jù)的上下文自適應(yīng)地調(diào)整各模態(tài)的權(quán)重。協(xié)同擴(kuò)散(Collaborative Diffusion)等先進(jìn)框架通過構(gòu)建共享的嵌入空間和動態(tài)融合模塊,有效解決了模態(tài)對齊和信息不均衡的問題,在工業(yè)檢測、智能監(jiān)控等場景中展現(xiàn)了巨大潛力。

圖 8:多模態(tài)異常檢測的概念圖。MAD 通過早期、晚期或動態(tài)策略融合多源信息
3.6 異常生成
異常生成(Anomaly Generation, AG)的主要動機(jī)是解決現(xiàn)實世界中異常樣本稀缺的根本性難題。擴(kuò)散模型憑借其卓越的生成能力,可以創(chuàng)造出逼真且多樣的合成異常。該技術(shù)以正常數(shù)據(jù)為 “種子”,通過引入文本描述、掩碼或在潛空間進(jìn)行特定操作等條件化引導(dǎo),精確地控制生成異常的類型、位置和嚴(yán)重程度。這些生成的異常數(shù)據(jù)不僅可以用于擴(kuò)充訓(xùn)練集以增強(qiáng)檢測模型的泛化能力,還能作為 “陪練” 來系統(tǒng)性地評估和提升模型的魯棒性,并為自監(jiān)督學(xué)習(xí)范式提供了寶貴的訓(xùn)練信號。

圖 9:異常生成的概念圖。AG 利用受引導(dǎo)的擴(kuò)散模型生成合成異常,以用于數(shù)據(jù)增強(qiáng)和模型測試等任務(wù)
四、挑戰(zhàn)與機(jī)遇
盡管 DMs 在異常檢測與生成領(lǐng)域取得了一定的進(jìn)展,但仍面臨諸多挑戰(zhàn)。其一,計算效率。DMs 的訓(xùn)練和推理過程通常需要較高的計算資源和時間成本,這限制了其在實際場景中的應(yīng)用,無法滿足工業(yè)等應(yīng)用場景下快速響應(yīng)需求。其二,模型對復(fù)雜場景的適應(yīng)性。在物理世界中,多模態(tài)異構(gòu)數(shù)據(jù)往往具有復(fù)雜的分布和噪聲,如何使 DMs 在這些復(fù)雜情況下仍能準(zhǔn)確地檢測任意可能異常,仍需進(jìn)一步探索。
展望未來,該領(lǐng)域展現(xiàn)出出色應(yīng)用前景和研究潛力。第一,優(yōu)化 DMs 的架構(gòu)和算法,提高其計算效率,使其能夠在資源受限的環(huán)境中運(yùn)行。開發(fā)輕量級的擴(kuò)散模型,或者采用模型壓縮、加速推理等技術(shù),有望解決計算效率問題。第二,增強(qiáng) DMs 對復(fù)雜場景的理解和適應(yīng)能力也是關(guān)鍵。通過引入多模態(tài)信息、改進(jìn)數(shù)據(jù)增強(qiáng)技術(shù)等方式,使模型能夠更好地處理復(fù)雜多變的數(shù)據(jù)。第三,探索 DMs 與基礎(chǔ)模型以及強(qiáng)化學(xué)習(xí)等前沿技術(shù)的結(jié)合,將為面向現(xiàn)實應(yīng)用的異常檢測與生成模型帶來新的突破。
五、結(jié)語
該綜述系統(tǒng)梳理了 DMs 在異常檢測與生成領(lǐng)域的技術(shù)進(jìn)展,從理論基礎(chǔ)、方法分類到應(yīng)用場景形成完整研究體系:
技術(shù)框架的系統(tǒng)性構(gòu)建:首次將基于 DMs 的異常檢測方法劃分為基于重構(gòu)、基于密度、基于分?jǐn)?shù)三大評分范式,并針對圖像、視頻、時間序列等不同數(shù)據(jù)模態(tài),闡述模型架構(gòu)分類和最新進(jìn)展。
學(xué)術(shù)研究的前瞻性展望:客觀剖析當(dāng)前技術(shù)瓶頸,包括擴(kuò)散過程的多步計算開銷、小樣本場景的泛化能力不足、理論解釋的缺失等;展望主要研究趨勢,如與大語言模型融合實現(xiàn)上下文感知檢測、基于元學(xué)習(xí)的快速領(lǐng)域適應(yīng)、以及面向?qū)崟r場景的高效架構(gòu)設(shè)計。
如果您對這篇綜述感興趣,歡迎閱讀和引用論文:
@misc{liu2025anomaly,  | 















 
 
 














 
 
 
 