ICCV 2025 | SeaS: 工業(yè)異常生成+正常合成+精準(zhǔn)掩碼大一統(tǒng)框架,指標(biāo)全面碾壓SOTA

- 論?標(biāo)題:SeaS: Few-shot Industrial Anomaly Image Generation with Separation and Sharing Fine-tuning
- 作者:Zhewei Dai, Shilei Zeng, Haotian Liu, Xurui Li, Feng Xue, Yu Zhou
- 論?鏈接:https://arxiv.org/abs/2410.14987
- 代碼鏈接:https://github.com/HUST-SLOW/SeaS
少樣本?業(yè)異常?成迎來(lái)「全能選?」
當(dāng)前先進(jìn)制造領(lǐng)域的產(chǎn)線良率往往超過(guò) 98%,因此異常樣本(也稱為缺陷樣本)的搜集和標(biāo)注已成為?業(yè)質(zhì)檢的核?瓶頸,過(guò)少的異常樣本顯著限制了模型的檢測(cè)能?,利??成模型擴(kuò)充異常樣本集合正逐漸成為產(chǎn)業(yè)界的主流選擇,但現(xiàn)有?法存在明顯局限:
要么僅能完成單?任務(wù)(如只?成異?;蛘.a(chǎn)品),要么需針對(duì)不同異常類型單獨(dú)建模,不僅?成能?受限,還因依賴?量專?模型難以適應(yīng)復(fù)雜場(chǎng)景。
為此,華中科技?學(xué)慢?團(tuán)隊(duì)(SLOW Team)提出統(tǒng)?的少樣本?業(yè)?成模型 SeaS。該模型依托 U-Net 的差異化學(xué)習(xí)能?,精準(zhǔn)捕捉正常產(chǎn)品的細(xì)微變化與異常區(qū)域的豐富差異,僅需要 1-3 張訓(xùn)練樣本,通過(guò)單?模型即可同步實(shí)現(xiàn)多樣化異常?成、全局?致的正常產(chǎn)品合成及精確異常掩碼標(biāo)注?成,為?業(yè)場(chǎng)景?成任務(wù)建?了新的技術(shù)基準(zhǔn),有效推動(dòng)了相關(guān)領(lǐng)域的技術(shù)進(jìn)步

?業(yè)場(chǎng)景?成瓶頸?
針對(duì)產(chǎn)業(yè)界對(duì)多樣化異常樣本?成、?效建模及精準(zhǔn)掩碼標(biāo)注的需求,SeaS 基于 「異常區(qū)域變化豐富、正常產(chǎn)品變化細(xì)微」 的本質(zhì)差異,實(shí)現(xiàn)了技術(shù)突破:
- 設(shè)計(jì)?平衡異常?本提示(UA),以多個(gè)異常詞元與單個(gè)正常詞元的?對(duì)稱結(jié)構(gòu),精準(zhǔn)控制異常區(qū)域的變化度;
- 提出解耦異常對(duì)?(DA)損失和正常圖像對(duì)?(NA)損失,分別保證異常多樣性與正常產(chǎn)品真實(shí)性;
- 構(gòu)建精細(xì)化掩碼預(yù)測(cè)分?,融合 U-Net 判別特征與?分辨率 VAE 特征,?次實(shí)現(xiàn)像素級(jí)精確異常掩碼?成。
在 MVTec AD、VisA 等主流?業(yè)數(shù)據(jù)集上,SeaS 全?超越現(xiàn)有少樣本?業(yè)異常?成?法?;谄?成數(shù)據(jù)訓(xùn)練的有監(jiān)督分割模型,異常分割 IoU 平均提升 12.79%,充分驗(yàn)證了該框架的有效性。
創(chuàng)新點(diǎn):三?設(shè)計(jì)
推動(dòng)?業(yè)場(chǎng)景?成技術(shù)升級(jí)
1. 統(tǒng)?的少樣本?成框架: 突破傳統(tǒng)單?任務(wù)局限,僅需要 1-3 張訓(xùn)練樣本,通過(guò)?個(gè)模型即可同步實(shí)現(xiàn)多樣化異常?成、全局?致的正常產(chǎn)品合成及像素級(jí)精確掩碼標(biāo)注,為領(lǐng)域設(shè)?新標(biāo)桿。
2. 分離與共享微調(diào)機(jī)制: 分別對(duì)正常產(chǎn)品和異常的變化程度建模,提升了?成過(guò)程的精準(zhǔn)控制能?,兼顧異常多樣性與正常產(chǎn)品?致性。
3. 精細(xì)化掩碼預(yù)測(cè): 創(chuàng)新的精細(xì)異常掩碼預(yù)測(cè)分?,通過(guò)級(jí)聯(lián)融合 U-Net 判別特征與?分辨率 VAE 特征,實(shí)現(xiàn)像素級(jí)精確的異常標(biāo)注,有效提升了下游模型性能。
?法:SeaS 的技術(shù)架構(gòu)與實(shí)現(xiàn)邏輯
整體框架:分離與共享的微調(diào)?絡(luò)
SeaS 的核?在于 「分離建模、共享學(xué)習(xí)」,僅需要少量的 1-3 張訓(xùn)練樣本,通過(guò)同?個(gè) U-Net 架構(gòu)同時(shí)處理正常與異常的?成。具體流程為:
1. 設(shè)計(jì)?平衡異常?本提示,包含分別表征異常和正常產(chǎn)品的詞元集合;
2. 提出解耦異常對(duì)?(DA)損失,將異常圖像區(qū)域與異常詞元綁定;
3. 利?正常圖像對(duì)?(NA)損失,使正常詞元能夠表達(dá)全局?致的正常產(chǎn)品;
4. 采?混合訓(xùn)練策略,上述兩個(gè)訓(xùn)練過(guò)程針對(duì)異常和正常圖像分別處理,并基于共享的 U-Net 架構(gòu)實(shí)現(xiàn)。

不均衡異常?本提示:分離建模異常與正常產(chǎn)品
傳統(tǒng)?本提示中,正常與異常詞元數(shù)量均衡,難以體現(xiàn)?者的本質(zhì)區(qū)別 —— 正常產(chǎn)品變化細(xì)微,異常區(qū)域則變化豐富。SeaS 提出的?平衡異常?本提示(UA)針對(duì)性解決這?問(wèn)題:
- 結(jié)構(gòu)設(shè)計(jì):UA 提示包含 1 個(gè)正常詞元 <ob> (表征正常產(chǎn)品)和多個(gè)異常詞元 <df_n>(表征異常),每種異常類型對(duì)應(yīng)?組專屬的異常詞元。

- 訓(xùn)練?式:使?正常圖像訓(xùn)練 <ob> 的嵌?,異常圖像訓(xùn)練 <df_n > 的嵌?,實(shí)現(xiàn)正常與異常特征的分離學(xué)習(xí)。
- 詞元數(shù)量影響:如圖 3(a)所示,1 個(gè) <ob> 即可表達(dá)正常產(chǎn)品并保證全局?致性,多個(gè) < ob > 會(huì)聚焦局部特征?破壞全局?致性;多個(gè) <df_n> 是控制異常?成多樣性的必要條件(不同詞元關(guān)注異常的不同屬性),但數(shù)量過(guò)少(如 N=1)易導(dǎo)致 「異常缺失」,過(guò)多(如 N=8)會(huì)增加多樣性但降低真實(shí)性。

解耦異常對(duì)?損失:精準(zhǔn)對(duì)?異常區(qū)域與詞元
針對(duì)少量異常圖像及其對(duì)應(yīng)掩碼,SeaS 提出解耦異常對(duì)?(DA)損失,實(shí)現(xiàn)異常詞元 <df_n> 與異常區(qū)域的精準(zhǔn)綁定:
- 損失定義:

其中,
為第 n 個(gè)異常詞元對(duì)應(yīng)的交叉注意?圖,N 為異常詞元數(shù)量,L 為?于對(duì)?的 U-Net 層數(shù),
為?值掩碼(異常區(qū)域?yàn)?1,背景為 0),
為正常詞元對(duì)應(yīng)的交叉注意?圖,⊙為元素積。
- 作?機(jī)制:第?項(xiàng)根據(jù)掩碼
將異常區(qū)域與 <df_n > 對(duì)?;第?項(xiàng)降低正常詞元注意?圖在異常區(qū)域的響應(yīng),避免正常詞元與異常區(qū)域?qū)?。 - 異常圖像總損失:

結(jié)合噪聲預(yù)測(cè)損失,通過(guò)對(duì)異常圖像的前向擴(kuò)散與噪聲預(yù)測(cè),進(jìn)?步提升異常?成的真實(shí)性與多樣性。
正常圖像對(duì)?損失:平衡正常產(chǎn)品的?致性與多樣性
增加正常詞元 <ob> 數(shù)量雖能提升?成多樣性,但可能降低正常圖像真實(shí)性并破壞全局?致性;?僅將單個(gè) < ob> 與少量訓(xùn)練圖像對(duì)?,?易出現(xiàn)過(guò)擬合。為此,SeaS 提出正常圖像對(duì)?(NA)損失:
- 損失定義:

- 計(jì)算過(guò)程:對(duì)正常圖像使?隨機(jī)噪聲和時(shí)間步進(jìn)?前向擴(kuò)散,得到帶噪潛變量,將其與正常詞元嵌?輸? U- Net 預(yù)測(cè)噪聲,再與隨機(jī)噪聲計(jì)算損失,從?學(xué)習(xí)具有全局?致性的正常產(chǎn)品。
混合訓(xùn)練策略:提升異常?成多樣性與模型泛化性
針對(duì)傳統(tǒng)?法為每種異常單獨(dú)建模導(dǎo)致的過(guò)擬合問(wèn)題,SeaS 提出分離與共享微調(diào)策略:
- 總損失函數(shù):結(jié)合異常損失與正常損失,實(shí)現(xiàn)統(tǒng)?優(yōu)化。

- 訓(xùn)練流程:將某產(chǎn)品的所有異常圖像整合為統(tǒng)?集合,與正常圖像訓(xùn)練集混合抽樣組成批次進(jìn)?訓(xùn)練。
- 優(yōu)勢(shì):如圖 3(c)所示,緩解單類異常樣本有限導(dǎo)致的過(guò)擬合,提升異常?成的多樣性與真實(shí)性,?持?成未?異常。
精細(xì)化掩碼預(yù)測(cè)分?:給異常 「貼」 上精準(zhǔn)標(biāo)簽
為提升異常掩碼的像素級(jí)精度,SeaS 設(shè)計(jì)級(jí)聯(lián)的精細(xì)化掩碼預(yù)測(cè)(RMP)分?,嫁接于訓(xùn)練后的 U-Net,通過(guò) 「粗特征提取 + 精細(xì)優(yōu)化」 兩步?成精準(zhǔn)掩碼:

U-Net 粗糙特征提取
從 U-Net 解碼器的 「up-2」 和 「up-3」 層提取特征,經(jīng)通道壓縮、拼接及 Transformer 融合,得到對(duì)異常具有強(qiáng)判別性的粗特征。
掩碼精細(xì)化模塊
針對(duì)粗特征上采樣后易丟失細(xì)節(jié)的問(wèn)題,設(shè)計(jì)三級(jí)串聯(lián)的掩碼精細(xì)化模塊(MRM):
- 每級(jí)模塊融合 VAE 的?分辨率特征與待優(yōu)化的判別特征,逐步提升特征的分辨率與判別性;
- 最終輸出的特征兼具?分辨率與強(qiáng)判別性,為精準(zhǔn)掩碼?成奠定基礎(chǔ)。
損失函數(shù)
采? Focal Loss 對(duì)異常與正常圖像的?低分辨率掩碼進(jìn)?監(jiān)督,確保異常區(qū)域標(biāo)注精準(zhǔn),同時(shí)抑制正常區(qū)域的誤判,提升掩碼預(yù)測(cè)精度。

實(shí)驗(yàn)結(jié)果
少樣本?業(yè)異常?成性能領(lǐng)先 SOTA:保真度與多樣性雙重突破
在少樣本?業(yè)異常?成的關(guān)鍵指標(biāo)?拼中,SeaS 表現(xiàn)突出:
- 各項(xiàng)核?指標(biāo)全?優(yōu)于現(xiàn)有?法,IS 分?jǐn)?shù)更?,說(shuō)明?成的圖像真實(shí)度更強(qiáng);IC-LPIPS 表現(xiàn)更優(yōu),體現(xiàn)出異常類型的豐富多樣性。
- 從?成效果看(圖 5),異常圖像細(xì)節(jié)清晰,類型豐富,且掩碼與異常區(qū)域精準(zhǔn)匹配;正常圖像(圖 6)全局?致性好,真實(shí)感強(qiáng),充分驗(yàn)證了 SeaS 在少樣本?成任務(wù)中的優(yōu)勢(shì)。


助?異常檢測(cè)性能提升:多?法效果顯著優(yōu)化
SeaS ?成的數(shù)據(jù)能有效賦能下游異常檢測(cè)任務(wù):
- 將其?成的異常樣本應(yīng)?于基于合成數(shù)據(jù)的檢測(cè)?法(如 DRAEM、GLASS),多數(shù)據(jù)集上的檢測(cè)性能均有提升,漏檢情況明顯改善(表 2)。
- ??成的正常圖像擴(kuò)充訓(xùn)練集后,?監(jiān)督檢測(cè)?法的誤檢減少,各項(xiàng)指標(biāo)得到優(yōu)化,展現(xiàn)出 SeaS 在實(shí)際應(yīng)?中的價(jià)值(表 3)。


增強(qiáng)有監(jiān)督分割模型能?:指標(biāo)提升幅度明顯
利? SeaS ?成的 1000 對(duì)圖像 - 掩碼對(duì)訓(xùn)練有監(jiān)督分割模型,效果顯著:
- 在 MVTec AD、VisA、MVTec 3D AD 數(shù)據(jù)集上,平均 IoU 分別提升 11.17%、11.71%、15.49%;
- 圖像級(jí) AUROC 相應(yīng)提升 2.77%、5.92%、6.68%(表 4),充分證明了 SeaS ?成數(shù)據(jù)對(duì)提升分割模型性能的積極作?。


實(shí)驗(yàn)結(jié)果表明,LFD(https://github.com/HUST-SLOW/LFD)是有監(jiān)督的異常分割模型的最優(yōu)選擇。
LFD 最初是為道路分割任務(wù)開發(fā)的,它會(huì)?到 ResNet-18 第?階段的低級(jí)特征。?低級(jí)特征在異常分割任務(wù)中也?有可為,于是將它的應(yīng)?拓展到了有監(jiān)督異常分割領(lǐng)域。
LFD 采?雙邊結(jié)構(gòu)設(shè)計(jì):先通過(guò)空間細(xì)節(jié)分?,借助 ResNet-18 第?階段提取低級(jí)特征;再通過(guò)上下?語(yǔ)義分??效提取上下?特征,該分?對(duì)輸?圖像進(jìn)??對(duì)稱下采樣,還引?了聚合模塊,能達(dá)到媲美 ResNet-18 第三階段的感受野,計(jì)算量卻更?。最后,通過(guò)選擇性融合模塊計(jì)算低級(jí)特征與上下?特征間的像素級(jí)注意?。

在異常分割中,LFD ? SeaS ?成的圖像 - 掩碼對(duì)進(jìn)?訓(xùn)練。它的模型??僅 0.936M,遠(yuǎn)?于 BiSeNetV2(3.341M)和 UperNet(64.042M),但像素 AP 分?jǐn)?shù)反??出 5.34%,F(xiàn)1 分?jǐn)?shù)?出 3.99%。
核?結(jié)論
本研究提出統(tǒng)?的少樣本?業(yè)異常?成?法 SeaS,探索了異常具有?度變化?正常產(chǎn)品保持全局?致性這?內(nèi)在特性。通過(guò)設(shè)計(jì)分離與共享的微調(diào)策略,對(duì)正常產(chǎn)品和異常的不同變化模式進(jìn)?建模,使精細(xì)化掩碼預(yù)測(cè)分?能夠利?判別性特征預(yù)測(cè)精確掩碼。SeaS 顯著提升了基于合成數(shù)據(jù)的異常檢測(cè)?法和有監(jiān)督異常檢測(cè)?法的性能,并賦予了有監(jiān)督分割模型更優(yōu)異的表現(xiàn)。?量實(shí)驗(yàn)驗(yàn)證了該?法在?業(yè)異常?成與檢測(cè)任務(wù)中的有效性。































