偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP

發(fā)布于 2024-4-28 09:32
瀏覽
0收藏

零樣本異常檢測(cè)(ZSAD)允許檢測(cè)模型僅利用輔助數(shù)據(jù)進(jìn)行訓(xùn)練,從而在沒有任何目標(biāo)數(shù)據(jù)集訓(xùn)練樣本的情況下檢測(cè)異常。這在因各種原因(如數(shù)據(jù)隱私問題)無法獲取訓(xùn)練數(shù)據(jù)時(shí)非常關(guān)鍵。


然而,這項(xiàng)任務(wù)面臨的挑戰(zhàn)在于,模型需要能夠跨不同領(lǐng)域泛化異常檢測(cè)能力,尤其是前景對(duì)象、異常區(qū)域及背景特征(比如不同產(chǎn)品或器官上的缺陷或腫瘤)在不同應(yīng)用中可能大相徑庭。


為了改進(jìn) CLIP 模型,來自浙江大學(xué)、新加坡管理大學(xué)、哈佛大學(xué)的研究者聯(lián)合提出 AnomalyCLIP,使其能在不同領(lǐng)域中更準(zhǔn)確地進(jìn)行零樣本異常檢測(cè)。AnomalyCLIP 的核心思想是學(xué)習(xí)一種與對(duì)象不相關(guān)的文本提示技術(shù)(object-agnostic learning),這種技術(shù)能夠捕捉到圖像中的一般性正常和異常特征,而不依賴于任何特定的前景對(duì)象,從而在多種語義的對(duì)象上實(shí)現(xiàn)泛化的異常識(shí)別。在 17 個(gè)來自不同領(lǐng)域(如缺陷檢測(cè)和醫(yī)療成像)的真實(shí)世界異常檢測(cè)數(shù)據(jù)集上進(jìn)行的大規(guī)模實(shí)驗(yàn)證明, AnomalyCLIP 在跨域且高度多樣化類別語義的數(shù)據(jù)中實(shí)現(xiàn)了卓越的零樣本異常檢測(cè)和分割能力。


ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP-AI.x社區(qū)


  • 論文名稱:AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
  • 文章地址:https://arxiv.org/pdf/2310.18961.pdf
  • 代碼地址:https://github.com/zqhang/AnomalyCLIP


背景


傳統(tǒng)的異常檢測(cè)方法通常需要在特定應(yīng)用領(lǐng)域內(nèi)有可用的訓(xùn)練樣本來學(xué)習(xí)檢測(cè)模型。然而,在某些情況下,這個(gè)假設(shè)可能并不成立,比如訪問訓(xùn)練數(shù)據(jù)會(huì)違反數(shù)據(jù)隱私政策,或者目標(biāo)領(lǐng)域內(nèi)根本就沒有可用的訓(xùn)練數(shù)據(jù)。


ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP-AI.x社區(qū)


圖 1: 不同文本提示方法的結(jié)果對(duì)比。


由于不同應(yīng)用場(chǎng)景中異常的視覺外觀、前景對(duì)象和背景特征存在很大差異,例如不同產(chǎn)品表面的缺陷、不同器官上的病變或腫瘤,或者是工業(yè)缺陷與醫(yī)學(xué)圖像中腫瘤 / 病變的對(duì)比,我們需要能夠針對(duì)這些變化進(jìn)行準(zhǔn)確零樣本異常檢測(cè)(ZSAD)的檢測(cè)模型,這要求模型具有強(qiáng)大的泛化能力。


最近,大型預(yù)訓(xùn)練的視覺 - 語言模型(VLMs)在包括異常檢測(cè)在內(nèi)的多種視覺任務(wù)上展示了出色的零樣本識(shí)別能力。特別是,通過使用數(shù)以百萬計(jì)的圖像 - 文本對(duì)進(jìn)行預(yù)訓(xùn)練,CLIP 在強(qiáng)化各種下游任務(wù)的泛化能力方面發(fā)揮了巨大作用。然而,CLIP 這類 VLM 主要是為了學(xué)習(xí)前景對(duì)象的類別語義,而不是圖像中的異常 / 正常模式,因此它們?cè)诶斫庖曈X異常 / 正常性方面的泛化能力有限,導(dǎo)致在 ZSAD 性能方面表現(xiàn)不佳。


此外,當(dāng)前使用的文本提示方法,如圖 1d 和圖 1e 所示,無論是手動(dòng)定義的文本提示還是可學(xué)習(xí)的文本提示,往往會(huì)導(dǎo)致提示文本嵌入偏向于全局特征以實(shí)現(xiàn)有效的對(duì)象語義對(duì)齊,而忽略了通常表現(xiàn)在細(xì)節(jié)、局部特征中的異常。


方法介紹


AnomalyCLIP 旨在通過學(xué)習(xí)對(duì)象不相關(guān)的文本提示來讓 CLIP 實(shí)現(xiàn)不同領(lǐng)域中的準(zhǔn)確 ZSAD,從而捕獲圖像中的通用正常性和異常性,如圖 2 所示。AnomalyCLIP 首先為 “正常” 和 “異?!?這兩個(gè)廣泛的類別設(shè)計(jì)了一個(gè)簡(jiǎn)單而普遍有效的可學(xué)習(xí)的文本提示模板,然后通過使用輔助數(shù)據(jù),結(jié)合圖像級(jí)別和像素級(jí)別的損失函數(shù)來讓提示嵌入學(xué)習(xí)圖像中存在的通用正常和異常模式。


這樣,AnomalyCLIP 可以專注于圖像中的異常區(qū)域而非對(duì)象的語義,使其能夠零樣本的識(shí)別出與輔助數(shù)據(jù)中相似的異常模式。如圖 1a 和圖 1b 所示,盡管輔助數(shù)據(jù)和目標(biāo)數(shù)據(jù)中前景對(duì)象的語義完全不同時(shí),但是其異常模式保持相似,例如金屬螺母和板材上的劃痕、晶體管和 PCB 的錯(cuò)位、不同器官表面的腫瘤 / 病變等。而 CLIP 的文本提示嵌入在不同領(lǐng)域間的泛化能力有限,如圖 1c 所示。不同的是,AnomalyCLIP 學(xué)習(xí)到的對(duì)象不相關(guān)的文本提示嵌入能夠有效地泛化,識(shí)別出跨領(lǐng)域圖像中的異常,如圖 1f 所示。AnomalyCLIP只需要微調(diào)一次,就能夠泛化地捕捉不同對(duì)象、場(chǎng)景甚至跨領(lǐng)域的異常。其他的沒有了。


ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP-AI.x社區(qū)


圖 2: AnomalyCLIP 框架圖


實(shí)驗(yàn)結(jié)果


該研究在 17 個(gè)公開可用的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),涵蓋了各種工業(yè)檢測(cè)場(chǎng)景和醫(yī)學(xué)成像領(lǐng)域(包括攝影、內(nèi)窺鏡和放射學(xué)),以評(píng)估 AnomalyCLIP 的性能。在工業(yè)檢測(cè)方面,該研究考慮了 MVTec AD、VisA、MPDD、BTAD、SDD、DAGM 和 DTD-Synthetic 等數(shù)據(jù)集。在醫(yī)學(xué)成像方面,該研究考慮了皮膚癌檢測(cè)數(shù)據(jù)集 ISIC、結(jié)腸息肉檢測(cè)數(shù)據(jù)集 CVC-ClinicDB 和 CVC-ColonDB、Kvasir、Endo、甲狀腺結(jié)節(jié)檢測(cè)數(shù)據(jù)集 TN3k、腦瘤檢測(cè)數(shù)據(jù)集 HeadCT、BrainMRI、Br35H 和 COVID-19 檢測(cè)數(shù)據(jù)集 COVID-19。最先進(jìn)的 baseline 包括 CLIP、CLIP-AC、WinCLIP、VAND 和 CoOp。論文附錄提供了有關(guān)方法和數(shù)據(jù)預(yù)處理的更多細(xì)節(jié)。


ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP-AI.x社區(qū)

表 1:工業(yè)領(lǐng)域零樣本異常檢測(cè)性能比較。最佳性能以紅色突出顯示,次佳性能以藍(lán)色突出顯示。?表示結(jié)果來自原始論文。(除了 MVTec AD 數(shù)據(jù)集以外,其他所有結(jié)果均由 MVTec AD fine-tuining 得到)


各種工業(yè)檢測(cè)領(lǐng)域的零樣本異常檢測(cè)性能


表 1 展示了 AnomalyCLIP 與五種 baseline 在七個(gè)工業(yè)缺陷數(shù)據(jù)集上的零樣本異常檢測(cè)結(jié)果,這些數(shù)據(jù)集具有非常不同的前景對(duì)象、背景和 / 或異常類型。AnomalyCLIP 在這些數(shù)據(jù)集上取得了優(yōu)越的零樣本異常檢測(cè)性能,大部分情況下明顯優(yōu)于其他五種方法。CLIP 和 CLIP-AC 表現(xiàn)較差的原因在于 CLIP 的原始預(yù)訓(xùn)練側(cè)重于對(duì)齊對(duì)象語義而非異常語義。WinCLIP 和 VAND 通過使用手動(dòng)定義的文本提示獲得了更好的結(jié)果。另外,CoOp 采用了可學(xué)習(xí)的提示來學(xué)習(xí)全局異常語義。然而,這些提示專注于全局特征,忽略了細(xì)粒度的局部異常語義,導(dǎo)致它們?cè)诋惓7指钌媳憩F(xiàn)不佳。為了將 CLIP 適應(yīng)于零樣本異常檢測(cè),AnomalyCLIP 學(xué)習(xí)了對(duì)象不相關(guān)的文本提示,通過全局和局部上下文優(yōu)化,專注于學(xué)習(xí)通用的異常 / 正常模式,使得模型能夠有效識(shí)別全局和局部的異常。得到的提示還可以推廣到來自不同領(lǐng)域的不同數(shù)據(jù)集。為了提供更直觀的結(jié)果,該研究在圖 3 中可視化了 AnomalyCLIP、VAND 和 WinCLIP 在不同數(shù)據(jù)集上的異常分割結(jié)果。與 VAND 和 WinCLIP 相比,AnomalyCLIP 可以對(duì)來自不同工業(yè)檢測(cè)領(lǐng)域的缺陷進(jìn)行更準(zhǔn)確的異常分割。


ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP-AI.x社區(qū)

圖 3: AnomalyCLIP 分割結(jié)果


ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè),浙大等提出AnomalyCLIP-AI.x社區(qū)


表 2:醫(yī)療領(lǐng)域零樣本異常檢測(cè)性能比較。最佳性能以紅色突出顯示,次佳性能以藍(lán)色突出顯示。請(qǐng)注意,醫(yī)療異常檢測(cè)數(shù)據(jù)集往往不同時(shí)包含像素級(jí)和圖像級(jí)標(biāo)簽,因此評(píng)估圖像級(jí)和像素級(jí)醫(yī)療異常檢測(cè)的數(shù)據(jù)集有所不同。


從缺陷數(shù)據(jù)集到多樣化的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集的泛化能力


為了評(píng)估模型的泛化能力,該研究進(jìn)一步考察了 AnomalyCLIP 在 10 個(gè)不同器官、不同成像設(shè)備上的醫(yī)學(xué)圖像數(shù)據(jù)集上的零樣本異常檢測(cè)性能。表 2 展示了相關(guān)結(jié)果,其中包括 AnomalyCLIP、VAND 和 CoOp 等基于學(xué)習(xí)的方法,均使用 MVTec AD 數(shù)據(jù)進(jìn)行fine-tuining。


值得注意的是,像 AnomalyCLIP 和 VAND 這樣的方法在各種醫(yī)學(xué)圖像數(shù)據(jù)集上取得了令人滿意的零樣本異常檢測(cè)性能,即使它們是使用缺陷檢測(cè)數(shù)據(jù)集進(jìn)行調(diào)優(yōu)的。在所有這些方法中,由于其通過對(duì)象不相關(guān)的提示學(xué)習(xí)帶來的強(qiáng)大泛化能力,AnomalyCLIP 是表現(xiàn)最佳的。


正如圖 3 所示,AnomalyCLIP 能夠準(zhǔn)確檢測(cè)出不同醫(yī)學(xué)圖像中的各種異常類型,例如攝影圖像中的皮膚癌區(qū)域,內(nèi)窺鏡圖像中的結(jié)腸息肉,超聲圖像中的甲狀腺結(jié)節(jié)以及 MRI 圖像中的腦腫瘤,其在定位異常病變 / 腫瘤區(qū)域方面的性能明顯優(yōu)于另外兩種方法 WinCLIP 和 VAND。這再次證明了 AnomalyCLIP 在醫(yī)學(xué)成像領(lǐng)域高度多樣化的對(duì)象語義數(shù)據(jù)集中具有領(lǐng)先的零樣本異常檢測(cè)性能。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/QcgvuGh-ww5ZGqqhbr_0UQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦