偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP

輕薄滴假象

發(fā)布于 2024-4-28 09:32

瀏覽

0收藏

零樣本異常檢測(cè)（ZSAD）允許檢測(cè)模型僅利用輔助數(shù)據(jù)進(jìn)行訓(xùn)練，從而在沒有任何目標(biāo)數(shù)據(jù)集訓(xùn)練樣本的情況下檢測(cè)異常。這在因各種原因（如數(shù)據(jù)隱私問題）無法獲取訓(xùn)練數(shù)據(jù)時(shí)非常關(guān)鍵。

然而，這項(xiàng)任務(wù)面臨的挑戰(zhàn)在于，模型需要能夠跨不同領(lǐng)域泛化異常檢測(cè)能力，尤其是前景對(duì)象、異常區(qū)域及背景特征（比如不同產(chǎn)品或器官上的缺陷或腫瘤）在不同應(yīng)用中可能大相徑庭。

為了改進(jìn) CLIP 模型，來自浙江大學(xué)、新加坡管理大學(xué)、哈佛大學(xué)的研究者聯(lián)合提出 AnomalyCLIP，使其能在不同領(lǐng)域中更準(zhǔn)確地進(jìn)行零樣本異常檢測(cè)。AnomalyCLIP 的核心思想是學(xué)習(xí)一種與對(duì)象不相關(guān)的文本提示技術(shù)（object-agnostic learning），這種技術(shù)能夠捕捉到圖像中的一般性正常和異常特征，而不依賴于任何特定的前景對(duì)象，從而在多種語義的對(duì)象上實(shí)現(xiàn)泛化的異常識(shí)別。在 17 個(gè)來自不同領(lǐng)域（如缺陷檢測(cè)和醫(yī)療成像）的真實(shí)世界異常檢測(cè)數(shù)據(jù)集上進(jìn)行的大規(guī)模實(shí)驗(yàn)證明， AnomalyCLIP 在跨域且高度多樣化類別語義的數(shù)據(jù)中實(shí)現(xiàn)了卓越的零樣本異常檢測(cè)和分割能力。

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP-AI.x社區(qū)

論文名稱：AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
文章地址：https://arxiv.org/pdf/2310.18961.pdf
代碼地址：https://github.com/zqhang/AnomalyCLIP

背景

傳統(tǒng)的異常檢測(cè)方法通常需要在特定應(yīng)用領(lǐng)域內(nèi)有可用的訓(xùn)練樣本來學(xué)習(xí)檢測(cè)模型。然而，在某些情況下，這個(gè)假設(shè)可能并不成立，比如訪問訓(xùn)練數(shù)據(jù)會(huì)違反數(shù)據(jù)隱私政策，或者目標(biāo)領(lǐng)域內(nèi)根本就沒有可用的訓(xùn)練數(shù)據(jù)。

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP-AI.x社區(qū)

圖 1: 不同文本提示方法的結(jié)果對(duì)比。

由于不同應(yīng)用場(chǎng)景中異常的視覺外觀、前景對(duì)象和背景特征存在很大差異，例如不同產(chǎn)品表面的缺陷、不同器官上的病變或腫瘤，或者是工業(yè)缺陷與醫(yī)學(xué)圖像中腫瘤 / 病變的對(duì)比，我們需要能夠針對(duì)這些變化進(jìn)行準(zhǔn)確零樣本異常檢測(cè)（ZSAD）的檢測(cè)模型，這要求模型具有強(qiáng)大的泛化能力。

最近，大型預(yù)訓(xùn)練的視覺 - 語言模型（VLMs）在包括異常檢測(cè)在內(nèi)的多種視覺任務(wù)上展示了出色的零樣本識(shí)別能力。特別是，通過使用數(shù)以百萬計(jì)的圖像 - 文本對(duì)進(jìn)行預(yù)訓(xùn)練，CLIP 在強(qiáng)化各種下游任務(wù)的泛化能力方面發(fā)揮了巨大作用。然而，CLIP 這類 VLM 主要是為了學(xué)習(xí)前景對(duì)象的類別語義，而不是圖像中的異常 / 正常模式，因此它們?cè)诶斫庖曈X異常 / 正常性方面的泛化能力有限，導(dǎo)致在 ZSAD 性能方面表現(xiàn)不佳。

此外，當(dāng)前使用的文本提示方法，如圖 1d 和圖 1e 所示，無論是手動(dòng)定義的文本提示還是可學(xué)習(xí)的文本提示，往往會(huì)導(dǎo)致提示文本嵌入偏向于全局特征以實(shí)現(xiàn)有效的對(duì)象語義對(duì)齊，而忽略了通常表現(xiàn)在細(xì)節(jié)、局部特征中的異常。

方法介紹

AnomalyCLIP 旨在通過學(xué)習(xí)對(duì)象不相關(guān)的文本提示來讓 CLIP 實(shí)現(xiàn)不同領(lǐng)域中的準(zhǔn)確 ZSAD，從而捕獲圖像中的通用正常性和異常性，如圖 2 所示。AnomalyCLIP 首先為 “正常” 和 “異?！?這兩個(gè)廣泛的類別設(shè)計(jì)了一個(gè)簡(jiǎn)單而普遍有效的可學(xué)習(xí)的文本提示模板，然后通過使用輔助數(shù)據(jù)，結(jié)合圖像級(jí)別和像素級(jí)別的損失函數(shù)來讓提示嵌入學(xué)習(xí)圖像中存在的通用正常和異常模式。

這樣，AnomalyCLIP 可以專注于圖像中的異常區(qū)域而非對(duì)象的語義，使其能夠零樣本的識(shí)別出與輔助數(shù)據(jù)中相似的異常模式。如圖 1a 和圖 1b 所示，盡管輔助數(shù)據(jù)和目標(biāo)數(shù)據(jù)中前景對(duì)象的語義完全不同時(shí)，但是其異常模式保持相似，例如金屬螺母和板材上的劃痕、晶體管和 PCB 的錯(cuò)位、不同器官表面的腫瘤 / 病變等。而 CLIP 的文本提示嵌入在不同領(lǐng)域間的泛化能力有限，如圖 1c 所示。不同的是，AnomalyCLIP 學(xué)習(xí)到的對(duì)象不相關(guān)的文本提示嵌入能夠有效地泛化，識(shí)別出跨領(lǐng)域圖像中的異常，如圖 1f 所示。AnomalyCLIP只需要微調(diào)一次，就能夠泛化地捕捉不同對(duì)象、場(chǎng)景甚至跨領(lǐng)域的異常。其他的沒有了。

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP-AI.x社區(qū)

圖 2: AnomalyCLIP 框架圖

實(shí)驗(yàn)結(jié)果

該研究在 17 個(gè)公開可用的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)，涵蓋了各種工業(yè)檢測(cè)場(chǎng)景和醫(yī)學(xué)成像領(lǐng)域（包括攝影、內(nèi)窺鏡和放射學(xué)），以評(píng)估 AnomalyCLIP 的性能。在工業(yè)檢測(cè)方面，該研究考慮了 MVTec AD、VisA、MPDD、BTAD、SDD、DAGM 和 DTD-Synthetic 等數(shù)據(jù)集。在醫(yī)學(xué)成像方面，該研究考慮了皮膚癌檢測(cè)數(shù)據(jù)集 ISIC、結(jié)腸息肉檢測(cè)數(shù)據(jù)集 CVC-ClinicDB 和 CVC-ColonDB、Kvasir、Endo、甲狀腺結(jié)節(jié)檢測(cè)數(shù)據(jù)集 TN3k、腦瘤檢測(cè)數(shù)據(jù)集 HeadCT、BrainMRI、Br35H 和 COVID-19 檢測(cè)數(shù)據(jù)集 COVID-19。最先進(jìn)的 baseline 包括 CLIP、CLIP-AC、WinCLIP、VAND 和 CoOp。論文附錄提供了有關(guān)方法和數(shù)據(jù)預(yù)處理的更多細(xì)節(jié)。

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP-AI.x社區(qū)

表 1：工業(yè)領(lǐng)域零樣本異常檢測(cè)性能比較。最佳性能以紅色突出顯示，次佳性能以藍(lán)色突出顯示。?表示結(jié)果來自原始論文。（除了 MVTec AD 數(shù)據(jù)集以外，其他所有結(jié)果均由 MVTec AD fine-tuining 得到）

各種工業(yè)檢測(cè)領(lǐng)域的零樣本異常檢測(cè)性能

表 1 展示了 AnomalyCLIP 與五種 baseline 在七個(gè)工業(yè)缺陷數(shù)據(jù)集上的零樣本異常檢測(cè)結(jié)果，這些數(shù)據(jù)集具有非常不同的前景對(duì)象、背景和 / 或異常類型。AnomalyCLIP 在這些數(shù)據(jù)集上取得了優(yōu)越的零樣本異常檢測(cè)性能，大部分情況下明顯優(yōu)于其他五種方法。CLIP 和 CLIP-AC 表現(xiàn)較差的原因在于 CLIP 的原始預(yù)訓(xùn)練側(cè)重于對(duì)齊對(duì)象語義而非異常語義。WinCLIP 和 VAND 通過使用手動(dòng)定義的文本提示獲得了更好的結(jié)果。另外，CoOp 采用了可學(xué)習(xí)的提示來學(xué)習(xí)全局異常語義。然而，這些提示專注于全局特征，忽略了細(xì)粒度的局部異常語義，導(dǎo)致它們?cè)诋惓７指钌媳憩F(xiàn)不佳。為了將 CLIP 適應(yīng)于零樣本異常檢測(cè)，AnomalyCLIP 學(xué)習(xí)了對(duì)象不相關(guān)的文本提示，通過全局和局部上下文優(yōu)化，專注于學(xué)習(xí)通用的異常 / 正常模式，使得模型能夠有效識(shí)別全局和局部的異常。得到的提示還可以推廣到來自不同領(lǐng)域的不同數(shù)據(jù)集。為了提供更直觀的結(jié)果，該研究在圖 3 中可視化了 AnomalyCLIP、VAND 和 WinCLIP 在不同數(shù)據(jù)集上的異常分割結(jié)果。與 VAND 和 WinCLIP 相比，AnomalyCLIP 可以對(duì)來自不同工業(yè)檢測(cè)領(lǐng)域的缺陷進(jìn)行更準(zhǔn)確的異常分割。

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP-AI.x社區(qū)

圖 3: AnomalyCLIP 分割結(jié)果

ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測(cè)，浙大等提出AnomalyCLIP-AI.x社區(qū)

表 2：醫(yī)療領(lǐng)域零樣本異常檢測(cè)性能比較。最佳性能以紅色突出顯示，次佳性能以藍(lán)色突出顯示。請(qǐng)注意，醫(yī)療異常檢測(cè)數(shù)據(jù)集往往不同時(shí)包含像素級(jí)和圖像級(jí)標(biāo)簽，因此評(píng)估圖像級(jí)和像素級(jí)醫(yī)療異常檢測(cè)的數(shù)據(jù)集有所不同。

從缺陷數(shù)據(jù)集到多樣化的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集的泛化能力

為了評(píng)估模型的泛化能力，該研究進(jìn)一步考察了 AnomalyCLIP 在 10 個(gè)不同器官、不同成像設(shè)備上的醫(yī)學(xué)圖像數(shù)據(jù)集上的零樣本異常檢測(cè)性能。表 2 展示了相關(guān)結(jié)果，其中包括 AnomalyCLIP、VAND 和 CoOp 等基于學(xué)習(xí)的方法，均使用 MVTec AD 數(shù)據(jù)進(jìn)行fine-tuining。

值得注意的是，像 AnomalyCLIP 和 VAND 這樣的方法在各種醫(yī)學(xué)圖像數(shù)據(jù)集上取得了令人滿意的零樣本異常檢測(cè)性能，即使它們是使用缺陷檢測(cè)數(shù)據(jù)集進(jìn)行調(diào)優(yōu)的。在所有這些方法中，由于其通過對(duì)象不相關(guān)的提示學(xué)習(xí)帶來的強(qiáng)大泛化能力，AnomalyCLIP 是表現(xiàn)最佳的。

正如圖 3 所示，AnomalyCLIP 能夠準(zhǔn)確檢測(cè)出不同醫(yī)學(xué)圖像中的各種異常類型，例如攝影圖像中的皮膚癌區(qū)域，內(nèi)窺鏡圖像中的結(jié)腸息肉，超聲圖像中的甲狀腺結(jié)節(jié)以及 MRI 圖像中的腦腫瘤，其在定位異常病變 / 腫瘤區(qū)域方面的性能明顯優(yōu)于另外兩種方法 WinCLIP 和 VAND。這再次證明了 AnomalyCLIP 在醫(yī)學(xué)成像領(lǐng)域高度多樣化的對(duì)象語義數(shù)據(jù)集中具有領(lǐng)先的零樣本異常檢測(cè)性能。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/QcgvuGh-ww5ZGqqhbr_0UQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

基于知識(shí)圖譜的少樣本和零樣本學(xué)習(xí)綜述

mb5f8eba9bdb0af ? 4647瀏覽 ? 0回復(fù)
ICLR 2024 | UIUC等提出BioBridge：用知識(shí)圖譜構(gòu)建多模態(tài)生物醫(yī)學(xué)基礎(chǔ)模型

zhangyannni ? 4578瀏覽 ? 0回復(fù)
ICLR 2024 | 單卡訓(xùn)練僅需1天！川大、北郵等提出多模態(tài)噪聲關(guān)聯(lián)學(xué)習(xí)

zhangyannni ? 3743瀏覽 ? 0回復(fù)
OpenAI 推出語音引擎，只需15秒樣本，即能重建任何人的聲音

pangguiyu ? 3744瀏覽 ? 0回復(fù)
僅聽3秒，AI零樣本克隆人聲達(dá)到人類水平，情緒語調(diào)隨意改

Crystalcxt ? 3682瀏覽 ? 0回復(fù)
0樣本視頻編輯模型，普通人秒變鋼鐵俠

Aceryt ? 3433瀏覽 ? 0回復(fù)
華科等提出VIMTS：零樣本視頻端到端識(shí)別新SOTA

duhorse ? 4169瀏覽 ? 0回復(fù)
清華推出首個(gè)通用城市時(shí)空預(yù)測(cè)模型UniST，零樣本場(chǎng)景開箱即用｜KDD2024

Crystalcxt ? 4037瀏覽 ? 0回復(fù)
少或零樣本異常檢測(cè)最新研究跟蹤

angel ? 6188瀏覽 ? 0回復(fù)
大模型提示詞進(jìn)階，零樣本提示, 一次樣本提示和少樣本提示以及思維鏈(Chain of Thought, Cot)

AI探索時(shí)代 ? 6924瀏覽 ? 0回復(fù)
StyleTokenizer：零樣本精確控制圖像生成

angel ? 4211瀏覽 ? 0回復(fù)
GPT - SoVITS 如何憑借零樣本、少樣本及多語言功能解鎖語音合成新高度？

穿越時(shí)空111 ? 7727瀏覽 ? 0回復(fù)
3D任意部位分割：FIND 3D模型實(shí)現(xiàn)零樣本開放世界文本查詢分割

AIGC最前線 ? 3687瀏覽 ? 0回復(fù)
大模型在零樣本面部情緒標(biāo)注中的突破與應(yīng)用

xuxiangda ? 4281瀏覽 ? 0回復(fù)
ICLR 2025 | 視頻編輯最新SOTA！VideoGrain零樣本實(shí)現(xiàn)多粒度控制，精準(zhǔn)到像素級(jí)

angel ? 4106瀏覽 ? 0回復(fù)
字節(jié)等發(fā)布黑科技X-Dancer：零樣本音樂驅(qū)動(dòng)，真實(shí)感碾壓3D方案

angel ? 3960瀏覽 ? 0回復(fù)
ZeroHSI-一種零樣本的四維人類-場(chǎng)景交互合成方法

shizhi02 ? 2639瀏覽 ? 0回復(fù)
ICLR'25 | 基于記憶網(wǎng)絡(luò)和混合Prototype的時(shí)間序列異常檢測(cè)方法

海因斯DK ? 5621瀏覽 ? 0回復(fù)
MSCI：解決 CLIP 在組合式零樣本學(xué)習(xí)中的固有局限性

AIRoobt ? 2388瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

別再怪AI“聽不懂人話”了，90%的返工和錯(cuò)誤，都錯(cuò)在你下達(dá)指令的第一句話 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測(cè)中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

DeepSeek 成長(zhǎng)史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

上一篇：當(dāng)前最強(qiáng)國(guó)產(chǎn)Sora！清華團(tuán)隊(duì)突破16秒長(zhǎng)視頻，懂多鏡頭語言，會(huì)模擬物理規(guī)律

下一篇：一鍵換裝，讓奧特曼、黃仁勛穿上機(jī)器之心的文化衫

社區(qū)精華內(nèi)容

目錄

<nobr id="jyjsv"></nobr>