偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ICLR2025|小紅書等提出AI圖像檢測新基準(zhǔn)新方法

人工智能
本論文通過對現(xiàn)有 AI 生成圖像檢測方法的重新審視,提出了一個新的問題設(shè)定,構(gòu)建了更具挑戰(zhàn)性的 Chameleon 數(shù)據(jù)集,并設(shè)計了一個融合多專家特征的檢測器 AIDE。

在數(shù)字化浪潮洶涌澎湃的今天,AI生成內(nèi)容已深度滲透至我們生活的方方面面,從藝術(shù)創(chuàng)作到設(shè)計領(lǐng)域,再到信息傳播與版權(quán)保護,其影響力無處不在。然而,隨著生成模型技術(shù)的飛速發(fā)展,如何精準(zhǔn)甄別AI生成圖像成為業(yè)界與學(xué)界共同聚焦的難題。

近日,小紅書生態(tài)算法團隊、中科大、上海交通大學(xué)聯(lián)合在ICLR 2025上提出行業(yè)稀缺的全人工標(biāo)注Chameleon基準(zhǔn)和行業(yè)領(lǐng)先的AIDE檢測方法,為AI生成圖像檢測領(lǐng)域帶來了新的挑戰(zhàn)和曙光。

論文:

https://arxiv.org/pdf/2406.19435

主頁:

https://shilinyan99.github.io/AIDE/

代碼:

https://github.com/shilinyan99/AIDE

01 背景

隨著生成模型的飛速發(fā)展,AI生成的圖像在質(zhì)量上已經(jīng)達到了前所未有的高度,甚至能夠以假亂真,這在藝術(shù)創(chuàng)作、設(shè)計等領(lǐng)域帶來了新的機遇,但同時也引發(fā)了對圖像真實性的擔(dān)憂。如何有效地區(qū)分 AI 生成的圖像與真實世界的圖像,成為了圖像取證、打擊虛假信息以及保護版權(quán)等領(lǐng)域的關(guān)鍵問題。然而現(xiàn)有的 AI 生成圖像檢測方法雖然眾多,但大多在特定的生成模型上訓(xùn)練和測試,缺乏對真實世界中復(fù)雜多樣的 AI 生成圖像的檢測能力,這促使我們重新審視這一任務(wù)的解決情況。

因此,研究團隊提出了Chameleon數(shù)據(jù)集和AIDE檢測器。

02 問題設(shè)定:重新定義 AI生成圖像檢測任務(wù)

Train-Test Setting-I:在現(xiàn)有研究中,AI 生成圖像檢測任務(wù)通常被設(shè)定為在一個特定的生成模型(如 GAN 或擴散模型)上訓(xùn)練模型,然后在其他生成模型上進行測試。

圖片

然而,通常來說,這種設(shè)定存在兩個主要問題:

  1. 評估Benchmark過于簡單:現(xiàn)有Benchmark中的圖像通常會有一些artifacts。
  2. 訓(xùn)練數(shù)據(jù)的局限性:將模型限制在特定類型的生成模型上 (GAN or 擴散模型) 訓(xùn)練,限制了模型從更先進的生成模型中學(xué)習(xí)多樣化特征的能力。

為了解決這些問題,我們提出了一個新的問題設(shè)定:

Train-Test Setting-II:鑒別器可以將多種生成模型的圖像混合一起訓(xùn)練,然后在更具挑戰(zhàn)性的、真實世界場景中的圖像上進行測試。這種設(shè)定更符合實際應(yīng)用中的需求,能夠更好地評估模型的泛化能力和魯棒性。

圖片


03 ”幻像熔爐“ — Chameleon 數(shù)據(jù)集:挑戰(zhàn)人類感知的基準(zhǔn)

為了更真實地評估 AI 生成圖像檢測方法的性能,我們精心構(gòu)建了Chameleon 數(shù)據(jù)集,如下圖展示了我們的Chameleon數(shù)據(jù)集。

圖片

3.1 數(shù)據(jù)集特點

Chameleon數(shù)據(jù)集具有以下顯著特點:

  1. 高度逼真性:所有AI生成圖像均通過了人類感知“圖靈測試”,即人類標(biāo)注者無法將其與真實圖像區(qū)分開來。這些圖像在視覺上與真實圖像高度相似,能夠有效挑戰(zhàn)現(xiàn)有檢測模型的極限。
  2. 多樣化類別:數(shù)據(jù)集涵蓋了人類、動物、物體和場景等多類圖像,全面模擬現(xiàn)實世界中的各類場景。這種多樣性確保了模型在不同類別上的泛化能力。
  3. 高分辨率:圖像分辨率普遍超過720P,最高可達4K。高分辨率圖像不僅提供了更豐富的細節(jié)信息,也增加了檢測模型對細微差異的捕捉能力。

3.2 數(shù)據(jù)集構(gòu)建

為構(gòu)建一個能夠真實反映 AI 生成圖像檢測挑戰(zhàn)的高質(zhì)量數(shù)據(jù)集,我們在數(shù)據(jù)收集、清洗和標(biāo)注環(huán)節(jié)均采取了創(chuàng)新且嚴(yán)謹?shù)姆椒ǎ_保數(shù)據(jù)集的高質(zhì)量和高逼真度。

3.2.1 數(shù)據(jù)收集:多渠道、高逼真度圖像獲取

與之前的基準(zhǔn)數(shù)據(jù)集不同,我們從多個流行的 AI 繪畫社區(qū)(如 ArtStation、Civitai 和 Liblib)收集了超過 150K 的 AI 生成圖像,這些圖像均由廣泛的用戶創(chuàng)作,使用了多種先進的生成模型(如 Midjourney、DALL·E 3 和 Stable Diffusion 等)。這些圖像不僅在視覺上逼真,而且涵蓋了豐富多樣的主題和風(fēng)格,包括人物、動物、物體和場景等。此外,我們還從 Unsplash 等平臺收集了超過 20K 的真實圖像,這些圖像均由專業(yè)攝影師拍攝,具有高分辨率和高質(zhì)量。所有圖像均獲得了合法授權(quán),確保了數(shù)據(jù)的合法性和可用性。

相比之下,之前的基準(zhǔn)數(shù)據(jù)集通常使用生成效果較差的模型生成圖像,缺乏多樣性和真實感,如下圖所示。

圖片

3.2.2 數(shù)據(jù)清洗:多維度、精細化過濾

為確保數(shù)據(jù)集的高質(zhì)量,我們對收集的圖像進行了多維度、精細化的清洗過程:

  1. 分辨率過濾:我們過濾掉了分辨率低于 448×448 的圖像,確保所有圖像具有足夠的細節(jié)和清晰度,以反映 AI 生成圖像的真實特性。
  2. 內(nèi)容過濾:利用先進的安全檢查模型(如 Stable Diffusion 的安全檢查模型),我們過濾掉了包含暴力、色情和其他不適宜內(nèi)容的圖像,確保數(shù)據(jù)集的合規(guī)性和適用性。
  3. 去重處理:通過比較圖像的哈希值,我們?nèi)コ酥貜?fù)的圖像,確保數(shù)據(jù)集的多樣性和獨立性。
  4. 文本-圖像一致性過濾:利用 CLIP 模型,我們計算了圖像與對應(yīng)文本描述的相似度,過濾掉了與文本描述不匹配的圖像,確保圖像與文本的一致性和相關(guān)性。

之前的基準(zhǔn)數(shù)據(jù)集往往缺乏嚴(yán)格的過濾步驟,導(dǎo)致數(shù)據(jù)集中包含大量低質(zhì)量的圖像,影響了數(shù)據(jù)集的整體質(zhì)量。

3.2.3 數(shù)據(jù)標(biāo)注:專業(yè)標(biāo)注平臺與多輪評估

為確保數(shù)據(jù)集的準(zhǔn)確性和可靠性,我們建立了專門的標(biāo)注平臺,并招募了 20 名具有豐富經(jīng)驗的人類標(biāo)注者對圖像進行分類和真實性評估:

  1. 分類標(biāo)注:標(biāo)注者將圖像分為人類、動物、物體和場景四類,確保數(shù)據(jù)集覆蓋了多種現(xiàn)實世界中的場景和對象。
  2. 真實性評估:標(biāo)注者根據(jù)“是否可以用相機拍攝”這一標(biāo)準(zhǔn)對圖像的真實性進行評估。每個圖像獨立評估兩次,只有當(dāng)兩名標(biāo)注者均誤判為真實時,圖像才被標(biāo)記為“高逼真”。
  3. 多輪評估:為確保標(biāo)注的準(zhǔn)確性,我們對標(biāo)注結(jié)果進行了多輪審核和校對,確保每個圖像的分類和真實性評估結(jié)果準(zhǔn)確無誤。

與之前的基準(zhǔn)數(shù)據(jù)集不同,我們的數(shù)據(jù)集經(jīng)過了嚴(yán)格的人工標(biāo)注,確保了數(shù)據(jù)集的高質(zhì)量和高逼真度。之前的基準(zhǔn)數(shù)據(jù)集往往缺乏嚴(yán)格的人工標(biāo)注,導(dǎo)致數(shù)據(jù)集中的圖像質(zhì)量和標(biāo)注準(zhǔn)確性參差不齊。

通過上述多維度、精細化的數(shù)據(jù)收集、清洗和標(biāo)注過程,我們構(gòu)建了一個高質(zhì)量、高逼真度的 AI 生成圖像檢測基準(zhǔn)數(shù)據(jù)集,為后續(xù)的研究和模型評估提供了堅實的基礎(chǔ)。我們的數(shù)據(jù)集不僅在規(guī)模上更大,而且在圖像質(zhì)量和標(biāo)注精度上也有了顯著提升,能夠更好地反映 AI 生成圖像檢測的實際挑戰(zhàn)。

3.3 數(shù)據(jù)集對比

Chameleon數(shù)據(jù)集可以作為現(xiàn)有評測數(shù)據(jù)集的擴展,Chameleon數(shù)據(jù)集在規(guī)模、多樣性和圖像質(zhì)量等方面均展現(xiàn)出顯著優(yōu)勢:

  • 規(guī)模:Chameleon數(shù)據(jù)集包含約26,000張測試圖像,是目前最大的AI生成圖像檢測數(shù)據(jù)集之一。
  • 多樣性:數(shù)據(jù)集涵蓋了多種生成模型和圖像類別,遠超其他數(shù)據(jù)集的單一類別。
  • 圖像質(zhì)量:圖像分辨率從720P到4K不等,提供了更高質(zhì)量的圖像數(shù)據(jù),增加了檢測模型的挑戰(zhàn)性。

圖片

04 ”超級偵探“ — AIDE模型:多專家融合的檢測框架

在AI生成圖像檢測領(lǐng)域,現(xiàn)有的檢測方法往往只能從單一角度進行分析,難以全面捕捉AI生成圖像與真實圖像之間的細微差異。為了解決這一問題,研究者們提出了簡單且有效的AIDE(AI-generated Image DEtector with Hybrid Features)模型,該模型通過融合多種專家模塊,從低級像素統(tǒng)計和高級語義兩個層面全面捕捉圖像特征,實現(xiàn)了對AI生成圖像的精準(zhǔn)檢測。

4.1 模型整體架構(gòu)

AIDE模型主要由兩個核心模塊組成:Patchwise Feature Extraction(PFE)模塊和Semantic Feature Embedding(SFE)模塊。這兩個模塊通過多專家融合的方式,共同為最終的分類決策提供豐富的特征信息。

圖片

4.2 Patchwise Feature Extraction(PFE)模塊

PFE模塊旨在捕捉圖像中的低級像素統(tǒng)計特征,特別是AI生成圖像中常見的噪聲模式和紋理異常。具體而言,該模塊通過以下步驟實現(xiàn):

  1. Patch Selection via DCT Scoring:首先,將輸入圖像劃分為多個固定大小的圖像塊(如32×32像素)。然后,對每個圖像塊應(yīng)用離散余弦變換(DCT),將其轉(zhuǎn)換到頻域。通過設(shè)計不同的帶通濾波器,計算每個圖像塊的頻率復(fù)雜度得分,從而識別出最高頻率和最低頻率的圖像塊。
  2. Patchwise Feature Encoder:將篩選出的高頻和低頻圖像塊調(diào)整為統(tǒng)一大?。ㄈ?56×256像素),并輸入到SRM(Spatial Rich Model)濾波器中提取噪聲模式特征。這些特征隨后通過兩個ResNet-50網(wǎng)絡(luò)進行進一步處理,得到最終的特征圖。

4.3 Semantic Feature Embedding(SFE)模塊

SFE模塊旨在捕捉圖像中的高級語義特征,特別是物體共現(xiàn)和上下文關(guān)系等。具體而言,該模塊通過以下步驟實現(xiàn):

  1. Semantic Feature Embedding:利用預(yù)訓(xùn)練的OpenCLIP模型對輸入圖像進行全局語義編碼,得到圖像的視覺嵌入特征。通過添加線性投影層和平均空間池化操作,進一步提取圖像的全局上下文信息。

4.4 Discriminator模塊

將PFE和SFE模塊提取的特征在通道維度上進行融合,通過多層感知機(MLP)進行最終的分類預(yù)測。具體而言,首先對高頻和低頻特征圖進行平均池化,得到低級特征表示;然后將其與高級語義特征進行通道級拼接,形成最終的特征向量;最后通過MLP網(wǎng)絡(luò)輸出分類結(jié)果。

05 實驗

5.1 實驗設(shè)置

1. 數(shù)據(jù)集:實驗在AIGCDetectBenchmark、GenImage和Chameleon三個數(shù)據(jù)集上進行。AIGCDetectBenchmark和GenImage是現(xiàn)有的基準(zhǔn)測試數(shù)據(jù)集,而Chameleon是研究者們新構(gòu)建的更具挑戰(zhàn)性的數(shù)據(jù)集。

2. 模型對比:研究者選擇了9種現(xiàn)成的AI生成圖像檢測器進行對比,包括CNNSpot、FreDect、Fusing、LNP、LGrad、UnivFD、DIRE、PatchCraft和NPR。

3. 評價指標(biāo):實驗采用分類準(zhǔn)確率(Accuracy)和平均精度(Average Precision, AP)作為評價指標(biāo)。

5.2  實驗結(jié)果

5.2.1 AIGCDetectBenchmark & GenImage

我們評測了AIDE在AIGCDetectBenchmark和GenImage上的結(jié)果,如下表所示:

圖片

圖片

AIDE模型在這兩個數(shù)據(jù)集上的優(yōu)異表現(xiàn)表明,融合低級像素統(tǒng)計和高級語義特征的方法能夠有效捕捉AI生成圖像與真實圖像之間的差異,從而提高檢測準(zhǔn)確率。

5.2.2 Chameleon數(shù)據(jù)集

我們在Chameleon  benchmark上測評了9個現(xiàn)有的detectors,如下表所示。

圖片

同時我們可視化了,之前的SOTA方法PatchCraft在AIGCDetectBenchmark & GenImage 以及Chameleon上的表現(xiàn),如下圖所示:

圖片

結(jié)果表明,之前在AIGCDetectBenchmark &GenImage上表現(xiàn)優(yōu)異的模型,在我們Chameleon benchmark上均表現(xiàn)很差,這表明Chameleon數(shù)據(jù)集中的圖像確實具有高度的逼真性,對現(xiàn)有檢測模型提出了更大的挑戰(zhàn)。

06 結(jié)論與展望

本論文通過對現(xiàn)有 AI 生成圖像檢測方法的重新審視,提出了一個新的問題設(shè)定,構(gòu)建了更具挑戰(zhàn)性的 Chameleon 數(shù)據(jù)集,并設(shè)計了一個融合多專家特征的檢測器 AIDE。實驗結(jié)果表明,AIDE 在現(xiàn)有的兩個流行基準(zhǔn)(AIGCDetectBenchmark 和GenImage)上取得了顯著的性能提升,分別比現(xiàn)有的最先進方法提高了 3.5% 和 4.6% 的準(zhǔn)確率。然而,在我們提出的 Chameleon 基準(zhǔn)上,盡管 AIDE 取得了最好的性能,但與現(xiàn)有基準(zhǔn)相比,仍存在較大的差距。這表明,檢測 AI 生成圖像的任務(wù)仍然具有很大的挑戰(zhàn)性,需要未來進一步的研究和改進。我們希望我們的工作能夠為這一領(lǐng)域的研究提供新的思路和方向,推動 AI 生成圖像檢測技術(shù)的發(fā)展。

盡管AIDE模型在AI生成圖像檢測領(lǐng)域取得了顯著進展,但研究者們?nèi)杂媱澰谖磥淼墓ぷ髦羞M一步優(yōu)化模型架構(gòu),此外,研究者們還計劃擴大Chameleon數(shù)據(jù)集的規(guī)模,涵蓋更多類別、更多場景、更多生成模型的圖像,以推動AI生成圖像檢測技術(shù)的進一步發(fā)展,敬請期待!

同時團隊還有一篇輕量高效的AI圖像檢測的工作「Improving Synthetic Image Detection Towards Generalization: An Image Transformation Perspective」*, 發(fā)表于KDD2025, 僅用1.44M參數(shù)超越SOTA4.5個點。

*上述論文鏈接:https://arxiv.org/abs/2408.06741

07 作者介紹

大少

小紅書多模態(tài)算法工程師,碩士畢業(yè)于復(fù)旦大學(xué)計算機系,曾在 ICLR、NeurIPS、CVPR、ECCV、AAAI等機器學(xué)習(xí)與計算機視覺領(lǐng)域頂級會議上發(fā)表 10 余篇論文,曾獲2024全球DeepFake攻防挑戰(zhàn)賽 Global Multimedia Deepfake Detection Challenge 2024 Video Detection 任務(wù)全球亞軍、YouTube-VOS 視頻分割競賽全球亞軍等。主要研究方向:多模態(tài)大模型、多模態(tài)理解 & 生成、多模態(tài)表征、AIGC生成&鑒別等。

嘉音

小紅書多模態(tài)算法工程師,碩士畢業(yè)于清華大學(xué)計算機系,負責(zé)小紅書社區(qū)生態(tài)場景下大模型算法研究與應(yīng)用。曾在ICLR、 CVPR、ACM MM、 KDD 等機器學(xué)習(xí)、計算機視覺、數(shù)據(jù)挖掘領(lǐng)域頂會發(fā)表數(shù)篇論文,曾獲2024全球DeepFake攻防挑戰(zhàn)賽 Global Multimedia Deepfake Detection Challenge 2024 Video Detection 任務(wù)全球亞軍。主要研究方向:多模態(tài)大模型、AIGC生成&鑒別、視頻理解、視頻編輯等。

萊戈

小紅書生態(tài)算法團隊負責(zé)人。曾在 CVPR、ICCV、ICLR、ECCV、IJCV 等會刊發(fā)表 10 余篇論文,曾獲 YouTube-VOS 視頻分割競賽 Top-3 排名,曾獲天池視覺分割大獎賽復(fù)賽第 1 名。主要研究方向:目標(biāo)跟蹤、視頻分割、多模態(tài)分類/檢索、多模態(tài)大模型等。

責(zé)任編輯:龐桂玉 來源: 小紅書技術(shù)REDtech
相關(guān)推薦

2025-02-20 13:50:00

AI生成訓(xùn)練

2025-01-17 14:38:40

2025-02-21 09:35:00

3DAI生成

2025-08-13 09:00:00

AI模型訓(xùn)練

2025-08-20 07:06:23

2025-04-10 09:38:37

2025-10-17 09:56:05

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2019-12-30 09:41:59

機器學(xué)習(xí)人工智能計算機

2025-08-20 07:49:28

2022-12-08 13:00:10

AI性別偏見

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2024-10-23 19:47:54

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2025-05-12 09:28:00

2025-08-29 09:09:00

AI模型數(shù)據(jù)

2025-05-29 09:34:14

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2021-11-26 18:37:39

技術(shù)人工智能計算機
點贊
收藏

51CTO技術(shù)棧公眾號