首個(gè)統(tǒng)一的圖像與視頻AIGC可解釋性檢測(cè)框架,多榜單SOTA性能
想象一下:你正在瀏覽社交媒體,看到一張震撼的圖片或一段令人震撼的視頻。它栩栩如生,細(xì)節(jié)豐富,讓你不禁信以為真。但它究竟是真實(shí)記錄,還是由頂尖 AI 精心炮制的「杰作」?如果一個(gè) AI 工具告訴你這是「假的」,它能進(jìn)一步解釋理由嗎?它能清晰指出圖像中不合常理的光影,或是視頻里一閃而過的時(shí)序破綻嗎?
這種「真假難辨」且「知其然不知其所以然」的困境,正是當(dāng)前 AIGC 時(shí)代我們面臨的嚴(yán)峻挑戰(zhàn)。隨著 AI 生成的內(nèi)容越來越逼真 ,傳統(tǒng)的「黑箱式」檢測(cè)工具已難以滿足我們對(duì)透明度和可信度的需求 。我們迫切需要能夠同時(shí)處理圖像和視頻、并且能給出「診斷報(bào)告」的智能檢測(cè)系統(tǒng)。正因如此,這篇論文提出了「IVY-FAKE:一個(gè)統(tǒng)一的可解釋性圖像與視頻 AIGC 檢測(cè)框架與基準(zhǔn)」 ,目標(biāo)是讓 AI 不僅能識(shí)別「李逵」與「李鬼」,更能清楚解釋:是哪些具體的視覺偽影(空間或時(shí)間上的),暴露了內(nèi)容的「AI 基因」。
該工作由π3 AI Lab, 武漢大學(xué),南京大學(xué),斯坦福大學(xué)機(jī)構(gòu)的多位研究人員合作完成。
- 論文標(biāo)題:IVY-FAKE: A Unified Explainable Framework and Benchmark for Image and Video AIGC Detection
- 項(xiàng)目主頁:https://pi3ai.github.io/IvyFake/
- Arxiv 地址:https://arxiv.org/abs/2506.00979
- 數(shù)據(jù)集地址:https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake
告別黑箱!IVY-FAKE 如何革新 AIGC 內(nèi)容檢測(cè)與可解釋性?
隨著 AI 生成內(nèi)容(AIGC)技術(shù)的飛速發(fā)展,無論是圖像還是視頻,其逼真程度已經(jīng)到了令人嘆為觀止的地步。從 DALL-E 、Imagen 到 Stable Diffusion ,再到驚艷全球的Sora、Veo3,這些強(qiáng)大的生成模型在為我們打開無限創(chuàng)意的同時(shí),也帶來了對(duì)內(nèi)容真實(shí)性和完整性的嚴(yán)峻考驗(yàn) 。虛假信息、內(nèi)容溯源、公眾信任等問題日益凸顯 。
一、背景與動(dòng)機(jī):AIGC 浪潮下的「真?zhèn)文妗怪?/span>
當(dāng)前的 AIGC 檢測(cè)方法大多像一個(gè)「黑箱」,它們能告訴你一張圖片或一段視頻是真是假,但很少能解釋為什么。這種缺乏可解釋性的二元分類器,不僅限制了模型的透明度和可信度,也阻礙了它們?cè)趯?shí)際場(chǎng)景中的有效部署 。想象一下,如果一個(gè)模型告訴你某段視頻是 AI 生成的,但無法指出具體的偽造痕跡,我們又該如何完全信任它的判斷呢?
此外,現(xiàn)有的研究往往將圖像和視頻檢測(cè)割裂開來,缺乏一個(gè)統(tǒng)一的框架來同時(shí)處理這兩種模態(tài)的內(nèi)容 。這無疑增加了研究和應(yīng)用的復(fù)雜性。
正是基于這些痛點(diǎn),研究者們提出了 IVY-FAKE,其核心目標(biāo)是推動(dòng) AIGC 檢測(cè)向著更統(tǒng)一、更可解釋的方向發(fā)展。
圖 1:IVY-FAKE 框架:通過對(duì)時(shí)間和空間偽影的深入分析,該框架實(shí)現(xiàn)了對(duì) AI 生成內(nèi)容的可解釋性檢測(cè)
二、核心問題:現(xiàn)有方法的瓶頸與研究者的雄心
在 IVY-FAKE 出現(xiàn)之前,AIGC 檢測(cè)領(lǐng)域主要面臨以下幾個(gè)核心挑戰(zhàn):
1. 可解釋性缺失:如前所述,大多數(shù)模型僅提供 “真” 或 “假” 的標(biāo)簽,無法解釋判斷依據(jù)。
2. 模態(tài)不統(tǒng)一:圖像檢測(cè)和視頻檢測(cè)往往是獨(dú)立的研究分支,缺乏能夠同時(shí)高效處理兩者的統(tǒng)一模型。
3. 基準(zhǔn)數(shù)據(jù)集的局限性:
- 模態(tài)覆蓋缺少:現(xiàn)有數(shù)據(jù)集要么只關(guān)注圖像(如 FakeBench, FakeClue ),要么在多模態(tài)數(shù)據(jù)量上有所欠缺(如 LOKI )。
- 標(biāo)注稀疏:許多數(shù)據(jù)集只提供二元標(biāo)簽,缺乏詳細(xì)的、能夠支持可解釋性研究的自然語言標(biāo)注。
- 多樣性不足:部分?jǐn)?shù)據(jù)集在生成器的多樣性、內(nèi)容場(chǎng)景的覆蓋度上存在不足,難以全面評(píng)估檢測(cè)模型的泛化能力 。
面對(duì)這些挑戰(zhàn),作者們旨在回答以下關(guān)鍵問題:
- 如何構(gòu)建一個(gè)大規(guī)模、多模態(tài)(圖像 + 視頻)、且包含豐富自然語言解釋的 AIGC 檢測(cè)基準(zhǔn)數(shù)據(jù)集?
- 能否設(shè)計(jì)一個(gè)統(tǒng)一的視覺語言模型,不僅能準(zhǔn)確檢測(cè)圖像和視頻中的 AIGC 痕跡,還能對(duì)其進(jìn)行合理解釋?
三、方法概覽:IVY-FAKE 數(shù)據(jù)集與 IVY-XDETECTOR 模型雙劍合璧
為了系統(tǒng)性地解決上述問題,研究者們提出了兩大核心貢獻(xiàn):大規(guī)??山忉屝詳?shù)據(jù)集 IVY-FAKE 和統(tǒng)一的檢測(cè)與解釋模型 IVY-XDETECTOR。
1. IVY-FAKE:一個(gè)里程碑式的可解釋性 AIGC 檢測(cè)基準(zhǔn)
IVY-FAKE 數(shù)據(jù)集的構(gòu)建是這項(xiàng)工作的基石。它具有以下幾個(gè)顯著特點(diǎn):
- 大規(guī)模與多模態(tài):包含超過 15 萬個(gè)帶標(biāo)注的訓(xùn)練樣本(94,781 張圖片和 54,967 個(gè)視頻)以及約 1.87 萬個(gè)評(píng)估樣本(每種模態(tài)約 8700+)。內(nèi)容覆蓋動(dòng)物、物體、人像、場(chǎng)景、文檔、衛(wèi)星圖和 DeepFake 等多種類別 。
- 豐富的可解釋性標(biāo)注:不同于以往僅提供二元標(biāo)簽的數(shù)據(jù)集,IVY-FAKE 中的每個(gè)樣本都附帶了詳細(xì)的自然語言推理過程,解釋了為何判定其為真實(shí)或 AI 生成 。
- 多樣化的數(shù)據(jù)來源:涵蓋了 GAN、擴(kuò)散模型和 Transformer 等多種主流 AIGC 架構(gòu)生成的內(nèi)容,并結(jié)合了真實(shí)場(chǎng)景數(shù)據(jù) 。數(shù)據(jù)來源包括公開基準(zhǔn)數(shù)據(jù)集(如 GenVideo, LOKI, FakeClue, WildFake)和網(wǎng)絡(luò)爬取的內(nèi)容,確保了時(shí)效性和廣泛性 。
- 結(jié)構(gòu)化的標(biāo)注生成:研究者利用多模態(tài)大語言模型 Gemini 2.5 Pro ,通過知識(shí)蒸餾過程生成結(jié)構(gòu)化的、可解釋的輸出。特別地,他們采用了<think></think > 和 < conclusion></conclusion > 標(biāo)簽來引導(dǎo)模型先闡述推理過程,再給出最終判斷 。標(biāo)注時(shí)還會(huì)提供真實(shí)性標(biāo)簽,讓模型解釋分類背后的原因 。
- 細(xì)致的特征維度:解釋被進(jìn)一步分為空間特征(包含 8 個(gè)子維度,如不切實(shí)際的光照、局部模糊、字跡不可讀等)和時(shí)間特征(包含 4 個(gè)子維度,如亮度差異、面部表情不自然、重復(fù)組件等,僅適用于視頻)。
圖 2:所提出的統(tǒng)一且可解釋的 IVY-FAKE 數(shù)據(jù)集。來自不同領(lǐng)域的輸入圖像或視頻與特定提示詞一起由多模態(tài)大模型(MLLM)處理,模型通過時(shí)間和空間分析生成結(jié)構(gòu)化、可解釋的標(biāo)注信息。
與現(xiàn)有數(shù)據(jù)集相比(見下表,改編自原論文表 1 ),IVY-FAKE 在數(shù)據(jù)規(guī)模、模態(tài)覆蓋、特別是可解釋性標(biāo)注的平均 Token 長(zhǎng)度上均展現(xiàn)出明顯優(yōu)勢(shì)。
表 1:在二分類與可解釋性任務(wù)中使用的不同數(shù)據(jù)集對(duì)比。標(biāo)記長(zhǎng)度通過 tiktoken 庫中的 GPT-4o 分詞器計(jì)算
2. IVY-XDETECTOR:統(tǒng)一的 AIGC 檢測(cè)與解釋架構(gòu)
基于 IVY-FAKE 數(shù)據(jù)集,研究者們提出了 IVY-XDETECTOR 模型,這是一個(gè)專為魯棒和可解釋 AIGC 檢測(cè)設(shè)計(jì)的多模態(tài)大語言模型 。
- 模型架構(gòu):遵循 LLaVA 范式 ,并使用 Ivy-VL-LLaVA 權(quán)重進(jìn)行初始化 。其核心組件包括:
視覺編碼器 (Visual Encoder):采用 SigLIP 處理輸入圖像和視頻幀。
視覺投影器 (Visual Projector)
大語言模型 (LLM) - 關(guān)鍵技術(shù):
動(dòng)態(tài)分辨率處理:對(duì)于高分辨率圖像,采用分割成多個(gè) 384x384 子圖再輸入編碼器的方式,有效輸入分辨率最高可達(dá) 2304x2304 。
保留時(shí)間信息:對(duì)于視頻輸入,不對(duì)視頻特征進(jìn)行時(shí)間壓縮,而是將所有幀的特征拼接后輸入 LLM,以保留豐富的時(shí)間信息 。 - 漸進(jìn)式多模態(tài)訓(xùn)練框架 (Progressive Multimodal Training):這是一個(gè)分階段的優(yōu)化策略,旨在逐步提升模型的 AIGC 檢測(cè)和解釋生成能力 。
階段 1:賦予視頻理解能力。使用 Ivy-VL-LLaVA(在圖文基準(zhǔn)上 SOTA,但缺乏視頻數(shù)據(jù)經(jīng)驗(yàn))進(jìn)行初始化 。在約 300 萬個(gè)視頻 - 文本對(duì)上進(jìn)行訓(xùn)練(數(shù)據(jù)來自 VideoChatFlash, VideoLLaMA3 等),賦予模型基礎(chǔ)的視頻理解能力 。
階段 2:AIGC 檢測(cè)微調(diào)。利用 Demamba, FakeClue, WildFake 等數(shù)據(jù)集編譯一個(gè)專門用于指令微調(diào)的目標(biāo)數(shù)據(jù)集 。核心目標(biāo)是訓(xùn)練 MLLM 進(jìn)行二元 AIGC判別(“真” 或 “假”)。
階段 3:指令驅(qū)動(dòng)的檢測(cè)與可解釋性聯(lián)合優(yōu)化。將階段 2 的 AIGC 檢測(cè)數(shù)據(jù)與新增的、關(guān)注可解釋性的指令數(shù)據(jù)結(jié)合起來進(jìn)行聯(lián)合訓(xùn)練 。此階段的指令旨在引導(dǎo)模型生成詳細(xì)的、分步驟的推理過程 。
圖 3:Ivy-Detector 的三階段訓(xùn)練流程,包括通用視頻理解、檢測(cè)指令微調(diào)和可解釋性指令微調(diào)
通過這種三階段漸進(jìn)式訓(xùn)練,IVY-XDETECTOR 能夠系統(tǒng)地發(fā)展出從辨別細(xì)微 AIGC 偽影、做出準(zhǔn)確分類到闡明連貫合理解釋的全面技能 。
四、實(shí)驗(yàn)結(jié)果:多維度驗(yàn)證,表現(xiàn) SOTA
研究者們?cè)诙鄠€(gè)基準(zhǔn)上對(duì) IVY-XDETECTOR 的檢測(cè)和解釋能力進(jìn)行了廣泛評(píng)估。
1. 圖像內(nèi)容分類
- GenImage Benchmark :包含 Midjourney, Stable Diffusion 等 8 個(gè)主流生成器的子集。與 CNNSpot, DIRE, AIDE 等 5 個(gè) SOTA 檢測(cè)器相比,IVY-Det(論文中提出的檢測(cè)器變體)的平均準(zhǔn)確率從之前最佳的 86.88% 提升到了 98.36%,IVY-xDet(可解釋性版本)也達(dá)到了 97.29% 。在 BigGAN 等子集上提升尤為明顯,顯示了新基準(zhǔn)的優(yōu)越性 。
表 2:在 Genimage 數(shù)據(jù)集(Zhu 等,2023b)上的對(duì)比。不同檢測(cè)器(行)在識(shí)別來自不同生成器(列)的真實(shí)與偽造圖像時(shí)的準(zhǔn)確率(%)。最佳結(jié)果用加粗標(biāo)注,次佳結(jié)果用下劃線標(biāo)注。
- Chameleon Benchmark :與 10 種檢測(cè)方法對(duì)比,IVY-Det 和 IVY-xDet 的整體準(zhǔn)確率分別達(dá)到了 85.20% 和 83.39%,遠(yuǎn)超之前最佳的 65.77%。
表 3:在 Chameleon 數(shù)據(jù)集(Yan 等,2025)上的對(duì)比。不同檢測(cè)器(行)在識(shí)別真實(shí)與偽造圖像時(shí)的準(zhǔn)確率(%)。對(duì)于每個(gè)訓(xùn)練數(shù)據(jù)集,第一行表示整體準(zhǔn)確率,第二行表示“偽造/真實(shí)”類別的準(zhǔn)確率。
2. 視頻內(nèi)容分類
- GenVideo Dataset :這是目前最大的生成視頻檢測(cè)基準(zhǔn)。IVY-Det 和 IVY-xDet 在多數(shù)生成源上均實(shí)現(xiàn)了超過 99% 的準(zhǔn)確率(F1 分?jǐn)?shù))。特別是在最具挑戰(zhàn)性的 “HotShot” 子集上,IVY-Det 的召回率達(dá)到了 99.57%,而之前最佳方法僅為 65.43% 。
表 4:與 GenVideo 的對(duì)比。在多對(duì)多泛化任務(wù)中的 F1 分?jǐn)?shù)(F1)、召回率(R)和平均精度(AP)。其中 「Demamba-XCLIP-FT」簡(jiǎn)稱為 「Demamba」。
3. 圖像和視頻內(nèi)容推理(可解釋性)
研究者在完整的 IVY-FAKE 數(shù)據(jù)集上,將 IVY-xDet 與多個(gè)頂尖的開源(Qwen2.5-7B, InternVL2.5-8B)和閉源(GPT-4V, Gemini 2.5 Pro)MLLM進(jìn)行了比較 。評(píng)估指標(biāo)包括 ROUGE-L 和基于 LLM-as-a-judge 的四個(gè)維度:完整性、相關(guān)性、細(xì)節(jié)水平和解釋質(zhì)量 。
- 圖像推理:IVY-xDet 在準(zhǔn)確率(0.805)、ROUGE-L(0.271)以及 GPT 輔助評(píng)估平均分(4.40/5)上全面領(lǐng)先。
- 視頻推理:IVY-xDet 同樣表現(xiàn)最佳,準(zhǔn)確率 0.945,ROUGE-L 為 0.303,GPT 輔助評(píng)估平均分 3.86/5。
表 5:模型在圖像與視頻任務(wù)中的性能對(duì)比?!白詣?dòng)指標(biāo)”包括準(zhǔn)確率(Acc)、F1 分?jǐn)?shù)、ROUGE-L 和相似度(SIM)評(píng)分?!癎PT 協(xié)助評(píng)估”包括四個(gè)主觀評(píng)判標(biāo)準(zhǔn):全面性、相關(guān)性、細(xì)節(jié)和解釋性,以及它們的平均得分。
這些結(jié)果表明,IVY-XDETECTOR 不僅在檢測(cè)精度上達(dá)到了 SOTA,其生成自然語言解釋的質(zhì)量也顯著優(yōu)于其他基線模型,能夠提供更透明、更易于人類理解的偽影描述 。
五、主要結(jié)論與啟示:邁向透明可信的 AIGC 分析
這項(xiàng)研究為 AIGC 檢測(cè)領(lǐng)域帶來了幾個(gè)關(guān)鍵突破:
1. IVY-FAKE 的開創(chuàng)性:首次提出了一個(gè)大規(guī)模、統(tǒng)一的、跨圖像和視頻模態(tài)的、用于可解釋性 AIGC 檢測(cè)的數(shù)據(jù)集 。這為后續(xù)研究提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。
2. IVY-XDETECTOR 的卓越性能:所提出的統(tǒng)一視覺語言檢測(cè)器在多個(gè) AIGC 檢測(cè)和可解釋性基準(zhǔn)上取得了 SOTA 表現(xiàn) 。
3. 推動(dòng)可解釋性發(fā)展:通過引入自然語言解釋和結(jié)構(gòu)化的推理過程,該工作有力地推動(dòng)了 AIGC 檢測(cè)從 “黑箱” 向 “白箱” 的轉(zhuǎn)變,增強(qiáng)了模型的透明度和可信度。
4. 統(tǒng)一框架的價(jià)值:證明了構(gòu)建統(tǒng)一的圖像和視頻 AIGC 檢測(cè)框架是可行的,并且能夠取得優(yōu)異性能。
對(duì)行業(yè)而言,這項(xiàng)工作意味著未來我們有望部署更可靠、更易于理解的 AIGC 內(nèi)容審查工具,這對(duì)于打擊虛假信息、保護(hù)數(shù)字內(nèi)容生態(tài)具有重要意義。對(duì)于研究者而言,IVY-FAKE 數(shù)據(jù)集和 IVY-XDETECTOR 模型為探索更深層次的可解釋性和更魯棒的檢測(cè)算法開辟了新的道路。
六、案例分析
該研究還詳細(xì)給出了當(dāng)前不同大模型多模態(tài)內(nèi)容的錯(cuò)誤檢測(cè)的案例。
圖 10:圖像示例 1,Ivy-xDetector 成功檢測(cè)出基線方法遺漏的細(xì)微空間異常
圖 11:視頻示例 1,展示了 Ivy-xDetector 有效捕捉基線模型忽略的時(shí)間不一致性
七、未來展望:挑戰(zhàn)與機(jī)遇并存
盡管 IVY-FAKE 和 IVY-XDETECTOR 取得了顯著進(jìn)展,但仍有一些值得進(jìn)一步探索的方向:
1. 模型效率與時(shí)序建模:論文中也提到了當(dāng)前的局限性,例如較高的空間 Token 負(fù)載迫使模型在時(shí)間維度上進(jìn)行降采樣,這可能影響對(duì)微妙時(shí)間偽影的檢測(cè)精度和時(shí)間一致性的建模 。未來工作可以探索更高效的空間建模方法,以及更強(qiáng)的時(shí)序一致性保持機(jī)制。
2. 更細(xì)粒度的偽影定位與解釋:雖然自然語言解釋已經(jīng)很有價(jià)值,但結(jié)合更精確的偽影定位(例如,通過熱力圖或邊界框高亮顯示可疑區(qū)域)可能會(huì)提供更直觀的反饋。
3. 對(duì)抗攻擊與魯棒性:隨著 AIGC 技術(shù)的發(fā)展,生成模型可能會(huì)產(chǎn)生更難以檢測(cè)的偽影。持續(xù)評(píng)估和提升模型在對(duì)抗攻擊下的魯棒性至關(guān)重要。
4. 「道高一尺,魔高一丈」的循環(huán):正如論文中「更廣泛影響」部分提到的,檢測(cè)技術(shù)的發(fā)展也可能被用于訓(xùn)練更強(qiáng)大的、更難被檢測(cè)的生成模型 。如何在這種博弈中持續(xù)保持檢測(cè)技術(shù)的領(lǐng)先,是一個(gè)長(zhǎng)期的挑戰(zhàn)。
5. 多模態(tài)融合的深化:目前模型主要還是基于視覺信息,未來可以探索融合文本、音頻等多模態(tài)信息進(jìn)行聯(lián)合檢測(cè)與解釋,以應(yīng)對(duì)更復(fù)雜的 AIGC 場(chǎng)景。
總而言之,IVY-FAKE 和 IVY-XDETECTOR 無疑是 AIGC 內(nèi)容檢測(cè)與可解釋性研究領(lǐng)域的一項(xiàng)重要貢獻(xiàn)。它們不僅為我們提供了強(qiáng)大的工具和基準(zhǔn),更為我們指明了未來研究的方向。我們期待看到更多基于此項(xiàng)工作的后續(xù)研究,共同推動(dòng) AIGC 技術(shù)健康、可信地發(fā)展。