偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!

發(fā)布于 2025-6-19 08:57
瀏覽
0收藏

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2506.10975 
git地址:?https://chen-wl20.github.io/GenWorld 

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

亮點直擊

  • 高質(zhì)量真實場景數(shù)據(jù)集:GenWorld首次專注于現(xiàn)實世界場景(如自動駕駛),提供多樣化、高逼真度的生成視頻,彌補領(lǐng)域空白。
  • 物理合理性驅(qū)動檢測:提出通過3D多視角一致性(而非傳統(tǒng)像素瑕疵)區(qū)分生成視頻,適應(yīng)生成技術(shù)快速發(fā)展的挑戰(zhàn)。
  • 簡單有效的模型設(shè)計:SpannDetector僅需結(jié)合立體重建和時序模塊即實現(xiàn)顯著性能提升,為可解釋檢測提供新方向。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • AI生成視頻檢測的挑戰(zhàn):當(dāng)前缺乏高質(zhì)量、真實場景的AI生成視頻數(shù)據(jù)集,現(xiàn)有數(shù)據(jù)集質(zhì)量參差不齊,且多為卡通或人臉偽造,難以應(yīng)對真實世界場景的檢測需求。
  • 現(xiàn)有方法的局限性:現(xiàn)有檢測器依賴生成瑕疵(如像素異常),但高質(zhì)量生成視頻(如世界模型生成的視頻)已難以通過此類方法區(qū)分,亟需基于物理合理性的檢測方法。

提出的方案

  • 數(shù)據(jù)集GenWorld:構(gòu)建大規(guī)模、高質(zhì)量、真實場景模擬的AI生成視頻數(shù)據(jù)集,特點包括:
  • 真實世界模擬:聚焦自動駕駛、室內(nèi)導(dǎo)航等現(xiàn)實場景。
  • 高質(zhì)量生成:采用多模態(tài)輸入(文本/圖像/視頻)和10種先進生成模型(如Cosmos)。
  • 跨提示多樣性:覆蓋多種生成器和輸入模態(tài),增強泛化性。
  • 檢測模型SpannDetector
  • 利用多視角一致性(如3D物理合理性)作為檢測標(biāo)準(zhǔn),結(jié)合立體重建模型和時間記憶模塊。
  • 通過真實性評分器對立體特征進行全局評估,判斷視頻真?zhèn)巍?/li>

應(yīng)用的技術(shù)

  • 數(shù)據(jù)集構(gòu)建:整合多模態(tài)生成模型(文本/圖像/視頻到視頻),確保數(shù)據(jù)多樣性和質(zhì)量。
  • 立體重建模型:分析生成視頻的3D一致性缺陷(如物理規(guī)律違反)。
  • 時空特征融合:在SpannDetector中結(jié)合時間記憶模塊,增強視頻時序信息處理能力。

達到的效果

  • 數(shù)據(jù)集價值:GenWorld填補了高質(zhì)量真實場景生成視頻數(shù)據(jù)集的空白,推動可信檢測器的研發(fā)。
  • 檢測性能:SpannDetector在高質(zhì)量生成視頻(如Cosmos生成的視頻)上顯著優(yōu)于現(xiàn)有方法,驗證了物理合理性特征的有效性。
  • 可解釋性:基于多視角一致性的方法為AI生成視頻檢測提供了可解釋的物理依據(jù)。

GenWorld

Motivation of GenWorld

盡管現(xiàn)有數(shù)據(jù)集收集了大量用于AI生成視頻檢測器研究的AI生成視頻,但在實踐中存在兩個根本性問題:

  • 嘈雜且不連貫的語義內(nèi)容:當(dāng)前數(shù)據(jù)集包含各種非結(jié)構(gòu)化的視頻混合,包括動漫、游戲畫面、漫畫風(fēng)格視頻以及其他缺乏具體信息的內(nèi)容,如圖1所示。這引發(fā)了對數(shù)據(jù)集相關(guān)性的質(zhì)疑——這些視頻是否真的具有偽造檢測價值?
  • 由于缺乏精心設(shè)計的提示詞和先進模型,生成的視頻往往質(zhì)量較差,容易被人類區(qū)分。因此,在這些數(shù)據(jù)集上訓(xùn)練的模型難以檢測實際應(yīng)用中的偽造視頻。

?

GenWorld 重新評估了哪些類型的生成視頻最具影響力且需要檢測。最重要的檢測視頻應(yīng)具備以下特征:

  • 真實世界模擬:漫畫或抽象內(nèi)容等視頻對現(xiàn)實世界影響甚微。相比之下,模擬真實場景(如駕駛場景或人類活動)的視頻更可能影響現(xiàn)實。
  • 高質(zhì)量和真實感:視頻越逼真,就越可能誤導(dǎo)人類并影響現(xiàn)實世界。因此,AI生成視頻檢測應(yīng)優(yōu)先考慮高質(zhì)量生成的視頻,特別是具有挑戰(zhàn)性的邊緣案例。

Collection and Organization of GenWorld

本文旨在構(gòu)建一個高質(zhì)量、真實世界的AI生成視頻檢測數(shù)據(jù)集。首先,對于真實世界數(shù)據(jù),我們分析了真實場景和當(dāng)前視頻生成世界模型,選擇了涵蓋人類生活廣泛場景的四個關(guān)鍵場景:駕駛、室內(nèi)外導(dǎo)航、具身智能操作和人類活動,作為我們數(shù)據(jù)集的核心場景。


對于AI生成視頻,本文設(shè)計了模擬真實場景的視頻生成流程,如下圖2所示。首先利用強大的視頻理解模型Video-Llava對選定的真實世界視頻內(nèi)容進行標(biāo)注,以促進下游生成。在生成過程中,采用了多種生成方法,包括文本到視頻、圖像到視頻和視頻到視頻,因為這些方法以不同方式模擬真實世界視頻,各自具有獨特的分析價值。文本到視頻方法偽造語義內(nèi)容同時保留模型的外觀偏好;圖像到視頻方法同時偽造語義和外觀,實現(xiàn)更高級別的視頻偽造;而視頻到視頻模型不僅偽造語義和外觀,還能操控物理規(guī)律,展現(xiàn)出最高級別的偽造能力。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

下表1展示了GenWorld數(shù)據(jù)集的統(tǒng)計信息。對于真實世界視頻,從Kinetics-400、NuScenes、RT-1和DL3DV-10K中隨機選取了10,850個樣本。對于AI生成視頻,使用了10種不同的生成模型,包括Cosmos和OpenSora等先進模型,涵蓋文本到視頻、圖像到視頻和視頻到視頻等多種偽造級別,共生成89,446個視頻。本文的數(shù)據(jù)集包含100,296個視頻,其中20%用于測試,其余用于訓(xùn)練。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

由于采用了先進的生成模型和源自真實場景的提示詞,本文的數(shù)據(jù)集具有三個關(guān)鍵優(yōu)勢:多樣化的真實世界模擬、高質(zhì)量的視頻內(nèi)容以及跨生成器和跨生成方法的多樣性。這種豐富的組合支持多種分析維度,可對檢測方法進行全面分析。

SpannDetector

在構(gòu)建數(shù)據(jù)集的過程中,測試了多種檢測方法,發(fā)現(xiàn)其性能不足,特別是針對最新高質(zhì)量生成模型時表現(xiàn)欠佳。這促使我們探索識別AI生成視頻的新視角??紤]到視頻的時序性和多視角特性,對多視角一致性進行了深入分析,并將其確定為檢測AI生成視頻的潛在線索?;谶@一發(fā)現(xiàn),本文設(shè)計了SpannDetector——一個基于多視角一致性的AI生成視頻檢測器,該檢測器展現(xiàn)出良好的檢測能力,特別是針對世界模型生成的視覺超真實視頻。我們首先回顧多視角匹配技術(shù)。

多視角匹配基礎(chǔ)

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

生成視頻的多視角一致性

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

SpannDetector設(shè)計

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

實驗

實現(xiàn)細(xì)節(jié)

數(shù)據(jù)集。為了全面評估現(xiàn)有方法,本文設(shè)計了兩項任務(wù)并相應(yīng)劃分?jǐn)?shù)據(jù)集。對于每個模型,保留20%的生成數(shù)據(jù)作為測試集。在評估過程中,使用一個模型的訓(xùn)練集進行訓(xùn)練,同時使用其他模型的測試集進行測試。第一項任務(wù)——訓(xùn)練測試評估,模擬了現(xiàn)實場景中需要識別未知來源圖像的情況。第二項任務(wù)——跨提示評估,測試檢測方法在不同偽造級別上的表現(xiàn),而不會對特定類型的生成過擬合。

評估指標(biāo)。本文使用準(zhǔn)確率(Acc.)評估方法的有效性,并以AP、F1和召回率(R)作為補充評估指標(biāo)。對于圖像級檢測方法,組合所有幀的預(yù)測以獲得總體結(jié)果。

基線方法。本文選擇了AI生成內(nèi)容檢測領(lǐng)域的最先進方法,包括圖像和視頻檢測器,并評估其性能。所有模型均在單個A6000 GPU上訓(xùn)練。

與現(xiàn)有數(shù)據(jù)集的比較

下表2比較了本文的數(shù)據(jù)集與現(xiàn)有的AI生成視頻檢測數(shù)據(jù)集。突出了以下優(yōu)勢:

  1. 真實世界模擬:本文的真實視頻精心選自覆蓋大多數(shù)真實場景的多樣化數(shù)據(jù)集,并源自這些真實視頻。
  2. 跨提示多樣性:不同提示的生成方法以不同方式操縱真實視頻。文本到視頻生成主要模仿真實視頻的語義和內(nèi)容,同時保留外觀風(fēng)格偏好;圖像到視頻生成保留外觀和語義,同時生成高度欺騙性的視頻;視頻到視頻生成復(fù)制外觀和語義,并模擬視頻的時間演變,使其在時間上更加真實。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

下圖4展示了本文數(shù)據(jù)集中的示例,呈現(xiàn)了其多樣性、豐富內(nèi)容和高品質(zhì)。下圖5顯示了視頻的時間連貫性,突出了流暢的運動和隨時間推移的邏輯進展。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

訓(xùn)練-測試評估

下表3展示了不同模型在訓(xùn)練-測試評估任務(wù)上的性能表現(xiàn),可以得出幾個關(guān)鍵發(fā)現(xiàn):

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

  1. 視頻級AI生成視頻檢測器顯著優(yōu)于基于圖像的檢測器。這主要因為視頻檢測器能夠從不同時間幀捕捉時序信息,從而獲得更豐富的表征以實現(xiàn)更好的偽造檢測。
  2. 在視頻級檢測器中,DeMamba和VideoMAE的表現(xiàn)明顯優(yōu)于STIL和TALL。這是因為后兩者主要針對深度偽造視頻檢測設(shè)計,而前者旨在捕捉更通用的視頻特征。這表明適用于深度偽造檢測的方法未必能有效檢測通用AI生成視頻。
  3. 不同模型生成視頻的檢測難度存在差異。如表所示,多數(shù)訓(xùn)練模型在Lavie和VideoCrafter測試集上表現(xiàn)較好,但在HotShot、ModelScope和Cosmos上表現(xiàn)較差。特別是基于世界模型的Cosmos生成的視頻檢測難度顯著高于其他模型,這表明其生成的視頻更接近真實世界影像。
  4. 本文的模型整體表現(xiàn)最優(yōu),在檢測Cosmos生成視頻時性能提升尤為顯著。這是因為除了考慮時序動態(tài)特征外,本文的模型還整合了多視角一致性先驗,使其能夠識別看似真實但細(xì)微違反物理規(guī)律的視頻。這凸顯了使用物理先驗作為AI生成視頻檢測方法的潛力。

下表4提供了召回率(R)、F1分?jǐn)?shù)和平均精度(AP)的詳細(xì)對比。數(shù)據(jù)顯示:

  • 本文的模型在召回率(R)上顯著優(yōu)于其他模型
  • 同時保持了較高的AP值
  • 最終獲得最高的F1分?jǐn)?shù)

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

其他模型如DeMamba在檢測Cosmos生成視頻時召回率較低,這進一步證明Cosmos生成的超現(xiàn)實模擬視頻具有極高的檢測挑戰(zhàn)性。其生成的視頻與真實視頻難以區(qū)分的特點,為AI生成內(nèi)容檢測領(lǐng)域提出了新的研究方向。

跨提示詞評估

本文還選取了代表性模型DeMamba進行跨提示詞評估,結(jié)果如下表5所示。從表中可觀察到,DeMamba容易過擬合訓(xùn)練數(shù)據(jù),無法有效區(qū)分由另外兩種提示詞生成的數(shù)據(jù)。這表明不同生成提示詞會產(chǎn)生差異化的偽影模式,導(dǎo)致模型僅學(xué)習(xí)到特定特征而非泛化性特征。此外,當(dāng)在三種跨提示詞數(shù)據(jù)上聯(lián)合訓(xùn)練時,DeMamba仍出現(xiàn)過擬合現(xiàn)象,說明該模型不適用于學(xué)習(xí)通用的偽造檢測特征。相比之下,本文的模型在單一提示詞生成數(shù)據(jù)上訓(xùn)練后,對其它提示詞生成的數(shù)據(jù)展現(xiàn)出一定程度的判別能力,這暗示模型可能捕捉到了更具泛化性的特征(例如多視角不一致性)。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

用戶研究

為直觀比較不同數(shù)據(jù)集的質(zhì)量與顯著性,本文開展了用戶研究來評估現(xiàn)有數(shù)據(jù)集與自建數(shù)據(jù)集。評估指標(biāo)包括視頻質(zhì)量(VQ)、真實世界模擬度(RS)、運動連貫性(MC)和物理合理性(PP)。我們從不同年齡段選取120名參與者,每個數(shù)據(jù)集隨機抽取100段視頻供其采用7級李克特量表評估。此外,每位參與者需猜測視頻屬于真實視頻還是AI生成視頻。實驗結(jié)果如下表6所示,數(shù)據(jù)顯示本文的數(shù)據(jù)集在所有質(zhì)量指標(biāo)上均優(yōu)于另外兩個數(shù)據(jù)集。更重要的是,用戶對我們數(shù)據(jù)集的真假視頻判斷準(zhǔn)確率最低,說明生成視頻具有最強的欺騙性,這使得該數(shù)據(jù)集對AI生成視頻檢測研究具有特殊價值。

真實世界AI造假驚現(xiàn)克星!清華GenWorld:用“物理一致性”讓虛假視頻無處遁形!-AI.x社區(qū)

結(jié)論

GenWorld——一個模擬真實場景的高質(zhì)量AI生成視頻檢測數(shù)據(jù)集,其具備三大特征:

  • 真實世界模擬性:專注于高度擬真現(xiàn)實活動的視頻,可能對社會事件產(chǎn)生更大影響;
  • 高質(zhì)量性:通過融合多種前沿生成方法,構(gòu)建了大規(guī)模高質(zhì)量AI生成視頻集合;
  • 跨提示詞多樣性:涵蓋文本、圖像、視頻三類提示詞生成的視頻,捕獲不同層次的偽造特征。


本文對現(xiàn)有先進AI生成視頻檢測器進行基于GenWorld的深度評估,發(fā)現(xiàn)這些檢測器難以識別世界模型(如Cosmos)生成的高質(zhì)量視頻,該局限可能源于其未能捕捉真實世界的物理一致性。本文提出SpannDetector——一種基于對真實/生成視頻三維一致性深度分析的簡潔有效方法。該方法將立體重建模型與時序記憶模塊相結(jié)合,顯著提升了檢測性能(尤其針對世界模型生成的視頻),這凸顯了利用物理一致性進行AI生成視頻檢測的潛力。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/FHidWRYikYCOXQrhnDGaAg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦