偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI

發(fā)布于 2024-10-21 13:31
瀏覽
0收藏

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

?文章鏈接:  https://arxiv.org/pdf/2410.09732
項(xiàng)目鏈接:  https://opendatalab.github.io/LOKI/
數(shù)據(jù)&代碼:https://github.com/opendatalab/LOKI

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

總結(jié)速覽

引入了LOKI基準(zhǔn),以全面評(píng)估LMMs在區(qū)分合成數(shù)據(jù)上的表現(xiàn)。LOKI基準(zhǔn)的亮點(diǎn)包括:

  • 全面模態(tài)評(píng)估。收集了近期熱門(mén)合成模型生成的高質(zhì)量多模態(tài)數(shù)據(jù),涵蓋視頻,圖像,3D數(shù)據(jù),文本,音頻等多個(gè)模態(tài)。
  • 異構(gòu)數(shù)據(jù)覆蓋。數(shù)據(jù)集中包括28個(gè)不同模態(tài)的細(xì)致分類(lèi),包括有專業(yè)的衛(wèi)星,醫(yī)學(xué)等圖像,哲學(xué),文言文等文本作品,環(huán)境音,音樂(lè)等音頻。
  • 多層次標(biāo)注?;鶞?zhǔn)包括了生成/真實(shí)標(biāo)簽,可用于判斷題,多選題等基礎(chǔ)問(wèn)題設(shè)置。還包含了細(xì)粒度異常注釋,可用于原因解釋等探究LMMs在可解釋合成數(shù)據(jù)檢測(cè)方面的題目。
  • 多模態(tài)合成數(shù)據(jù)評(píng)測(cè)框架。我們提出了一種全面的多模態(tài)評(píng)測(cè)框架,支持目前主流多模態(tài)大模型使用多種數(shù)據(jù)格式輸入,包括視頻,圖像,文本,音頻,點(diǎn)云等。

評(píng)估結(jié)果

在 LOKI 基準(zhǔn)測(cè)試中,評(píng)估了 22 個(gè)開(kāi)源 LMMs、6個(gè) 閉源LMMs 和幾個(gè)專家合成檢測(cè)模型。

主要發(fā)現(xiàn)總結(jié)如下:
對(duì)于合成數(shù)據(jù)檢測(cè)任務(wù):

  • LMM 在合成數(shù)據(jù)檢測(cè)任務(wù)中表現(xiàn)出中等能力,具有一定程度的可解釋性和泛化能力,但與人類(lèi)表現(xiàn)相比仍然存在差距;
  • 與專家合成檢測(cè)模型相比,LMM 表現(xiàn)出更高的可解釋性,并且與人類(lèi)相比,可以檢測(cè)到肉眼看不見(jiàn)的特征,顯示出良好的發(fā)展前景。

對(duì)于LMMs能力:

  • 大多數(shù) LMM 表現(xiàn)出一定的模型偏差,傾向于在其響應(yīng)中偏向合成或真實(shí)數(shù)據(jù);
  • LMM 缺乏專業(yè)領(lǐng)域知識(shí),在衛(wèi)星和醫(yī)學(xué)圖像等專業(yè)圖像類(lèi)型上表現(xiàn)不佳;
  • 當(dāng)前的 LMM 表現(xiàn)出不平衡的多模態(tài)能力,在圖像和文本任務(wù)中表現(xiàn)出色,但在 3D 和音頻任務(wù)中表現(xiàn)不佳;
  • 思路鏈提示增強(qiáng)了 LMM 在合成數(shù)據(jù)檢測(cè)中的表現(xiàn),而簡(jiǎn)單的少量提示無(wú)法提供必要的推理支持。?

動(dòng)機(jī)

隨著擴(kuò)散模型和大型語(yǔ)言模型(LLM)的快速發(fā)展,人工智能生成內(nèi)容 (AIGC) 技術(shù)合成多模態(tài)數(shù)據(jù)已越來(lái)越多地將融入我們的日常生活。例如,SORA可以制作高度逼真的視頻,Suno可以創(chuàng)作出與專業(yè)藝術(shù)家相當(dāng)水平的音樂(lè)。然而,合成多模態(tài)數(shù)據(jù)也帶來(lái)了重大風(fēng)險(xiǎn),包括潛在的濫用和社會(huì)風(fēng)險(xiǎn),包括使用LLM生成虛假新聞、使用擴(kuò)散模型合成人臉以進(jìn)行詐騙,以及互聯(lián)網(wǎng)訓(xùn)練數(shù)據(jù)的潛在污染風(fēng)險(xiǎn)。由于人工智能綜合的便利性,未來(lái)的互聯(lián)網(wǎng)可能會(huì)充斥著人工智能生成的內(nèi)容,使得辨別多模態(tài)數(shù)據(jù)的真實(shí)性和可信度的任務(wù)變得越來(lái)越具有挑戰(zhàn)性。

為了應(yīng)對(duì)此類(lèi)威脅,合成數(shù)據(jù)檢測(cè)領(lǐng)域近年來(lái)引起了廣泛關(guān)注。然而,目前大多數(shù)合成數(shù)據(jù)檢測(cè)方法主要側(cè)重于真實(shí)性評(píng)估,對(duì)預(yù)測(cè)結(jié)果的人為可解釋性存在一定的局限。多模態(tài)大模型 (LMMs) 近年來(lái)的快速發(fā)展引發(fā)了人們對(duì)其在檢測(cè)合成多模態(tài)數(shù)據(jù)方面性能的好奇。一方面,對(duì)于合成數(shù)據(jù)檢測(cè)任務(wù),LMMs 可以用自然語(yǔ)言提供真實(shí)性判斷背后的推理,為增強(qiáng)可解釋性鋪平了道路。另一方面,區(qū)分真實(shí)數(shù)據(jù)和合成數(shù)據(jù)的任務(wù)涉及多模態(tài)數(shù)據(jù)的感知、知識(shí)和推理能力,本身就是對(duì) LMM 能力的良好測(cè)試。因此,本文的重點(diǎn)是評(píng)估 LMM 在合成數(shù)據(jù)檢測(cè)任務(wù)中的性能。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

LOKI基準(zhǔn)構(gòu)建

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

多模態(tài)合成數(shù)據(jù)檢測(cè)基準(zhǔn)LOKI,專門(mén)用于全面評(píng)估 LMM 檢測(cè)合成數(shù)據(jù)的能力。如下圖所示,LOKI 涵蓋了多種模態(tài),包括視頻、圖像、3D、文本和音頻,擁有超過(guò) 26 個(gè)特定的數(shù)據(jù)子類(lèi)別。該基準(zhǔn)利用細(xì)粒度異常注釋來(lái)構(gòu)建各種分層的問(wèn)題類(lèi)型,包括判斷問(wèn)題、多項(xiàng)選擇題、異常細(xì)節(jié)選擇和異常解釋問(wèn)題,總計(jì)超過(guò) 18,000 個(gè)問(wèn)題。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

視頻: 收集了SORA、Keling、Open_sora等閉源和開(kāi)源模型收集了500+高質(zhì)量文本生成片段及其對(duì)應(yīng)的真實(shí)領(lǐng)域樣本數(shù)據(jù)。對(duì)于 AI 生成的視頻片段,使用 LabelU工具來(lái)注釋異常細(xì)節(jié),包括異常片段及其描述、異常關(guān)鍵幀和全局異常描述。如下圖所示,視頻中的“違反自然物理”和“幀閃爍”等異常也得到了全局注釋。此外,還突出顯示了從 02:54 到 06:27 的異常片段,并由人類(lèi)注釋者解釋了相應(yīng)的異常原因。此外,每個(gè)異常片段都包含一個(gè)異常關(guān)鍵幀,以便后續(xù)的 LMM 在處理視頻數(shù)據(jù)時(shí)準(zhǔn)確讀取異常幀。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

圖像:通過(guò)現(xiàn)有數(shù)據(jù)集提取、互聯(lián)網(wǎng)收集和新合成等方式,收集了來(lái)自 7 個(gè)子類(lèi)別的 2,200 多幅圖像。圖像合成方法包括 FLUX、Midjourney、Stable Diffusion等,以確保數(shù)據(jù)的高質(zhì)量和多樣性。對(duì)于合成的圖像數(shù)據(jù),除了整體注釋外,我們還執(zhí)行了異常區(qū)域標(biāo)記和解釋,區(qū)域異常注釋允許更細(xì)粒度和更具體的標(biāo)記,可用于生成后續(xù)的異常細(xì)節(jié)問(wèn)題。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

3D:基于OmniObject3D進(jìn)行了全面分析,選擇同一域內(nèi)的掃描實(shí)例作為地面實(shí)況。通過(guò)構(gòu)建提示文本,合成了三個(gè) Nerf 模型和三個(gè) 3D GS 模型,并使用來(lái)自高級(jí)商業(yè)模型 Clay 的結(jié)果和來(lái)自 GPTEval3D 的一些基于 Nerf 的結(jié)果對(duì)其進(jìn)行了補(bǔ)充。我們總共收集了來(lái)自十種不同合成方法的 1,200 多個(gè) 3D 模型,包括合成數(shù)據(jù)和真實(shí)掃描數(shù)據(jù)。此外,我們對(duì)合成的 3D 數(shù)據(jù)的 RGB 四個(gè)視圖執(zhí)行了紋理異常描述注釋,以及正常異常描述注釋。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

音頻:收集了各種類(lèi)別的音頻,包括語(yǔ)音、歌聲、環(huán)境聲音和音樂(lè)。語(yǔ)音和歌聲數(shù)據(jù)確保了說(shuō)話者音色的一致性,來(lái)源于ASVSpoof2019和CtrSVDD Benchmark,涵蓋四個(gè)生成范式:TTS、VC、SVS 和 SVC。環(huán)境音頻數(shù)據(jù)來(lái)自 DCASE 2023 Task 7,其中真實(shí)音頻來(lái)自開(kāi)發(fā)集,合成音頻使用多種方法從 Track A 生成。音樂(lè)數(shù)據(jù)來(lái)源于MusicCaps,合成音樂(lè)根據(jù)描述使用MusicGen、AudioLDM2-Music和 Suno生成。

?

文本:基于主流LLM模型(如 GPT-4、Qwen-Max、Llama 3.1-405B),使用總結(jié)再生方法生成了與原文相似的偽造文本。我們收集了八類(lèi)文本數(shù)據(jù),每個(gè)樣本與一段真實(shí)文本和一段模型生成的相似文本配對(duì),共計(jì) 3,359篇文本。我們的文本數(shù)據(jù)按長(zhǎng)度和語(yǔ)言分類(lèi),包括短文本(50-100 字)、中文本(100-200 字)和長(zhǎng)文本(200 字以上),中文和英文數(shù)據(jù)比例為 1:1。

題目概覽

判斷題: 此任務(wù)需要大型語(yǔ)言模型 (LMM) 來(lái)確定輸入數(shù)據(jù)是合成的還是真實(shí)的。例如“提供的音頻是由 AI 生成的嗎?”

多選題: 

異常細(xì)節(jié)選擇: 基于來(lái)自視頻、圖像和 3D 等模態(tài)的細(xì)粒度異常注釋數(shù)據(jù),有效地設(shè)計(jì)提示并利用 GPT-4o 生成異常細(xì)節(jié)選擇問(wèn)題。例如,于視頻內(nèi)容的細(xì)節(jié)異常,提問(wèn)“哪些元素可以是不連續(xù)的?”


異常解釋:要求 LMM 獨(dú)立識(shí)別異常并解釋其原因。例如,提問(wèn)“為什么提供的圖像是 AI 生成的?”

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

LMMs評(píng)估結(jié)果

下表展示了 LOKI 中各種模型在判斷和多項(xiàng)選擇題上的表現(xiàn)。對(duì)于合成數(shù)據(jù)判斷任務(wù),閉源模型 GPT-4o 取得了最好的結(jié)果,總體準(zhǔn)確率(不包括音頻)為 63.9%。當(dāng)在多項(xiàng)選擇題中加入真實(shí)配對(duì)數(shù)據(jù)進(jìn)行比較時(shí),準(zhǔn)確率進(jìn)一步提高到 73.7%。在文本模態(tài)中,Claude-3.5 的表現(xiàn)優(yōu)于其他 LMM 和 LLM,準(zhǔn)確率超過(guò) 70%。在音頻 LMM 類(lèi)別中,開(kāi)源和閉源模型都表現(xiàn)出與隨機(jī)選擇相當(dāng)?shù)男阅?。?duì)比不同模型在異常細(xì)節(jié)選擇和異常原因解釋任務(wù)上的表現(xiàn)。GPT-4o 在異常細(xì)節(jié)選擇中的準(zhǔn)確率超過(guò) 75%,在異常原因解釋中的得分超過(guò) 70%。這表明像 GPT-4o 這樣的高級(jí) LMM 已經(jīng)展示了強(qiáng)大的細(xì)節(jié)理解能力,有效地分析和解釋“合成痕跡”。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

人類(lèi)在判斷任務(wù)中的平均表現(xiàn)為 76%,在多項(xiàng)選擇題中的平均表現(xiàn)為 86.4%,均比 LMM 方法高 10%。值得注意的是,如果 LMM 工具要應(yīng)用于生產(chǎn),其在判斷任務(wù)中的決策性能必須超過(guò) 90% 才能令人信服。隨著合成技術(shù)的進(jìn)步,合成數(shù)據(jù)的明顯“痕跡”變得越來(lái)越微妙。然而,LMM 可以捕捉到微小的細(xì)節(jié),例如人眼無(wú)法察覺(jué)的圖像特征,顯示出超越人類(lèi)的潛力。同時(shí)LMM 在大多數(shù)任務(wù)中都表現(xiàn)出優(yōu)于專家模型的性能。這主要是因?yàn)?LOKI 收集的合成數(shù)據(jù)來(lái)源豐富多樣,與現(xiàn)有數(shù)據(jù)域存在顯著差異,導(dǎo)致專家模型的泛化性能不佳。使用類(lèi)似數(shù)據(jù)訓(xùn)練的專家模型進(jìn)行合成檢測(cè)的準(zhǔn)確率應(yīng)該會(huì)顯著提高。目前,LMM 在合成數(shù)據(jù)檢測(cè)中表現(xiàn)中等,但在泛化能力上超越專家模型。與傳統(tǒng)專家模型不同,LMM 具有解釋異常背后原因的能力,凸顯了其作為合成檢測(cè)器的獨(dú)特優(yōu)勢(shì)。

矛盾之爭(zhēng),AI合成數(shù)據(jù)可以騙過(guò)大模型嗎?中山大學(xué)聯(lián)合上海AI Lab提出合成檢測(cè)基準(zhǔn)LOKI-AI.x社區(qū)

模型偏差。 LOKI基于召回率計(jì)算的歸一化偏差指數(shù)熱圖用于分析模型偏差。結(jié)果表明,大多數(shù)模型在合成數(shù)據(jù)檢測(cè)任務(wù)中表現(xiàn)出顯著的偏差,傾向于將數(shù)據(jù)錯(cuò)誤地歸類(lèi)為真實(shí)或合成。例如,GPT-4o 傾向于將文本數(shù)據(jù)歸類(lèi)為真實(shí),而傾向于將 3D 數(shù)據(jù)判斷為 AI 生成的。盡管實(shí)施了多種提問(wèn)技巧來(lái)最大限度地減少提示效應(yīng),但大多數(shù)模型仍然存在明顯的偏差。


專家領(lǐng)域知識(shí)匱乏。 LOKI展示了 GPT-4o 在不同圖像子類(lèi)別中的不同性能。實(shí)驗(yàn)結(jié)果清楚地表明,GPT 對(duì)物體和風(fēng)景等常見(jiàn)圖像類(lèi)型表現(xiàn)出強(qiáng)大的識(shí)別能力,甚至超越了人類(lèi)用戶。然而,GPT-4o 在衛(wèi)星和醫(yī)學(xué)成像等專業(yè)領(lǐng)域以及文檔等較少訓(xùn)練的圖像類(lèi)型上的表現(xiàn)顯著下降。這表明當(dāng)前的 LMM 仍然缺乏某些專家領(lǐng)域知識(shí)。


多模態(tài)能力不均衡。 通過(guò)比較各種 LMM 在不同模態(tài)下的性能。結(jié)果表明,目前的模型在圖像和文本等經(jīng)常訓(xùn)練的模態(tài)上表現(xiàn)出色,甚至在某些測(cè)試中超越了人類(lèi)的表現(xiàn)。然而,它們?cè)?3D 和音頻任務(wù)上的性能顯著下降,大多數(shù)開(kāi)源模型缺乏相應(yīng)的能力。未來(lái)的 AGI 要發(fā)展成為一個(gè)多功能的助手,需要具備更均衡的多模態(tài)能力。

結(jié)論

本文介紹了 LOKI,旨在評(píng)估大型多模態(tài)模型在檢測(cè)各種模態(tài)合成數(shù)據(jù)方面的性能。對(duì) LMM 在視頻、圖像、3D、音頻、文本和專門(mén)子域上的性能進(jìn)行了全面研究,還分析了 LMM 解釋合成數(shù)據(jù)中詳細(xì)異常的能力。實(shí)驗(yàn)結(jié)果表明,LMM 在檢測(cè)合成數(shù)據(jù)方面具有一定的能力,并具有初步的解釋異常的能力。合成數(shù)據(jù)檢測(cè)任務(wù)還有效地評(píng)估了 LMM 在開(kāi)發(fā)過(guò)程中的各種能力。這些發(fā)現(xiàn)突出了 LOKI 任務(wù)的挑戰(zhàn)性和綜合性,以及 LMM 在未來(lái)合成數(shù)據(jù)檢測(cè)任務(wù)中的潛力。我們旨在通過(guò) LOKI 激發(fā)更強(qiáng)大、更可解釋的合成數(shù)據(jù)檢測(cè)方法,以應(yīng)對(duì)快速發(fā)展的 AI 合成技術(shù)帶來(lái)的潛在風(fēng)險(xiǎn)。此外,合成和檢測(cè)之間的關(guān)系是對(duì)抗發(fā)展的,但它們是互惠互利的;更好、更可解釋的合成檢測(cè)器將進(jìn)一步推動(dòng) AI 合成技術(shù)的發(fā)展。

本文轉(zhuǎn)自 AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/tMhiwd_FKjy5qT8Dr4vqag??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦