偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="9o0jb"></sup>

<style id="9o0jb"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI

發(fā)布于 2024-10-21 13:31

瀏覽

0收藏

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

?文章鏈接: https://arxiv.org/pdf/2410.09732
項目鏈接: https://opendatalab.github.io/LOKI/
數(shù)據(jù)&代碼：https://github.com/opendatalab/LOKI

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

總結(jié)速覽

引入了LOKI基準，以全面評估LMMs在區(qū)分合成數(shù)據(jù)上的表現(xiàn)。LOKI基準的亮點包括：

全面模態(tài)評估。收集了近期熱門合成模型生成的高質(zhì)量多模態(tài)數(shù)據(jù)，涵蓋視頻，圖像，3D數(shù)據(jù)，文本，音頻等多個模態(tài)。
異構(gòu)數(shù)據(jù)覆蓋。數(shù)據(jù)集中包括28個不同模態(tài)的細致分類，包括有專業(yè)的衛(wèi)星，醫(yī)學等圖像，哲學，文言文等文本作品，環(huán)境音，音樂等音頻。
多層次標注。基準包括了生成/真實標簽，可用于判斷題，多選題等基礎問題設置。還包含了細粒度異常注釋，可用于原因解釋等探究LMMs在可解釋合成數(shù)據(jù)檢測方面的題目。
多模態(tài)合成數(shù)據(jù)評測框架。我們提出了一種全面的多模態(tài)評測框架，支持目前主流多模態(tài)大模型使用多種數(shù)據(jù)格式輸入，包括視頻，圖像，文本，音頻，點云等。

評估結(jié)果

在 LOKI 基準測試中，評估了 22 個開源 LMMs、6個閉源LMMs 和幾個專家合成檢測模型。

主要發(fā)現(xiàn)總結(jié)如下：
對于合成數(shù)據(jù)檢測任務：

LMM 在合成數(shù)據(jù)檢測任務中表現(xiàn)出中等能力，具有一定程度的可解釋性和泛化能力，但與人類表現(xiàn)相比仍然存在差距；
與專家合成檢測模型相比，LMM 表現(xiàn)出更高的可解釋性，并且與人類相比，可以檢測到肉眼看不見的特征，顯示出良好的發(fā)展前景。

對于LMMs能力：

大多數(shù) LMM 表現(xiàn)出一定的模型偏差，傾向于在其響應中偏向合成或真實數(shù)據(jù)；
LMM 缺乏專業(yè)領(lǐng)域知識，在衛(wèi)星和醫(yī)學圖像等專業(yè)圖像類型上表現(xiàn)不佳；
當前的 LMM 表現(xiàn)出不平衡的多模態(tài)能力，在圖像和文本任務中表現(xiàn)出色，但在 3D 和音頻任務中表現(xiàn)不佳；
思路鏈提示增強了 LMM 在合成數(shù)據(jù)檢測中的表現(xiàn)，而簡單的少量提示無法提供必要的推理支持。?

動機

隨著擴散模型和大型語言模型(LLM)的快速發(fā)展，人工智能生成內(nèi)容 (AIGC) 技術(shù)合成多模態(tài)數(shù)據(jù)已越來越多地將融入我們的日常生活。例如，SORA可以制作高度逼真的視頻，Suno可以創(chuàng)作出與專業(yè)藝術(shù)家相當水平的音樂。然而，合成多模態(tài)數(shù)據(jù)也帶來了重大風險，包括潛在的濫用和社會風險，包括使用LLM生成虛假新聞、使用擴散模型合成人臉以進行詐騙，以及互聯(lián)網(wǎng)訓練數(shù)據(jù)的潛在污染風險。由于人工智能綜合的便利性，未來的互聯(lián)網(wǎng)可能會充斥著人工智能生成的內(nèi)容，使得辨別多模態(tài)數(shù)據(jù)的真實性和可信度的任務變得越來越具有挑戰(zhàn)性。

為了應對此類威脅，合成數(shù)據(jù)檢測領(lǐng)域近年來引起了廣泛關(guān)注。然而，目前大多數(shù)合成數(shù)據(jù)檢測方法主要側(cè)重于真實性評估，對預測結(jié)果的人為可解釋性存在一定的局限。多模態(tài)大模型 (LMMs) 近年來的快速發(fā)展引發(fā)了人們對其在檢測合成多模態(tài)數(shù)據(jù)方面性能的好奇。一方面，對于合成數(shù)據(jù)檢測任務，LMMs 可以用自然語言提供真實性判斷背后的推理，為增強可解釋性鋪平了道路。另一方面，區(qū)分真實數(shù)據(jù)和合成數(shù)據(jù)的任務涉及多模態(tài)數(shù)據(jù)的感知、知識和推理能力，本身就是對 LMM 能力的良好測試。因此，本文的重點是評估 LMM 在合成數(shù)據(jù)檢測任務中的性能。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

LOKI基準構(gòu)建

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

多模態(tài)合成數(shù)據(jù)檢測基準LOKI，專門用于全面評估 LMM 檢測合成數(shù)據(jù)的能力。如下圖所示，LOKI 涵蓋了多種模態(tài)，包括視頻、圖像、3D、文本和音頻，擁有超過 26 個特定的數(shù)據(jù)子類別。該基準利用細粒度異常注釋來構(gòu)建各種分層的問題類型，包括判斷問題、多項選擇題、異常細節(jié)選擇和異常解釋問題，總計超過 18,000 個問題。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

視頻： 收集了SORA、Keling、Open_sora等閉源和開源模型收集了500+高質(zhì)量文本生成片段及其對應的真實領(lǐng)域樣本數(shù)據(jù)。對于 AI 生成的視頻片段，使用 LabelU工具來注釋異常細節(jié)，包括異常片段及其描述、異常關(guān)鍵幀和全局異常描述。如下圖所示，視頻中的“違反自然物理”和“幀閃爍”等異常也得到了全局注釋。此外，還突出顯示了從 02:54 到 06:27 的異常片段，并由人類注釋者解釋了相應的異常原因。此外，每個異常片段都包含一個異常關(guān)鍵幀，以便后續(xù)的 LMM 在處理視頻數(shù)據(jù)時準確讀取異常幀。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

圖像：通過現(xiàn)有數(shù)據(jù)集提取、互聯(lián)網(wǎng)收集和新合成等方式，收集了來自 7 個子類別的 2,200 多幅圖像。圖像合成方法包括 FLUX、Midjourney、Stable Diffusion等，以確保數(shù)據(jù)的高質(zhì)量和多樣性。對于合成的圖像數(shù)據(jù)，除了整體注釋外，我們還執(zhí)行了異常區(qū)域標記和解釋，區(qū)域異常注釋允許更細粒度和更具體的標記，可用于生成后續(xù)的異常細節(jié)問題。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

3D：基于OmniObject3D進行了全面分析，選擇同一域內(nèi)的掃描實例作為地面實況。通過構(gòu)建提示文本，合成了三個 Nerf 模型和三個 3D GS 模型，并使用來自高級商業(yè)模型 Clay 的結(jié)果和來自 GPTEval3D 的一些基于 Nerf 的結(jié)果對其進行了補充。我們總共收集了來自十種不同合成方法的 1,200 多個 3D 模型，包括合成數(shù)據(jù)和真實掃描數(shù)據(jù)。此外，我們對合成的 3D 數(shù)據(jù)的 RGB 四個視圖執(zhí)行了紋理異常描述注釋，以及正常異常描述注釋。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

音頻：收集了各種類別的音頻，包括語音、歌聲、環(huán)境聲音和音樂。語音和歌聲數(shù)據(jù)確保了說話者音色的一致性，來源于ASVSpoof2019和CtrSVDD Benchmark，涵蓋四個生成范式：TTS、VC、SVS 和 SVC。環(huán)境音頻數(shù)據(jù)來自 DCASE 2023 Task 7，其中真實音頻來自開發(fā)集，合成音頻使用多種方法從 Track A 生成。音樂數(shù)據(jù)來源于MusicCaps，合成音樂根據(jù)描述使用MusicGen、AudioLDM2-Music和 Suno生成。

?

文本：基于主流LLM模型（如 GPT-4、Qwen-Max、Llama 3.1-405B），使用總結(jié)再生方法生成了與原文相似的偽造文本。我們收集了八類文本數(shù)據(jù)，每個樣本與一段真實文本和一段模型生成的相似文本配對，共計 3，359篇文本。我們的文本數(shù)據(jù)按長度和語言分類，包括短文本（50-100 字）、中文本（100-200 字）和長文本（200 字以上），中文和英文數(shù)據(jù)比例為 1:1。

題目概覽

判斷題： 此任務需要大型語言模型 (LMM) 來確定輸入數(shù)據(jù)是合成的還是真實的。例如“提供的音頻是由 AI 生成的嗎？”

多選題：

異常細節(jié)選擇： 基于來自視頻、圖像和 3D 等模態(tài)的細粒度異常注釋數(shù)據(jù)，有效地設計提示并利用 GPT-4o 生成異常細節(jié)選擇問題。例如，于視頻內(nèi)容的細節(jié)異常，提問“哪些元素可以是不連續(xù)的？”

異常解釋：要求 LMM 獨立識別異常并解釋其原因。例如，提問“為什么提供的圖像是 AI 生成的？”

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

LMMs評估結(jié)果

下表展示了 LOKI 中各種模型在判斷和多項選擇題上的表現(xiàn)。對于合成數(shù)據(jù)判斷任務，閉源模型 GPT-4o 取得了最好的結(jié)果，總體準確率（不包括音頻）為 63.9%。當在多項選擇題中加入真實配對數(shù)據(jù)進行比較時，準確率進一步提高到 73.7%。在文本模態(tài)中，Claude-3.5 的表現(xiàn)優(yōu)于其他 LMM 和 LLM，準確率超過 70%。在音頻 LMM 類別中，開源和閉源模型都表現(xiàn)出與隨機選擇相當?shù)男阅?。對比不同模型在異常細?jié)選擇和異常原因解釋任務上的表現(xiàn)。GPT-4o 在異常細節(jié)選擇中的準確率超過 75%，在異常原因解釋中的得分超過 70%。這表明像 GPT-4o 這樣的高級 LMM 已經(jīng)展示了強大的細節(jié)理解能力，有效地分析和解釋“合成痕跡”。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

人類在判斷任務中的平均表現(xiàn)為 76%，在多項選擇題中的平均表現(xiàn)為 86.4%，均比 LMM 方法高 10%。值得注意的是，如果 LMM 工具要應用于生產(chǎn)，其在判斷任務中的決策性能必須超過 90% 才能令人信服。隨著合成技術(shù)的進步，合成數(shù)據(jù)的明顯“痕跡”變得越來越微妙。然而，LMM 可以捕捉到微小的細節(jié)，例如人眼無法察覺的圖像特征，顯示出超越人類的潛力。同時LMM 在大多數(shù)任務中都表現(xiàn)出優(yōu)于專家模型的性能。這主要是因為 LOKI 收集的合成數(shù)據(jù)來源豐富多樣，與現(xiàn)有數(shù)據(jù)域存在顯著差異，導致專家模型的泛化性能不佳。使用類似數(shù)據(jù)訓練的專家模型進行合成檢測的準確率應該會顯著提高。目前，LMM 在合成數(shù)據(jù)檢測中表現(xiàn)中等，但在泛化能力上超越專家模型。與傳統(tǒng)專家模型不同，LMM 具有解釋異常背后原因的能力，凸顯了其作為合成檢測器的獨特優(yōu)勢。

矛盾之爭，AI合成數(shù)據(jù)可以騙過大模型嗎？中山大學聯(lián)合上海AI Lab提出合成檢測基準LOKI-AI.x社區(qū)

模型偏差。 LOKI基于召回率計算的歸一化偏差指數(shù)熱圖用于分析模型偏差。結(jié)果表明，大多數(shù)模型在合成數(shù)據(jù)檢測任務中表現(xiàn)出顯著的偏差，傾向于將數(shù)據(jù)錯誤地歸類為真實或合成。例如，GPT-4o 傾向于將文本數(shù)據(jù)歸類為真實，而傾向于將 3D 數(shù)據(jù)判斷為 AI 生成的。盡管實施了多種提問技巧來最大限度地減少提示效應，但大多數(shù)模型仍然存在明顯的偏差。

專家領(lǐng)域知識匱乏。 LOKI展示了 GPT-4o 在不同圖像子類別中的不同性能。實驗結(jié)果清楚地表明，GPT 對物體和風景等常見圖像類型表現(xiàn)出強大的識別能力，甚至超越了人類用戶。然而，GPT-4o 在衛(wèi)星和醫(yī)學成像等專業(yè)領(lǐng)域以及文檔等較少訓練的圖像類型上的表現(xiàn)顯著下降。這表明當前的 LMM 仍然缺乏某些專家領(lǐng)域知識。

多模態(tài)能力不均衡。 通過比較各種 LMM 在不同模態(tài)下的性能。結(jié)果表明，目前的模型在圖像和文本等經(jīng)常訓練的模態(tài)上表現(xiàn)出色，甚至在某些測試中超越了人類的表現(xiàn)。然而，它們在 3D 和音頻任務上的性能顯著下降，大多數(shù)開源模型缺乏相應的能力。未來的 AGI 要發(fā)展成為一個多功能的助手，需要具備更均衡的多模態(tài)能力。

結(jié)論

本文介紹了 LOKI，旨在評估大型多模態(tài)模型在檢測各種模態(tài)合成數(shù)據(jù)方面的性能。對 LMM 在視頻、圖像、3D、音頻、文本和專門子域上的性能進行了全面研究，還分析了 LMM 解釋合成數(shù)據(jù)中詳細異常的能力。實驗結(jié)果表明，LMM 在檢測合成數(shù)據(jù)方面具有一定的能力，并具有初步的解釋異常的能力。合成數(shù)據(jù)檢測任務還有效地評估了 LMM 在開發(fā)過程中的各種能力。這些發(fā)現(xiàn)突出了 LOKI 任務的挑戰(zhàn)性和綜合性，以及 LMM 在未來合成數(shù)據(jù)檢測任務中的潛力。我們旨在通過 LOKI 激發(fā)更強大、更可解釋的合成數(shù)據(jù)檢測方法，以應對快速發(fā)展的 AI 合成技術(shù)帶來的潛在風險。此外，合成和檢測之間的關(guān)系是對抗發(fā)展的，但它們是互惠互利的；更好、更可解釋的合成檢測器將進一步推動 AI 合成技術(shù)的發(fā)展。

本文轉(zhuǎn)自 AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/tMhiwd_FKjy5qT8Dr4vqag??

標簽

數(shù)據(jù)

贊

收藏

回復

舉報

回復

相關(guān)推薦

調(diào)研120+模型！騰訊AI Lab聯(lián)合京都大學發(fā)布多模態(tài)大語言模型最新綜述

laokugonggao ? 5582瀏覽 ? 0回復
“梗王”大模型，靠講笑話登上CVPR | 中山大學

Crystalcxt ? 3702瀏覽 ? 0回復
EMNLP 2023｜利用LLM合成數(shù)據(jù)訓練模型有哪些坑？

arnoldzhw ? 4935瀏覽 ? 0回復
合成數(shù)據(jù)才是人類未來？

duhorse ? 3669瀏覽 ? 0回復
中山大學等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024

duhorse ? 3596瀏覽 ? 0回復
英偉達開源3400億巨獸，98%合成數(shù)據(jù)訓出最強開源通用模型！性能對標GPT-4o

duhorse ? 4093瀏覽 ? 0回復
AI畫連環(huán)畫角色更一致了！人物之間的復雜互動也能處理｜中山大學&聯(lián)想團隊出品

Crystalcxt ? 4983瀏覽 ? 0回復
考考大模型視頻理解能力，中科院人大百川提出新基準合成框架

Crystalcxt ? 3544瀏覽 ? 0回復
合成數(shù)據(jù)：解鎖通用人工智能的“關(guān)鍵之鑰”？

Baihai_IDP ? 3243瀏覽 ? 0回復
從噪聲中提取情感：中山大學與騰訊AI實驗室基于元學習的多模態(tài)情感分析新方法

xuxiangda ? 6341瀏覽 ? 0回復
中山大學等提出CoRe：任意提示的文本到圖像個性化生成！

angel ? 3519瀏覽 ? 0回復
探秘大語言模型數(shù)據(jù)合成能力：AgoraBench基準測試全解析

十一月雨_55 ? 3892瀏覽 ? 0回復
中山大學、美團聯(lián)合團隊推出行為正則化與順序策略優(yōu)化結(jié)合的離線多智能體學習算法

xuxiangda ? 3992瀏覽 ? 0回復
對話數(shù)據(jù)合成：清華利用多Agent合成大量醫(yī)療對話數(shù)據(jù)顯著提升LLM在醫(yī)療場景效果

arnoldzhw ? 4638瀏覽 ? 0回復
中山大學&360 AI研究院開源Qihoo-T2X:統(tǒng)一架構(gòu)搞定T2X任務

angel ? 3854瀏覽 ? 0回復
香港科技大學聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學會“濃縮”推理模式

arnoldzhw ? 2816瀏覽 ? 0回復
DeepMind | 合成數(shù)據(jù)+RL，SWiRL讓大模型擁有超強“工具腦”！

arnoldzhw ? 2616瀏覽 ? 0回復
OpenAI 開源模型 gpt-oss 是在合成數(shù)據(jù)上訓練的嗎？一些合理推測

Baihai_IDP ? 1285瀏覽 ? 0回復
上海AI Lab發(fā)布科學LLM綜述：從數(shù)據(jù)基礎到Agent前沿

PaperAgent ? 2524瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多領(lǐng)域SOTA誕生！Vid2World：打通視頻擴散到世界模型的“任督二脈”｜清華、重大 2025-05-23 10:17:32發(fā)布
多模態(tài)終極大一統(tǒng)！字節(jié)開源BAGEL爆火：圖文生成理解雙冠王，竟能預測未來畫面？ 2025-05-22 09:33:05發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

上一篇： “左腳踩右腳”提升文生圖模型綜合能力！清北牛津普林斯頓聯(lián)合發(fā)布IterComp

下一篇：蘋果重磅開源俄羅斯套娃擴散模型！MDM：多任務高分辨率生成又快又好！

社區(qū)精華內(nèi)容

目錄

<legend id="ndt1o"><track id="ndt1o"></track></legend>