偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="ekped"><p id="ekped"></p></sub>

<thead id="ekped"></thead>

<sub id="ekped"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

首個(gè)統(tǒng)一多模態(tài)模型評(píng)測(cè)標(biāo)準(zhǔn)，DeepSeek Janus理解能力領(lǐng)跑開(kāi)源，但和閉源還有差距

作者：量子位 2025-04-10 09:15:00

人工智能新聞

相比傳統(tǒng)的多模態(tài)模型（比如 GPT-4V 或 DALL·E 3），這類(lèi)模型在任務(wù)適應(yīng)性和靈活性上更具優(yōu)勢(shì)。

統(tǒng)一多模態(tài)大模型（U-MLLMs）逐漸成為研究熱點(diǎn)，近期GPT-4o，Gemini-2.0-flash都展現(xiàn)出了非凡的理解和生成能力，而且還能實(shí)現(xiàn)跨模態(tài)輸入輸出，比如圖像+文本輸入，生成圖像或文本。

相比傳統(tǒng)的多模態(tài)模型（比如 GPT-4V 或 DALL·E 3），這類(lèi)模型在任務(wù)適應(yīng)性和靈活性上更具優(yōu)勢(shì)。然而，當(dāng)前研究領(lǐng)域還存在幾個(gè)突出的問(wèn)題：

1. 評(píng)測(cè)標(biāo)準(zhǔn)混亂：不同研究選用的評(píng)測(cè)數(shù)據(jù)集與指標(biāo)各不相同，使得模型之間難以公平比較；

2. 混合模態(tài)生成能力缺乏評(píng)測(cè)體系：例如，在圖像中畫(huà)輔助線解題、根據(jù)推理結(jié)果生成圖像等案例雖然很有代表性，但沒(méi)有統(tǒng)一的 benchmark 能夠全面測(cè)評(píng)這類(lèi)能力。

這些問(wèn)題嚴(yán)重限制了U-MLLMs的發(fā)展和落地應(yīng)用，因此迫切需要一個(gè)系統(tǒng)、標(biāo)準(zhǔn)的評(píng)測(cè)框架。

主要貢獻(xiàn)

MME-Unify（簡(jiǎn)稱(chēng) MME-U）正是為了解決上述問(wèn)題而提出的，具體貢獻(xiàn)如下：

首次提出統(tǒng)一評(píng)測(cè)框架：MME-U 是第一個(gè)涵蓋“理解”、“生成”與“統(tǒng)一任務(wù)（混合模態(tài)生成）”的 benchmark，支持從不同維度系統(tǒng)性評(píng)估 U-MLLMs 的綜合能力。

構(gòu)建覆蓋廣泛的任務(wù)體系：

從12個(gè)現(xiàn)有數(shù)據(jù)集中篩選整理，形成10大類(lèi)任務(wù)，包含30個(gè)子任務(wù)
理解類(lèi)任務(wù)涵蓋：?jiǎn)螆D感知、多圖推理、視頻理解等；
生成類(lèi)任務(wù)涵蓋：文本生成圖像、圖像編輯、圖像轉(zhuǎn)視頻等。

統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)：

將理解任務(wù)統(tǒng)一轉(zhuǎn)為多選題，使用準(zhǔn)確率作為評(píng)測(cè)指標(biāo)；
將生成任務(wù)的多種指標(biāo)標(biāo)準(zhǔn)化、歸一化，輸出統(tǒng)一分?jǐn)?shù)，便于橫向比較。

設(shè)計(jì)五類(lèi)“統(tǒng)一任務(wù)”，考察模型對(duì)多模態(tài)信息的協(xié)同處理能力：

圖像編輯與解釋?zhuān)?/span>模型需理解編輯指令并執(zhí)行；
常識(shí)問(wèn)答生成圖像：模型需根據(jù)問(wèn)答內(nèi)容生成合適圖像；
輔助線任務(wù)：要求模型畫(huà)出解幾何題所需的輔助線并解題；
找不同（SpotDiff）：在兩張圖中找并畫(huà)出差異；
視覺(jué)鏈?zhǔn)酵评恚╒isual CoT）：邊推理邊生成下一步圖像結(jié)果。

實(shí)測(cè)分析12個(gè)主流U-MLLMs表現(xiàn)：包括 Janus-Pro、EMU3、Gemini 2 等，發(fā)現(xiàn)它們?cè)诙囗?xiàng)任務(wù)中差異顯著，尤其是在復(fù)雜生成任務(wù)和指令理解方面仍有很大提升空間。

揭示了開(kāi)放模型與閉源模型之間的差距：閉源模型如GPT-4o、Gemini 2.0 Flash在生成質(zhì)量與細(xì)節(jié)還原度方面甚至優(yōu)于一些專(zhuān)用生成模型（如 DALL·E-3）；而開(kāi)放模型的性能則尚顯不足。

MME-Unify不僅為統(tǒng)一多模態(tài)大模型的評(píng)估提供了缺失已久的標(biāo)準(zhǔn)化工具，也進(jìn)一步推動(dòng)了這一方向從“炫技”向“實(shí)用”邁進(jìn)，是當(dāng)前U-MLLMs 領(lǐng)域不可或缺的基準(zhǔn)評(píng)測(cè)體系。

分為三個(gè)主要評(píng)測(cè)能力板塊，涵蓋數(shù)據(jù)構(gòu)建、任務(wù)設(shè)計(jì)與評(píng)估策略，整體條理清晰、便于理解。

MME-Unify 評(píng)測(cè)框架設(shè)計(jì)詳解

本節(jié)介紹MME-Unify的數(shù)據(jù)構(gòu)建方式、任務(wù)標(biāo)注流程以及統(tǒng)一的評(píng)測(cè)方法。MME-U將多模態(tài)統(tǒng)一模型能力劃分為三大類(lèi)：

- 多模態(tài)理解能力
- 多模態(tài)生成能力
- 統(tǒng)一任務(wù)能力

2.1多模態(tài)理解（Multimodal Understanding)

數(shù)據(jù)構(gòu)建

理解類(lèi)任務(wù)根據(jù)視覺(jué)輸入類(lèi)型劃分為三類(lèi)：

- SIPU（單圖感知與理解）：評(píng)估圖文對(duì)的理解能力。- MITIU（多圖/圖文交叉理解）：評(píng)估模型處理多張圖和交替圖文輸入的能力。- VPU（視頻感知與理解）：評(píng)估模型的視頻理解能力。

共收集1900個(gè)樣本，覆蓋OCR、圖表解析、空間感知、屬性/行為推理等24種任務(wù)，其中感知類(lèi)任務(wù)1600條，推理類(lèi)任務(wù)300條，每類(lèi)子任務(wù)不少于50對(duì) QA 樣本。

QA 標(biāo)準(zhǔn)化轉(zhuǎn)化

為統(tǒng)一評(píng)估標(biāo)準(zhǔn)，所有理解類(lèi)任務(wù)轉(zhuǎn)為四選一多選題，干擾項(xiàng)與正確選項(xiàng)語(yǔ)義接近；無(wú)法處理視頻的模型則使用關(guān)鍵幀，單圖模型取首圖。

評(píng)估策略

采用規(guī)則匹配法過(guò)濾答案（如 MME-Realworld），并隨機(jī)打亂選項(xiàng)順序以避免位置偏差。最終以平均準(zhǔn)確率評(píng)估理解能力。

2.2 多模態(tài)生成（Multimodal Generation）

任務(wù)類(lèi)型（6類(lèi)）

1. FIR：圖像細(xì)節(jié)重建2. TIE：文本指導(dǎo)圖像編輯3. TIG：文本生成圖像4. CIVG：圖像+文本生成視頻5. TVG：文本生成視頻6. VP：視頻預(yù)測(cè)（預(yù)測(cè)后續(xù)幀）

每類(lèi)任務(wù)不少于 200 個(gè)樣本，數(shù)據(jù)來(lái)源包括 COCO、MSR-VTT、Pexel 等。

數(shù)據(jù)標(biāo)準(zhǔn)化流程

- 屬性統(tǒng)一：將 30 多種屬性統(tǒng)一為 Text Prompt、Src Image、Ref Image、Video 等。- 任務(wù)專(zhuān)屬提示語(yǔ)：為每類(lèi)生成任務(wù)設(shè)計(jì) prompt 模板，并統(tǒng)一數(shù)據(jù)格式。

評(píng)估策略

各任務(wù)先用專(zhuān)屬指標(biāo)（如 CLIP-I、FID、FVD）評(píng)估；
再將所有指標(biāo)標(biāo)準(zhǔn)化到 0–100 分?jǐn)?shù)區(qū)間；
取標(biāo)準(zhǔn)化后的平均分作為最終生成能力分?jǐn)?shù)，實(shí)現(xiàn)跨任務(wù)可比性。

2.3 統(tǒng)一任務(wù)能力（Unify Capability）

MME-Unify 精心設(shè)計(jì)了5類(lèi)混合模態(tài)統(tǒng)一任務(wù)，每類(lèi)任務(wù)包括文本與圖像雙重輸入輸出，體現(xiàn) U-MLLMs 的綜合處理能力：

1. 常識(shí)問(wèn)答生成圖像（CSQ）

任務(wù)：根據(jù)常識(shí)謎語(yǔ)類(lèi)問(wèn)題選出正確答案并生成相應(yīng)圖像（如“國(guó)寶” → 熊貓）。
流程：GPT-4o 生成問(wèn)題，人工搜圖，模型需同時(shí)答題并作圖。

2. 圖像編輯與解釋?zhuān)↖EE）

任務(wù)：理解復(fù)雜編輯指令，生成修改圖，并解釋修改內(nèi)容。
構(gòu)建方式：
文本選項(xiàng)由 GPT-4o 生成，圖像干擾項(xiàng)由 InstructPix2Pix 生成。模型需先解釋修改內(nèi)容（文本問(wèn)答），再輸出修改圖（圖像問(wèn)答）。

3. 找不同任務(wù)（SpotDiff）

來(lái)源：SpotDiff 網(wǎng)站
模型需識(shí)別圖像對(duì)的不同區(qū)域，輸出數(shù)目和定位圖，考察空間記憶和視覺(jué)推理能力。

4. 幾何題輔助線任務(wù)（Auxiliary Lines）

來(lái)源：Geometry3K
模型需在圖上畫(huà)出解題輔助線，并作答（含邏輯和視覺(jué)兩部分），考察推理+生成整合能力。

5. 視覺(jué)鏈?zhǔn)酵评恚╒isual CoT）

任務(wù)：通過(guò)逐步生成導(dǎo)航動(dòng)作、坐標(biāo)和迷宮圖像來(lái)走迷宮，模擬現(xiàn)實(shí)中的多步視覺(jué)決策過(guò)程。
每一步包括動(dòng)作、坐標(biāo)和圖像輸出，后續(xù)步驟包含歷史信息，實(shí)現(xiàn)逐步 reasoning。

統(tǒng)一任務(wù)評(píng)估策略

文本部分：

用 CLIP-T 相似度判斷模型生成解釋與正確選項(xiàng)的接近程度；或直接選擇選項(xiàng)。

圖像部分：

用 CLIP-I 計(jì)算生成圖與選項(xiàng)圖像的相似度，選出最高者。

acc 與 acc+：

acc：文本準(zhǔn)確率與圖像準(zhǔn)確率的平均值；acc+：文本和圖像都答對(duì)的樣本占比；

對(duì)于 Visual CoT，則分別統(tǒng)計(jì)動(dòng)作、坐標(biāo)、圖像的 acc，再取平均。

最終，MME-U 總得分為理解分 + 生成分 + 統(tǒng)一任務(wù)分的平均值，構(gòu)成系統(tǒng)的、全面的模型評(píng)估體系。

有趣的實(shí)驗(yàn)發(fā)現(xiàn)總結(jié)

本文對(duì)多模態(tài)大模型（MLLMs）和統(tǒng)一多模態(tài)大模型（U-MLLMs）進(jìn)行了系統(tǒng)性評(píng)測(cè)，總共涵蓋了22個(gè)主流模型。研究重點(diǎn)集中在三個(gè)維度：理解能力（Understanding）、生成能力（Generation）以及統(tǒng)一能力（Unify Capability）。評(píng)估采用MME-U評(píng)分體系，并包含多個(gè)細(xì)粒度子任務(wù)。以下為實(shí)驗(yàn)中的關(guān)鍵發(fā)現(xiàn)與亮點(diǎn)總結(jié)：

理解能力方面

表現(xiàn)最強(qiáng)的模型是閉源的 Gemini2.0-flash-exp，在所有理解類(lèi)任務(wù)中遙遙領(lǐng)先。
開(kāi)源陣營(yíng)中表現(xiàn)最好的是Janus-Flow與Janus-Pro，它們采用了兩個(gè)獨(dú)立的視覺(jué)編碼器，分別用于理解與生成任務(wù)，成功避開(kāi)了如VQGAN等通用 tokenizer 在圖像理解上的局限。
采用單一tokenizer 的模型（如 Emu3、Show-o）在理解任務(wù)上表現(xiàn)普遍較差，即便模型體量相當(dāng)，也難以達(dá)到Janus系列的水準(zhǔn)。
MIO-Instruct展現(xiàn)了強(qiáng)大的理解能力，其背后是海量多模態(tài)數(shù)據(jù)（包含圖像、視頻、音頻）與復(fù)雜三階段訓(xùn)練流程的支持，強(qiáng)調(diào)了數(shù)據(jù)多樣性在理解任務(wù)中的重要性。

生成能力方面

在圖像生成任務(wù)中，U-MLLMs的表現(xiàn)與專(zhuān)注型生成模型的差距不如理解任務(wù)那么大。
舉例來(lái)說(shuō)，Gemini2.0-flash-exp 在Text-to-Image任務(wù)中甚至超過(guò)了DALL·E 3 六個(gè)點(diǎn)，展現(xiàn)出強(qiáng)大的生成潛力。
多數(shù)U-MLLMs（如 EMU3、HermersFlow、GILL）在圖像生成任務(wù)的平均得分均高于48，顯示基礎(chǔ)圖像生成已具一定可用性。
不過(guò)，在視頻生成任務(wù)上仍是短板。盡管如Emu3聲稱(chēng)具備視頻生成能力，但由于缺乏相應(yīng) checkpoint，暫時(shí)無(wú)法驗(yàn)證。
從圖像細(xì)節(jié)還原的角度看，當(dāng)前開(kāi)源U-MLLMs與DALL·E等模型仍有顯著差距，尤其是在特定文本細(xì)節(jié)（如T恤號(hào)碼、背景標(biāo)語(yǔ)等）上的還原。

統(tǒng)一能力方面（Unify Tasks）

統(tǒng)一任務(wù)對(duì)模型提出了更高要求——既要生成合理圖像，又要完成對(duì)應(yīng)文本推理。
目前，開(kāi)源模型中表現(xiàn)最好的 Anole 在簡(jiǎn)單任務(wù)上也僅有約60%的準(zhǔn)確率，在復(fù)雜統(tǒng)一任務(wù)上幾乎沒(méi)有模型超過(guò)30%準(zhǔn)確率。
在視覺(jué)鏈?zhǔn)酵评恚╒isual CoT）任務(wù)中，無(wú)一模型能夠成功完成多步推理與圖像生成結(jié)合的完整流程。
分析顯示，統(tǒng)一任務(wù)對(duì)模型的多模態(tài)交叉能力提出了極高要求，目前仍是行業(yè)技術(shù)瓶頸。

深入分析與趨勢(shì)觀察

當(dāng)前模型在基礎(chǔ)能力（理解/生成）與統(tǒng)一能力之間普遍存在 “性能權(quán)衡困境”：

例如，MiniGPT-5、GILL、Anole 在統(tǒng)一任務(wù)設(shè)計(jì)上更激進(jìn)，但犧牲了基礎(chǔ)理解與生成能力，導(dǎo)致整體分?jǐn)?shù)偏低。

而如MIO-Instruct雖然在基礎(chǔ)能力上表現(xiàn)優(yōu)秀，但在圖文交錯(cuò)生成的統(tǒng)一任務(wù)中表現(xiàn)不佳。

這種表現(xiàn)差異提示：現(xiàn)有訓(xùn)練范式未能有效整合基礎(chǔ)任務(wù)與跨模態(tài)任務(wù)的學(xué)習(xí)目標(biāo)，可能需要重新設(shè)計(jì)對(duì)齊策略或任務(wù)混合訓(xùn)練流程。

總結(jié)

整體來(lái)看，U-MLLMs雖然展示了多模態(tài)統(tǒng)一任務(wù)的潛力，但距離實(shí)際可用仍有明顯距離。特別是在如何協(xié)調(diào)理解與生成、單步與多步、圖文協(xié)同等維度，仍存在諸多技術(shù)挑戰(zhàn)。MME-Unify提供了一套系統(tǒng)性測(cè)評(píng)框架，并量化了主流模型的能力上限，為未來(lái)模型設(shè)計(jì)提供了清晰參照與方向指引。

項(xiàng)目地址：

https://mme-unify.github.io

責(zé)任編輯：張燕妮來(lái)源：量子位

模型 AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="hhlzt"><nav id="hhlzt"></nav></p>