首個統(tǒng)一多模態(tài)模型評測標(biāo)準(zhǔn),DeepSeek Janus理解能力領(lǐng)跑開源,但和閉源還有差距
統(tǒng)一多模態(tài)大模型(U-MLLMs)逐漸成為研究熱點,近期GPT-4o,Gemini-2.0-flash都展現(xiàn)出了非凡的理解和生成能力,而且還能實現(xiàn)跨模態(tài)輸入輸出,比如圖像+文本輸入,生成圖像或文本。
相比傳統(tǒng)的多模態(tài)模型(比如 GPT-4V 或 DALL·E 3),這類模型在任務(wù)適應(yīng)性和靈活性上更具優(yōu)勢。然而,當(dāng)前研究領(lǐng)域還存在幾個突出的問題:
1. 評測標(biāo)準(zhǔn)混亂:不同研究選用的評測數(shù)據(jù)集與指標(biāo)各不相同,使得模型之間難以公平比較;
2. 混合模態(tài)生成能力缺乏評測體系:例如,在圖像中畫輔助線解題、根據(jù)推理結(jié)果生成圖像等案例雖然很有代表性,但沒有統(tǒng)一的 benchmark 能夠全面測評這類能力。
這些問題嚴(yán)重限制了U-MLLMs的發(fā)展和落地應(yīng)用,因此迫切需要一個系統(tǒng)、標(biāo)準(zhǔn)的評測框架。
主要貢獻(xiàn)
MME-Unify(簡稱 MME-U)正是為了解決上述問題而提出的,具體貢獻(xiàn)如下:
首次提出統(tǒng)一評測框架:MME-U 是第一個涵蓋“理解”、“生成”與“統(tǒng)一任務(wù)(混合模態(tài)生成)”的 benchmark,支持從不同維度系統(tǒng)性評估 U-MLLMs 的綜合能力。
構(gòu)建覆蓋廣泛的任務(wù)體系:
- 從12個現(xiàn)有數(shù)據(jù)集中篩選整理,形成10大類任務(wù),包含30個子任務(wù)
- 理解類任務(wù)涵蓋:單圖感知、多圖推理、視頻理解等;
- 生成類任務(wù)涵蓋:文本生成圖像、圖像編輯、圖像轉(zhuǎn)視頻等。
統(tǒng)一評測標(biāo)準(zhǔn):
- 將理解任務(wù)統(tǒng)一轉(zhuǎn)為多選題,使用準(zhǔn)確率作為評測指標(biāo);
- 將生成任務(wù)的多種指標(biāo)標(biāo)準(zhǔn)化、歸一化,輸出統(tǒng)一分?jǐn)?shù),便于橫向比較。
設(shè)計五類“統(tǒng)一任務(wù)”,考察模型對多模態(tài)信息的協(xié)同處理能力:
- 圖像編輯與解釋:模型需理解編輯指令并執(zhí)行;
- 常識問答生成圖像:模型需根據(jù)問答內(nèi)容生成合適圖像;
- 輔助線任務(wù):要求模型畫出解幾何題所需的輔助線并解題;
- 找不同(SpotDiff):在兩張圖中找并畫出差異;
- 視覺鏈?zhǔn)酵评恚╒isual CoT):邊推理邊生成下一步圖像結(jié)果。
實測分析12個主流U-MLLMs表現(xiàn):包括 Janus-Pro、EMU3、Gemini 2 等,發(fā)現(xiàn)它們在多項任務(wù)中差異顯著,尤其是在復(fù)雜生成任務(wù)和指令理解方面仍有很大提升空間。
揭示了開放模型與閉源模型之間的差距:閉源模型如GPT-4o、Gemini 2.0 Flash在生成質(zhì)量與細(xì)節(jié)還原度方面甚至優(yōu)于一些專用生成模型(如 DALL·E-3);而開放模型的性能則尚顯不足。
MME-Unify不僅為統(tǒng)一多模態(tài)大模型的評估提供了缺失已久的標(biāo)準(zhǔn)化工具,也進(jìn)一步推動了這一方向從“炫技”向“實用”邁進(jìn),是當(dāng)前U-MLLMs 領(lǐng)域不可或缺的基準(zhǔn)評測體系。
分為三個主要評測能力板塊,涵蓋數(shù)據(jù)構(gòu)建、任務(wù)設(shè)計與評估策略,整體條理清晰、便于理解。
MME-Unify 評測框架設(shè)計詳解
本節(jié)介紹MME-Unify的數(shù)據(jù)構(gòu)建方式、任務(wù)標(biāo)注流程以及統(tǒng)一的評測方法。MME-U將多模態(tài)統(tǒng)一模型能力劃分為三大類:
- 多模態(tài)理解能力
- 多模態(tài)生成能力
- 統(tǒng)一任務(wù)能力
2.1多模態(tài)理解(Multimodal Understanding)
數(shù)據(jù)構(gòu)建
理解類任務(wù)根據(jù)視覺輸入類型劃分為三類:
- SIPU(單圖感知與理解):評估圖文對的理解能力。- MITIU(多圖/圖文交叉理解):評估模型處理多張圖和交替圖文輸入的能力。- VPU(視頻感知與理解):評估模型的視頻理解能力。
共收集1900個樣本,覆蓋OCR、圖表解析、空間感知、屬性/行為推理等24種任務(wù),其中感知類任務(wù)1600條,推理類任務(wù)300條,每類子任務(wù)不少于50對 QA 樣本。
QA 標(biāo)準(zhǔn)化轉(zhuǎn)化
為統(tǒng)一評估標(biāo)準(zhǔn),所有理解類任務(wù)轉(zhuǎn)為四選一多選題,干擾項與正確選項語義接近;無法處理視頻的模型則使用關(guān)鍵幀,單圖模型取首圖。
評估策略
采用規(guī)則匹配法過濾答案(如 MME-Realworld),并隨機(jī)打亂選項順序以避免位置偏差。最終以平均準(zhǔn)確率評估理解能力。
2.2 多模態(tài)生成(Multimodal Generation)
任務(wù)類型(6類)
1. FIR:圖像細(xì)節(jié)重建2. TIE:文本指導(dǎo)圖像編輯3. TIG:文本生成圖像4. CIVG:圖像+文本生成視頻5. TVG:文本生成視頻6. VP:視頻預(yù)測(預(yù)測后續(xù)幀)
每類任務(wù)不少于 200 個樣本,數(shù)據(jù)來源包括 COCO、MSR-VTT、Pexel 等。
數(shù)據(jù)標(biāo)準(zhǔn)化流程
- 屬性統(tǒng)一:將 30 多種屬性統(tǒng)一為 Text Prompt、Src Image、Ref Image、Video 等。- 任務(wù)專屬提示語:為每類生成任務(wù)設(shè)計 prompt 模板,并統(tǒng)一數(shù)據(jù)格式。
評估策略
- 各任務(wù)先用專屬指標(biāo)(如 CLIP-I、FID、FVD)評估;
- 再將所有指標(biāo)標(biāo)準(zhǔn)化到 0–100 分?jǐn)?shù)區(qū)間;
- 取標(biāo)準(zhǔn)化后的平均分作為最終生成能力分?jǐn)?shù),實現(xiàn)跨任務(wù)可比性。
2.3 統(tǒng)一任務(wù)能力(Unify Capability)
MME-Unify 精心設(shè)計了5類混合模態(tài)統(tǒng)一任務(wù),每類任務(wù)包括文本與圖像雙重輸入輸出,體現(xiàn) U-MLLMs 的綜合處理能力:
1. 常識問答生成圖像(CSQ)
- 任務(wù):根據(jù)常識謎語類問題選出正確答案并生成相應(yīng)圖像(如“國寶” → 熊貓)。
- 流程:GPT-4o 生成問題,人工搜圖,模型需同時答題并作圖。
2. 圖像編輯與解釋(IEE)
- 任務(wù):理解復(fù)雜編輯指令,生成修改圖,并解釋修改內(nèi)容。
- 構(gòu)建方式:
文本選項由 GPT-4o 生成,圖像干擾項由 InstructPix2Pix 生成。模型需先解釋修改內(nèi)容(文本問答),再輸出修改圖(圖像問答)。
3. 找不同任務(wù)(SpotDiff)
- 來源:SpotDiff 網(wǎng)站
- 模型需識別圖像對的不同區(qū)域,輸出數(shù)目和定位圖,考察空間記憶和視覺推理能力。
4. 幾何題輔助線任務(wù)(Auxiliary Lines)
- 來源:Geometry3K
- 模型需在圖上畫出解題輔助線,并作答(含邏輯和視覺兩部分),考察推理+生成整合能力。
5. 視覺鏈?zhǔn)酵评恚╒isual CoT)
- 任務(wù):通過逐步生成導(dǎo)航動作、坐標(biāo)和迷宮圖像來走迷宮,模擬現(xiàn)實中的多步視覺決策過程。
- 每一步包括動作、坐標(biāo)和圖像輸出,后續(xù)步驟包含歷史信息,實現(xiàn)逐步 reasoning。
統(tǒng)一任務(wù)評估策略
- 文本部分:
用 CLIP-T 相似度判斷模型生成解釋與正確選項的接近程度;或直接選擇選項。
- 圖像部分:
用 CLIP-I 計算生成圖與選項圖像的相似度,選出最高者。
acc 與 acc+:
acc:文本準(zhǔn)確率與圖像準(zhǔn)確率的平均值;acc+:文本和圖像都答對的樣本占比;
對于 Visual CoT,則分別統(tǒng)計動作、坐標(biāo)、圖像的 acc,再取平均。
最終,MME-U 總得分為理解分 + 生成分 + 統(tǒng)一任務(wù)分的平均值,構(gòu)成系統(tǒng)的、全面的模型評估體系。
有趣的實驗發(fā)現(xiàn)總結(jié)
本文對多模態(tài)大模型(MLLMs)和統(tǒng)一多模態(tài)大模型(U-MLLMs)進(jìn)行了系統(tǒng)性評測,總共涵蓋了22個主流模型。研究重點集中在三個維度:理解能力(Understanding)、生成能力(Generation)以及統(tǒng)一能力(Unify Capability)。評估采用MME-U評分體系,并包含多個細(xì)粒度子任務(wù)。以下為實驗中的關(guān)鍵發(fā)現(xiàn)與亮點總結(jié):
理解能力方面
- 表現(xiàn)最強(qiáng)的模型是閉源的 Gemini2.0-flash-exp,在所有理解類任務(wù)中遙遙領(lǐng)先。
- 開源陣營中表現(xiàn)最好的是Janus-Flow與Janus-Pro,它們采用了兩個獨立的視覺編碼器,分別用于理解與生成任務(wù),成功避開了如VQGAN等通用 tokenizer 在圖像理解上的局限。
- 采用單一tokenizer 的模型(如 Emu3、Show-o)在理解任務(wù)上表現(xiàn)普遍較差,即便模型體量相當(dāng),也難以達(dá)到Janus系列的水準(zhǔn)。
- MIO-Instruct展現(xiàn)了強(qiáng)大的理解能力,其背后是海量多模態(tài)數(shù)據(jù)(包含圖像、視頻、音頻)與復(fù)雜三階段訓(xùn)練流程的支持,強(qiáng)調(diào)了數(shù)據(jù)多樣性在理解任務(wù)中的重要性。
生成能力方面
- 在圖像生成任務(wù)中,U-MLLMs的表現(xiàn)與專注型生成模型的差距不如理解任務(wù)那么大。
- 舉例來說,Gemini2.0-flash-exp 在Text-to-Image任務(wù)中甚至超過了DALL·E 3 六個點,展現(xiàn)出強(qiáng)大的生成潛力。
- 多數(shù)U-MLLMs(如 EMU3、HermersFlow、GILL)在圖像生成任務(wù)的平均得分均高于48,顯示基礎(chǔ)圖像生成已具一定可用性。
- 不過,在視頻生成任務(wù)上仍是短板。盡管如Emu3聲稱具備視頻生成能力,但由于缺乏相應(yīng) checkpoint,暫時無法驗證。
- 從圖像細(xì)節(jié)還原的角度看,當(dāng)前開源U-MLLMs與DALL·E等模型仍有顯著差距,尤其是在特定文本細(xì)節(jié)(如T恤號碼、背景標(biāo)語等)上的還原。
統(tǒng)一能力方面(Unify Tasks)
- 統(tǒng)一任務(wù)對模型提出了更高要求——既要生成合理圖像,又要完成對應(yīng)文本推理。
- 目前,開源模型中表現(xiàn)最好的 Anole 在簡單任務(wù)上也僅有約60%的準(zhǔn)確率,在復(fù)雜統(tǒng)一任務(wù)上幾乎沒有模型超過30%準(zhǔn)確率。
- 在視覺鏈?zhǔn)酵评恚╒isual CoT)任務(wù)中,無一模型能夠成功完成多步推理與圖像生成結(jié)合的完整流程。
- 分析顯示,統(tǒng)一任務(wù)對模型的多模態(tài)交叉能力提出了極高要求,目前仍是行業(yè)技術(shù)瓶頸。
深入分析與趨勢觀察
- 當(dāng)前模型在基礎(chǔ)能力(理解/生成)與統(tǒng)一能力之間普遍存在 “性能權(quán)衡困境”:
例如,MiniGPT-5、GILL、Anole 在統(tǒng)一任務(wù)設(shè)計上更激進(jìn),但犧牲了基礎(chǔ)理解與生成能力,導(dǎo)致整體分?jǐn)?shù)偏低。
而如MIO-Instruct雖然在基礎(chǔ)能力上表現(xiàn)優(yōu)秀,但在圖文交錯生成的統(tǒng)一任務(wù)中表現(xiàn)不佳。
這種表現(xiàn)差異提示:現(xiàn)有訓(xùn)練范式未能有效整合基礎(chǔ)任務(wù)與跨模態(tài)任務(wù)的學(xué)習(xí)目標(biāo),可能需要重新設(shè)計對齊策略或任務(wù)混合訓(xùn)練流程。
總結(jié)
整體來看,U-MLLMs雖然展示了多模態(tài)統(tǒng)一任務(wù)的潛力,但距離實際可用仍有明顯距離。特別是在如何協(xié)調(diào)理解與生成、單步與多步、圖文協(xié)同等維度,仍存在諸多技術(shù)挑戰(zhàn)。MME-Unify提供了一套系統(tǒng)性測評框架,并量化了主流模型的能力上限,為未來模型設(shè)計提供了清晰參照與方向指引。
項目地址: