九成以上模型止步白銀段位,只有3個(gè)鉑金!通用AI下半場(chǎng)評(píng)測(cè)標(biāo)準(zhǔn)來了

引言:從“解題”到“定義問題”,評(píng)測(cè)引領(lǐng)AI下半場(chǎng)
OpenAI 研究員姚順雨最近在其博文《AI 下半場(chǎng)》中提出了振聾發(fā)聵的觀點(diǎn):人工智能的發(fā)展正步入一個(gè)全新的階段。在上半場(chǎng),我們習(xí)慣于專注模型架構(gòu)與訓(xùn)練方法的突破;而如今,下半場(chǎng)的關(guān)鍵在于如何評(píng)估模型的真實(shí)智能?!敖酉聛?,AI 的重點(diǎn)將從解決問題轉(zhuǎn)向定義問題。在這個(gè)新時(shí)代,評(píng)估的重要性將超過訓(xùn)練”。換言之,我們需要像產(chǎn)品經(jīng)理那樣重新思考應(yīng)該讓 AI 解決什么問題、以及如何衡量“解決得好”。過去,Transformer、AlexNet、GPT-4 等里程碑工作讓算法和模型大放異彩;但在下半場(chǎng),比拼的不再是誰的模型更大、更強(qiáng),而是誰能定義出更有效的評(píng)測(cè)標(biāo)準(zhǔn),推動(dòng) AI 朝著對(duì)人類真正有用的方向演進(jìn)。
這樣的理念正在獲得實(shí)踐的支撐。近期,一支來自新加坡國(guó)立大學(xué)(NUS)和南洋理工大學(xué)(NTU)等機(jī)構(gòu)領(lǐng)銜的團(tuán)隊(duì)的研究,圍繞了通用多模態(tài)模型的評(píng)估而非訓(xùn)練展開。這篇題為《On Path to Multimodal Generalist: General-Level and General-Bench》的論文提出了全新的“通才智能”評(píng)測(cè)框架,旨在為多模態(tài)大模型(Multimodal Large Language Model, MLLM)的能力設(shè)立一把更合適的標(biāo)尺。該團(tuán)隊(duì)強(qiáng)調(diào),只有轉(zhuǎn)變思路,把精力投向評(píng)測(cè)體系的革新,我們才能真正衡量 AI 是否在朝著通用智能(AGI)的目標(biāo)邁進(jìn)。正如姚順雨所言,下半場(chǎng) AI 的勝負(fù)手在于評(píng)測(cè)標(biāo)準(zhǔn)的制定,而非一味堆砌訓(xùn)練技巧。這項(xiàng)超過 300 頁的研究由超過 30 位研究者共同完成,核心作者團(tuán)隊(duì)來自新加坡國(guó)立大學(xué)、南洋理工大學(xué),聯(lián)合了浙江大學(xué)、北京大興、羅切斯特大學(xué)等多家機(jī)構(gòu)的學(xué)者,這支跨學(xué)科、跨地域的多元團(tuán)隊(duì)集合了計(jì)算機(jī)視覺、多模態(tài)、NLP 等領(lǐng)域的專家。該工作錄用于國(guó)際機(jī)器學(xué)習(xí)大會(huì) ICML 2025(Spotlight 論文),在眾多投稿中脫穎而出,獲得評(píng)審高度評(píng)價(jià)。該工作將期待為未來的通用多模態(tài)大模型的發(fā)展指明一條明道。

- 項(xiàng)目主頁:https://generalist.top/
- Leaderboard:https://generalist.top/leaderboard
- 論文地址:https://arxiv.org/abs/2505.04620
- Benchmark:https://huggingface.co/General-Level
“通才智能”之問,多模態(tài)大模型的短板:“拼接怪”難言智能
該工作瞄準(zhǔn)的是多模態(tài)大模型如何進(jìn)化為“全能通才”的重大命題。論文之所以引發(fā)矚目,源于其聚焦的核心問題:當(dāng)前的多模態(tài)大模型到底離“通才智能”有多遠(yuǎn)?隨著 GPT-4、PaLM-E、Deepseek 等模型不斷涌現(xiàn),業(yè)界開始暢想 AI 從各自為戰(zhàn)的“專才”走向舉一反三的“通才”。但一個(gè)現(xiàn)實(shí)挑戰(zhàn)是,缺乏衡量“通才智能”的統(tǒng)一標(biāo)準(zhǔn)——過往評(píng)測(cè)往往各自為政、碎片化,難以回答“大模型是不是更通用了”這一根本問題。為此,該團(tuán)隊(duì)提出了 General-Level 評(píng)估體系和 General-Bench 測(cè)試集,希望為 AI 社區(qū)提供一個(gè)公認(rèn)的“通才智能”試金石。正如論文指出的,那些在各項(xiàng)任務(wù)上指標(biāo)再高的模型,也未必真正更接近人類水平智能。我們需要新的評(píng)估范式來定義問題、發(fā)現(xiàn)短板,照亮通往 AGI 的路徑。這正契合了“AI 下半場(chǎng)”的時(shí)代精神,也難怪工作一經(jīng)發(fā)布就收獲了學(xué)術(shù)界和工業(yè)界的密切關(guān)注。
在踏上“通才”之路前,團(tuán)隊(duì)首先剖析了當(dāng)前絕大部分的多模態(tài)大模型(無論是多模態(tài)基礎(chǔ)模型還是多模態(tài)智能體)存在的瓶頸。論文一針見血地指出:現(xiàn)有的大部分的多模態(tài)模型基本是基于“語言智能 LLM”所二次構(gòu)建的“間接式多模態(tài)智能”,類似于用膠水拼接起來的“縫合怪”。雖然它們可以同時(shí)處理圖像、文本、視頻等等多種模態(tài),但本質(zhì)上往往是不同模塊的堆疊+二次微調(diào):比如用預(yù)訓(xùn)練視覺編碼器接上語言模型,讓模型“看圖說話”。這種架構(gòu)上的松耦合導(dǎo)致模型更像多個(gè)專才的拼盤,而非一個(gè)真正融會(huì)貫通的通才。這樣的“多模態(tài) Frankenstein”只是在語言智能的基礎(chǔ)上外掛視覺、聽覺接口,其多模態(tài)推理過程很大程度上仍依賴底層的大語言模型對(duì)文本的強(qiáng)大記憶和關(guān)聯(lián)能力。模型缺乏各模態(tài)間的深度協(xié)同,更談不上原生多模態(tài)智能,實(shí)現(xiàn)在跨模態(tài)/任務(wù)之間舉一反三。

不僅如此,簡(jiǎn)單地用傳統(tǒng)任務(wù)準(zhǔn)確率去評(píng)價(jià)這些模型,往往會(huì)產(chǎn)生誤導(dǎo)。很多現(xiàn)有的 MLLM benchmarks 看似涵蓋多模態(tài)任務(wù),但不同模型各擅勝場(chǎng):有的專精圖像問答拿高分,有的擅長(zhǎng)視頻描述拔頭籌。然而,這些分?jǐn)?shù)的堆疊并不等于智能的提升。正如作者所質(zhì)疑的,難道任務(wù)指標(biāo)高就代表模型更接近人類智能了嗎?答案遠(yuǎn)非如此簡(jiǎn)單。舉個(gè)例子,一個(gè)模型如果靠暴力記憶在封閉題庫上取得高分,并不能說明它具備通用理解力。同樣,一個(gè)只會(huì)在單一模態(tài)侃侃而談的模型,換個(gè)場(chǎng)景就可能語焉不詳。由此可見,僅以各項(xiàng)任務(wù)的準(zhǔn)確率為標(biāo)準(zhǔn)來衡量智能是片面的。當(dāng)前的 MLLM 存在三大典型短板:
- “拼接”導(dǎo)致偏科嚴(yán)重:大多數(shù)多模態(tài)模型只在擅長(zhǎng)的領(lǐng)域表現(xiàn)亮眼,超出熟悉范疇就束手無策。例如很多模型能做到基本的“看圖說話”,但遇到“聽聲音畫圖”或“看視頻改劇本”一類跨模態(tài)任務(wù)就抓瞎,仿佛一個(gè)偏科的學(xué)霸。這說明它們?nèi)狈Ω髂B(tài)技能的均衡發(fā)展,更沒有真正將不同能力融會(huì)貫通。
- 生成能力薄弱:“紙上談兵”:目前的 MLLM 普遍在內(nèi)容生成上乏力。比如 GPT-4V 可以精確描述《蒙娜麗莎》的細(xì)節(jié),但要讓它畫一張簡(jiǎn)筆畫卻完全辦不到。很多模型充當(dāng)了很好的解說員,卻當(dāng)不好創(chuàng)作者,正所謂理論一流但實(shí)踐欠佳。這種“只懂描述不會(huì)創(chuàng)作”的現(xiàn)象表明,模型缺失了主動(dòng)生成、多模態(tài)創(chuàng)作的能力。
- 單向協(xié)作,缺乏“通感”:更深層的瓶頸在于,模型在不同模態(tài)間的知識(shí)遷移并不對(duì)等。目前往往是語言智能幫助了圖像理解(例如利用 LLM 的知識(shí)提升了視覺問答表現(xiàn)),但反過來,視覺等其他模態(tài)的學(xué)習(xí)卻并未真正提升模型的語言表達(dá)或推理能力。這意味著模型各模塊之間沒有形成雙向增強(qiáng)的閉環(huán),好比你看再多名畫也無法直接提高寫詩水平。真正的通才 AI 應(yīng)當(dāng)具備“通感”式的協(xié)同學(xué)習(xí)——各種模態(tài)互相促進(jìn),而非各顧各的單箭頭輸出。
綜上,當(dāng)前的多模態(tài)大模型更像多個(gè)專家的簡(jiǎn)單拼合,遠(yuǎn)未形成跨模態(tài)的融會(huì)貫通。針對(duì)這些短板,評(píng)估標(biāo)準(zhǔn)也必須升級(jí),才能暴露模型的真實(shí)能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定義和衡量通才智能”這一問題,為 AI 下半場(chǎng)奠定新的競(jìng)賽規(guī)程。
General-Level 五級(jí)評(píng)估體系:用“協(xié)同效應(yīng)”定義通才智能
要評(píng)估“通才智能”,該論文借鑒了自動(dòng)駕駛分級(jí)評(píng)估的思路,創(chuàng)造性地提出了 General-Level 五級(jí)能力段位體系。它將多模態(tài)模型的能力劃分為由低到高的五個(gè)段位,從“專才”一直到“通才”。評(píng)判標(biāo)準(zhǔn)的核心是模型是否展現(xiàn)出 Synergy(協(xié)同效應(yīng))——也就是不同模態(tài)、不同任務(wù)間是否互相賦能。General-Level 評(píng)估體系以“協(xié)同效應(yīng) (Synergy)”為核心,將多模態(tài)模型劃分為五個(gè)能力等級(jí),從青銅級(jí)的專才到王者級(jí)的通才,每升高一級(jí)意味著更強(qiáng)的協(xié)同效應(yīng)。簡(jiǎn)而言之,一個(gè)真正的通才型 AI,其在某一模態(tài)/任務(wù)上學(xué)到的本領(lǐng)應(yīng)能遷移并增強(qiáng)它在其他模態(tài)/任務(wù)上的表現(xiàn),實(shí)現(xiàn)“1+1>2”的效果。

具體來說,General-Level 將 MLLM 劃分為如下五個(gè)等級(jí),:
- Level-1(青銅級(jí)):“單科”專才。此級(jí)別對(duì)應(yīng)各領(lǐng)域的單任務(wù)專家。模型只針對(duì)特定模態(tài)的特定任務(wù)進(jìn)行了優(yōu)化,比如只會(huì)圖像分類或語音識(shí)別等。它們?cè)诟髯元M窄領(lǐng)域表現(xiàn)卓越,但不具備跨任務(wù)、跨模態(tài)的一般性。絕大多數(shù)傳統(tǒng) AI 模型(如只會(huì)識(shí)別圖片的 ResNet 或只會(huì)翻譯的 Transformer)都屬于青銅段位。
- Level-2(白銀級(jí)):“多任務(wù)拼接”。這一級(jí)別是初級(jí)的多任務(wù)模型。模型能夠支持不同模態(tài)或任務(wù)的輸入輸出,具備一定的通用性,例如一些視覺語言模型能看圖回答也能文本生成。但是,這類模型通常采用模塊拼接的方式整合功能,沒有內(nèi)部的協(xié)同增益。它們可以看作把若干青銅專才打包在一起的“綜合體”,只能完成預(yù)先設(shè)計(jì)好的多種任務(wù),卻無法因?yàn)闀?huì)做任務(wù) A 而自動(dòng)在任務(wù) B 上做得更好。因此白銀級(jí)被定義為“無協(xié)同效應(yīng)”(No Synergy)——模型支持的任務(wù)越多、性能越高,段位評(píng)分越高,但并不要求跨任務(wù)有互助提升。
- Level-3(黃金級(jí)):“跨任務(wù)協(xié)同”。黃金段位要求模型開始展現(xiàn)任務(wù)級(jí)別的協(xié)同效應(yīng)。也就是說,模型在同一范式下的多個(gè)任務(wù)(例如都屬于理解類任務(wù),或都屬于生成類任務(wù))上通過聯(lián)合學(xué)習(xí),實(shí)現(xiàn)了 1+1>2 的效果:相比各任務(wù)獨(dú)立訓(xùn)練的專家,通用模型因知識(shí)共享反而在若干任務(wù)上超越了單 task SOTA。這被視為出現(xiàn)了任務(wù)級(jí)協(xié)同(Task-level Synergy)的證據(jù)。評(píng)估方法是,將模型在每個(gè)任務(wù)上的成績(jī)與該任務(wù)單任務(wù)專家的 SOTA 成績(jī)比較,如果超越 SoTA 則記為一次協(xié)同加成。模型超越的任務(wù)越多、幅度越大,Level-3 評(píng)分越高。達(dá)到黃金段位,意味著模型不再只是簡(jiǎn)單兼顧多任務(wù),而是因?yàn)槎嗳蝿?wù)并舉而在部分任務(wù)上表現(xiàn)得更好了。這標(biāo)志著通才智能的開端:知識(shí)開始在相近任務(wù)間融通。正如通俗類比:“模型學(xué)會(huì)了修圖之后,拍照水平也提高了”。
- Level-4(鉑金級(jí)):“理解-生成范式雙修”。在這個(gè)級(jí)別,模型需要展現(xiàn)范式級(jí)的協(xié)同效應(yīng),即同時(shí)精通理解類任務(wù)和生成類任務(wù),并且兩種能力互相促進(jìn)。所謂理解與生成的協(xié)同,可以理解為模型的閱讀理解、分析判斷能力和創(chuàng)意生成、內(nèi)容創(chuàng)造能力是融會(huì)貫通的,不會(huì)出現(xiàn)一條腿長(zhǎng)一條腿短。評(píng)估上,Level-4 通過計(jì)算模型在理解任務(wù)和生成任務(wù)上的成績(jī)調(diào)和平均數(shù),來看兩者是否保持均衡高水平。只有當(dāng)模型在“看”和“寫”兩方面都表現(xiàn)出色且互相補(bǔ)益,才能晉級(jí)鉑金段位。這對(duì)應(yīng)人類能力中的“既能讀懂復(fù)雜文章又能寫出好文章”。達(dá)到這一層次,模型已不再局限于單一任務(wù)范式的高手, 而是實(shí)現(xiàn)范式級(jí)協(xié)同(Paradigm-level Synergy),成為了跨范式的全才——既能看圖說話,又能據(jù)圖生文。例如論文將其比喻為“既能準(zhǔn)確描述一部電影,又能續(xù)寫其劇情”。
- Level-5(王者級(jí)):“全模態(tài)互促的通才”。這是評(píng)估體系的頂點(diǎn),代表真正實(shí)現(xiàn)了跨模態(tài)的全面協(xié)同。王者級(jí)模型不僅在視覺、聽覺、文本的理解和生成各方面均衡強(qiáng)大,更實(shí)現(xiàn)了語言和非語言模態(tài)之間的相互賦能。換言之,模型具備高度的“通感”能力:語言智能可以加強(qiáng)視覺/聽覺智能,反之視覺、聽覺等多模態(tài)的感知也能反饋提升語言理解與表達(dá)。這就如同人類看到一幅畫作能激發(fā)靈感寫詩,反過來詩歌修養(yǎng)又豐富了對(duì)畫作的解讀。這種全模態(tài)協(xié)同效應(yīng)(Cross-modal Total Synergy)是通才智能的終極標(biāo)志。在評(píng)價(jià)上,如果模型在純語言的 NLP 任務(wù)上也能超過單模態(tài)語言模型的 SOTA,并將這種能力融入多模態(tài)任務(wù)中,即可視為出現(xiàn)了完全協(xié)同。然而正如榜單所示,截至目前尚無模型達(dá)到王者段位,我們還在等待“多模態(tài)版的 ChatGPT 時(shí)刻”。

通過 General-Level 這個(gè)分級(jí)體系,研究者為“通才智能”提供了一個(gè)清晰的定義標(biāo)準(zhǔn):不是看模型會(huì)多少項(xiàng)任務(wù),而是看它是否能在多任務(wù)、多模態(tài)中實(shí)現(xiàn)協(xié)同增益。協(xié)同效應(yīng)成為評(píng)估的核心指標(biāo),直接衡量模型的“通才度”。這套體系如同給多模態(tài)模型劃定了晉級(jí)之路:從雜技般的拼湊,到初步融合產(chǎn)生化學(xué)反應(yīng),最終邁向模態(tài)互通的 AGI。這正如姚順雨所呼吁的,要“重新思考評(píng)估設(shè)置并創(chuàng)造新的評(píng)估”,不斷質(zhì)疑舊假設(shè)、引入新任務(wù),才能推動(dòng) AI 突破現(xiàn)有套路。General-Bench 由此成為多模態(tài) AI 下半場(chǎng)的一座里程碑,為行業(yè)提供了共同的試煉場(chǎng)。正因如此,General-Level 可被稱為“通才智能的新衡量尺”:它定義了未來多模態(tài)模型努力的方向,也為我們?cè)\斷現(xiàn)有模型的不足提供了依據(jù)。
General-Bench 通才測(cè)試集:700 項(xiàng)任務(wù)煉金“全能 AI”
有了評(píng)估等級(jí)的標(biāo)準(zhǔn),還需要相應(yīng)“考卷”來對(duì)模型進(jìn)行全面測(cè)評(píng)。General-Bench 正是為此打造的一套大規(guī)模多模態(tài)通才測(cè)試集。這套 Benchmark 題庫堪稱 MLLM 史上最全面、最嚴(yán)苛、最大規(guī)模的多模態(tài)考試:它囊括了 700 種不同任務(wù)、合計(jì)約 32.58 萬道問題,覆蓋圖像、視頻、音頻、3D 點(diǎn)云、文本等 5 大最常見模態(tài)。從常規(guī)的圖文理解,到開放式生成,再到跨模態(tài)推理,General-Bench 努力構(gòu)建一個(gè)全面考察模型多方面能力的競(jìng)技場(chǎng)。

具體而言,General-Bench 在設(shè)計(jì)上有以下顯著特點(diǎn):
- 任務(wù)多元,場(chǎng)景豐富:測(cè)試集涵蓋了 145 項(xiàng)多模態(tài)技能,29 個(gè)應(yīng)用場(chǎng)景。既包括常見的“看圖說話”圖像描述、視覺問答等基礎(chǔ)題,也有諸如“聽聲音畫圖”、“讀文章配視頻”等燒腦的跨模態(tài)挑戰(zhàn)。領(lǐng)域上橫跨物理、幾何、醫(yī)學(xué)、歷史、藝術(shù)、人文學(xué)科等,讓模型面對(duì)如同人類考試文理綜合的難題。舉例來說,可能出現(xiàn)一道物理題附帶復(fù)雜圖表,或一道歷史題給出文物的 3D 模型讓模型辨析。如此廣泛的覆蓋,旨在測(cè)試模型是否具備跨學(xué)科、跨模態(tài)的知識(shí)整合能力。
- 理解+生成,全方位考察:與以往偏重選擇題式的評(píng)測(cè)不同,General-Bench 注重開放式回答和內(nèi)容生成。在這套考題中,模型面對(duì)的大多是非選擇題,需要自由作答而非從選項(xiàng)中猜測(cè)。同時(shí),相當(dāng)比例的任務(wù)直接要求模型生成內(nèi)容,例如看一段視頻續(xù)寫劇情、聽一段音樂創(chuàng)作繪畫等。這意味著模型不僅要會(huì)判斷對(duì)錯(cuò),還要有創(chuàng)造性產(chǎn)出的本領(lǐng)。這樣的設(shè)計(jì)可以有效測(cè)出模型的生成能力和創(chuàng)造力,補(bǔ)足過去評(píng)測(cè)只重理解、不重生成的缺陷。正如作者強(qiáng)調(diào)的,未來的 AI 需要“既會(huì)看,還會(huì)畫”——既能理解輸入,也能產(chǎn)生輸出。
- 真正多模態(tài)考題:General-Bench 的一大創(chuàng)新是設(shè)計(jì)了跨模態(tài)組合的問題,以考察模型同時(shí)處理多模態(tài)信息的能力。在這里,任務(wù)不再是孤立的圖像問答或文本總結(jié),而是常常多模態(tài)交織:比如給模型一段音樂音頻,要求它畫出相應(yīng)風(fēng)格的圖畫;或者給出一段視頻和一篇文章,讓模型將兩者信息融合進(jìn)行分析。這類似于人類需要將眼睛看到的和耳朵聽到的綜合起來理解世界。如果說過去的基準(zhǔn)測(cè)試更多是在考“單科”,那么 General-Bench 就是一場(chǎng)跨媒體、跨領(lǐng)域的綜合性大考,逼真地模擬了 AI 在真實(shí)世界可能遇到的復(fù)雜任務(wù)。通過這些融合型題目,可以檢驗(yàn)?zāi)P驮诙嗄B(tài)協(xié)同上的能力,看看它是否真的能像人一樣將不同感官的信息打通。
如此龐大的題庫是如何構(gòu)建的?研究團(tuán)隊(duì)為保證質(zhì)量和覆蓋面,采用了嚴(yán)謹(jǐn)?shù)奈宀綌?shù)據(jù)構(gòu)建流程。首先,他們明確了數(shù)據(jù)集的范圍和結(jié)構(gòu):確定納入哪些模態(tài)、元任務(wù)類型和回答范式。接著,團(tuán)隊(duì)廣泛搜集潛在任務(wù),通過爬取學(xué)術(shù)論文、開源數(shù)據(jù)集、在線平臺(tái)等渠道匯總?cè)蝿?wù)清單。隨后,對(duì)每個(gè)候選任務(wù)的數(shù)據(jù)進(jìn)行清洗篩選,并按照統(tǒng)一格式整理。整個(gè)過程中遵循“盡可能全面、多樣,同時(shí)確保質(zhì)量和真實(shí)性”的原則。最終產(chǎn)出的 General-Bench 既有開放部分(Open-Set,提供題目和標(biāo)準(zhǔn)答案,供研究者自由使用)也有閉卷部分(Close-Set,僅提供題目,答案保密用于官方評(píng)測(cè))。這種開放+閉卷雙軌設(shè)計(jì),既鼓勵(lì)學(xué)術(shù)社區(qū)廣泛采用 Benchmark,又保證了排行榜評(píng)測(cè)的公平性??梢哉f,General-Bench 為評(píng)估多模態(tài)通才搭建了一個(gè)高標(biāo)準(zhǔn)競(jìng)技場(chǎng)。它的價(jià)值不僅在于出了一套難題,更在于樹立了評(píng)測(cè)新風(fēng)向:強(qiáng)調(diào)開放生成、強(qiáng)調(diào)多模態(tài)融合、強(qiáng)調(diào)動(dòng)態(tài)擴(kuò)展(團(tuán)隊(duì)稱數(shù)據(jù)集將持續(xù)更新維護(hù))。
榜單揭曉:GPT-4 段位幾何?行業(yè)瓶頸盡現(xiàn)
當(dāng)如此嚴(yán)苛的 General-Bench 試卷擺在當(dāng)前頂尖模型面前,會(huì)是怎樣的光景?論文對(duì) 100 多個(gè)先進(jìn)的多模態(tài)模型在 700 多個(gè)跨模態(tài)任務(wù)上進(jìn)行了測(cè)試(測(cè)試時(shí)間是 24 年底之前的多模態(tài)大模型,跟當(dāng)前最新的一些版本模型稍有時(shí)間上的延遲),結(jié)果可以說是幾家歡喜幾家愁,更讓人大跌眼鏡。一些業(yè)界公認(rèn)強(qiáng)大的模型在這場(chǎng)通才大考中顯露出意想不到的短板。下面我們揭曉部分關(guān)鍵結(jié)果:
- GPT-4V(含視覺能力的 GPT-4):這可能是公眾眼中最強(qiáng)大的多模態(tài)模型之一。然而在 General-Bench 上,GPT-4V 的表現(xiàn)并非無懈可擊。統(tǒng)計(jì)顯示,GPT-4V 只回答了約 65% 的圖像相關(guān)問題,對(duì)于視頻類題目更是幾乎束手無策。這意味著在接近三分之一的視覺題上,GPT-4V 要么答不出要么答錯(cuò),更遑論對(duì)復(fù)雜的視頻理解了。作為對(duì)比,一款開源模型 InternVL2.5-8B 在圖像理解方面的得分竟然超過了 GPT-4V,頗令人為之一驚。這提示我們:大模型未必在所有細(xì)分能力上都占優(yōu)勢(shì),有時(shí)小模型專精優(yōu)化反而更勝一籌。另外,GPT-4V 缺乏視頻處理能力暴露出其模態(tài)覆蓋不足——這也直接將其評(píng)估段位限制在了更低級(jí)別。
- 多模態(tài)模型整體弱項(xiàng):General-Bench 的統(tǒng)計(jì)還發(fā)現(xiàn),所有模型在音頻類任務(wù)上的平均得分不足 30/100,幾乎集體不及格。在需要解析語音、音樂的題目上,不論是大名鼎鼎的 GPT-4V 還是其他模型,表現(xiàn)都不理想。這反映出當(dāng)前視覺-語言模型對(duì)聲音的理解和生成還非常初級(jí)。更夸張的是,在 3D 相關(guān)任務(wù)上所有模型幾乎全軍覆沒,最好的正確率僅有 6.7%!可見,處理三維模型、點(diǎn)云這樣的高級(jí)感知任務(wù),對(duì)現(xiàn)有 AI 仍是巨大挑戰(zhàn)。
如果說按模態(tài)分解的成績(jī)讓人大跌眼鏡,那么匯總到段位評(píng)定上則更顯殘酷:
- 九成以上模型止步“白銀”。據(jù)統(tǒng)計(jì),約 90% 的模型只能達(dá)到 Level-2 白銀段位。也就是說,它們頂多支持了若干模態(tài)和任務(wù)的組合,但沒有體現(xiàn)出明顯的協(xié)同泛化效應(yīng)。換言之,這些模型只是勉強(qiáng)合格的“多面手”,尚未真正做到“融會(huì)貫通”。這當(dāng)中不乏參數(shù)上千億的大模型,可見規(guī)模大不等于段位高。
- 寥寥數(shù)款模型躋身“鉑金”。在測(cè)試中,只有 3 個(gè)模型達(dá)到了 Level-4 鉑金段位。論文提及其中包括名為 Mini-Gemini 的模型等,它們展現(xiàn)出了理解與生成能力的協(xié)同效應(yīng)。然而值得注意的是,這些鉑金段位的模型其協(xié)同效應(yīng)主要局限在圖文領(lǐng)域。也就是說,它們基本都是在視覺-語言這兩種模態(tài)下達(dá)到了理解+生成雙優(yōu),但在更廣泛的音頻、視頻等模態(tài)上未能實(shí)現(xiàn)同等協(xié)同。換句話說,目前的鉑金通才還是“片面的通才”,距離全能尚有距離。
- “王者段位”依然空缺。最令人警醒的是,Level-5 王者級(jí)別完全沒有模型觸及。沒有任何參評(píng)模型能夠證明自己的語言智能被其他模態(tài)提升,或能將視覺、聽覺等學(xué)習(xí)反饋改進(jìn) NLP 能力。這印證了前文提到的單向協(xié)同問題:目前還沒有 AI 達(dá)到全模態(tài)互促的境界。王者寶座依舊虛位以待,這也意味著距離真正的多模態(tài) AGI 還有相當(dāng)?shù)镍櫆稀?/span>

General-Level 整體排行榜展示了不同模型所處的段位分布。如上圖所示,目前絕大多數(shù)模型停留在 Level-2 和 Level-3,僅有極少數(shù)攀上 Level-4 鉑金,而 Level-5 王者段位(黃色階梯)尚無模型問鼎。這張圖直觀地回答了“你的多模態(tài)模型是青銅還是王者?”這一問題。
通過這次前所未有的通才測(cè)試,現(xiàn)有 MLLM 的三大致命弱點(diǎn)也徹底暴露無遺:
- 偏科嚴(yán)重,通用性欠缺:模型對(duì)特定模態(tài)任務(wù)駕輕就熟,但一遇到跨模態(tài)的新題型就表現(xiàn)失常。這說明當(dāng)前模型通用性名不副實(shí),“見多識(shí)廣”還遠(yuǎn)遠(yuǎn)談不上。是可能是實(shí)現(xiàn)“多模態(tài)通才”這一宏大目標(biāo)最基本的障礙。
- 生成乏力,缺少創(chuàng)造:大部分模型在理解任務(wù)上還能應(yīng)付,但讓它們產(chǎn)出內(nèi)容就頻頻失敗。AI 缺乏像人一樣靈活輸出新內(nèi)容的創(chuàng)造力,這將限制其解決實(shí)際問題的能力。
- 協(xié)同單向,缺乏通感:模型內(nèi)部各模塊沒有形成雙向增強(qiáng)。語言和視覺等智力沒有真正融合,造成知識(shí)遷移的瓶頸。這也是為何最高段位遲遲無人問津的原因。



這些發(fā)現(xiàn)無疑給業(yè)界敲響了警鐘:再強(qiáng)大的單點(diǎn)模型,在通才智能的新坐標(biāo)系下都可能暴露短板。GPT-4 這樣的巨頭依然在視頻、音頻、3D 等維度力不從心,更遑論實(shí)現(xiàn)模態(tài)互促的飛躍。這充分證明,我們需要新的評(píng)測(cè)標(biāo)準(zhǔn)來發(fā)現(xiàn)和正視這些瓶頸,然后對(duì)癥下藥地改進(jìn)模型。General-Level 和 General-Bench 正提供了這樣的放大鏡和標(biāo)尺,讓我們看清 AI 通往 AGI 道路上的真實(shí)差距。
社區(qū)反響:評(píng)測(cè)框架引熱議,開放平臺(tái)促協(xié)作
General-Level 和 General-Bench 的推出,近期在學(xué)術(shù)界和工業(yè)界都引起了積極反響。首先,這項(xiàng)工作獲得了頂會(huì) ICML 的 Spotlight 認(rèn)可,證明同行專家們高度認(rèn)同其創(chuàng)新性和重要性。許多國(guó)外研究者在社交媒體上評(píng)論、轉(zhuǎn)發(fā)該工作,稱其為“AGI 時(shí)代評(píng)測(cè)范式的里程碑”。在開源社區(qū),General-Bench 基準(zhǔn)受到了熱烈歡迎。論文作者將數(shù)據(jù)集發(fā)布在 Hugging Face 平臺(tái),并開放了評(píng)測(cè)代碼和排行榜系統(tǒng)。Hugging Face 上聚集了一批關(guān)注者,不少開發(fā)者加入項(xiàng)目組織成為成員,共同維護(hù)數(shù)據(jù)。有社區(qū)貢獻(xiàn)者開始考慮提交新的任務(wù)數(shù)據(jù),希望擴(kuò)充 General-Bench 的覆蓋范圍。這種開源協(xié)作氛圍正是作者期望的——讓評(píng)測(cè)框架成為全社區(qū)共同的基礎(chǔ)設(shè)施,持續(xù)完善并被廣泛采用。
與此同時(shí),排行榜(Leaderboard)競(jìng)賽的形式也激發(fā)了良性競(jìng)爭(zhēng)。General-Level 官方網(wǎng)站上線了實(shí)時(shí)榜單和提交入口,任何人都可以上傳自己模型在 Close-Set 測(cè)試集上的預(yù)測(cè)結(jié)果,獲取官方評(píng)估分?jǐn)?shù)和段位定位。這一機(jī)制吸引了業(yè)界一些領(lǐng)先 AI 團(tuán)隊(duì)參與,不僅有學(xué)術(shù)實(shí)驗(yàn)室,也有企業(yè)研發(fā)部門。大家都希望嘗試讓自家模型沖擊更高段位,并將結(jié)果分享出來交流,比如“某某模型為何只能停留在白銀段位,差距在哪”;“我們發(fā)現(xiàn)模型在音頻理解上扣分嚴(yán)重,看來下個(gè)版本必須補(bǔ)上聽覺模塊的短板?!眻F(tuán)隊(duì)負(fù)責(zé)人稱,將會(huì)長(zhǎng)期維護(hù)這個(gè)項(xiàng)目,確保社區(qū)所有的多模態(tài)大模型都能夠無門檻使用這個(gè)項(xiàng)目的資源。
歡迎公開打榜,Leaderboard:https://generalist.top/leaderboard


團(tuán)隊(duì)與研究背景:跨領(lǐng)域協(xié)作共筑評(píng)測(cè)基石
這樣的突破性工作背后,是一支大規(guī)模的團(tuán)隊(duì)。該項(xiàng)目由新加坡國(guó)立大學(xué)(NUS)與南洋理工大學(xué)(NTU)牽頭,匯集了計(jì)算機(jī)視覺、多模態(tài)理解、自然語言處理等方向的青年、資深專家學(xué)者。本工作由費(fèi)豪博士主導(dǎo)整體項(xiàng)目推進(jìn),并分別由周源、李俊成、李祥泰、徐青山、李波波、吳勝瓊博士等青年學(xué)者分別領(lǐng)銜各個(gè)模態(tài)、模塊;并全稱由張含望教授、顏水成教授坐鎮(zhèn)通訊指導(dǎo),由蔡達(dá)成教授、羅杰波教授作為項(xiàng)目顧問。據(jù)團(tuán)隊(duì)成員介紹,最初萌生這個(gè)想法,是在看到多模態(tài)模型不斷刷新各種 Benchmark 的同時(shí),卻缺乏對(duì)整體智能水平的刻畫?!拔覀冇?xùn)練出了很多擅長(zhǎng)某一方面的模型,但很難說清楚 AI 整體上進(jìn)步了多少”,張含望教授在相關(guān)研討會(huì)上如此闡述初衷,“我們不妨借鑒自動(dòng)駕駛行業(yè)的智能汽車分級(jí)機(jī)制,重新思考對(duì)于多模態(tài)大模型的智能分級(jí)體系”。于是大家決定索性換一個(gè)視角,不再糾結(jié)于在單一基準(zhǔn)上卷 0.1% 的精度提升,而是設(shè)計(jì)一個(gè)能全面衡量多模態(tài) AI 的框架。通過多次大量的內(nèi)部討論,最終確定了一個(gè)核心觀點(diǎn),“我們不能按照過去的簡(jiǎn)單的單個(gè)任務(wù)表現(xiàn)來評(píng)定模型的智能水平,而是應(yīng)該按照協(xié)同泛化能力!”。一開始這個(gè)想法并不被所有人看好,因?yàn)橐馕吨度刖薮缶?gòu)建數(shù)據(jù)集、協(xié)調(diào)不同領(lǐng)域知識(shí)。但團(tuán)隊(duì)迎難而上,不斷打磨 General-Level 算法設(shè)計(jì),花了超過一年多的時(shí)間收集、標(biāo)注清洗數(shù)據(jù),與此同時(shí)耗費(fèi)大量人力(超過 50 多位實(shí)際貢獻(xiàn)者)和計(jì)算資源對(duì)超過 100 多個(gè)多模態(tài)大模型在 700 多個(gè)任務(wù) 30 多萬條數(shù)據(jù)上進(jìn)行大規(guī)模的評(píng)測(cè),終于使整個(gè)項(xiàng)目成型。可以說,這項(xiàng)成果既是技術(shù)創(chuàng)新的結(jié)晶,也是對(duì) AI 評(píng)測(cè)理念的一次重要實(shí)踐。
可以說,General-Level/General-Bench 不僅是一套評(píng)測(cè)工具,更是在推廣一種全新的“評(píng)測(cè)文化”。AI 社區(qū)從原先熱衷跑單項(xiàng)指標(biāo),開始轉(zhuǎn)向思考模型的全面素質(zhì);從比拼參數(shù)規(guī)模,轉(zhuǎn)向比拼誰的 AI 更平衡、更通達(dá)。這種風(fēng)向的變化正驗(yàn)證了姚順雨的論斷:AI 下半場(chǎng),比的不是算法炫技,而是誰能定義正確的問題并找到衡量進(jìn)步的方法。General-Level 的框架為大家提供了一個(gè)共同語言和目標(biāo),接下來就要看各路英雄如何在這新標(biāo)尺下磨煉升級(jí)了。
展望:評(píng)測(cè)范式革新推動(dòng) AGI 落地
在 AI 通往 AGI 的征途上,評(píng)測(cè)標(biāo)準(zhǔn)的突破將起到指南針的作用。General-Level 和 General-Bench 的問世,正標(biāo)志著業(yè)界從“算法為王”轉(zhuǎn)向“評(píng)測(cè)為王”的思維轉(zhuǎn)變。在這個(gè)全新的評(píng)測(cè)范式下,我們期待看到以下變化:
- 研發(fā)重心轉(zhuǎn)移:研究人員將更加重視模型的全面能力而非單點(diǎn)絕活。模型設(shè)計(jì)將從過去的“拼裝式”朝“熔爐式”演進(jìn),力求不同模態(tài)在架構(gòu)上深度融合以增強(qiáng)協(xié)同效應(yīng)。因?yàn)樾碌脑u(píng)測(cè)會(huì)倒逼大家解決偏科和單向協(xié)同的問題,下一代模型可能在多模態(tài)統(tǒng)一建模、跨模態(tài)信息流動(dòng)方面迎來突破。
- 評(píng)測(cè)生態(tài)完善:隨著 General-Bench 等基準(zhǔn)流行,未來會(huì)有更多類似動(dòng)態(tài)任務(wù)庫加入評(píng)測(cè)體系,比如引入代碼生成、機(jī)器人操作、觸覺反饋等新類型任務(wù)。評(píng)測(cè)將不再是固定的一套試題,而會(huì)不斷擴(kuò)充,貼近真實(shí)世界需求。這將鼓勵(lì) AI 系統(tǒng)具備持續(xù)學(xué)習(xí)和適應(yīng)新任務(wù)的能力,而不只是針對(duì)靜態(tài)測(cè)試集優(yōu)化。
- AGI 進(jìn)程加速:有了明確的通才智能目標(biāo)(王者段位)和衡量路徑,業(yè)界在朝 AGI 前進(jìn)時(shí)將少走彎路。當(dāng)模型在評(píng)測(cè)中逐級(jí)攀升,我們便能量化地看到 AI 離仿真人類智能還有多遠(yuǎn)。正如論文預(yù)測(cè)的那樣:當(dāng)某天 AI 能夠通過“王者段位”的考核,真正的 AGI 或許也就呼之欲出了。雖然這一天仍未到來,但現(xiàn)在有了一個(gè)公認(rèn)的指標(biāo)去追求,無疑會(huì)大大加速 AGI 落地的步伐。
在此,我們呼吁 AI 研究社區(qū)廣泛采用 General-Level 和 General-Bench 框架。一套統(tǒng)一的評(píng)估標(biāo)準(zhǔn),將使得不同模型的優(yōu)劣高下有據(jù)可依,也方便大家協(xié)同改進(jìn)。更重要的是,它能引導(dǎo)我們聚焦于模型綜合素質(zhì)的提升,而不是陷入無盡的參數(shù)競(jìng)賽或刷榜游戲。這與姚順雨所倡導(dǎo)的“像產(chǎn)品經(jīng)理一樣思考”不謀而合:先想清楚我們究竟希望 AI 為人類做什么、有哪些能力,然后再去改進(jìn)算法實(shí)現(xiàn)它。評(píng)估標(biāo)準(zhǔn)的革新,正是明確 AI 努力方向的前提。
總而言之,AI 的下半場(chǎng)已經(jīng)開啟,一個(gè)以評(píng)測(cè)驅(qū)動(dòng)進(jìn)步的新時(shí)代撲面而來。General-Level 和 General-Bench 作為“通才智能”的里程碑,為這一時(shí)代寫下了精彩的序章。讓我們期待,在這套評(píng)測(cè)指引下,更多 AI 模型百尺竿頭、更進(jìn)一步,早日攀上“王者段位”。屆時(shí),通往 AGI 的大門也將隨之洞開,人類與通用人工智能共創(chuàng)未來的愿景或?qū)⒊蔀楝F(xiàn)實(shí)。


























