九成以上模型止步白銀段位,只有3個鉑金!通用AI下半場評測標(biāo)準(zhǔn)來了
引言:從“解題”到“定義問題”,評測引領(lǐng)AI下半場
OpenAI 研究員姚順雨最近在其博文《AI 下半場》中提出了振聾發(fā)聵的觀點(diǎn):人工智能的發(fā)展正步入一個全新的階段。在上半場,我們習(xí)慣于專注模型架構(gòu)與訓(xùn)練方法的突破;而如今,下半場的關(guān)鍵在于如何評估模型的真實(shí)智能?!敖酉聛恚珹I 的重點(diǎn)將從解決問題轉(zhuǎn)向定義問題。在這個新時代,評估的重要性將超過訓(xùn)練”。換言之,我們需要像產(chǎn)品經(jīng)理那樣重新思考應(yīng)該讓 AI 解決什么問題、以及如何衡量“解決得好”。過去,Transformer、AlexNet、GPT-4 等里程碑工作讓算法和模型大放異彩;但在下半場,比拼的不再是誰的模型更大、更強(qiáng),而是誰能定義出更有效的評測標(biāo)準(zhǔn),推動 AI 朝著對人類真正有用的方向演進(jìn)。
這樣的理念正在獲得實(shí)踐的支撐。近期,一支來自新加坡國立大學(xué)(NUS)和南洋理工大學(xué)(NTU)等機(jī)構(gòu)領(lǐng)銜的團(tuán)隊(duì)的研究,圍繞了通用多模態(tài)模型的評估而非訓(xùn)練展開。這篇題為《On Path to Multimodal Generalist: General-Level and General-Bench》的論文提出了全新的“通才智能”評測框架,旨在為多模態(tài)大模型(Multimodal Large Language Model, MLLM)的能力設(shè)立一把更合適的標(biāo)尺。該團(tuán)隊(duì)強(qiáng)調(diào),只有轉(zhuǎn)變思路,把精力投向評測體系的革新,我們才能真正衡量 AI 是否在朝著通用智能(AGI)的目標(biāo)邁進(jìn)。正如姚順雨所言,下半場 AI 的勝負(fù)手在于評測標(biāo)準(zhǔn)的制定,而非一味堆砌訓(xùn)練技巧。這項(xiàng)超過 300 頁的研究由超過 30 位研究者共同完成,核心作者團(tuán)隊(duì)來自新加坡國立大學(xué)、南洋理工大學(xué),聯(lián)合了浙江大學(xué)、北京大興、羅切斯特大學(xué)等多家機(jī)構(gòu)的學(xué)者,這支跨學(xué)科、跨地域的多元團(tuán)隊(duì)集合了計算機(jī)視覺、多模態(tài)、NLP 等領(lǐng)域的專家。該工作錄用于國際機(jī)器學(xué)習(xí)大會 ICML 2025(Spotlight 論文),在眾多投稿中脫穎而出,獲得評審高度評價。該工作將期待為未來的通用多模態(tài)大模型的發(fā)展指明一條明道。
- 項(xiàng)目主頁:https://generalist.top/
- Leaderboard:https://generalist.top/leaderboard
- 論文地址:https://arxiv.org/abs/2505.04620
- Benchmark:https://huggingface.co/General-Level
“通才智能”之問,多模態(tài)大模型的短板:“拼接怪”難言智能
該工作瞄準(zhǔn)的是多模態(tài)大模型如何進(jìn)化為“全能通才”的重大命題。論文之所以引發(fā)矚目,源于其聚焦的核心問題:當(dāng)前的多模態(tài)大模型到底離“通才智能”有多遠(yuǎn)?隨著 GPT-4、PaLM-E、Deepseek 等模型不斷涌現(xiàn),業(yè)界開始暢想 AI 從各自為戰(zhàn)的“專才”走向舉一反三的“通才”。但一個現(xiàn)實(shí)挑戰(zhàn)是,缺乏衡量“通才智能”的統(tǒng)一標(biāo)準(zhǔn)——過往評測往往各自為政、碎片化,難以回答“大模型是不是更通用了”這一根本問題。為此,該團(tuán)隊(duì)提出了 General-Level 評估體系和 General-Bench 測試集,希望為 AI 社區(qū)提供一個公認(rèn)的“通才智能”試金石。正如論文指出的,那些在各項(xiàng)任務(wù)上指標(biāo)再高的模型,也未必真正更接近人類水平智能。我們需要新的評估范式來定義問題、發(fā)現(xiàn)短板,照亮通往 AGI 的路徑。這正契合了“AI 下半場”的時代精神,也難怪工作一經(jīng)發(fā)布就收獲了學(xué)術(shù)界和工業(yè)界的密切關(guān)注。
在踏上“通才”之路前,團(tuán)隊(duì)首先剖析了當(dāng)前絕大部分的多模態(tài)大模型(無論是多模態(tài)基礎(chǔ)模型還是多模態(tài)智能體)存在的瓶頸。論文一針見血地指出:現(xiàn)有的大部分的多模態(tài)模型基本是基于“語言智能 LLM”所二次構(gòu)建的“間接式多模態(tài)智能”,類似于用膠水拼接起來的“縫合怪”。雖然它們可以同時處理圖像、文本、視頻等等多種模態(tài),但本質(zhì)上往往是不同模塊的堆疊+二次微調(diào):比如用預(yù)訓(xùn)練視覺編碼器接上語言模型,讓模型“看圖說話”。這種架構(gòu)上的松耦合導(dǎo)致模型更像多個專才的拼盤,而非一個真正融會貫通的通才。這樣的“多模態(tài) Frankenstein”只是在語言智能的基礎(chǔ)上外掛視覺、聽覺接口,其多模態(tài)推理過程很大程度上仍依賴底層的大語言模型對文本的強(qiáng)大記憶和關(guān)聯(lián)能力。模型缺乏各模態(tài)間的深度協(xié)同,更談不上原生多模態(tài)智能,實(shí)現(xiàn)在跨模態(tài)/任務(wù)之間舉一反三。
不僅如此,簡單地用傳統(tǒng)任務(wù)準(zhǔn)確率去評價這些模型,往往會產(chǎn)生誤導(dǎo)。很多現(xiàn)有的 MLLM benchmarks 看似涵蓋多模態(tài)任務(wù),但不同模型各擅勝場:有的專精圖像問答拿高分,有的擅長視頻描述拔頭籌。然而,這些分?jǐn)?shù)的堆疊并不等于智能的提升。正如作者所質(zhì)疑的,難道任務(wù)指標(biāo)高就代表模型更接近人類智能了嗎?答案遠(yuǎn)非如此簡單。舉個例子,一個模型如果靠暴力記憶在封閉題庫上取得高分,并不能說明它具備通用理解力。同樣,一個只會在單一模態(tài)侃侃而談的模型,換個場景就可能語焉不詳。由此可見,僅以各項(xiàng)任務(wù)的準(zhǔn)確率為標(biāo)準(zhǔn)來衡量智能是片面的。當(dāng)前的 MLLM 存在三大典型短板:
- “拼接”導(dǎo)致偏科嚴(yán)重:大多數(shù)多模態(tài)模型只在擅長的領(lǐng)域表現(xiàn)亮眼,超出熟悉范疇就束手無策。例如很多模型能做到基本的“看圖說話”,但遇到“聽聲音畫圖”或“看視頻改劇本”一類跨模態(tài)任務(wù)就抓瞎,仿佛一個偏科的學(xué)霸。這說明它們?nèi)狈Ω髂B(tài)技能的均衡發(fā)展,更沒有真正將不同能力融會貫通。
- 生成能力薄弱:“紙上談兵”:目前的 MLLM 普遍在內(nèi)容生成上乏力。比如 GPT-4V 可以精確描述《蒙娜麗莎》的細(xì)節(jié),但要讓它畫一張簡筆畫卻完全辦不到。很多模型充當(dāng)了很好的解說員,卻當(dāng)不好創(chuàng)作者,正所謂理論一流但實(shí)踐欠佳。這種“只懂描述不會創(chuàng)作”的現(xiàn)象表明,模型缺失了主動生成、多模態(tài)創(chuàng)作的能力。
- 單向協(xié)作,缺乏“通感”:更深層的瓶頸在于,模型在不同模態(tài)間的知識遷移并不對等。目前往往是語言智能幫助了圖像理解(例如利用 LLM 的知識提升了視覺問答表現(xiàn)),但反過來,視覺等其他模態(tài)的學(xué)習(xí)卻并未真正提升模型的語言表達(dá)或推理能力。這意味著模型各模塊之間沒有形成雙向增強(qiáng)的閉環(huán),好比你看再多名畫也無法直接提高寫詩水平。真正的通才 AI 應(yīng)當(dāng)具備“通感”式的協(xié)同學(xué)習(xí)——各種模態(tài)互相促進(jìn),而非各顧各的單箭頭輸出。
綜上,當(dāng)前的多模態(tài)大模型更像多個專家的簡單拼合,遠(yuǎn)未形成跨模態(tài)的融會貫通。針對這些短板,評估標(biāo)準(zhǔn)也必須升級,才能暴露模型的真實(shí)能力缺陷。General-Level 和 General-Bench 的提出,正是要回答“如何定義和衡量通才智能”這一問題,為 AI 下半場奠定新的競賽規(guī)程。
General-Level 五級評估體系:用“協(xié)同效應(yīng)”定義通才智能
要評估“通才智能”,該論文借鑒了自動駕駛分級評估的思路,創(chuàng)造性地提出了 General-Level 五級能力段位體系。它將多模態(tài)模型的能力劃分為由低到高的五個段位,從“專才”一直到“通才”。評判標(biāo)準(zhǔn)的核心是模型是否展現(xiàn)出 Synergy(協(xié)同效應(yīng))——也就是不同模態(tài)、不同任務(wù)間是否互相賦能。General-Level 評估體系以“協(xié)同效應(yīng) (Synergy)”為核心,將多模態(tài)模型劃分為五個能力等級,從青銅級的專才到王者級的通才,每升高一級意味著更強(qiáng)的協(xié)同效應(yīng)。簡而言之,一個真正的通才型 AI,其在某一模態(tài)/任務(wù)上學(xué)到的本領(lǐng)應(yīng)能遷移并增強(qiáng)它在其他模態(tài)/任務(wù)上的表現(xiàn),實(shí)現(xiàn)“1+1>2”的效果。
具體來說,General-Level 將 MLLM 劃分為如下五個等級,:
- Level-1(青銅級):“單科”專才。此級別對應(yīng)各領(lǐng)域的單任務(wù)專家。模型只針對特定模態(tài)的特定任務(wù)進(jìn)行了優(yōu)化,比如只會圖像分類或語音識別等。它們在各自狹窄領(lǐng)域表現(xiàn)卓越,但不具備跨任務(wù)、跨模態(tài)的一般性。絕大多數(shù)傳統(tǒng) AI 模型(如只會識別圖片的 ResNet 或只會翻譯的 Transformer)都屬于青銅段位。
- Level-2(白銀級):“多任務(wù)拼接”。這一級別是初級的多任務(wù)模型。模型能夠支持不同模態(tài)或任務(wù)的輸入輸出,具備一定的通用性,例如一些視覺語言模型能看圖回答也能文本生成。但是,這類模型通常采用模塊拼接的方式整合功能,沒有內(nèi)部的協(xié)同增益。它們可以看作把若干青銅專才打包在一起的“綜合體”,只能完成預(yù)先設(shè)計好的多種任務(wù),卻無法因?yàn)闀鋈蝿?wù) A 而自動在任務(wù) B 上做得更好。因此白銀級被定義為“無協(xié)同效應(yīng)”(No Synergy)——模型支持的任務(wù)越多、性能越高,段位評分越高,但并不要求跨任務(wù)有互助提升。
- Level-3(黃金級):“跨任務(wù)協(xié)同”。黃金段位要求模型開始展現(xiàn)任務(wù)級別的協(xié)同效應(yīng)。也就是說,模型在同一范式下的多個任務(wù)(例如都屬于理解類任務(wù),或都屬于生成類任務(wù))上通過聯(lián)合學(xué)習(xí),實(shí)現(xiàn)了 1+1>2 的效果:相比各任務(wù)獨(dú)立訓(xùn)練的專家,通用模型因知識共享反而在若干任務(wù)上超越了單 task SOTA。這被視為出現(xiàn)了任務(wù)級協(xié)同(Task-level Synergy)的證據(jù)。評估方法是,將模型在每個任務(wù)上的成績與該任務(wù)單任務(wù)專家的 SOTA 成績比較,如果超越 SoTA 則記為一次協(xié)同加成。模型超越的任務(wù)越多、幅度越大,Level-3 評分越高。達(dá)到黃金段位,意味著模型不再只是簡單兼顧多任務(wù),而是因?yàn)槎嗳蝿?wù)并舉而在部分任務(wù)上表現(xiàn)得更好了。這標(biāo)志著通才智能的開端:知識開始在相近任務(wù)間融通。正如通俗類比:“模型學(xué)會了修圖之后,拍照水平也提高了”。
- Level-4(鉑金級):“理解-生成范式雙修”。在這個級別,模型需要展現(xiàn)范式級的協(xié)同效應(yīng),即同時精通理解類任務(wù)和生成類任務(wù),并且兩種能力互相促進(jìn)。所謂理解與生成的協(xié)同,可以理解為模型的閱讀理解、分析判斷能力和創(chuàng)意生成、內(nèi)容創(chuàng)造能力是融會貫通的,不會出現(xiàn)一條腿長一條腿短。評估上,Level-4 通過計算模型在理解任務(wù)和生成任務(wù)上的成績調(diào)和平均數(shù),來看兩者是否保持均衡高水平。只有當(dāng)模型在“看”和“寫”兩方面都表現(xiàn)出色且互相補(bǔ)益,才能晉級鉑金段位。這對應(yīng)人類能力中的“既能讀懂復(fù)雜文章又能寫出好文章”。達(dá)到這一層次,模型已不再局限于單一任務(wù)范式的高手, 而是實(shí)現(xiàn)范式級協(xié)同(Paradigm-level Synergy),成為了跨范式的全才——既能看圖說話,又能據(jù)圖生文。例如論文將其比喻為“既能準(zhǔn)確描述一部電影,又能續(xù)寫其劇情”。
- Level-5(王者級):“全模態(tài)互促的通才”。這是評估體系的頂點(diǎn),代表真正實(shí)現(xiàn)了跨模態(tài)的全面協(xié)同。王者級模型不僅在視覺、聽覺、文本的理解和生成各方面均衡強(qiáng)大,更實(shí)現(xiàn)了語言和非語言模態(tài)之間的相互賦能。換言之,模型具備高度的“通感”能力:語言智能可以加強(qiáng)視覺/聽覺智能,反之視覺、聽覺等多模態(tài)的感知也能反饋提升語言理解與表達(dá)。這就如同人類看到一幅畫作能激發(fā)靈感寫詩,反過來詩歌修養(yǎng)又豐富了對畫作的解讀。這種全模態(tài)協(xié)同效應(yīng)(Cross-modal Total Synergy)是通才智能的終極標(biāo)志。在評價上,如果模型在純語言的 NLP 任務(wù)上也能超過單模態(tài)語言模型的 SOTA,并將這種能力融入多模態(tài)任務(wù)中,即可視為出現(xiàn)了完全協(xié)同。然而正如榜單所示,截至目前尚無模型達(dá)到王者段位,我們還在等待“多模態(tài)版的 ChatGPT 時刻”。
通過 General-Level 這個分級體系,研究者為“通才智能”提供了一個清晰的定義標(biāo)準(zhǔn):不是看模型會多少項(xiàng)任務(wù),而是看它是否能在多任務(wù)、多模態(tài)中實(shí)現(xiàn)協(xié)同增益。協(xié)同效應(yīng)成為評估的核心指標(biāo),直接衡量模型的“通才度”。這套體系如同給多模態(tài)模型劃定了晉級之路:從雜技般的拼湊,到初步融合產(chǎn)生化學(xué)反應(yīng),最終邁向模態(tài)互通的 AGI。這正如姚順雨所呼吁的,要“重新思考評估設(shè)置并創(chuàng)造新的評估”,不斷質(zhì)疑舊假設(shè)、引入新任務(wù),才能推動 AI 突破現(xiàn)有套路。General-Bench 由此成為多模態(tài) AI 下半場的一座里程碑,為行業(yè)提供了共同的試煉場。正因如此,General-Level 可被稱為“通才智能的新衡量尺”:它定義了未來多模態(tài)模型努力的方向,也為我們診斷現(xiàn)有模型的不足提供了依據(jù)。
General-Bench 通才測試集:700 項(xiàng)任務(wù)煉金“全能 AI”
有了評估等級的標(biāo)準(zhǔn),還需要相應(yīng)“考卷”來對模型進(jìn)行全面測評。General-Bench 正是為此打造的一套大規(guī)模多模態(tài)通才測試集。這套 Benchmark 題庫堪稱 MLLM 史上最全面、最嚴(yán)苛、最大規(guī)模的多模態(tài)考試:它囊括了 700 種不同任務(wù)、合計約 32.58 萬道問題,覆蓋圖像、視頻、音頻、3D 點(diǎn)云、文本等 5 大最常見模態(tài)。從常規(guī)的圖文理解,到開放式生成,再到跨模態(tài)推理,General-Bench 努力構(gòu)建一個全面考察模型多方面能力的競技場。
具體而言,General-Bench 在設(shè)計上有以下顯著特點(diǎn):
- 任務(wù)多元,場景豐富:測試集涵蓋了 145 項(xiàng)多模態(tài)技能,29 個應(yīng)用場景。既包括常見的“看圖說話”圖像描述、視覺問答等基礎(chǔ)題,也有諸如“聽聲音畫圖”、“讀文章配視頻”等燒腦的跨模態(tài)挑戰(zhàn)。領(lǐng)域上橫跨物理、幾何、醫(yī)學(xué)、歷史、藝術(shù)、人文學(xué)科等,讓模型面對如同人類考試文理綜合的難題。舉例來說,可能出現(xiàn)一道物理題附帶復(fù)雜圖表,或一道歷史題給出文物的 3D 模型讓模型辨析。如此廣泛的覆蓋,旨在測試模型是否具備跨學(xué)科、跨模態(tài)的知識整合能力。
- 理解+生成,全方位考察:與以往偏重選擇題式的評測不同,General-Bench 注重開放式回答和內(nèi)容生成。在這套考題中,模型面對的大多是非選擇題,需要自由作答而非從選項(xiàng)中猜測。同時,相當(dāng)比例的任務(wù)直接要求模型生成內(nèi)容,例如看一段視頻續(xù)寫劇情、聽一段音樂創(chuàng)作繪畫等。這意味著模型不僅要會判斷對錯,還要有創(chuàng)造性產(chǎn)出的本領(lǐng)。這樣的設(shè)計可以有效測出模型的生成能力和創(chuàng)造力,補(bǔ)足過去評測只重理解、不重生成的缺陷。正如作者強(qiáng)調(diào)的,未來的 AI 需要“既會看,還會畫”——既能理解輸入,也能產(chǎn)生輸出。
- 真正多模態(tài)考題:General-Bench 的一大創(chuàng)新是設(shè)計了跨模態(tài)組合的問題,以考察模型同時處理多模態(tài)信息的能力。在這里,任務(wù)不再是孤立的圖像問答或文本總結(jié),而是常常多模態(tài)交織:比如給模型一段音樂音頻,要求它畫出相應(yīng)風(fēng)格的圖畫;或者給出一段視頻和一篇文章,讓模型將兩者信息融合進(jìn)行分析。這類似于人類需要將眼睛看到的和耳朵聽到的綜合起來理解世界。如果說過去的基準(zhǔn)測試更多是在考“單科”,那么 General-Bench 就是一場跨媒體、跨領(lǐng)域的綜合性大考,逼真地模擬了 AI 在真實(shí)世界可能遇到的復(fù)雜任務(wù)。通過這些融合型題目,可以檢驗(yàn)?zāi)P驮诙嗄B(tài)協(xié)同上的能力,看看它是否真的能像人一樣將不同感官的信息打通。
如此龐大的題庫是如何構(gòu)建的?研究團(tuán)隊(duì)為保證質(zhì)量和覆蓋面,采用了嚴(yán)謹(jǐn)?shù)奈宀綌?shù)據(jù)構(gòu)建流程。首先,他們明確了數(shù)據(jù)集的范圍和結(jié)構(gòu):確定納入哪些模態(tài)、元任務(wù)類型和回答范式。接著,團(tuán)隊(duì)廣泛搜集潛在任務(wù),通過爬取學(xué)術(shù)論文、開源數(shù)據(jù)集、在線平臺等渠道匯總?cè)蝿?wù)清單。隨后,對每個候選任務(wù)的數(shù)據(jù)進(jìn)行清洗篩選,并按照統(tǒng)一格式整理。整個過程中遵循“盡可能全面、多樣,同時確保質(zhì)量和真實(shí)性”的原則。最終產(chǎn)出的 General-Bench 既有開放部分(Open-Set,提供題目和標(biāo)準(zhǔn)答案,供研究者自由使用)也有閉卷部分(Close-Set,僅提供題目,答案保密用于官方評測)。這種開放+閉卷雙軌設(shè)計,既鼓勵學(xué)術(shù)社區(qū)廣泛采用 Benchmark,又保證了排行榜評測的公平性。可以說,General-Bench 為評估多模態(tài)通才搭建了一個高標(biāo)準(zhǔn)競技場。它的價值不僅在于出了一套難題,更在于樹立了評測新風(fēng)向:強(qiáng)調(diào)開放生成、強(qiáng)調(diào)多模態(tài)融合、強(qiáng)調(diào)動態(tài)擴(kuò)展(團(tuán)隊(duì)稱數(shù)據(jù)集將持續(xù)更新維護(hù))。
榜單揭曉:GPT-4 段位幾何?行業(yè)瓶頸盡現(xiàn)
當(dāng)如此嚴(yán)苛的 General-Bench 試卷擺在當(dāng)前頂尖模型面前,會是怎樣的光景?論文對 100 多個先進(jìn)的多模態(tài)模型在 700 多個跨模態(tài)任務(wù)上進(jìn)行了測試(測試時間是 24 年底之前的多模態(tài)大模型,跟當(dāng)前最新的一些版本模型稍有時間上的延遲),結(jié)果可以說是幾家歡喜幾家愁,更讓人大跌眼鏡。一些業(yè)界公認(rèn)強(qiáng)大的模型在這場通才大考中顯露出意想不到的短板。下面我們揭曉部分關(guān)鍵結(jié)果:
- GPT-4V(含視覺能力的 GPT-4):這可能是公眾眼中最強(qiáng)大的多模態(tài)模型之一。然而在 General-Bench 上,GPT-4V 的表現(xiàn)并非無懈可擊。統(tǒng)計顯示,GPT-4V 只回答了約 65% 的圖像相關(guān)問題,對于視頻類題目更是幾乎束手無策。這意味著在接近三分之一的視覺題上,GPT-4V 要么答不出要么答錯,更遑論對復(fù)雜的視頻理解了。作為對比,一款開源模型 InternVL2.5-8B 在圖像理解方面的得分竟然超過了 GPT-4V,頗令人為之一驚。這提示我們:大模型未必在所有細(xì)分能力上都占優(yōu)勢,有時小模型專精優(yōu)化反而更勝一籌。另外,GPT-4V 缺乏視頻處理能力暴露出其模態(tài)覆蓋不足——這也直接將其評估段位限制在了更低級別。
- 多模態(tài)模型整體弱項(xiàng):General-Bench 的統(tǒng)計還發(fā)現(xiàn),所有模型在音頻類任務(wù)上的平均得分不足 30/100,幾乎集體不及格。在需要解析語音、音樂的題目上,不論是大名鼎鼎的 GPT-4V 還是其他模型,表現(xiàn)都不理想。這反映出當(dāng)前視覺-語言模型對聲音的理解和生成還非常初級。更夸張的是,在 3D 相關(guān)任務(wù)上所有模型幾乎全軍覆沒,最好的正確率僅有 6.7%!可見,處理三維模型、點(diǎn)云這樣的高級感知任務(wù),對現(xiàn)有 AI 仍是巨大挑戰(zhàn)。
如果說按模態(tài)分解的成績讓人大跌眼鏡,那么匯總到段位評定上則更顯殘酷:
- 九成以上模型止步“白銀”。據(jù)統(tǒng)計,約 90% 的模型只能達(dá)到 Level-2 白銀段位。也就是說,它們頂多支持了若干模態(tài)和任務(wù)的組合,但沒有體現(xiàn)出明顯的協(xié)同泛化效應(yīng)。換言之,這些模型只是勉強(qiáng)合格的“多面手”,尚未真正做到“融會貫通”。這當(dāng)中不乏參數(shù)上千億的大模型,可見規(guī)模大不等于段位高。
- 寥寥數(shù)款模型躋身“鉑金”。在測試中,只有 3 個模型達(dá)到了 Level-4 鉑金段位。論文提及其中包括名為 Mini-Gemini 的模型等,它們展現(xiàn)出了理解與生成能力的協(xié)同效應(yīng)。然而值得注意的是,這些鉑金段位的模型其協(xié)同效應(yīng)主要局限在圖文領(lǐng)域。也就是說,它們基本都是在視覺-語言這兩種模態(tài)下達(dá)到了理解+生成雙優(yōu),但在更廣泛的音頻、視頻等模態(tài)上未能實(shí)現(xiàn)同等協(xié)同。換句話說,目前的鉑金通才還是“片面的通才”,距離全能尚有距離。
- “王者段位”依然空缺。最令人警醒的是,Level-5 王者級別完全沒有模型觸及。沒有任何參評模型能夠證明自己的語言智能被其他模態(tài)提升,或能將視覺、聽覺等學(xué)習(xí)反饋改進(jìn) NLP 能力。這印證了前文提到的單向協(xié)同問題:目前還沒有 AI 達(dá)到全模態(tài)互促的境界。王者寶座依舊虛位以待,這也意味著距離真正的多模態(tài) AGI 還有相當(dāng)?shù)镍櫆稀?/span>
General-Level 整體排行榜展示了不同模型所處的段位分布。如上圖所示,目前絕大多數(shù)模型停留在 Level-2 和 Level-3,僅有極少數(shù)攀上 Level-4 鉑金,而 Level-5 王者段位(黃色階梯)尚無模型問鼎。這張圖直觀地回答了“你的多模態(tài)模型是青銅還是王者?”這一問題。
通過這次前所未有的通才測試,現(xiàn)有 MLLM 的三大致命弱點(diǎn)也徹底暴露無遺:
- 偏科嚴(yán)重,通用性欠缺:模型對特定模態(tài)任務(wù)駕輕就熟,但一遇到跨模態(tài)的新題型就表現(xiàn)失常。這說明當(dāng)前模型通用性名不副實(shí),“見多識廣”還遠(yuǎn)遠(yuǎn)談不上。是可能是實(shí)現(xiàn)“多模態(tài)通才”這一宏大目標(biāo)最基本的障礙。
- 生成乏力,缺少創(chuàng)造:大部分模型在理解任務(wù)上還能應(yīng)付,但讓它們產(chǎn)出內(nèi)容就頻頻失敗。AI 缺乏像人一樣靈活輸出新內(nèi)容的創(chuàng)造力,這將限制其解決實(shí)際問題的能力。
- 協(xié)同單向,缺乏通感:模型內(nèi)部各模塊沒有形成雙向增強(qiáng)。語言和視覺等智力沒有真正融合,造成知識遷移的瓶頸。這也是為何最高段位遲遲無人問津的原因。
這些發(fā)現(xiàn)無疑給業(yè)界敲響了警鐘:再強(qiáng)大的單點(diǎn)模型,在通才智能的新坐標(biāo)系下都可能暴露短板。GPT-4 這樣的巨頭依然在視頻、音頻、3D 等維度力不從心,更遑論實(shí)現(xiàn)模態(tài)互促的飛躍。這充分證明,我們需要新的評測標(biāo)準(zhǔn)來發(fā)現(xiàn)和正視這些瓶頸,然后對癥下藥地改進(jìn)模型。General-Level 和 General-Bench 正提供了這樣的放大鏡和標(biāo)尺,讓我們看清 AI 通往 AGI 道路上的真實(shí)差距。
社區(qū)反響:評測框架引熱議,開放平臺促協(xié)作
General-Level 和 General-Bench 的推出,近期在學(xué)術(shù)界和工業(yè)界都引起了積極反響。首先,這項(xiàng)工作獲得了頂會 ICML 的 Spotlight 認(rèn)可,證明同行專家們高度認(rèn)同其創(chuàng)新性和重要性。許多國外研究者在社交媒體上評論、轉(zhuǎn)發(fā)該工作,稱其為“AGI 時代評測范式的里程碑”。在開源社區(qū),General-Bench 基準(zhǔn)受到了熱烈歡迎。論文作者將數(shù)據(jù)集發(fā)布在 Hugging Face 平臺,并開放了評測代碼和排行榜系統(tǒng)。Hugging Face 上聚集了一批關(guān)注者,不少開發(fā)者加入項(xiàng)目組織成為成員,共同維護(hù)數(shù)據(jù)。有社區(qū)貢獻(xiàn)者開始考慮提交新的任務(wù)數(shù)據(jù),希望擴(kuò)充 General-Bench 的覆蓋范圍。這種開源協(xié)作氛圍正是作者期望的——讓評測框架成為全社區(qū)共同的基礎(chǔ)設(shè)施,持續(xù)完善并被廣泛采用。
與此同時,排行榜(Leaderboard)競賽的形式也激發(fā)了良性競爭。General-Level 官方網(wǎng)站上線了實(shí)時榜單和提交入口,任何人都可以上傳自己模型在 Close-Set 測試集上的預(yù)測結(jié)果,獲取官方評估分?jǐn)?shù)和段位定位。這一機(jī)制吸引了業(yè)界一些領(lǐng)先 AI 團(tuán)隊(duì)參與,不僅有學(xué)術(shù)實(shí)驗(yàn)室,也有企業(yè)研發(fā)部門。大家都希望嘗試讓自家模型沖擊更高段位,并將結(jié)果分享出來交流,比如“某某模型為何只能停留在白銀段位,差距在哪”;“我們發(fā)現(xiàn)模型在音頻理解上扣分嚴(yán)重,看來下個版本必須補(bǔ)上聽覺模塊的短板。”團(tuán)隊(duì)負(fù)責(zé)人稱,將會長期維護(hù)這個項(xiàng)目,確保社區(qū)所有的多模態(tài)大模型都能夠無門檻使用這個項(xiàng)目的資源。
歡迎公開打榜,Leaderboard:https://generalist.top/leaderboard
團(tuán)隊(duì)與研究背景:跨領(lǐng)域協(xié)作共筑評測基石
這樣的突破性工作背后,是一支大規(guī)模的團(tuán)隊(duì)。該項(xiàng)目由新加坡國立大學(xué)(NUS)與南洋理工大學(xué)(NTU)牽頭,匯集了計算機(jī)視覺、多模態(tài)理解、自然語言處理等方向的青年、資深專家學(xué)者。本工作由費(fèi)豪博士主導(dǎo)整體項(xiàng)目推進(jìn),并分別由周源、李俊成、李祥泰、徐青山、李波波、吳勝瓊博士等青年學(xué)者分別領(lǐng)銜各個模態(tài)、模塊;并全稱由張含望教授、顏水成教授坐鎮(zhèn)通訊指導(dǎo),由蔡達(dá)成教授、羅杰波教授作為項(xiàng)目顧問。據(jù)團(tuán)隊(duì)成員介紹,最初萌生這個想法,是在看到多模態(tài)模型不斷刷新各種 Benchmark 的同時,卻缺乏對整體智能水平的刻畫?!拔覀冇?xùn)練出了很多擅長某一方面的模型,但很難說清楚 AI 整體上進(jìn)步了多少”,張含望教授在相關(guān)研討會上如此闡述初衷,“我們不妨借鑒自動駕駛行業(yè)的智能汽車分級機(jī)制,重新思考對于多模態(tài)大模型的智能分級體系”。于是大家決定索性換一個視角,不再糾結(jié)于在單一基準(zhǔn)上卷 0.1% 的精度提升,而是設(shè)計一個能全面衡量多模態(tài) AI 的框架。通過多次大量的內(nèi)部討論,最終確定了一個核心觀點(diǎn),“我們不能按照過去的簡單的單個任務(wù)表現(xiàn)來評定模型的智能水平,而是應(yīng)該按照協(xié)同泛化能力!”。一開始這個想法并不被所有人看好,因?yàn)橐馕吨度刖薮缶?gòu)建數(shù)據(jù)集、協(xié)調(diào)不同領(lǐng)域知識。但團(tuán)隊(duì)迎難而上,不斷打磨 General-Level 算法設(shè)計,花了超過一年多的時間收集、標(biāo)注清洗數(shù)據(jù),與此同時耗費(fèi)大量人力(超過 50 多位實(shí)際貢獻(xiàn)者)和計算資源對超過 100 多個多模態(tài)大模型在 700 多個任務(wù) 30 多萬條數(shù)據(jù)上進(jìn)行大規(guī)模的評測,終于使整個項(xiàng)目成型??梢哉f,這項(xiàng)成果既是技術(shù)創(chuàng)新的結(jié)晶,也是對 AI 評測理念的一次重要實(shí)踐。
可以說,General-Level/General-Bench 不僅是一套評測工具,更是在推廣一種全新的“評測文化”。AI 社區(qū)從原先熱衷跑單項(xiàng)指標(biāo),開始轉(zhuǎn)向思考模型的全面素質(zhì);從比拼參數(shù)規(guī)模,轉(zhuǎn)向比拼誰的 AI 更平衡、更通達(dá)。這種風(fēng)向的變化正驗(yàn)證了姚順雨的論斷:AI 下半場,比的不是算法炫技,而是誰能定義正確的問題并找到衡量進(jìn)步的方法。General-Level 的框架為大家提供了一個共同語言和目標(biāo),接下來就要看各路英雄如何在這新標(biāo)尺下磨煉升級了。
展望:評測范式革新推動 AGI 落地
在 AI 通往 AGI 的征途上,評測標(biāo)準(zhǔn)的突破將起到指南針的作用。General-Level 和 General-Bench 的問世,正標(biāo)志著業(yè)界從“算法為王”轉(zhuǎn)向“評測為王”的思維轉(zhuǎn)變。在這個全新的評測范式下,我們期待看到以下變化:
- 研發(fā)重心轉(zhuǎn)移:研究人員將更加重視模型的全面能力而非單點(diǎn)絕活。模型設(shè)計將從過去的“拼裝式”朝“熔爐式”演進(jìn),力求不同模態(tài)在架構(gòu)上深度融合以增強(qiáng)協(xié)同效應(yīng)。因?yàn)樾碌脑u測會倒逼大家解決偏科和單向協(xié)同的問題,下一代模型可能在多模態(tài)統(tǒng)一建模、跨模態(tài)信息流動方面迎來突破。
- 評測生態(tài)完善:隨著 General-Bench 等基準(zhǔn)流行,未來會有更多類似動態(tài)任務(wù)庫加入評測體系,比如引入代碼生成、機(jī)器人操作、觸覺反饋等新類型任務(wù)。評測將不再是固定的一套試題,而會不斷擴(kuò)充,貼近真實(shí)世界需求。這將鼓勵 AI 系統(tǒng)具備持續(xù)學(xué)習(xí)和適應(yīng)新任務(wù)的能力,而不只是針對靜態(tài)測試集優(yōu)化。
- AGI 進(jìn)程加速:有了明確的通才智能目標(biāo)(王者段位)和衡量路徑,業(yè)界在朝 AGI 前進(jìn)時將少走彎路。當(dāng)模型在評測中逐級攀升,我們便能量化地看到 AI 離仿真人類智能還有多遠(yuǎn)。正如論文預(yù)測的那樣:當(dāng)某天 AI 能夠通過“王者段位”的考核,真正的 AGI 或許也就呼之欲出了。雖然這一天仍未到來,但現(xiàn)在有了一個公認(rèn)的指標(biāo)去追求,無疑會大大加速 AGI 落地的步伐。
在此,我們呼吁 AI 研究社區(qū)廣泛采用 General-Level 和 General-Bench 框架。一套統(tǒng)一的評估標(biāo)準(zhǔn),將使得不同模型的優(yōu)劣高下有據(jù)可依,也方便大家協(xié)同改進(jìn)。更重要的是,它能引導(dǎo)我們聚焦于模型綜合素質(zhì)的提升,而不是陷入無盡的參數(shù)競賽或刷榜游戲。這與姚順雨所倡導(dǎo)的“像產(chǎn)品經(jīng)理一樣思考”不謀而合:先想清楚我們究竟希望 AI 為人類做什么、有哪些能力,然后再去改進(jìn)算法實(shí)現(xiàn)它。評估標(biāo)準(zhǔn)的革新,正是明確 AI 努力方向的前提。
總而言之,AI 的下半場已經(jīng)開啟,一個以評測驅(qū)動進(jìn)步的新時代撲面而來。General-Level 和 General-Bench 作為“通才智能”的里程碑,為這一時代寫下了精彩的序章。讓我們期待,在這套評測指引下,更多 AI 模型百尺竿頭、更進(jìn)一步,早日攀上“王者段位”。屆時,通往 AGI 的大門也將隨之洞開,人類與通用人工智能共創(chuàng)未來的愿景或?qū)⒊蔀楝F(xiàn)實(shí)。