偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<big id="dgott"><delect id="dgott"></delect></big>

<abbr id="dgott"></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

九成以上模型止步白銀段位，只有3個鉑金！通用AI下半場評測標(biāo)準(zhǔn)來了

2025-05-21 09:14:38

人工智能新聞

近期，一支來自新加坡國立大學(xué)（NUS）和南洋理工大學(xué)（NTU）等機(jī)構(gòu)領(lǐng)銜的團(tuán)隊(duì)的研究，圍繞了通用多模態(tài)模型的評估而非訓(xùn)練展開。

引言：從“解題”到“定義問題”，評測引領(lǐng)AI下半場

OpenAI 研究員姚順雨最近在其博文《AI 下半場》中提出了振聾發(fā)聵的觀點(diǎn)：人工智能的發(fā)展正步入一個全新的階段。在上半場，我們習(xí)慣于專注模型架構(gòu)與訓(xùn)練方法的突破；而如今，下半場的關(guān)鍵在于如何評估模型的真實(shí)智能?！敖酉聛恚珹I 的重點(diǎn)將從解決問題轉(zhuǎn)向定義問題。在這個新時代，評估的重要性將超過訓(xùn)練”。換言之，我們需要像產(chǎn)品經(jīng)理那樣重新思考應(yīng)該讓 AI 解決什么問題、以及如何衡量“解決得好”。過去，Transformer、AlexNet、GPT-4 等里程碑工作讓算法和模型大放異彩；但在下半場，比拼的不再是誰的模型更大、更強(qiáng)，而是誰能定義出更有效的評測標(biāo)準(zhǔn)，推動 AI 朝著對人類真正有用的方向演進(jìn)。

這樣的理念正在獲得實(shí)踐的支撐。近期，一支來自新加坡國立大學(xué)（NUS）和南洋理工大學(xué)（NTU）等機(jī)構(gòu)領(lǐng)銜的團(tuán)隊(duì)的研究，圍繞了通用多模態(tài)模型的評估而非訓(xùn)練展開。這篇題為《On Path to Multimodal Generalist: General-Level and General-Bench》的論文提出了全新的“通才智能”評測框架，旨在為多模態(tài)大模型（Multimodal Large Language Model, MLLM）的能力設(shè)立一把更合適的標(biāo)尺。該團(tuán)隊(duì)強(qiáng)調(diào)，只有轉(zhuǎn)變思路，把精力投向評測體系的革新，我們才能真正衡量 AI 是否在朝著通用智能（AGI）的目標(biāo)邁進(jìn)。正如姚順雨所言，下半場 AI 的勝負(fù)手在于評測標(biāo)準(zhǔn)的制定，而非一味堆砌訓(xùn)練技巧。這項(xiàng)超過 300 頁的研究由超過 30 位研究者共同完成，核心作者團(tuán)隊(duì)來自新加坡國立大學(xué)、南洋理工大學(xué)，聯(lián)合了浙江大學(xué)、北京大興、羅切斯特大學(xué)等多家機(jī)構(gòu)的學(xué)者，這支跨學(xué)科、跨地域的多元團(tuán)隊(duì)集合了計算機(jī)視覺、多模態(tài)、NLP 等領(lǐng)域的專家。該工作錄用于國際機(jī)器學(xué)習(xí)大會 ICML 2025（Spotlight 論文），在眾多投稿中脫穎而出，獲得評審高度評價。該工作將期待為未來的通用多模態(tài)大模型的發(fā)展指明一條明道。

項(xiàng)目主頁：https://generalist.top/
Leaderboard：https://generalist.top/leaderboard
論文地址：https://arxiv.org/abs/2505.04620
Benchmark：https://huggingface.co/General-Level

“通才智能”之問，多模態(tài)大模型的短板：“拼接怪”難言智能

該工作瞄準(zhǔn)的是多模態(tài)大模型如何進(jìn)化為“全能通才”的重大命題。論文之所以引發(fā)矚目，源于其聚焦的核心問題：當(dāng)前的多模態(tài)大模型到底離“通才智能”有多遠(yuǎn)？隨著 GPT-4、PaLM-E、Deepseek 等模型不斷涌現(xiàn)，業(yè)界開始暢想 AI 從各自為戰(zhàn)的“專才”走向舉一反三的“通才”。但一個現(xiàn)實(shí)挑戰(zhàn)是，缺乏衡量“通才智能”的統(tǒng)一標(biāo)準(zhǔn)——過往評測往往各自為政、碎片化，難以回答“大模型是不是更通用了”這一根本問題。為此，該團(tuán)隊(duì)提出了 General-Level 評估體系和 General-Bench 測試集，希望為 AI 社區(qū)提供一個公認(rèn)的“通才智能”試金石。正如論文指出的，那些在各項(xiàng)任務(wù)上指標(biāo)再高的模型，也未必真正更接近人類水平智能。我們需要新的評估范式來定義問題、發(fā)現(xiàn)短板，照亮通往 AGI 的路徑。這正契合了“AI 下半場”的時代精神，也難怪工作一經(jīng)發(fā)布就收獲了學(xué)術(shù)界和工業(yè)界的密切關(guān)注。

在踏上“通才”之路前，團(tuán)隊(duì)首先剖析了當(dāng)前絕大部分的多模態(tài)大模型（無論是多模態(tài)基礎(chǔ)模型還是多模態(tài)智能體）存在的瓶頸。論文一針見血地指出：現(xiàn)有的大部分的多模態(tài)模型基本是基于“語言智能 LLM”所二次構(gòu)建的“間接式多模態(tài)智能”，類似于用膠水拼接起來的“縫合怪”。雖然它們可以同時處理圖像、文本、視頻等等多種模態(tài)，但本質(zhì)上往往是不同模塊的堆疊+二次微調(diào)：比如用預(yù)訓(xùn)練視覺編碼器接上語言模型，讓模型“看圖說話”。這種架構(gòu)上的松耦合導(dǎo)致模型更像多個專才的拼盤，而非一個真正融會貫通的通才。這樣的“多模態(tài) Frankenstein”只是在語言智能的基礎(chǔ)上外掛視覺、聽覺接口，其多模態(tài)推理過程很大程度上仍依賴底層的大語言模型對文本的強(qiáng)大記憶和關(guān)聯(lián)能力。模型缺乏各模態(tài)間的深度協(xié)同，更談不上原生多模態(tài)智能，實(shí)現(xiàn)在跨模態(tài)/任務(wù)之間舉一反三。

不僅如此，簡單地用傳統(tǒng)任務(wù)準(zhǔn)確率去評價這些模型，往往會產(chǎn)生誤導(dǎo)。很多現(xiàn)有的 MLLM benchmarks 看似涵蓋多模態(tài)任務(wù)，但不同模型各擅勝場：有的專精圖像問答拿高分，有的擅長視頻描述拔頭籌。然而，這些分?jǐn)?shù)的堆疊并不等于智能的提升。正如作者所質(zhì)疑的，難道任務(wù)指標(biāo)高就代表模型更接近人類智能了嗎？答案遠(yuǎn)非如此簡單。舉個例子，一個模型如果靠暴力記憶在封閉題庫上取得高分，并不能說明它具備通用理解力。同樣，一個只會在單一模態(tài)侃侃而談的模型，換個場景就可能語焉不詳。由此可見，僅以各項(xiàng)任務(wù)的準(zhǔn)確率為標(biāo)準(zhǔn)來衡量智能是片面的。當(dāng)前的 MLLM 存在三大典型短板：

“拼接”導(dǎo)致偏科嚴(yán)重：大多數(shù)多模態(tài)模型只在擅長的領(lǐng)域表現(xiàn)亮眼，超出熟悉范疇就束手無策。例如很多模型能做到基本的“看圖說話”，但遇到“聽聲音畫圖”或“看視頻改劇本”一類跨模態(tài)任務(wù)就抓瞎，仿佛一個偏科的學(xué)霸。這說明它們?nèi)狈Ω髂B(tài)技能的均衡發(fā)展，更沒有真正將不同能力融會貫通。
生成能力薄弱：“紙上談兵”：目前的 MLLM 普遍在內(nèi)容生成上乏力。比如 GPT-4V 可以精確描述《蒙娜麗莎》的細(xì)節(jié)，但要讓它畫一張簡筆畫卻完全辦不到。很多模型充當(dāng)了很好的解說員，卻當(dāng)不好創(chuàng)作者，正所謂理論一流但實(shí)踐欠佳。這種“只懂描述不會創(chuàng)作”的現(xiàn)象表明，模型缺失了主動生成、多模態(tài)創(chuàng)作的能力。
單向協(xié)作，缺乏“通感”：更深層的瓶頸在于，模型在不同模態(tài)間的知識遷移并不對等。目前往往是語言智能幫助了圖像理解（例如利用 LLM 的知識提升了視覺問答表現(xiàn)），但反過來，視覺等其他模態(tài)的學(xué)習(xí)卻并未真正提升模型的語言表達(dá)或推理能力。這意味著模型各模塊之間沒有形成雙向增強(qiáng)的閉環(huán)，好比你看再多名畫也無法直接提高寫詩水平。真正的通才 AI 應(yīng)當(dāng)具備“通感”式的協(xié)同學(xué)習(xí)——各種模態(tài)互相促進(jìn)，而非各顧各的單箭頭輸出。

綜上，當(dāng)前的多模態(tài)大模型更像多個專家的簡單拼合，遠(yuǎn)未形成跨模態(tài)的融會貫通。針對這些短板，評估標(biāo)準(zhǔn)也必須升級，才能暴露模型的真實(shí)能力缺陷。General-Level 和 General-Bench 的提出，正是要回答“如何定義和衡量通才智能”這一問題，為 AI 下半場奠定新的競賽規(guī)程。

General-Level 五級評估體系：用“協(xié)同效應(yīng)”定義通才智能

要評估“通才智能”，該論文借鑒了自動駕駛分級評估的思路，創(chuàng)造性地提出了 General-Level 五級能力段位體系。它將多模態(tài)模型的能力劃分為由低到高的五個段位，從“專才”一直到“通才”。評判標(biāo)準(zhǔn)的核心是模型是否展現(xiàn)出 Synergy（協(xié)同效應(yīng)）——也就是不同模態(tài)、不同任務(wù)間是否互相賦能。General-Level 評估體系以“協(xié)同效應(yīng) (Synergy)”為核心，將多模態(tài)模型劃分為五個能力等級，從青銅級的專才到王者級的通才，每升高一級意味著更強(qiáng)的協(xié)同效應(yīng)。簡而言之，一個真正的通才型 AI，其在某一模態(tài)/任務(wù)上學(xué)到的本領(lǐng)應(yīng)能遷移并增強(qiáng)它在其他模態(tài)/任務(wù)上的表現(xiàn)，實(shí)現(xiàn)“1+1>2”的效果。

具體來說，General-Level 將 MLLM 劃分為如下五個等級，：

Level-1（青銅級）：“單科”專才。此級別對應(yīng)各領(lǐng)域的單任務(wù)專家。模型只針對特定模態(tài)的特定任務(wù)進(jìn)行了優(yōu)化，比如只會圖像分類或語音識別等。它們在各自狹窄領(lǐng)域表現(xiàn)卓越，但不具備跨任務(wù)、跨模態(tài)的一般性。絕大多數(shù)傳統(tǒng) AI 模型（如只會識別圖片的 ResNet 或只會翻譯的 Transformer）都屬于青銅段位。
Level-2（白銀級）：“多任務(wù)拼接”。這一級別是初級的多任務(wù)模型。模型能夠支持不同模態(tài)或任務(wù)的輸入輸出，具備一定的通用性，例如一些視覺語言模型能看圖回答也能文本生成。但是，這類模型通常采用模塊拼接的方式整合功能，沒有內(nèi)部的協(xié)同增益。它們可以看作把若干青銅專才打包在一起的“綜合體”，只能完成預(yù)先設(shè)計好的多種任務(wù)，卻無法因?yàn)闀鋈蝿?wù) A 而自動在任務(wù) B 上做得更好。因此白銀級被定義為“無協(xié)同效應(yīng)”（No Synergy）——模型支持的任務(wù)越多、性能越高，段位評分越高，但并不要求跨任務(wù)有互助提升。
Level-3（黃金級）：“跨任務(wù)協(xié)同”。黃金段位要求模型開始展現(xiàn)任務(wù)級別的協(xié)同效應(yīng)。也就是說，模型在同一范式下的多個任務(wù)（例如都屬于理解類任務(wù)，或都屬于生成類任務(wù)）上通過聯(lián)合學(xué)習(xí)，實(shí)現(xiàn)了 1+1>2 的效果：相比各任務(wù)獨(dú)立訓(xùn)練的專家，通用模型因知識共享反而在若干任務(wù)上超越了單 task SOTA。這被視為出現(xiàn)了任務(wù)級協(xié)同（Task-level Synergy）的證據(jù)。評估方法是，將模型在每個任務(wù)上的成績與該任務(wù)單任務(wù)專家的 SOTA 成績比較，如果超越 SoTA 則記為一次協(xié)同加成。模型超越的任務(wù)越多、幅度越大，Level-3 評分越高。達(dá)到黃金段位，意味著模型不再只是簡單兼顧多任務(wù)，而是因?yàn)槎嗳蝿?wù)并舉而在部分任務(wù)上表現(xiàn)得更好了。這標(biāo)志著通才智能的開端：知識開始在相近任務(wù)間融通。正如通俗類比：“模型學(xué)會了修圖之后，拍照水平也提高了”。
Level-4（鉑金級）：“理解-生成范式雙修”。在這個級別，模型需要展現(xiàn)范式級的協(xié)同效應(yīng)，即同時精通理解類任務(wù)和生成類任務(wù)，并且兩種能力互相促進(jìn)。所謂理解與生成的協(xié)同，可以理解為模型的閱讀理解、分析判斷能力和創(chuàng)意生成、內(nèi)容創(chuàng)造能力是融會貫通的，不會出現(xiàn)一條腿長一條腿短。評估上，Level-4 通過計算模型在理解任務(wù)和生成任務(wù)上的成績調(diào)和平均數(shù)，來看兩者是否保持均衡高水平。只有當(dāng)模型在“看”和“寫”兩方面都表現(xiàn)出色且互相補(bǔ)益，才能晉級鉑金段位。這對應(yīng)人類能力中的“既能讀懂復(fù)雜文章又能寫出好文章”。達(dá)到這一層次，模型已不再局限于單一任務(wù)范式的高手, 而是實(shí)現(xiàn)范式級協(xié)同（Paradigm-level Synergy），成為了跨范式的全才——既能看圖說話，又能據(jù)圖生文。例如論文將其比喻為“既能準(zhǔn)確描述一部電影，又能續(xù)寫其劇情”。
Level-5（王者級）：“全模態(tài)互促的通才”。這是評估體系的頂點(diǎn)，代表真正實(shí)現(xiàn)了跨模態(tài)的全面協(xié)同。王者級模型不僅在視覺、聽覺、文本的理解和生成各方面均衡強(qiáng)大，更實(shí)現(xiàn)了語言和非語言模態(tài)之間的相互賦能。換言之，模型具備高度的“通感”能力：語言智能可以加強(qiáng)視覺/聽覺智能，反之視覺、聽覺等多模態(tài)的感知也能反饋提升語言理解與表達(dá)。這就如同人類看到一幅畫作能激發(fā)靈感寫詩，反過來詩歌修養(yǎng)又豐富了對畫作的解讀。這種全模態(tài)協(xié)同效應(yīng)（Cross-modal Total Synergy）是通才智能的終極標(biāo)志。在評價上，如果模型在純語言的 NLP 任務(wù)上也能超過單模態(tài)語言模型的 SOTA，并將這種能力融入多模態(tài)任務(wù)中，即可視為出現(xiàn)了完全協(xié)同。然而正如榜單所示，截至目前尚無模型達(dá)到王者段位，我們還在等待“多模態(tài)版的 ChatGPT 時刻”。

通過 General-Level 這個分級體系，研究者為“通才智能”提供了一個清晰的定義標(biāo)準(zhǔn)：不是看模型會多少項(xiàng)任務(wù)，而是看它是否能在多任務(wù)、多模態(tài)中實(shí)現(xiàn)協(xié)同增益。協(xié)同效應(yīng)成為評估的核心指標(biāo)，直接衡量模型的“通才度”。這套體系如同給多模態(tài)模型劃定了晉級之路：從雜技般的拼湊，到初步融合產(chǎn)生化學(xué)反應(yīng)，最終邁向模態(tài)互通的 AGI。這正如姚順雨所呼吁的，要“重新思考評估設(shè)置并創(chuàng)造新的評估”，不斷質(zhì)疑舊假設(shè)、引入新任務(wù)，才能推動 AI 突破現(xiàn)有套路。General-Bench 由此成為多模態(tài) AI 下半場的一座里程碑，為行業(yè)提供了共同的試煉場。正因如此，General-Level 可被稱為“通才智能的新衡量尺”：它定義了未來多模態(tài)模型努力的方向，也為我們診斷現(xiàn)有模型的不足提供了依據(jù)。

General-Bench 通才測試集：700 項(xiàng)任務(wù)煉金“全能 AI”

有了評估等級的標(biāo)準(zhǔn)，還需要相應(yīng)“考卷”來對模型進(jìn)行全面測評。General-Bench 正是為此打造的一套大規(guī)模多模態(tài)通才測試集。這套 Benchmark 題庫堪稱 MLLM 史上最全面、最嚴(yán)苛、最大規(guī)模的多模態(tài)考試：它囊括了 700 種不同任務(wù)、合計約 32.58 萬道問題，覆蓋圖像、視頻、音頻、3D 點(diǎn)云、文本等 5 大最常見模態(tài)。從常規(guī)的圖文理解，到開放式生成，再到跨模態(tài)推理，General-Bench 努力構(gòu)建一個全面考察模型多方面能力的競技場。

具體而言，General-Bench 在設(shè)計上有以下顯著特點(diǎn)：

任務(wù)多元，場景豐富：測試集涵蓋了 145 項(xiàng)多模態(tài)技能，29 個應(yīng)用場景。既包括常見的“看圖說話”圖像描述、視覺問答等基礎(chǔ)題，也有諸如“聽聲音畫圖”、“讀文章配視頻”等燒腦的跨模態(tài)挑戰(zhàn)。領(lǐng)域上橫跨物理、幾何、醫(yī)學(xué)、歷史、藝術(shù)、人文學(xué)科等，讓模型面對如同人類考試文理綜合的難題。舉例來說，可能出現(xiàn)一道物理題附帶復(fù)雜圖表，或一道歷史題給出文物的 3D 模型讓模型辨析。如此廣泛的覆蓋，旨在測試模型是否具備跨學(xué)科、跨模態(tài)的知識整合能力。
理解+生成，全方位考察：與以往偏重選擇題式的評測不同，General-Bench 注重開放式回答和內(nèi)容生成。在這套考題中，模型面對的大多是非選擇題，需要自由作答而非從選項(xiàng)中猜測。同時，相當(dāng)比例的任務(wù)直接要求模型生成內(nèi)容，例如看一段視頻續(xù)寫劇情、聽一段音樂創(chuàng)作繪畫等。這意味著模型不僅要會判斷對錯，還要有創(chuàng)造性產(chǎn)出的本領(lǐng)。這樣的設(shè)計可以有效測出模型的生成能力和創(chuàng)造力，補(bǔ)足過去評測只重理解、不重生成的缺陷。正如作者強(qiáng)調(diào)的，未來的 AI 需要“既會看，還會畫”——既能理解輸入，也能產(chǎn)生輸出。
真正多模態(tài)考題：General-Bench 的一大創(chuàng)新是設(shè)計了跨模態(tài)組合的問題，以考察模型同時處理多模態(tài)信息的能力。在這里，任務(wù)不再是孤立的圖像問答或文本總結(jié)，而是常常多模態(tài)交織：比如給模型一段音樂音頻，要求它畫出相應(yīng)風(fēng)格的圖畫；或者給出一段視頻和一篇文章，讓模型將兩者信息融合進(jìn)行分析。這類似于人類需要將眼睛看到的和耳朵聽到的綜合起來理解世界。如果說過去的基準(zhǔn)測試更多是在考“單科”，那么 General-Bench 就是一場跨媒體、跨領(lǐng)域的綜合性大考，逼真地模擬了 AI 在真實(shí)世界可能遇到的復(fù)雜任務(wù)。通過這些融合型題目，可以檢驗(yàn)?zāi)Ｐ驮诙嗄B(tài)協(xié)同上的能力，看看它是否真的能像人一樣將不同感官的信息打通。

如此龐大的題庫是如何構(gòu)建的？研究團(tuán)隊(duì)為保證質(zhì)量和覆蓋面，采用了嚴(yán)謹(jǐn)?shù)奈宀綌?shù)據(jù)構(gòu)建流程。首先，他們明確了數(shù)據(jù)集的范圍和結(jié)構(gòu)：確定納入哪些模態(tài)、元任務(wù)類型和回答范式。接著，團(tuán)隊(duì)廣泛搜集潛在任務(wù)，通過爬取學(xué)術(shù)論文、開源數(shù)據(jù)集、在線平臺等渠道匯總?cè)蝿?wù)清單。隨后，對每個候選任務(wù)的數(shù)據(jù)進(jìn)行清洗篩選，并按照統(tǒng)一格式整理。整個過程中遵循“盡可能全面、多樣，同時確保質(zhì)量和真實(shí)性”的原則。最終產(chǎn)出的 General-Bench 既有開放部分（Open-Set，提供題目和標(biāo)準(zhǔn)答案，供研究者自由使用）也有閉卷部分（Close-Set，僅提供題目，答案保密用于官方評測）。這種開放+閉卷雙軌設(shè)計，既鼓勵學(xué)術(shù)社區(qū)廣泛采用 Benchmark，又保證了排行榜評測的公平性。可以說，General-Bench 為評估多模態(tài)通才搭建了一個高標(biāo)準(zhǔn)競技場。它的價值不僅在于出了一套難題，更在于樹立了評測新風(fēng)向：強(qiáng)調(diào)開放生成、強(qiáng)調(diào)多模態(tài)融合、強(qiáng)調(diào)動態(tài)擴(kuò)展（團(tuán)隊(duì)稱數(shù)據(jù)集將持續(xù)更新維護(hù)）。

榜單揭曉：GPT-4 段位幾何？行業(yè)瓶頸盡現(xiàn)

當(dāng)如此嚴(yán)苛的 General-Bench 試卷擺在當(dāng)前頂尖模型面前，會是怎樣的光景？論文對 100 多個先進(jìn)的多模態(tài)模型在 700 多個跨模態(tài)任務(wù)上進(jìn)行了測試（測試時間是 24 年底之前的多模態(tài)大模型，跟當(dāng)前最新的一些版本模型稍有時間上的延遲），結(jié)果可以說是幾家歡喜幾家愁，更讓人大跌眼鏡。一些業(yè)界公認(rèn)強(qiáng)大的模型在這場通才大考中顯露出意想不到的短板。下面我們揭曉部分關(guān)鍵結(jié)果：

GPT-4V（含視覺能力的 GPT-4）：這可能是公眾眼中最強(qiáng)大的多模態(tài)模型之一。然而在 General-Bench 上，GPT-4V 的表現(xiàn)并非無懈可擊。統(tǒng)計顯示，GPT-4V 只回答了約 65% 的圖像相關(guān)問題，對于視頻類題目更是幾乎束手無策。這意味著在接近三分之一的視覺題上，GPT-4V 要么答不出要么答錯，更遑論對復(fù)雜的視頻理解了。作為對比，一款開源模型 InternVL2.5-8B 在圖像理解方面的得分竟然超過了 GPT-4V，頗令人為之一驚。這提示我們：大模型未必在所有細(xì)分能力上都占優(yōu)勢，有時小模型專精優(yōu)化反而更勝一籌。另外，GPT-4V 缺乏視頻處理能力暴露出其模態(tài)覆蓋不足——這也直接將其評估段位限制在了更低級別。
多模態(tài)模型整體弱項(xiàng)：General-Bench 的統(tǒng)計還發(fā)現(xiàn)，所有模型在音頻類任務(wù)上的平均得分不足 30/100，幾乎集體不及格。在需要解析語音、音樂的題目上，不論是大名鼎鼎的 GPT-4V 還是其他模型，表現(xiàn)都不理想。這反映出當(dāng)前視覺-語言模型對聲音的理解和生成還非常初級。更夸張的是，在 3D 相關(guān)任務(wù)上所有模型幾乎全軍覆沒，最好的正確率僅有 6.7%！可見，處理三維模型、點(diǎn)云這樣的高級感知任務(wù)，對現(xiàn)有 AI 仍是巨大挑戰(zhàn)。

如果說按模態(tài)分解的成績讓人大跌眼鏡，那么匯總到段位評定上則更顯殘酷：

九成以上模型止步“白銀”。據(jù)統(tǒng)計，約 90% 的模型只能達(dá)到 Level-2 白銀段位。也就是說，它們頂多支持了若干模態(tài)和任務(wù)的組合，但沒有體現(xiàn)出明顯的協(xié)同泛化效應(yīng)。換言之，這些模型只是勉強(qiáng)合格的“多面手”，尚未真正做到“融會貫通”。這當(dāng)中不乏參數(shù)上千億的大模型，可見規(guī)模大不等于段位高。
寥寥數(shù)款模型躋身“鉑金”。在測試中，只有 3 個模型達(dá)到了 Level-4 鉑金段位。論文提及其中包括名為 Mini-Gemini 的模型等，它們展現(xiàn)出了理解與生成能力的協(xié)同效應(yīng)。然而值得注意的是，這些鉑金段位的模型其協(xié)同效應(yīng)主要局限在圖文領(lǐng)域。也就是說，它們基本都是在視覺-語言這兩種模態(tài)下達(dá)到了理解+生成雙優(yōu)，但在更廣泛的音頻、視頻等模態(tài)上未能實(shí)現(xiàn)同等協(xié)同。換句話說，目前的鉑金通才還是“片面的通才”，距離全能尚有距離。
“王者段位”依然空缺。最令人警醒的是，Level-5 王者級別完全沒有模型觸及。沒有任何參評模型能夠證明自己的語言智能被其他模態(tài)提升，或能將視覺、聽覺等學(xué)習(xí)反饋改進(jìn) NLP 能力。這印證了前文提到的單向協(xié)同問題：目前還沒有 AI 達(dá)到全模態(tài)互促的境界。王者寶座依舊虛位以待，這也意味著距離真正的多模態(tài) AGI 還有相當(dāng)?shù)镍櫆稀?/span>

General-Level 整體排行榜展示了不同模型所處的段位分布。如上圖所示，目前絕大多數(shù)模型停留在 Level-2 和 Level-3，僅有極少數(shù)攀上 Level-4 鉑金，而 Level-5 王者段位（黃色階梯）尚無模型問鼎。這張圖直觀地回答了“你的多模態(tài)模型是青銅還是王者？”這一問題。

通過這次前所未有的通才測試，現(xiàn)有 MLLM 的三大致命弱點(diǎn)也徹底暴露無遺：

偏科嚴(yán)重，通用性欠缺：模型對特定模態(tài)任務(wù)駕輕就熟，但一遇到跨模態(tài)的新題型就表現(xiàn)失常。這說明當(dāng)前模型通用性名不副實(shí)，“見多識廣”還遠(yuǎn)遠(yuǎn)談不上。是可能是實(shí)現(xiàn)“多模態(tài)通才”這一宏大目標(biāo)最基本的障礙。
生成乏力，缺少創(chuàng)造：大部分模型在理解任務(wù)上還能應(yīng)付，但讓它們產(chǎn)出內(nèi)容就頻頻失敗。AI 缺乏像人一樣靈活輸出新內(nèi)容的創(chuàng)造力，這將限制其解決實(shí)際問題的能力。
協(xié)同單向，缺乏通感：模型內(nèi)部各模塊沒有形成雙向增強(qiáng)。語言和視覺等智力沒有真正融合，造成知識遷移的瓶頸。這也是為何最高段位遲遲無人問津的原因。

這些發(fā)現(xiàn)無疑給業(yè)界敲響了警鐘：再強(qiáng)大的單點(diǎn)模型，在通才智能的新坐標(biāo)系下都可能暴露短板。GPT-4 這樣的巨頭依然在視頻、音頻、3D 等維度力不從心，更遑論實(shí)現(xiàn)模態(tài)互促的飛躍。這充分證明，我們需要新的評測標(biāo)準(zhǔn)來發(fā)現(xiàn)和正視這些瓶頸，然后對癥下藥地改進(jìn)模型。General-Level 和 General-Bench 正提供了這樣的放大鏡和標(biāo)尺，讓我們看清 AI 通往 AGI 道路上的真實(shí)差距。

社區(qū)反響：評測框架引熱議，開放平臺促協(xié)作

General-Level 和 General-Bench 的推出，近期在學(xué)術(shù)界和工業(yè)界都引起了積極反響。首先，這項(xiàng)工作獲得了頂會 ICML 的 Spotlight 認(rèn)可，證明同行專家們高度認(rèn)同其創(chuàng)新性和重要性。許多國外研究者在社交媒體上評論、轉(zhuǎn)發(fā)該工作，稱其為“AGI 時代評測范式的里程碑”。在開源社區(qū)，General-Bench 基準(zhǔn)受到了熱烈歡迎。論文作者將數(shù)據(jù)集發(fā)布在 Hugging Face 平臺，并開放了評測代碼和排行榜系統(tǒng)。Hugging Face 上聚集了一批關(guān)注者，不少開發(fā)者加入項(xiàng)目組織成為成員，共同維護(hù)數(shù)據(jù)。有社區(qū)貢獻(xiàn)者開始考慮提交新的任務(wù)數(shù)據(jù)，希望擴(kuò)充 General-Bench 的覆蓋范圍。這種開源協(xié)作氛圍正是作者期望的——讓評測框架成為全社區(qū)共同的基礎(chǔ)設(shè)施，持續(xù)完善并被廣泛采用。

與此同時，排行榜（Leaderboard）競賽的形式也激發(fā)了良性競爭。General-Level 官方網(wǎng)站上線了實(shí)時榜單和提交入口，任何人都可以上傳自己模型在 Close-Set 測試集上的預(yù)測結(jié)果，獲取官方評估分?jǐn)?shù)和段位定位。這一機(jī)制吸引了業(yè)界一些領(lǐng)先 AI 團(tuán)隊(duì)參與，不僅有學(xué)術(shù)實(shí)驗(yàn)室，也有企業(yè)研發(fā)部門。大家都希望嘗試讓自家模型沖擊更高段位，并將結(jié)果分享出來交流，比如“某某模型為何只能停留在白銀段位，差距在哪”；“我們發(fā)現(xiàn)模型在音頻理解上扣分嚴(yán)重，看來下個版本必須補(bǔ)上聽覺模塊的短板。”團(tuán)隊(duì)負(fù)責(zé)人稱，將會長期維護(hù)這個項(xiàng)目，確保社區(qū)所有的多模態(tài)大模型都能夠無門檻使用這個項(xiàng)目的資源。

歡迎公開打榜，Leaderboard：https://generalist.top/leaderboard

團(tuán)隊(duì)與研究背景：跨領(lǐng)域協(xié)作共筑評測基石

這樣的突破性工作背后，是一支大規(guī)模的團(tuán)隊(duì)。該項(xiàng)目由新加坡國立大學(xué)（NUS）與南洋理工大學(xué)（NTU）牽頭，匯集了計算機(jī)視覺、多模態(tài)理解、自然語言處理等方向的青年、資深專家學(xué)者。本工作由費(fèi)豪博士主導(dǎo)整體項(xiàng)目推進(jìn)，并分別由周源、李俊成、李祥泰、徐青山、李波波、吳勝瓊博士等青年學(xué)者分別領(lǐng)銜各個模態(tài)、模塊；并全稱由張含望教授、顏水成教授坐鎮(zhèn)通訊指導(dǎo)，由蔡達(dá)成教授、羅杰波教授作為項(xiàng)目顧問。據(jù)團(tuán)隊(duì)成員介紹，最初萌生這個想法，是在看到多模態(tài)模型不斷刷新各種 Benchmark 的同時，卻缺乏對整體智能水平的刻畫?！拔覀冇?xùn)練出了很多擅長某一方面的模型，但很難說清楚 AI 整體上進(jìn)步了多少”，張含望教授在相關(guān)研討會上如此闡述初衷，“我們不妨借鑒自動駕駛行業(yè)的智能汽車分級機(jī)制，重新思考對于多模態(tài)大模型的智能分級體系”。于是大家決定索性換一個視角，不再糾結(jié)于在單一基準(zhǔn)上卷 0.1% 的精度提升，而是設(shè)計一個能全面衡量多模態(tài) AI 的框架。通過多次大量的內(nèi)部討論，最終確定了一個核心觀點(diǎn)，“我們不能按照過去的簡單的單個任務(wù)表現(xiàn)來評定模型的智能水平，而是應(yīng)該按照協(xié)同泛化能力！”。一開始這個想法并不被所有人看好，因?yàn)橐馕吨度刖薮缶?gòu)建數(shù)據(jù)集、協(xié)調(diào)不同領(lǐng)域知識。但團(tuán)隊(duì)迎難而上，不斷打磨 General-Level 算法設(shè)計，花了超過一年多的時間收集、標(biāo)注清洗數(shù)據(jù)，與此同時耗費(fèi)大量人力（超過 50 多位實(shí)際貢獻(xiàn)者）和計算資源對超過 100 多個多模態(tài)大模型在 700 多個任務(wù) 30 多萬條數(shù)據(jù)上進(jìn)行大規(guī)模的評測，終于使整個項(xiàng)目成型?？梢哉f，這項(xiàng)成果既是技術(shù)創(chuàng)新的結(jié)晶，也是對 AI 評測理念的一次重要實(shí)踐。

可以說，General-Level/General-Bench 不僅是一套評測工具，更是在推廣一種全新的“評測文化”。AI 社區(qū)從原先熱衷跑單項(xiàng)指標(biāo)，開始轉(zhuǎn)向思考模型的全面素質(zhì)；從比拼參數(shù)規(guī)模，轉(zhuǎn)向比拼誰的 AI 更平衡、更通達(dá)。這種風(fēng)向的變化正驗(yàn)證了姚順雨的論斷：AI 下半場，比的不是算法炫技，而是誰能定義正確的問題并找到衡量進(jìn)步的方法。General-Level 的框架為大家提供了一個共同語言和目標(biāo)，接下來就要看各路英雄如何在這新標(biāo)尺下磨煉升級了。

展望：評測范式革新推動 AGI 落地

在 AI 通往 AGI 的征途上，評測標(biāo)準(zhǔn)的突破將起到指南針的作用。General-Level 和 General-Bench 的問世，正標(biāo)志著業(yè)界從“算法為王”轉(zhuǎn)向“評測為王”的思維轉(zhuǎn)變。在這個全新的評測范式下，我們期待看到以下變化：

研發(fā)重心轉(zhuǎn)移：研究人員將更加重視模型的全面能力而非單點(diǎn)絕活。模型設(shè)計將從過去的“拼裝式”朝“熔爐式”演進(jìn)，力求不同模態(tài)在架構(gòu)上深度融合以增強(qiáng)協(xié)同效應(yīng)。因?yàn)樾碌脑u測會倒逼大家解決偏科和單向協(xié)同的問題，下一代模型可能在多模態(tài)統(tǒng)一建模、跨模態(tài)信息流動方面迎來突破。
評測生態(tài)完善：隨著 General-Bench 等基準(zhǔn)流行，未來會有更多類似動態(tài)任務(wù)庫加入評測體系，比如引入代碼生成、機(jī)器人操作、觸覺反饋等新類型任務(wù)。評測將不再是固定的一套試題，而會不斷擴(kuò)充，貼近真實(shí)世界需求。這將鼓勵 AI 系統(tǒng)具備持續(xù)學(xué)習(xí)和適應(yīng)新任務(wù)的能力，而不只是針對靜態(tài)測試集優(yōu)化。
AGI 進(jìn)程加速：有了明確的通才智能目標(biāo)（王者段位）和衡量路徑，業(yè)界在朝 AGI 前進(jìn)時將少走彎路。當(dāng)模型在評測中逐級攀升，我們便能量化地看到 AI 離仿真人類智能還有多遠(yuǎn)。正如論文預(yù)測的那樣：當(dāng)某天 AI 能夠通過“王者段位”的考核，真正的 AGI 或許也就呼之欲出了。雖然這一天仍未到來，但現(xiàn)在有了一個公認(rèn)的指標(biāo)去追求，無疑會大大加速 AGI 落地的步伐。

在此，我們呼吁 AI 研究社區(qū)廣泛采用 General-Level 和 General-Bench 框架。一套統(tǒng)一的評估標(biāo)準(zhǔn)，將使得不同模型的優(yōu)劣高下有據(jù)可依，也方便大家協(xié)同改進(jìn)。更重要的是，它能引導(dǎo)我們聚焦于模型綜合素質(zhì)的提升，而不是陷入無盡的參數(shù)競賽或刷榜游戲。這與姚順雨所倡導(dǎo)的“像產(chǎn)品經(jīng)理一樣思考”不謀而合：先想清楚我們究竟希望 AI 為人類做什么、有哪些能力，然后再去改進(jìn)算法實(shí)現(xiàn)它。評估標(biāo)準(zhǔn)的革新，正是明確 AI 努力方向的前提。

總而言之，AI 的下半場已經(jīng)開啟，一個以評測驅(qū)動進(jìn)步的新時代撲面而來。General-Level 和 General-Bench 作為“通才智能”的里程碑，為這一時代寫下了精彩的序章。讓我們期待，在這套評測指引下，更多 AI 模型百尺竿頭、更進(jìn)一步，早日攀上“王者段位”。屆時，通往 AGI 的大門也將隨之洞開，人類與通用人工智能共創(chuàng)未來的愿景或?qū)⒊蔀楝F(xiàn)實(shí)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<menuitem id="dkpma"></menuitem><abbr id="dkpma"></abbr>