GPT-4V僅達(dá)Level-2?全球首個(gè)多模態(tài)通才段位排行榜發(fā)布,General-Level打造多模態(tài)通用AI評(píng)測(cè)新范式
多模態(tài)大模型(Multimodal Large Language Models, MLLM)正迅速崛起,從只能理解單一模態(tài),到如今可以同時(shí)理解和生成圖像、文本、音頻甚至視頻等多種模態(tài)。
在“如何全面客觀地評(píng)測(cè)多模態(tài)大模型”這一問(wèn)題的回答上,過(guò)去常用的多模態(tài)大模型評(píng)測(cè)方法是堆砌多個(gè)任務(wù)的成績(jī)。但簡(jiǎn)單以“更多任務(wù)上更高分”衡量模型強(qiáng)弱并不可靠,模型在某些任務(wù)上表現(xiàn)突出也并不一定意味著它在所有領(lǐng)域都更接近人類智能水平。
正因如此,在AI競(jìng)賽進(jìn)入“下半場(chǎng)”之際(由最近的OpenAI研究員姚順雨所引發(fā)的共識(shí)觀點(diǎn)),設(shè)計(jì)科學(xué)的評(píng)估機(jī)制儼然成為決定勝負(fù)的核心關(guān)鍵。
近期錄用于ICML’25 (Spotlight)的論文《On Path to Multimodal Generalist: General-Level and General-Bench》提出了一套全新的評(píng)測(cè)框架General-Level和配套的數(shù)據(jù)集General-Bench,為這一議題帶來(lái)了奠基性的解答和突破。
圖片
該評(píng)測(cè)框架已落地于社區(qū):上述論文的項(xiàng)目團(tuán)隊(duì)構(gòu)建了涵蓋700多個(gè)任務(wù)、覆蓋5大常見(jiàn)模態(tài)、29個(gè)領(lǐng)域、多達(dá)32萬(wàn)+測(cè)試數(shù)據(jù)的超大規(guī)模評(píng)測(cè)基準(zhǔn)和業(yè)界最完善的多模態(tài)通才模型排行榜Leaderboard,為公平、公正、全面地比較不同多模態(tài)通才大模型提供了基礎(chǔ)設(shè)施。
General-Level評(píng)估算法:五級(jí)段位體系與協(xié)同效應(yīng)
General-Level評(píng)測(cè)框架引入了一個(gè)五級(jí)段位體系,類似“段位晉級(jí)”的方式來(lái)衡量多模態(tài)模型的通才能力。
General-Level評(píng)估的核心在于協(xié)同泛化效應(yīng)(Synergy),指的是模型將從一種模態(tài)或任務(wù)中學(xué)到的知識(shí)遷移提升到另一種模態(tài)或任務(wù)中的能力,簡(jiǎn)單來(lái)說(shuō)就是1+1 > 2的效果。
模型的段位由低到高依次為:Level-1專業(yè)高手,Level-2通才新秀(無(wú)協(xié)同),Level-3任務(wù)協(xié)同,Level-4范式協(xié)同,Level-5全模態(tài)完全協(xié)同。段位越高表示模型展現(xiàn)出的“通用智能”越強(qiáng),達(dá)到的協(xié)同效應(yīng)層級(jí)越高。
General-Level正是通過(guò)考察不同層面的協(xié)同效應(yīng),來(lái)決定模型所屬的段位的:
圖片
- Level-1 專家型選手(Specialist)這一級(jí)別包括了當(dāng)前各單項(xiàng)任務(wù)的專精模型,通常是針對(duì)某個(gè)數(shù)據(jù)集或任務(wù)單獨(dú)微調(diào)到極致的SOTA模型。
- Level-2 入門通才(Generalist,無(wú)協(xié)同)達(dá)到Level-2意味著模型開始具備“一專多能”的能力,能支持多種模態(tài)和任務(wù),但尚未體現(xiàn)出協(xié)同增益效應(yīng)。
- Level-3 任務(wù)級(jí)協(xié)同(Task-level Synergy)晉升Level-3要求模型出現(xiàn)任務(wù)層面的協(xié)同提升。這意味著模型通過(guò)多任務(wù)聯(lián)合學(xué)習(xí),在某些任務(wù)上的成績(jī)超越了該任務(wù)的專精模型SOTA。
- Level-4 范式級(jí)協(xié)同(Paradigm-level Synergy)要邁入Level-4,模型必須展現(xiàn)跨范式的協(xié)同,也就是在“理解與生成”這兩大任務(wù)范式之間形成協(xié)同效應(yīng)。本段位代表模型已開始具備“生成-理解一體化”的推理能力,能夠跨越任務(wù)形式的差異進(jìn)行知識(shí)遷移。
- Level-5 全模態(tài)完全協(xié)同(Cross-modal Total Synergy)這是General-Level評(píng)估的最高段位,標(biāo)志著模型在跨模態(tài)、跨任務(wù)范疇達(dá)成了全面協(xié)同,也是理想的AGI狀態(tài)。
然而截至目前,尚無(wú)任何模型達(dá)到Level-5段位。
Level-5代表著通往AGI的終極目標(biāo),一旦有模型邁入此段位,也許就預(yù)示著通才AI朝“通用人工智能”跨出了關(guān)鍵一步。
圖片
總的來(lái)說(shuō),General-Level通過(guò)這五級(jí)段位體系,將評(píng)估視角從單純堆疊任務(wù)分?jǐn)?shù),提升到了考察模型內(nèi)部知識(shí)的遷移融合能力。
這種段位制在保障客觀量化的同時(shí),也為業(yè)界描繪出一條從專才到通才再到“全才”的進(jìn)階路線圖。
General-Bench評(píng)測(cè)基準(zhǔn):一張多模態(tài)通才的超級(jí)考卷
General-Bench被譽(yù)為當(dāng)前規(guī)模最大、范疇最廣、任務(wù)類型最全面的多模態(tài)通才AI評(píng)測(cè)基準(zhǔn)。
它不僅是一張考察多模態(tài)AI能力的“通才高考卷”,更是一個(gè)集廣度、深度、復(fù)雜性于一體的全景式評(píng)測(cè)系統(tǒng)。
在廣度上,General-Bench覆蓋了五大核心模態(tài)——圖像、視頻、音頻、3D以及語(yǔ)言,真正實(shí)現(xiàn)了從感知到理解,再到生成的全鏈路模態(tài)覆蓋。
在深度維度,General-Bench不僅涵蓋了大量傳統(tǒng)理解類任務(wù)(如分類、檢測(cè)、問(wèn)答等),更納入了豐富的生成類任務(wù)(如圖像生成、視頻生成、音頻生成、描述生成等)。
更值得注意的是,所有任務(wù)均支持Free-form自由作答,不局限于選擇題或判斷題,而是依據(jù)任務(wù)原生的開放指標(biāo)進(jìn)行客觀評(píng)估,填補(bǔ)了業(yè)界長(zhǎng)期以來(lái)的評(píng)測(cè)盲區(qū)。
圖片
從數(shù)據(jù)規(guī)模來(lái)看,General-Bench匯集了700余個(gè)任務(wù)、325,000+個(gè)樣本,并細(xì)分為145項(xiàng)具體技能,全面覆蓋視覺(jué)、聽覺(jué)、語(yǔ)言等模態(tài)下的核心能力點(diǎn)。
在這些技能背后,General-Bench跨越了29個(gè)跨學(xué)科知識(shí)領(lǐng)域,囊括自然科學(xué)、工程、醫(yī)療、社會(huì)科學(xué)、人文學(xué)科等,從圖像識(shí)別到跨模態(tài)推理、從語(yǔ)音識(shí)別到音樂(lè)生成、從3D模型到視頻理解與生成,應(yīng)有盡有。
此外,General-Bench還特別關(guān)注模型在內(nèi)容識(shí)別、常識(shí)推理、因果判斷、情感分析、創(chuàng)造與創(chuàng)新等高階能力上的表現(xiàn),為通才AI模型提供了一個(gè)多維度、立體化的評(píng)測(cè)空間。
可以說(shuō),General-Bench是一張?zhí)魬?zhàn)性前所未有的多模態(tài)綜合考卷,從模態(tài)維度到任務(wù)范式,再到知識(shí)領(lǐng)域,全方位檢驗(yàn)AI模型的廣度、深度與綜合推理能力。
目前,General-Bench的任務(wù)樣本總量已達(dá)到325,876,并將保持開放動(dòng)態(tài)增長(zhǎng)。這一開放性與可持續(xù)更新,確保了General-Bench具備長(zhǎng)期生命力,能夠持續(xù)支撐多模態(tài)通才AI的研發(fā)與演進(jìn)。
多Scope Leaderboard設(shè)計(jì):全模態(tài)通才到子技能通才
有了General-Level評(píng)估標(biāo)準(zhǔn)以及數(shù)據(jù)集,還需要一個(gè)公開透明的排行榜來(lái)呈現(xiàn)各模型的評(píng)測(cè)結(jié)果和排位。這正是項(xiàng)目的Leaderboard系統(tǒng)。
為了兼顧評(píng)測(cè)全面性與參與門檻之間的平衡,Leaderboard設(shè)計(jì)了多層次的榜單Scope分層解耦機(jī)制(Scope-A/B/C/D)。
不同Scope相當(dāng)于不同范圍和難度的子排行榜,允許能力各異的模型各展所長(zhǎng),從“全能冠軍賽”一路覆蓋到“單項(xiàng)能力賽”, 既保證了頂尖通才模型有舞臺(tái)角逐全能桂冠,也讓普通模型能選擇合適范圍參與比較,降低了社區(qū)參與的門檻。
圖片
Scope-A: 全譜英雄榜 :“全模態(tài)通才”爭(zhēng)霸。
這是難度最高、覆蓋面最廣的主榜單:參賽模型必須接受General-Bench全集的考驗(yàn),也就是涵蓋所有支持的模態(tài)、所有范疇任務(wù)的完整評(píng)估。
Scope-A旨在選拔真正全能型的多模態(tài)基礎(chǔ)模型,檢驗(yàn)它們?cè)谌鎻?fù)雜場(chǎng)景下的綜合實(shí)力。
Scope-B: 模態(tài)統(tǒng)一英雄榜 :“單一模態(tài)通才”競(jìng)技。
Scope-B包括若干子榜單,每個(gè)針對(duì)特定模態(tài)或限定的模態(tài)組合。
具體而言,Scope-B劃分出7個(gè)并行榜單:其中4個(gè)是單一模態(tài)榜(如純視覺(jué)、純語(yǔ)音、純視頻、純3D),另外3個(gè)是模態(tài)組合榜(例如圖像+文本、視頻+文本等跨模態(tài)組合)。
參賽模型只需在所選模態(tài)范圍內(nèi)完成多任務(wù)評(píng)測(cè),不涉及其它模態(tài)的數(shù)據(jù)。
Scope-C: 理解/生成英雄榜 :“范式能力”分組競(jìng)技。
Scope-C將評(píng)測(cè)進(jìn)一步細(xì)分為理解類任務(wù)和生成類任務(wù)兩大范式,在每種模態(tài)下分別設(shè)榜。具體來(lái)說(shuō),在圖像、視頻、音頻、文本這幾類模態(tài)中,各自分出“理解能力榜”和“生成能力榜”兩個(gè)榜單,共計(jì)8個(gè)榜單。
Scope-C評(píng)測(cè)強(qiáng)調(diào)同一模態(tài)內(nèi)跨任務(wù)范式的遷移能力:比如一個(gè)模型在視覺(jué)理解榜表現(xiàn)優(yōu)異,說(shuō)明它在視覺(jué)分類、檢測(cè)等多種理解任務(wù)間具備共享知識(shí)的能力;在視覺(jué)生成榜得分高則意味著它在各種生成任務(wù)(描述、畫圖)上都有通用能力。
由于限制了任務(wù)范式的范圍,Scope-C對(duì)資源要求較低(三星難度),非常適合輕量級(jí)模型或資源有限的團(tuán)隊(duì)參與。
Scope-D: 技能專長(zhǎng)榜:“細(xì)分技能”擂臺(tái)。
這是粒度最細(xì)、參與門檻最低的一類榜單。Scope-D將General-Bench中的任務(wù)按具體技能或任務(wù)類型進(jìn)一步聚類,每個(gè)小類單獨(dú)成榜。
例如:“視覺(jué)問(wèn)答(VQA)榜”“圖像字幕生成榜”“語(yǔ)音識(shí)別榜”“3D物體檢測(cè)榜”等等,每個(gè)榜單涵蓋一組密切相關(guān)的任務(wù)。
參賽模型可以只針對(duì)某一類技能提交結(jié)果,從而在自己最擅長(zhǎng)的狹窄領(lǐng)域與其它模型比較。
這種技能榜機(jī)制鼓勵(lì)模型循序漸進(jìn)地發(fā)展:先在單點(diǎn)技能上做到極致,再逐步挑戰(zhàn)更廣泛的多任務(wù)、多模態(tài)評(píng)測(cè)。
Leaderboard鏈接可見(jiàn)文末。
Leaderboard參賽指南:提交流程與公平評(píng)測(cè)機(jī)制
為了促進(jìn)社區(qū)參與,General-Level項(xiàng)目提供了清晰的Leaderboard參賽流程和嚴(yán)格的公平性保障機(jī)制。
無(wú)論是學(xué)術(shù)研究團(tuán)隊(duì)還是工業(yè)實(shí)驗(yàn)室,都可以按照以下步驟將自己研發(fā)的多模態(tài)模型提交到Leaderboard打榜:
1.選擇榜單與下載評(píng)測(cè)數(shù)據(jù)
首先根據(jù)模型能力,選擇適當(dāng)?shù)腖eaderboard范圍(Scope)和具體榜單ID。
選定榜單后,從官方提供的鏈接下載該榜單對(duì)應(yīng)的封閉測(cè)試集(Close-set data)。
這是一份只包含輸入的測(cè)試數(shù)據(jù),不公開標(biāo)準(zhǔn)答案,用于正式評(píng)測(cè)。
官方同時(shí)提供了開放開發(fā)集(Open-set data)用于調(diào)試開發(fā),在打榜前可用于本地測(cè)試模型輸出格式等。
2.本地運(yùn)行模型推理
拿到封閉測(cè)試集后,在本地用模型對(duì)其進(jìn)行推理Inference,生成對(duì)應(yīng)的輸出結(jié)果。
需要注意的是,每個(gè)榜單可能包含多種任務(wù)類型,提交的結(jié)果文件應(yīng)嚴(yán)格遵循官方規(guī)定的格式和目錄結(jié)構(gòu)。提交前請(qǐng)務(wù)必參考官方的詳細(xì)提交文檔確認(rèn)格式要求。
一旦輸出結(jié)果整理完成,將其命名為“[模型名稱]-[榜單ID].zip”以備上傳。
3.提交結(jié)果并填寫信息
在Leaderboard網(wǎng)站的提交入口,上傳上述結(jié)果ZIP文件。同時(shí)需要填寫一些必要的模型信息(如模型名稱、參數(shù)規(guī)模、簡(jiǎn)介等)以及聯(lián)系郵箱等,以便主辦方后臺(tái)正確處理結(jié)果。
如果想讓自己的模型得到更多曝光,團(tuán)隊(duì)也可以選擇在結(jié)果提交后公開模型的詳細(xì)說(shuō)明或技術(shù)報(bào)告,方便社區(qū)了解模型亮點(diǎn)。
4.等待評(píng)測(cè)與查看榜單
提交結(jié)果后,系統(tǒng)會(huì)在后臺(tái)對(duì)模型輸出進(jìn)行評(píng)分,包括計(jì)算各任務(wù)指標(biāo)并匯總成General-Level段位分?jǐn)?shù)。
由于封閉測(cè)試集的答案和評(píng)分腳本在后臺(tái)保密運(yùn)行,提交者無(wú)法直接得知未公布數(shù)據(jù)的答案,從而保證了評(píng)測(cè)的公正性。
評(píng)測(cè)完成后,Leaderboard頁(yè)面將實(shí)時(shí)更新:新模型會(huì)出現(xiàn)在對(duì)應(yīng)榜單上,展示模型名稱、所屬模態(tài)范疇、各模態(tài)下的得分以及總分、段位等級(jí)和提交日期等信息。這樣,提交者和公眾都能立即在排行榜上看到模型的名次和段位。
排行榜支持按段位或分?jǐn)?shù)排序,清晰標(biāo)識(shí)哪些模型達(dá)到了Level-3、Level-4等協(xié)同級(jí)別。
為了確保Leaderboard評(píng)測(cè)的公平性和權(quán)威性,項(xiàng)目方還制定了一系列規(guī)則和限制:
封閉測(cè)試:所有排行榜使用的數(shù)據(jù)集均為封閉集,模型不得使用這些測(cè)試數(shù)據(jù)進(jìn)行訓(xùn)練或調(diào)優(yōu),這一點(diǎn)通過(guò)協(xié)議約束和數(shù)據(jù)監(jiān)控等方式嚴(yán)格執(zhí)行。
同時(shí),由于是封閉評(píng)測(cè),模型開發(fā)者在提交結(jié)果前也無(wú)法得知正確答案,從根本上保證了成績(jī)的可信度。
限頻提交:每個(gè)用戶24小時(shí)內(nèi)最多提交2次,7天內(nèi)最多提交4次結(jié)果,并且在前一次提交的評(píng)測(cè)尚未完成時(shí),不允許發(fā)起新的提交。
這些措施有效杜絕了利用提交機(jī)會(huì)反推標(biāo)準(zhǔn)答案或?qū)Ψ忾]集過(guò)擬合的可能,避免了有人反復(fù)試錯(cuò)投機(jī),維護(hù)了排行榜的嚴(yán)肅性。
統(tǒng)一評(píng)測(cè)環(huán)境:所有模型提交均在主辦方統(tǒng)一的評(píng)測(cè)環(huán)境中執(zhí)行評(píng)分,確保不同模型的比較在相同標(biāo)準(zhǔn)下進(jìn)行。
無(wú)論模型使用何種框架或推理加速,最終成績(jī)都以相同的指標(biāo)體系衡量,并根據(jù)General-Level算法轉(zhuǎn)換成段位分?jǐn)?shù),從而可直接橫向?qū)Ρ取?/span>
通過(guò)以上流程與機(jī)制,General-Level Leaderboard為研究者提供了一個(gè)開放且公平的競(jìng)技場(chǎng)。
在這里,新的模型算法可以得到客觀檢驗(yàn),與業(yè)界現(xiàn)有的方法同臺(tái)比拼;同時(shí)封閉評(píng)測(cè)也保障了結(jié)果的可信度,使排行榜成為公認(rèn)權(quán)威的數(shù)據(jù)點(diǎn)。
圖片
排行榜現(xiàn)狀:代表模型段位分布與社區(qū)反饋
截至目前,排行榜收錄了100多個(gè)多模態(tài)模型的成績(jī),并根據(jù)General-Level標(biāo)準(zhǔn)揭示了它們?cè)谕ú拍芰ι系淖胃叩汀?/span>
在首批發(fā)布的閉集評(píng)測(cè)榜單中,各模型整體表現(xiàn)差異懸殊,甚至顛覆大家對(duì)常見(jiàn)的多模態(tài)大模型的能力排位的認(rèn)知。
縱觀排行榜,不同段位檔次已經(jīng)初現(xiàn)梯隊(duì)分布。
Level-2(無(wú)協(xié)同)
圖片
排行榜中占比最多的就是Level-2段位模型,其中包括GPT4-V等重量級(jí)閉源模型,其他大量的常用的開源模型也位列其中。
這些模型勝在支持任務(wù)范圍廣,幾乎囊括所有測(cè)評(píng)任務(wù),但極少在任何任務(wù)上超越單項(xiàng)SOTA。因此它們被General-Level評(píng)為L(zhǎng)evel-2通才,只能算是“全科及格”的水平。
值得注意的是,GPT4-V等雖是商業(yè)頂尖模型,但由于沒(méi)有針對(duì)評(píng)測(cè)任務(wù)進(jìn)行專項(xiàng)優(yōu)化,未能體現(xiàn)協(xié)同增益,評(píng)分并不出挑。
相反,一些開源模型通過(guò)多任務(wù)訓(xùn)練,全面開花,也躋身Level-2行列,如SEED-LLaMA、Unified-IO等。這一層級(jí)模型主要的能力分布在圖片模態(tài)上,且單模態(tài)的平均得分帶大致在10-20分左右,表現(xiàn)尚有巨大提升空間。
當(dāng)前Level-2的冠亞季軍分別為:Unified-io-2-XXL,AnyGPT以及NExT-GPT-V1.5。
Level-3(任務(wù)協(xié)同)
圖片
這一級(jí)別所匯聚的多模態(tài)大模型相比于Level-2少了很多,它們?cè)谌舾扇蝿?wù)上擊敗了專業(yè)模型,展現(xiàn)出協(xié)同學(xué)習(xí)帶來(lái)的性能飛躍。
許多2024年后的新模型紛紛晉升此列,包括開源的Sa2VA-26B、LLaVA-One-Vision-72B、Qwen2-VL-72B系列。這些模型通常具有數(shù)百億參數(shù)且經(jīng)過(guò)海量多模態(tài)、多任務(wù)訓(xùn)練,因而在部分Benchmark上超越了傳統(tǒng)單任務(wù)SOTA的成績(jī)。
這證明了協(xié)同效應(yīng)的價(jià)值:統(tǒng)一的多任務(wù)訓(xùn)練可以讓模型學(xué)到更通用的表征,在相關(guān)任務(wù)上互相促進(jìn)性能。
反而,一些閉源大模型如OpenAI的GPT4-o、GPT4-V和Anthropic的Claude-3.5等在Level-3上表現(xiàn)不夠靠前。
Level-3模型的整體平均分范圍相比Level-2繼續(xù)降低,這表示本Level更加困難的得分情況。
Level-4(范式協(xié)同)
圖片
達(dá)到此段位的模型目前仍屬鳳毛麟角。
據(jù)Leaderboard顯示(截止評(píng)測(cè)日期24年12月),僅有極個(gè)別模型被評(píng)為L(zhǎng)evel-4,如體量巨大的Mini-Gemini、Vitron-V1、Emu2-37B等原型開源模型。
這些模型在跨范式推理上有所突破,兼具卓越的理解與生成能力,并能將兩者融會(huì)貫通。
例如Mini-Gemini模型在圖像理解和生成兩方面均取得領(lǐng)先,其在Leaderboard的范式協(xié)同評(píng)分上名列前茅。
Level-4段位的出現(xiàn),意味著離真正的跨模態(tài)推理AI又近了一步。不過(guò)當(dāng)前Level-4模型的平均分非常低。這揭示了構(gòu)建范式全面協(xié)同AI的巨大挑戰(zhàn):要兼顧多模態(tài)的理解與生成并取得雙重突破,非常不易。
Level-5(全模態(tài)總協(xié)同)
這一段位至今依然是空缺狀態(tài),沒(méi)有任何模型能夠達(dá)成。
這并不意外,因?yàn)橐谒心B(tài)和任務(wù)上都超越專家并同時(shí)提升語(yǔ)言智能,目前來(lái)看超過(guò)了現(xiàn)有技術(shù)的能力范圍。
General-Level團(tuán)隊(duì)推測(cè),也許下一個(gè)里程碑將來(lái)自“多模態(tài)版”的GPT-5,它們有可能首次展現(xiàn)全模態(tài)協(xié)同的苗頭,從而改寫Level-5無(wú)人問(wèn)津的局面。
不過(guò)在那一天到來(lái)之前,Leaderboard上Level-5位置還將繼續(xù)空懸,也提醒著我們距離真正的AGI依然有不小的距離。
當(dāng)前Leaderboard的推出在AI研究社區(qū)引發(fā)了熱烈反響。許多研究者認(rèn)為,這樣一個(gè)統(tǒng)一的、多維度的評(píng)測(cè)平臺(tái)正是多模態(tài)領(lǐng)域所急需的:它不僅規(guī)??涨?/span>(覆蓋700+任務(wù))、體系完整(有等級(jí)有分項(xiàng)),而且公開透明,為業(yè)界提供了共同進(jìn)步的參照。
在社交媒體和論壇上,大家對(duì)排行榜上的結(jié)果展開討論:有人驚訝于開源模型Qwen2.5-VL-72B竟能擊敗許多閉源巨頭,證明開源社區(qū)的潛力;也有人分析GPT-4V在復(fù)雜視聽任務(wù)上的短板,探討如何彌補(bǔ)。
Leaderboard的數(shù)據(jù)還被用來(lái)指導(dǎo)研究方向:哪些任務(wù)是多數(shù)模型的薄弱項(xiàng),哪些模態(tài)結(jié)合尚未被很好解決,一目了然。
可以預(yù)見(jiàn),隨著更多模型加入打榜,排行榜將持續(xù)更新,這不僅是一場(chǎng)競(jìng)賽,更是在不斷積累寶貴的科研洞見(jiàn)。
General-Level評(píng)測(cè)框架與其Leaderboard排行榜的推出,標(biāo)志著多模態(tài)通才AI研究進(jìn)入了一個(gè)新階段。正如作者在論文中所期望的那樣,該項(xiàng)目構(gòu)建的評(píng)估體系將成為堅(jiān)實(shí)的基礎(chǔ)設(shè)施,幫助業(yè)界更科學(xué)地度量通用人工智能的進(jìn)展。
通過(guò)統(tǒng)一標(biāo)準(zhǔn)的段位評(píng)測(cè),研究者可以客觀比較不同模型的優(yōu)劣,找出進(jìn)一步提升的方向;通過(guò)大規(guī)模多任務(wù)的Benchmark,可以全面考察模型在不同領(lǐng)域的能力短板,加速發(fā)現(xiàn)問(wèn)題并迭代改進(jìn)。這一切對(duì)于推動(dòng)下一個(gè)世代的多模態(tài)基礎(chǔ)模型、乃至朝真正的AGI邁進(jìn),都具有重要意義。
更可貴的是,General-Level項(xiàng)目秉持開放共享的態(tài)度,歡迎社區(qū)廣泛參與共建。無(wú)論您是有新模型方案,還是手頭有獨(dú)特的數(shù)據(jù)集,都可以參與進(jìn)來(lái):提交模型結(jié)果上榜,與全球頂尖模型一決高下;或貢獻(xiàn)新的評(píng)測(cè)數(shù)據(jù),豐富General-Bench的任務(wù)多樣性。
每一份數(shù)據(jù)集的加入,都會(huì)在官網(wǎng)主頁(yè)獲得鳴謝并在技術(shù)報(bào)告中被引用。
項(xiàng)目主頁(yè):https://generalist.top/
Leaderboard:https://generalist.top/leaderboard
論文地址:https://arxiv.org/abs/2505.04620
Benchmark:https://huggingface.co/General-Level