集成500+多模態(tài)現(xiàn)實(shí)任務(wù)!全新MEGA-Bench評測套件:CoT對開源模型反而有害?
隨著人工智能技術(shù)的進(jìn)步,多模態(tài)大模型正逐漸應(yīng)用于多個領(lǐng)域,極大地提升了機(jī)器在視覺、文本等多種信息模式下的理解和生成能力。這些模型不僅用于對話、圖片標(biāo)注、視頻分析等較常見的任務(wù),還被廣泛應(yīng)用在復(fù)雜場景中,如程序編寫、醫(yī)療影像診斷、自動駕駛、虛擬助手中的多模態(tài)交互,甚至用于游戲策略分析與操作應(yīng)用程序。
然而,全面、系統(tǒng)地評測多模態(tài)大模型的能力需要投入大量的資源。
最近,加拿大滑鐵盧大學(xué)TIGER Lab的MEGA-Bench團(tuán)隊(duì)的研究人員提出了一個全新的評測套件,集成了500多種任務(wù),涵蓋廣泛的多模態(tài)任務(wù)場景,支持多種輸入和輸出格式,以一個相對較低的測試成本為模型產(chǎn)生詳盡的多維度分析報(bào)告,旨在為多模態(tài)模型的全面能力評估提供一個更加高效且不失全面性的工具。
項(xiàng)目主頁:https://tiger-ai-lab.github.io/MEGA-Bench/
論文鏈接:https://arxiv.org/abs/2410.10563
數(shù)據(jù)鏈接:https://huggingface.co/datasets/TIGER-Lab/MEGA-Bench·
排行榜:https://huggingface.co/spaces/TIGER-Lab/MEGA-Bench
代碼鏈接:https://github.com/TIGER-AI-Lab/MEGA-Bench
更具體的,MEGA-Bench的505個任務(wù)來自8個廣義的任務(wù)大類(如信息提取、數(shù)學(xué)、規(guī)劃、感知、代碼等,詳見圖1),如圖2所示,這些任務(wù)涵蓋7種常見的視覺輸入類型(包括了單圖,多圖,以及視頻),6種不同的輸出格式,以及10種多模態(tài)核心能力;還根據(jù)任務(wù)的具體需求,定制了40余種測試metrics
研究人員在MEGA-Bench上評估了前沿的多模態(tài)大模型并得到了一些有趣的發(fā)現(xiàn):
1. 頭部商用模型中,GPT-4o與新版Claude 3.5 Sonnet獲得了幾乎一樣的總分,且多維度分析顯示,新版Claude 3.5 Sonnet與舊版相比,在規(guī)劃任務(wù)以及處理圖形界面、信息圖表類視覺輸入上性能提升明顯,與Anthropics推廣的「computer use」的應(yīng)用場景相符。
2. 在開源模型中,Qwen2-VL在各維度上的性能都有明顯的領(lǐng)先優(yōu)勢,其總分相比其他開源模型有超過10分的優(yōu)勢。
3. 「思維鏈提示」(Chain-of-Thought prompting)普遍對商用模型的效果有明顯提升,卻對大部分開源模型帶來負(fù)面的效果。
三大局限
現(xiàn)有的評測體系在三個方面仍存在明顯局限:
1. 輸出格式的真實(shí)性與多樣性
由于早期多模態(tài)大模型的指令跟隨能力有限,模型在回答問題時未必能按照規(guī)定格式輸出,這使得自動評估回答的準(zhǔn)確性變得困難。為簡化評測過程,許多現(xiàn)有的多模態(tài)基準(zhǔn)測試(如MMBench、MMMU)采用了選擇題形式,方便系統(tǒng)直接判斷回答是否正確。
然而在實(shí)際應(yīng)用中,人們與模型的交互方式很少是選擇題形式,且隨著模型理解和生成能力的快速提升,這種設(shè)計(jì)顯得不夠真實(shí)。因此,評測體系需要支持更豐富且貼近實(shí)際的輸出格式,以更好地反映模型在真實(shí)場景中的表現(xiàn)。
2. 多模態(tài)任務(wù)的覆蓋廣度
大部分多模態(tài)數(shù)據(jù)集往往集中在單一類型的任務(wù)上,缺乏對多模態(tài)任務(wù)的廣泛覆蓋。
例如,MMMU的任務(wù)來自大學(xué)以上難度的各種不同學(xué)科的考題,MMBench、MMT-Bench主要集中于傳統(tǒng)視覺任務(wù)及其變種,MathVista、MathVision著重考察數(shù)學(xué)相關(guān)任務(wù),等等。
這種局限性導(dǎo)致了評測時需要使用多個數(shù)據(jù)集才能涵蓋不同多模態(tài)任務(wù),而無法通過一個統(tǒng)一評測集來全面且便捷地衡量模型的各方面能力。
3. 較高的測試成本
使用多個數(shù)據(jù)集進(jìn)行測試不僅費(fèi)時,還帶來了較高的成本。例如,不同數(shù)據(jù)集中重復(fù)性較高的樣本導(dǎo)致資源浪費(fèi)。
類比考試測試,高考不需要對每個學(xué)科出1000道題的試卷來評估學(xué)生在這個學(xué)科的能力,只需選擇具有代表性的題目組成一份考卷,即可在有限時間內(nèi)準(zhǔn)確區(qū)分不同學(xué)生的水平。多模態(tài)模型的評測也應(yīng)朝著高效與全面的方向發(fā)展,以減少冗余并優(yōu)化資源利用。
Benchmark具體介紹
Benchmark構(gòu)建過程
MEGA-Bench的構(gòu)建過程始于任務(wù)分類樹的設(shè)計(jì)。首先定義了一個初步的分類樹,將任務(wù)按照大類劃分為“感知”、“規(guī)劃”和“推理”等頂層類別,每個大類下再細(xì)分為更具體的子類,如“文檔理解”、“應(yīng)用理解”和“邏輯推理”等。這種自上而下的分類框架確保了任務(wù)覆蓋的廣度,并減少了重復(fù)任務(wù)的可能性。
接下來,MEGA-Bench團(tuán)隊(duì)分配了不同的分類節(jié)點(diǎn)給標(biāo)注專家進(jìn)行具體任務(wù)的設(shè)計(jì)和創(chuàng)建。團(tuán)隊(duì)的16位標(biāo)注專家來自計(jì)算機(jī)科學(xué)、電子工程、生物統(tǒng)計(jì)等多個領(lǐng)域,負(fù)責(zé)在其分配的領(lǐng)域內(nèi)精細(xì)化任務(wù)分類樹并添加具體任務(wù)。
每個標(biāo)注專家可以對分類樹進(jìn)行微調(diào),例如新增或刪除任務(wù)節(jié)點(diǎn),以保證任務(wù)的獨(dú)特性和多樣性。
為簡化標(biāo)注過程,研究人員開發(fā)了一系列輔助工具,包括:
1. 交互式標(biāo)注工具:該工具幫助標(biāo)注人員定義任務(wù)格式,并自動生成標(biāo)準(zhǔn)化的JSON文件,從而確保所有任務(wù)的格式一致性。
2. 任務(wù)提交與審核平臺:通過GitHub平臺管理任務(wù)的提交、審核和討論流程,類似于NLP的BIG-bench的收集流程。標(biāo)注人員可以通過提交拉取請求(Pull Request)的方式更新任務(wù),核心貢獻(xiàn)者則負(fù)責(zé)審核并提供反饋。
3. 可視化工具:標(biāo)注專家可以實(shí)時查看模型在各個任務(wù)上的表現(xiàn),這不僅幫助他們理解任務(wù)的難度,還可以根據(jù)模型反饋改進(jìn)任務(wù)質(zhì)量。
整個標(biāo)注過程分為兩個階段:
在第一階段中,每位標(biāo)注專家被要求設(shè)計(jì)20個任務(wù),確保數(shù)據(jù)源的多樣性并提供至少15個實(shí)例。團(tuán)隊(duì)對提交的任務(wù)進(jìn)行了初步審核,模型的表現(xiàn)結(jié)果也通過可視化平臺提供給標(biāo)注人員,幫助他們調(diào)整任務(wù)的難度。
在第二階段中,團(tuán)隊(duì)集體回顧了第一階段創(chuàng)建的任務(wù),找出任務(wù)分布的偏差以指導(dǎo)后續(xù)的標(biāo)注、平衡任務(wù)覆蓋,最終構(gòu)建出505個高質(zhì)量任務(wù)和約8,200個實(shí)例。
為了確保任務(wù)的標(biāo)注質(zhì)量,需要隨著新任務(wù)的增加,周期性的對最先進(jìn)的多模態(tài)模型(如GPT-4o和Claude 3.5 Sonnet)進(jìn)行評測,以便標(biāo)注人員可以直觀了解每個任務(wù)的難度并適當(dāng)調(diào)整。
例如,對于評分接近滿分的任務(wù),要求標(biāo)注人員增加任務(wù)的難度,以避免評測時無法區(qū)分模型能力的情況;對于平均評分幾乎為零分的任務(wù),作者手動檢查是否存在標(biāo)注錯誤或者不清晰的任務(wù)指令,并將這類標(biāo)注樣本刪除。
經(jīng)過多輪優(yōu)化,MEGA-Bench最終成為一個涵蓋全面且高效的多模態(tài)評測套件,為研究人員提供了精確且豐富的模型能力分析。
多樣化的輸出格式評估指標(biāo)
為了適應(yīng)不同的輸出格式,MEGA-Bench開發(fā)了豐富的評估指標(biāo)。主要包括:
1. 基于規(guī)則的評分:適用于單一答案或能夠通過規(guī)則驗(yàn)證正確性的任務(wù),包括選擇題,各種帶條件的文本匹配,代碼執(zhí)行結(jié)果比較,等等。
2. LLM輔助評分:對于開放式任務(wù),使用大型語言模型(LLM)輔助對模型生成的回答進(jìn)行評分,以評估生成的準(zhǔn)確性和流暢性。這種LLM-as-a-judge的評測方式在較新的大模型評測中已相當(dāng)常見。
這種評估體系使MEGA-Bench能夠靈活應(yīng)對多種輸出類型,并提高了評測的準(zhǔn)確性和靈活性。所有任務(wù)被分成兩個子集,核心集(Core set)用基于規(guī)則的評分進(jìn)行評測,開放集(Open-ended set)用LLM輔助評分。
下圖給出了一些任務(wù)輸出的例子以及對應(yīng)的評測指標(biāo)。在標(biāo)注過程中,評測指標(biāo)根據(jù)新增任務(wù)的需求而「按需實(shí)現(xiàn)」。
其他測評集的對比
MEGA-Bench包含505個真實(shí)任務(wù),總計(jì)8,186個標(biāo)注樣本。如上表所示,與現(xiàn)有多模態(tài)基準(zhǔn)相比,其在數(shù)據(jù)源、輸入輸出格式、評估指標(biāo)的多樣性和任務(wù)數(shù)量上都具備顯著優(yōu)勢。
這種設(shè)計(jì)使得可以通過較小的成本得到詳盡的多維度模型分析報(bào)告,不僅提升了評測范圍的廣度,也讓模型評測更加經(jīng)濟(jì)高效,為多模態(tài)模型的全面分析提供了可靠便捷的工具。
評測結(jié)果與分析
主要結(jié)果與多維度關(guān)鍵詞分析
在MEGA-Bench上,研究人員對22種多模態(tài)大模型進(jìn)行了廣泛的評估,包括大型旗艦?zāi)P停‵lagship models)和高效版模型(Efficienty models),深入分析了它們在不同任務(wù)和維度上的表現(xiàn)。以下是主要的評測結(jié)果和發(fā)現(xiàn):
旗艦?zāi)P偷谋憩F(xiàn)
在旗艦級別的大模型中,新版的Claude 3.5 Sonnet和GPT-4o表現(xiàn)最為優(yōu)異,兩者在多個任務(wù)中展現(xiàn)了極強(qiáng)的能力。
具體來說:
1. Claude 3.5 Sonnet在規(guī)劃、數(shù)學(xué)推理等任務(wù)中表現(xiàn)出色,尤其在規(guī)劃相關(guān)任務(wù)(如路徑規(guī)劃、邏輯推理)上略有優(yōu)勢。
2. GPT-4o在信息提取和知識密集型任務(wù)中表現(xiàn)更好,展現(xiàn)了優(yōu)異的自然語言理解和信息提取能力??偟膩碚f,新版Claude 3.5 Sonnet和GPT-4o在整體評分上接近,差異小于0.1%
開源模型的競爭力
在開源模型中,Qwen2-VL的表現(xiàn)尤為突出。與部分閉源旗艦?zāi)P拖啾?,Qwen2-VL在感知任務(wù)和信息提取方面的表現(xiàn)相當(dāng),甚至在信息提取類任務(wù)中超越了Gemini 1.5 Pro等部分閉源模型。
此外,Qwen2-VL在整體評分上領(lǐng)先其他開源模型約10%,成為當(dāng)前開源多模態(tài)模型中的領(lǐng)先者。
高效版模型的表現(xiàn)
在參數(shù)較小的高效版模型中,Gemini 1.5 Flash總體表現(xiàn)最佳,尤其在科學(xué)和度量任務(wù)上取得了出色的分?jǐn)?shù)。度量類任務(wù)包括對生成式AI結(jié)果質(zhì)量的評分等,通常需要深層的多模態(tài)推理和常識判斷。
然而,Gemini 1.5 Flash在用戶界面相關(guān)的輸入和信息提取任務(wù)上的表現(xiàn)落后于GPT-4o mini。
盡管高效模型的性能不及旗艦級模型,但其較低的計(jì)算資源需求和高性價(jià)比使其在特定應(yīng)用場景中具有重要應(yīng)用價(jià)值。
思維鏈提示(CoT)的效果
評測顯示,思維鏈提示(Chain-of-Thought, CoT)對旗艦級閉源模型的推理能力有較顯著的提升。
具體而言,加入思維鏈提示后,Claude 3.5 Sonnet和GPT-4o等模型能夠生成更為詳盡的推理過程,從而提高了任務(wù)的完成質(zhì)量。
然而,大部分開源模型在加入CoT提示后未能表現(xiàn)出明顯的改進(jìn),甚至在部分任務(wù)中因生成推理過程而影響了輸出格式的準(zhǔn)確性。
總體上,CoT提示對閉源旗艦?zāi)P托Ч@著,但對開源模型的幫助有限。
更多分析
任務(wù)樣本數(shù)量的影響
為了平衡評測的覆蓋廣度、標(biāo)注成本,以及評測時的計(jì)算成本,MEGA-Bench在每個任務(wù)中平均包含約15個樣本,這一設(shè)置旨在優(yōu)化評估效率,但是存在導(dǎo)致評測結(jié)果方差較大的可能性,作者對此進(jìn)行更詳細(xì)的分析(上圖左)。
通過對任務(wù)樣本數(shù)量的實(shí)驗(yàn),可以發(fā)現(xiàn)隨著每個任務(wù)樣本數(shù)量的增加,模型評分的方差逐漸縮小。起初的下降速遞非常快,當(dāng)樣本數(shù)量達(dá)到7個以上時,方差的下降幅度明顯減緩。
從11增加到15個樣本的過程中,方差減小已不明顯。這表明在現(xiàn)有樣本數(shù)量下,模型評分已具備較好的穩(wěn)定性。
因此,MEGA-Bench通過增加任務(wù)的廣度而非單一任務(wù)的樣本數(shù),在覆蓋范圍和評估成本之間找到了平衡,而且沒有因此影響到評測分?jǐn)?shù)的穩(wěn)定性。
錯誤分析
為了深入理解當(dāng)前多模態(tài)模型的不足之處,作者手動對GPT-4o在255個任務(wù)的結(jié)果進(jìn)行了詳細(xì)的錯誤分析。
上圖(右)的分析結(jié)果顯示,推理能力的缺失是模型在MEGA-Bench任務(wù)上失敗的主要原因。具體來說,模型在符號推理、空間和時間推理等復(fù)雜任務(wù)上表現(xiàn)較弱。
此外,模型還在感知任務(wù)中出現(xiàn)了較高比例的錯誤,這些任務(wù)通常涉及對視覺信息的精確理解和解析。并且,還可以觀察到模型在某些任務(wù)中未能遵循指令或缺乏知識背景,這些因素導(dǎo)致了錯誤的回答。
GPT-4o的錯誤分布揭示了當(dāng)前的頂級多模態(tài)模型在復(fù)雜推理和跨模態(tài)理解方面的不足,為未來模型的改進(jìn)提供了方向。
總結(jié)
MEGA-Bench是一個覆蓋廣泛、結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)亩嗄B(tài)評測套件,為全面評估多模態(tài)大模型的能力設(shè)立了新的標(biāo)準(zhǔn)。
通過多樣化的任務(wù)設(shè)計(jì)和多維度的評估指標(biāo),MEGA-Bench揭示了各類模型在實(shí)際應(yīng)用中的優(yōu)勢和不足。作者提供了交互式的可視化工具,便于研究者深入探索模型的表現(xiàn)。
此外,項(xiàng)目主頁提供了交互式可視化工具幫助分析,Hugging Face Space中的排行榜提供了最新的各模型詳細(xì)評分。