DeepSeek-R1、o1都在及格線掙扎!字節(jié)開源全新知識推理測評集,覆蓋285個學(xué)科
大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜變天???
要知道,過去幾年,各種通用評測逐漸同質(zhì)化,越來越難以評估模型真實(shí)能力。GPQA、MMLU-pro、MMLU等流行基準(zhǔn),各家模型出街時人手一份,但局限性也開始暴露,比如覆蓋范圍狹窄(通常不足 50 個學(xué)科),不含長尾知識;缺乏足夠挑戰(zhàn)性和區(qū)分度,比如 GPT-4o 在 MMLU-Pro 上準(zhǔn)確率飆到 92.3%。
不過別慌,大模型通用知識推理評測“強(qiáng)化版”來了,堪稱大模型評測里的“黃岡密卷”!
近日,字節(jié)跳動豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開源社區(qū),推出了全新評測基準(zhǔn) SuperGPQA。
我們翻看論文,細(xì)品一番,足足 256 頁。據(jù)了解,該評測搭建工作耗時半年,近百位學(xué)界學(xué)者及名校碩博、業(yè)界工程師參與標(biāo)注。
研究團(tuán)隊(duì)構(gòu)建了迄今為止最全面,覆蓋 285 個研究生級學(xué)科、包含 26529 道專業(yè)題目的評估體系。
實(shí)驗(yàn)證明,即便最強(qiáng)的 DeepSeek-R1 在 SuperGPQA 上準(zhǔn)確率也才 61.82%,在及格線上掙扎,顯著低于其在傳統(tǒng)評估指標(biāo)上的表現(xiàn)。
SuperGPQA 精準(zhǔn)直擊大模型評測的三大痛點(diǎn):
- 學(xué)科覆蓋不全:傳統(tǒng)基準(zhǔn)僅覆蓋 5% 長尾學(xué)科,圖書館學(xué)、植物學(xué)、歷史地理學(xué)等眾多學(xué)科長期缺席
- 題目質(zhì)量存疑:公開題庫存在數(shù)據(jù)污染風(fēng)險,簡單改編無法反映真實(shí)學(xué)術(shù)水平
- 評測維度單一:多數(shù)測試停留在知識記憶層面,缺乏高階推理能力評估
除此之外,SuperGPQA 也公開了嚴(yán)格的數(shù)據(jù)構(gòu)建過程。整個體系依靠大規(guī)模人機(jī)協(xié)作系統(tǒng),結(jié)合專家標(biāo)注、眾包注釋和大模型協(xié)同驗(yàn)證三重流程,確保入選題目具有足夠高的質(zhì)量和區(qū)分度。
目前, SuperGPQA 已在 HuggingFace 和 GitHub 開源,直接沖上了 Trending 榜單。
首次 「全學(xué)科覆蓋」,填補(bǔ)行業(yè)空白
研究人員透露,現(xiàn)在大語言模型評估體系主要有兩大“困境”:學(xué)科覆蓋嚴(yán)重失衡、評測基準(zhǔn)挑戰(zhàn)性失效。
以 MMLU 和 GPQA 為代表的傳統(tǒng)基準(zhǔn),盡管在數(shù)學(xué)、物理等主流學(xué)科中建立了標(biāo)準(zhǔn)化測試框架,但其覆蓋的學(xué)科數(shù)量通常不足 50 個,無法涵蓋人類積累的多樣化和長尾知識。
而且,GPT-4o 和 DeepSeek-R1 在傳統(tǒng)基準(zhǔn)上準(zhǔn)確率都破 90% 了,導(dǎo)致評測體系失去區(qū)分度,無法有效衡量模型在真實(shí)復(fù)雜場景中的推理上限。
根源就在于傳統(tǒng)基準(zhǔn)構(gòu)建范式太單一,數(shù)據(jù)來源、質(zhì)量篩選都相對粗糙。傳統(tǒng)基準(zhǔn)僅依賴教科書例題或在線題庫,例如 GPQA 中 42% 的問題來自維基百科,導(dǎo)致題目缺乏專業(yè)深度,且易被模型通過記憶機(jī)制“破解”。
數(shù)據(jù)顯示,GPT-4o 對在線練習(xí)網(wǎng)站答案的重復(fù)率高達(dá) 67.3%,暗示其性能提升可能源于題目數(shù)據(jù)泄露而非真實(shí)推理能力。
此外,眾包標(biāo)注的專業(yè)水平參差和主觀性問題難度評估進(jìn)一步加劇了基準(zhǔn)的不可靠性——早期嘗試中,僅 37% 的眾包標(biāo)注問題通過專家審核,導(dǎo)致超過 60% 的標(biāo)注資源浪費(fèi)。
為解決上述困境,豆包大模型團(tuán)隊(duì)聯(lián)合 M-A-P 開源社區(qū)推出 SuperGPQA,旨在深度挖掘 LLMs 潛力,其特點(diǎn)如下:
- 全面且具區(qū)分性:STEM(科學(xué)、工程、醫(yī)學(xué))領(lǐng)域問題占比 77.2%,確保在復(fù)雜推理任務(wù)中的高效評估。盡管非 STEM 學(xué)科(如哲學(xué)、文學(xué)、歷史)問題較少,但仍能有效區(qū)分不同 LLMs 的性能。
- 難度分布多樣:各學(xué)科問題難度均衡分布;在工程和科學(xué)領(lǐng)域,難題比例較高。42.33% 的問題需要數(shù)學(xué)計(jì)算或嚴(yán)謹(jǐn)推理,確保模型在高難度任務(wù)中的表現(xiàn)。
- 語義結(jié)構(gòu)豐富:t-SNE 可視化顯示跨學(xué)科聚類模式,工程和科學(xué)類問題語義相似,人文學(xué)科知識中心獨(dú)特,不同領(lǐng)域語言特色鮮明。
- 題目設(shè)計(jì)一致:平均問題長度 58.42 字,選項(xiàng)長度統(tǒng)一,迷惑性和挑戰(zhàn)性拉滿,評測公平又可靠。
作為基準(zhǔn)測試,SuperGPQA 非常全面,覆蓋 13 個門類、72 個一級學(xué)科和 285 個二級學(xué)科,共 26,529 個問題,把現(xiàn)有 GPQA(448 題)和 MMLU-Pro(12,032 題)遠(yuǎn)遠(yuǎn)甩在身后。同時,每題平均 9.67 個選項(xiàng),也比傳統(tǒng) 4 選項(xiàng)格式挑戰(zhàn)性高得多。
人機(jī)協(xié)作三步質(zhì)檢,杜絕“刷題黨”
SuperGPQA 核心架構(gòu)分三步:來源篩選、轉(zhuǎn)錄、質(zhì)量檢測。
團(tuán)隊(duì)設(shè)計(jì)時,深知眾包注釋方法在高復(fù)雜度題目上的不足,因此引入了專家注釋員,確保題目來源靠譜、難度合適。再結(jié)合最先進(jìn)的 LLMs 輔助質(zhì)量檢測,效率拉滿,也通過多模型協(xié)作降低了題目數(shù)據(jù)泄漏的風(fēng)險。
此外,團(tuán)隊(duì)還強(qiáng)調(diào)嚴(yán)格流程管理和持續(xù)質(zhì)量反饋,保證每階段輸出都達(dá)標(biāo)。靠著系統(tǒng)化、專業(yè)化流程,SuperGPQA 題庫質(zhì)量飆升,后期修正成本和時間大幅減少。
來源篩選
為保證題目高質(zhì)量,團(tuán)隊(duì)直接拋棄眾包注釋員收集資源的老路,轉(zhuǎn)而讓專家注釋員從可信來源(教科書、權(quán)威練習(xí)網(wǎng)站)篩選、收集原始問題。
這招一出,避免了早期大量無效問題的產(chǎn)生,并通過要求提供來源截圖,大幅提升了質(zhì)量檢測的效率和準(zhǔn)確性。
轉(zhuǎn)錄
轉(zhuǎn)錄階段,專家注釋員對收集的原始問題進(jìn)行語言規(guī)范化、格式轉(zhuǎn)換,確保所有問題都有統(tǒng)一學(xué)術(shù)語言和標(biāo)準(zhǔn)多項(xiàng)選擇題格式。
團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的語言模型(LLMs)在生成干擾項(xiàng)時也存在漏洞,因此需要專家統(tǒng)一重寫,以提高干擾項(xiàng)的準(zhǔn)確性和有效性,確保題目的挑戰(zhàn)性和區(qū)分度。
質(zhì)量檢測
質(zhì)量檢測階段采用多層次的檢測機(jī)制,包括 :
1)基于規(guī)則的初步過濾:識別并過濾格式明顯不合規(guī)范的題目。
2)基于 LLM 的質(zhì)量檢測:多個先進(jìn) LLMs(如 GPT-4、Gemini-flash 等)齊上陣,有效性、負(fù)面和極端詢問檢測、多模態(tài)排除、領(lǐng)域相關(guān)性評估、區(qū)分度標(biāo)記都不在話下。
3)專家復(fù)審:專家注釋員對可疑題目進(jìn)行二次審核,確保題庫的高可靠性和高區(qū)分度。
推理模型霸榜,但表現(xiàn)仍低于人類水平
△LLMs 在不同劃分層級上的表現(xiàn)
△LLMs 在不同學(xué)科上的表現(xiàn)
SuperGPQA 還做了全面的實(shí)驗(yàn),來測試業(yè)界主流 LLM 的能力表現(xiàn)。評估涵蓋 6 個推理模型、28 個聊天模型、17 個基礎(chǔ)模型,閉源、開源、完全開源模型全覆蓋。
團(tuán)隊(duì)發(fā)現(xiàn),在涵蓋 51 個模型的橫向評測中,DeepSeek-R1 以 61.82% 準(zhǔn)確率登頂,但其表現(xiàn)仍顯著低于人類研究生水平(平均 85%+)。
我們從論文中還扒到三大值得關(guān)注的結(jié)論:
1、推理能力決定上限
- 推理模型(DeepSeek-R1、O1-2024-12-17)包攬前 3,領(lǐng)先聊天模型超 10 個百分點(diǎn)
- DeepSeek-V3 和 Qwen2.5-72B-Instruct 的得分(47.40 和 40.75)遠(yuǎn)超其基礎(chǔ)版本(32.14 和 34.33),說明指令微調(diào)顯著提升性能
2、國內(nèi)模型突圍
- 豆包大模型(Doubao-1.5-pro)以 55.09% 準(zhǔn)確率位列聊天模型第一,超越 GPT-4o-2024-11-20(44.40%)
- Qwen 系列展現(xiàn)強(qiáng)泛化能力:Qwen2.5-72B 在基礎(chǔ)模型中排名第 4,超越 Llama-3.1-405B
3、學(xué)科表現(xiàn)失衡 * STEM 領(lǐng)域優(yōu)勢顯著:在「理論流體力學(xué)」「運(yùn)籌學(xué)和控制論」等子領(lǐng)域,Top 模型準(zhǔn)確率超 75%
- 人文社科仍是短板:在「舞蹈研究」「設(shè)計(jì)藝術(shù)」等領(lǐng)域,最優(yōu)模型準(zhǔn)確率不足 50%
One More Thing
一直以來,評估數(shù)據(jù)集對提升大模型的效果上限至關(guān)重要,甚至有可能是“最關(guān)鍵的部分”。
但評測數(shù)據(jù)集的搭建耗費(fèi)大量人力,很大程度依靠開源貢獻(xiàn)。早在去年,字節(jié)就在開源評測數(shù)據(jù)集上有所行動,覆蓋超 11 類真實(shí)場景、16 種編程語言的代碼大模型評估基準(zhǔn) Fullstack Bench 受到開發(fā)者好評。
此番字節(jié)再次亮出耗時半年打造的SuperGPQA,進(jìn)一步打破外部關(guān)于“字節(jié)對基礎(chǔ)工作投入不足”的印象。另一方面,也側(cè)面暴露字節(jié)內(nèi)部對模型能力的極高目標(biāo)。
結(jié)合近期我們關(guān)注到的 DeepMind 大牛吳永輝加入,全員會定下“追求智能上限”的目標(biāo)。
2025 年,豆包模型究竟能沖到什么水平?不妨讓子彈再飛一會。
論文鏈接: https://arxiv.org/pdf/2502.14739
數(shù)據(jù)鏈接: https://huggingface.co/datasets/m-a-p/SuperGPQA