首超 30 分!中國開源方案在 "人類最后的考試" 中超越國際巨頭 原創(chuàng)
“人類最后的考試”,被一支國內(nèi)團(tuán)隊(duì)打破了紀(jì)錄。
最近,國內(nèi)團(tuán)隊(duì)在一場(chǎng)“人類最后的考試”中取得了歷史性突破。
?
由上海交通大學(xué)和深勢(shì)科技聯(lián)合研發(fā)的X-Master系統(tǒng),在這場(chǎng)覆蓋數(shù)學(xué)、物理、生物醫(yī)藥等100多個(gè)學(xué)科的高難度測(cè)試中,首次突破30分大關(guān),以32.1分的成績(jī)刷新了全球紀(jì)錄。
?
?
可能很多人還不了解這個(gè)測(cè)試的分量。人類最后的考試(HLE),是今年初由AI安全中心和Scale AI聯(lián)手推出的超難測(cè)試集。之所以被叫做“人類最后的考試”,也在于這個(gè)大模型測(cè)試的難度是公認(rèn)的天花板級(jí)別。
?
它由500多家機(jī)構(gòu)的1000多名學(xué)者共同出題,包含3000多道研究生以上難度的題目。這次突破的核心是DeepSeek-R1模型與X-Master智能體的結(jié)合。
?
DeepSeek-R1在數(shù)學(xué)和編程領(lǐng)域本就表現(xiàn)突出。而X-Master則模擬人類研究者的動(dòng)態(tài)問題解決過程,能在內(nèi)部推理和外部工具調(diào)用之間高效切換。
?
比如遇到生物學(xué)問題時(shí),它會(huì)自動(dòng)生成代碼調(diào)用專業(yè)數(shù)據(jù)庫,通過實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證推理結(jié)果。這種工具增強(qiáng)的推理模式,讓模型在處理復(fù)雜問題時(shí)更接近人類專家的思維方式。
?
在TRQA-lit生物學(xué)專項(xiàng)測(cè)試中,它的準(zhǔn)確率達(dá)到67.4%,遠(yuǎn)超同類模型。數(shù)學(xué)題上,它能通過分步推導(dǎo)解決高難度證明題;物理題中,它甚至能結(jié)合圖像信息分析量子力學(xué)現(xiàn)象。
?
?
更重要的是,這套系統(tǒng)通過多智能體工作流X-Masters,將多個(gè)求解器的方案進(jìn)行整合優(yōu)化,最終輸出最優(yōu)解。通過分散-堆疊式的設(shè)計(jì),它在面對(duì)開放性問題時(shí)也能保持較高的準(zhǔn)確率。
?
HLE最初發(fā)布時(shí),所有AI模型的成績(jī)都不到10%,哪怕到現(xiàn)在,也鮮有模型的測(cè)試成績(jī)超過20分。此前OpenAI的o1模型在HLE中僅得9.1分,谷歌Gemini 2.5 Pro也只有18.8分,而X-Master的32.1分幾乎是它們的兩倍。
?
更值得關(guān)注的是,上海交大團(tuán)隊(duì)采用的是完全開源的技術(shù)方案,所有模型和數(shù)據(jù)集都可在GitHub上獲取。
?
這些成果背后,是國內(nèi)團(tuán)隊(duì)在基礎(chǔ)研究和工程化應(yīng)用上的雙重突破。論文作者欄,四位共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du都來自上海交大人工智能研究院,由陳思衡副教授指導(dǎo)。深勢(shì)科技創(chuàng)始人張林峰也親自署名支持。
?
?
在攀登AI高峰的路上,中國研究者正從跟跑者變?yōu)轭I(lǐng)跑者。這場(chǎng)“人類最后的考試”不僅是技術(shù)的較量,更是開源生態(tài)與閉源壟斷的博弈。國內(nèi)團(tuán)隊(duì)正以開放姿態(tài)推動(dòng)技術(shù)普惠。
?
未來,隨著HLE測(cè)試難度的持續(xù)升級(jí),AI模型的挑戰(zhàn)才剛剛開始。但可以預(yù)見,開源生態(tài)將成為推動(dòng)技術(shù)進(jìn)步的核心力量。
