偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DeepSeek-R1超級外掛!“人類最后的考試”首次突破30分,上海交大等開源方案碾壓OpenAI、谷歌

人工智能 新聞
上海交大聯(lián)合深勢科技團隊突然發(fā)布了一項新研究,在“人類最后的考試”(HLE,Humanity’s Last Exam)上一舉拿下32.1分,創(chuàng)下新紀錄。

“人類最后的考試”首次突破30分,還是咱國內(nèi)團隊干的!

該測試集是出了名的超難,剛推出時無模型得分能超過10分。

直到最近,最高分也不過26.9,由Kimi-Research和Gemini Deep Research并列取得。

現(xiàn)在,上海交大聯(lián)合深勢科技團隊突然發(fā)布了一項新研究,在“人類最后的考試”(HLE,Humanity’s Last Exam)上一舉拿下32.1分,創(chuàng)下新紀錄。

圖片

在這項研究中,團隊推出工具增強推理智能體X-Master、多智能體工作流系統(tǒng)X-Masters。

劃重點:還直接把這套方案給開源了。

網(wǎng)友們紛紛感嘆現(xiàn)在AI競賽太激烈,一天一個樣。

圖片

另外值得一提的是,這項研究使用了DeepSeek-R1-0528作為驅(qū)動智能體的推理模型,由此也有網(wǎng)友表示:

R1在函數(shù)調(diào)用上表現(xiàn)仍欠佳,而且在這項研究里甚至沒有針對這一點進行微調(diào)。但即便如此,只要給它搭配合適的框架,它在HLE這個難度很高的測試中就能拿到32%的成績。

雖然大家可能會習(xí)慣性地稱R1為“最佳基礎(chǔ)模型”,但我覺得這其實是給V4打下了基礎(chǔ)。我敢肯定,V4一出來就會自帶智能體功能。

圖片

怎么做到的?

具體來看X-Master和X-Masters,這是該團隊SciMaster系列研究的第一部分,旨在開發(fā)通用科學(xué)AI智能體。

X-Master是一個由開源模型(如DeepSeek-R1)驅(qū)動的工具增強型推理智能體,其核心設(shè)計理念是模擬人類研究者的動態(tài)問題解決過程,在內(nèi)部推理和外部工具使用之間流暢切換。

這一過程形成了一個共生循環(huán):

工具輸出為智能體的推理提供關(guān)鍵反饋,幫助其完善推理;而更清晰的推理又能引導(dǎo)智能體更智能、更高效地使用工具。

實現(xiàn)這一過程的核心機制是將代碼概念化為一種交互語言。

當(dāng)X-Master遇到無法通過內(nèi)部推理解決的問題時,它會將精確的行動計劃編寫為代碼塊。這個“計劃”隨后會被執(zhí)行,與任何所需資源進行接口連接,這些資源既包括NumPy和SciPy的強大數(shù)值計算能力,也包括團隊專門設(shè)計的用于實時網(wǎng)絡(luò)搜索和數(shù)據(jù)提取的工具包。

執(zhí)行結(jié)果會被無縫吸收回智能體的上下文環(huán)境中,豐富其知識儲備,并為后續(xù)推理提供依據(jù)。

圖片

具體而言,在智能體的思考過程中,即在token“<think>”和“<|FunctionCallEnd|>”之間,智能體既可以生成非代碼文本用于推理,也可以在特殊token“<code>”和“</code>”之間生成代碼以與環(huán)境進行交互。

一旦通過字符串匹配檢測到這種模式,其中的代碼就會被提取出來,并在一個沙盒環(huán)境中執(zhí)行,在該環(huán)境中可以訪問各種Python庫和工具。

執(zhí)行結(jié)果隨后會被附加到模型的上下文中,并由特殊token“<execution_results>”和“</execution_results>”包裹。

之后,推理模型會繼續(xù)其思考過程,解讀執(zhí)行結(jié)果并進一步推理,直到發(fā)起下一次交互或思考結(jié)束。

由于當(dāng)前可用的強推理模型(如DeepSeek-R1)本質(zhì)上是非智能體的,并且往往在遵循指令方面能力有限,僅依靠傳統(tǒng)的提示工程不足以可靠地引導(dǎo)這些模型展現(xiàn)出預(yù)期的智能體行為。

因此,團隊還引入了一個簡單而有效的機制:初始推理引導(dǎo)。

該機制不會讓推理模型在收到用戶查詢后立即開始不受約束的思考過程,而是在模型的初始“</think>”token之后直接嵌入一系列引導(dǎo)文本。

這些引導(dǎo)文本特意從推理智能體自身的角度出發(fā)來設(shè)計,采用第一人稱表述,例如“我可以通過訪問外部環(huán)境有效回答這個查詢”“每當(dāng)我確定需要與外部工具交互時,我會生成包裹在<code>和</code>token之間的Python代碼”。

團隊表示,通過將這些精心設(shè)計的自我陳述拼接至模型的上下文中,可有效地引導(dǎo)模型“相信”自身具備增強的能力。

即便沒有針對智能體行為進行明確的微調(diào),該模型也能夠自主生成和執(zhí)行代碼,與環(huán)境交互,并最終發(fā)揮出強大的智能體功能。

接下來,為充分發(fā)揮X-Master的潛力,團隊設(shè)計X-Masters,這是一種分散-堆疊式智能體工作流,通過編排多智能體認知過程,系統(tǒng)地增強推理的廣度和深度。

圖片

在這個過程中,X-Master的不同實例承擔(dān)著多種專門角色。

“分散”階段旨在拓寬思路,多個求解器(Solver)智能體并行工作,生成多樣化的解決方案,同時批評者(Critic)智能體對這些方案可能存在的缺陷進行修正。

接著“堆疊”階段用于深化思考,重寫器(Rewriter)智能體將所有先前的輸出綜合成更優(yōu)的解決方案,最后由選擇器(Selector)智能體裁定出最佳答案。

團隊表示,其分散-堆疊架構(gòu)本質(zhì)上是一種結(jié)構(gòu)化探索和利用策略,與強化學(xué)習(xí)(RL)中的“Rollouts”概念有很強的相似性。

“分散”階段類似于強化學(xué)習(xí)中Rollouts的探索原理,即模擬多條未來軌跡以評估不同行動的潛力。后續(xù)的“堆疊”階段類似于強化學(xué)習(xí)中Rollouts之后的聚合和“利用”步驟。

首個在HLE上得分超過30%的系統(tǒng)

實驗部分,團隊使用DeepSeek-R1-0528作為驅(qū)動智能體的推理模型,最大完成token數(shù)設(shè)置為64k,temperature為0.6。

測試重點關(guān)注HLE的純文本子集,包含2518個樣本。評估運行工作流三次并報告平均分數(shù),同時按照官方設(shè)置,使用o3-mini作為評判模型。

基線模型在HLE上的結(jié)果均來自現(xiàn)有的排行榜。

主要結(jié)果顯示,X-Masters取得了32.1%的最高分,超過了所有現(xiàn)有智能體和模型,這也是首個在HLE上得分超過30%的系統(tǒng)。

跨不同類別的性能顯示,與DeepSeek-R1-0528相比,X-Masters在所有類別中都顯示出顯著改善:

圖片

消融研究結(jié)果揭示了智能體工作流中的漸進收益:

工具增強推理(求解器)使基線準(zhǔn)確率提高了3.4%,迭代優(yōu)化(批評者和重寫器)又增加了 9.5%,最終選擇(選擇器)則實現(xiàn)了32.1%的紀錄成績。

圖片

另外,團隊還將X-Masters與生物學(xué)領(lǐng)域科學(xué)智能體進行對比。

近期研究成果,如Biomni和STELLA,通過利用配備大量專業(yè)工具的大語言模型智能體,在應(yīng)對生物學(xué)難題方面取得了一定進展。

而X-Masters,在HLE的生物學(xué)/醫(yī)學(xué)類別中,表現(xiàn)優(yōu)于現(xiàn)有系統(tǒng),Biomni的正確率是17.3%,STELLA大概 26%,而 X-Masters達到了27.6%。

并且Biomni和STELLA是從生物學(xué)/醫(yī)學(xué)類題目里挑了一部分來測試的,而X-Masters是考了這一類里所有222道純文字題,說明它在復(fù)雜生物醫(yī)學(xué)問題上的能力確實突出。

圖片

在一個叫TRQA-lit(choice)的生物學(xué)專門測試中,X-Masters也取得了目前最好的成績。這個測試里有172道多選題,都是生物學(xué)研究里的復(fù)雜任務(wù),比如找治療靶點、研究生物醫(yī)學(xué)機制等

獨立的X-Master達到了62.1%的準(zhǔn)確率,借助智能體工作流,X-Masters取得了67.4%的SOTA成績,體現(xiàn)了分散探索和堆疊選擇的有效性。

與整合了500多種專家工具的多智能體系統(tǒng) OriGene相比,X-Master僅使用兩種網(wǎng)絡(luò)工具(網(wǎng)頁搜索和網(wǎng)頁解析),卻獲得了更高的準(zhǔn)確率,進一步印證了X-Master工具增強推理過程的高效性,即通過廣泛探索和堆疊選擇,它能夠有效解決復(fù)雜的生物學(xué)任務(wù)。

圖片

“人類最后的考試”是什么?

“人類最后的考試”由AI安全中心和Scale AI發(fā)起,今年年初發(fā)布。剛發(fā)布時,包括o1在內(nèi),沒有一個模型得分超過10%,被稱作是史上最難大模型測試集。

圖片

題目來自500多家機構(gòu)的1000多名學(xué)者,涉及機構(gòu)包括高校、研究所和企業(yè),還有來自醫(yī)療機構(gòu)的學(xué)者以及一些獨立研究者等。OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經(jīng)歷大模型和人工的雙重審查。不僅要達到研究生難度,而且還要確保不能被檢索到。當(dāng)然題目還應(yīng)當(dāng)有明確的答案和評判方式,證明等開放式問題不會入選。

最終入圍的題目有3000多道。

入選的問題涵蓋了數(shù)理化、生物醫(yī)藥、工程和社會科學(xué)等多種學(xué)科,按細分學(xué)科來算則多達100余個。按大類來分,可分為八大類,其中占比最多的是數(shù)學(xué)(42%),然后是物理和生物醫(yī)藥(均為11%)。

其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字(翻譯由GPT-4o生成)。

圖片

有些題目還需要結(jié)合視覺信息和文本共同理解,比如在化學(xué),特別是有機化學(xué)當(dāng)中,需要用圖來表示相關(guān)物質(zhì)的結(jié)構(gòu)。

圖片

數(shù)學(xué)題計算機科學(xué)的題目,對推理的要求很高,難度be like:

圖片

足以見得,X-Masters拿下32.1分實屬不易,而這項突破性成果還是出自我們國內(nèi)團隊之手。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du全部來自上海交通大學(xué)人工智能研究院,上海交大陳思衡副教授指導(dǎo)。

深勢科技方面,創(chuàng)始人兼首席科學(xué)家張林峰親自署名。

圖片

論文鏈接:https://arxiv.org/abs/2507.05241

GitHub鏈接:https://github.com/sjtu-sai-agents/

X-Master參考鏈接:https://x.com/gm8xx8/status/1942486326726611421

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-03 14:17:27

2025-02-03 12:07:52

2025-02-19 08:00:00

2025-02-07 15:52:20

2025-07-07 08:56:00

2025-02-08 10:42:34

2025-02-27 09:09:45

2025-03-05 09:00:00

DeepSeek模型AI

2025-02-19 08:33:18

2025-04-29 09:06:00

2025-03-06 01:00:00

2025-02-18 08:15:03

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2022-03-09 09:23:17

AI引擎檢測

2019-11-17 22:45:12

谷歌Android開發(fā)者

2025-03-20 10:20:16

2025-04-01 10:35:37

點贊
收藏

51CTO技術(shù)棧公眾號