偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

首超 30 分！中國開源方案在 "人類最后的考試" 中超越國際巨頭原創(chuàng)

算家計(jì)算

發(fā)布于 2025-7-9 19:02

瀏覽

0收藏

“人類最后的考試”，被一支國內(nèi)團(tuán)隊(duì)打破了紀(jì)錄。

最近，國內(nèi)團(tuán)隊(duì)在一場(chǎng)“人類最后的考試”中取得了歷史性突破。

?

由上海交通大學(xué)和深勢(shì)科技聯(lián)合研發(fā)的X-Master系統(tǒng)，在這場(chǎng)覆蓋數(shù)學(xué)、物理、生物醫(yī)藥等100多個(gè)學(xué)科的高難度測(cè)試中，首次突破30分大關(guān)，以32.1分的成績(jī)刷新了全球紀(jì)錄。

?

首超 30 分！中國開源方案在 "人類最后的考試" 中超越國際巨頭-AI.x社區(qū)

?
可能很多人還不了解這個(gè)測(cè)試的分量。人類最后的考試（HLE），是今年初由AI安全中心和Scale AI聯(lián)手推出的超難測(cè)試集。之所以被叫做“人類最后的考試”，也在于這個(gè)大模型測(cè)試的難度是公認(rèn)的天花板級(jí)別。
?

它由500多家機(jī)構(gòu)的1000多名學(xué)者共同出題，包含3000多道研究生以上難度的題目。這次突破的核心是DeepSeek-R1模型與X-Master智能體的結(jié)合。
?

DeepSeek-R1在數(shù)學(xué)和編程領(lǐng)域本就表現(xiàn)突出。而X-Master則模擬人類研究者的動(dòng)態(tài)問題解決過程，能在內(nèi)部推理和外部工具調(diào)用之間高效切換。
?

比如遇到生物學(xué)問題時(shí)，它會(huì)自動(dòng)生成代碼調(diào)用專業(yè)數(shù)據(jù)庫，通過實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證推理結(jié)果。這種工具增強(qiáng)的推理模式，讓模型在處理復(fù)雜問題時(shí)更接近人類專家的思維方式。

?

在TRQA-lit生物學(xué)專項(xiàng)測(cè)試中，它的準(zhǔn)確率達(dá)到67.4%，遠(yuǎn)超同類模型。數(shù)學(xué)題上，它能通過分步推導(dǎo)解決高難度證明題；物理題中，它甚至能結(jié)合圖像信息分析量子力學(xué)現(xiàn)象。

?

首超 30 分！中國開源方案在 "人類最后的考試" 中超越國際巨頭-AI.x社區(qū)
?
更重要的是，這套系統(tǒng)通過多智能體工作流X-Masters，將多個(gè)求解器的方案進(jìn)行整合優(yōu)化，最終輸出最優(yōu)解。通過分散-堆疊式的設(shè)計(jì)，它在面對(duì)開放性問題時(shí)也能保持較高的準(zhǔn)確率。

?

HLE最初發(fā)布時(shí)，所有AI模型的成績(jī)都不到10%，哪怕到現(xiàn)在，也鮮有模型的測(cè)試成績(jī)超過20分。此前OpenAI的o1模型在HLE中僅得9.1分，谷歌Gemini 2.5 Pro也只有18.8分，而X-Master的32.1分幾乎是它們的兩倍。

?

更值得關(guān)注的是，上海交大團(tuán)隊(duì)采用的是完全開源的技術(shù)方案，所有模型和數(shù)據(jù)集都可在GitHub上獲取。

?
這些成果背后，是國內(nèi)團(tuán)隊(duì)在基礎(chǔ)研究和工程化應(yīng)用上的雙重突破。論文作者欄，四位共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du都來自上海交大人工智能研究院，由陳思衡副教授指導(dǎo)。深勢(shì)科技創(chuàng)始人張林峰也親自署名支持。
?
首超 30 分！中國開源方案在 "人類最后的考試" 中超越國際巨頭-AI.x社區(qū)
?

在攀登AI高峰的路上，中國研究者正從跟跑者變?yōu)轭I(lǐng)跑者。這場(chǎng)“人類最后的考試”不僅是技術(shù)的較量，更是開源生態(tài)與閉源壟斷的博弈。國內(nèi)團(tuán)隊(duì)正以開放姿態(tài)推動(dòng)技術(shù)普惠。

?

未來，隨著HLE測(cè)試難度的持續(xù)升級(jí)，AI模型的挑戰(zhàn)才剛剛開始。但可以預(yù)見，開源生態(tài)將成為推動(dòng)技術(shù)進(jìn)步的核心力量。

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

AI測(cè)評(píng)

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

關(guān)于AI落地“最后一公里”，這里有30條前沿洞察

mb5f8eba9bdb0af ? 3261瀏覽 ? 0回復(fù)
史上首次，AI超越人類奧賽金牌得主！吳方法加持，30題做出27道破紀(jì)錄

duhorse ? 2515瀏覽 ? 0回復(fù)
超越人類？AI大語言模型在高階心智理論任務(wù)上展現(xiàn)驚人表現(xiàn)

AI論文解讀 ? 3924瀏覽 ? 0回復(fù)
DeepSeek Coder V2開源發(fā)布，首超GPT4-Turbo代碼能力

Aceryt ? 8175瀏覽 ? 0回復(fù)
ICML 2024 Spotlight | 在解碼中重新對(duì)齊，讓語言模型更少幻覺、更符合人類偏好

輕薄滴假象 ? 3261瀏覽 ? 0回復(fù)
谷歌：Transformer在音樂推薦中的實(shí)踐

Syrupup ? 2861瀏覽 ? 0回復(fù)
阿里重磅開源Qwen2-VL：能理解超20分鐘視頻，媲美GPT-4o！

Aceryt ? 3667瀏覽 ? 0回復(fù)
時(shí)序預(yù)測(cè)中的多類型模型組合建模方案

海因斯DK ? 3537瀏覽 ? 0回復(fù)
阿里國際發(fā)布首個(gè)大規(guī)模商用翻譯大模型Marco，效果超Google、DeepL等，全球開放！

51CTO技術(shù)棧 ? 3957瀏覽 ? 0回復(fù)
AI大模型在GIS中的應(yīng)用

zhishan15 ? 5182瀏覽 ? 0回復(fù)
RAG在智能問答系統(tǒng)中的應(yīng)用

數(shù)字化助推器 ? 2996瀏覽 ? 0回復(fù)
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準(zhǔn)測(cè)試中超越了 GPT-4o

Halo咯咯 ? 1.2w瀏覽 ? 0回復(fù)
2025首篇關(guān)于多模態(tài)大模型在富文本圖像理解上的全面研究綜述

PaperAgent ? 5241瀏覽 ? 0回復(fù)
中國產(chǎn)品再次引爆全球，首個(gè)通用AI代理跑分超OpenA1!最全梳理來了!

51CTO技術(shù)棧 ? 2535瀏覽 ? 0回復(fù)
從語言到認(rèn)知：LLM如何超越人類語言網(wǎng)絡(luò)

頓數(shù)AI ? 2236瀏覽 ? 0回復(fù)
超越Sora！谷歌推出Veo 2，生成8秒超逼真視頻

Aceryt ? 1798瀏覽 ? 0回復(fù)
大模型數(shù)據(jù)預(yù)處理——關(guān)于復(fù)雜文檔在大模型應(yīng)用中的解決方案

AI探索時(shí)代 ? 2094瀏覽 ? 0回復(fù)
中國開源大模型新成員：小米推理大模型首秀！

51CTO技術(shù)棧 ? 1546瀏覽 ? 0回復(fù)
在30分鐘內(nèi)構(gòu)建一個(gè)問答AI智能體

PyTorch研習(xí)社 ? 951瀏覽 ? 0回復(fù)

算家計(jì)算

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

今天，OpenAI徹底顛覆AI助手！ChatGPT智能體上線，融合三大AI 1天前發(fā)布
Transformer霸權(quán)終結(jié)？谷歌DeepMind推出顛覆性架構(gòu)：推理2倍速、參數(shù)減半 2天前發(fā)布

熱門推薦

重磅！英偉達(dá)宣布H20芯片即將恢復(fù)對(duì)華銷售，并計(jì)劃推出全新GPU 0回復(fù)

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復(fù)

全球最聰明AI誕生！Grok 4 擊潰所有模型，馬斯克20萬GPU訓(xùn)練出最貴AI 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

2025年多智能體AI爆發(fā)，這五個(gè)開源框架太香了！ 0回復(fù)

上一篇：騰訊重磅發(fā)布！業(yè)界首個(gè)美術(shù)級(jí)3D生成大模型誕生，游戲開發(fā)迎來范式變革

下一篇：全球最聰明AI誕生！Grok 4 擊潰所有模型，馬斯克20萬GPU訓(xùn)練出最貴AI

社區(qū)精華內(nèi)容

目錄

<menuitem id="hzv75"></menuitem>