偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<wbr id="yu1ob"><var id="yu1ob"></var></wbr><table id="yu1ob"></table>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1

作者：量子位 2025-01-24 15:03:27

人工智能新聞

題目來自500多家機(jī)構(gòu)的1000多名學(xué)者，最終入圍的題目有3000多道，全部都是研究生及以上難度。

史上最難的大模型測試集來了！

包括o1在內(nèi)，沒有任何一個模型得分超過10%。

題目來自500多家機(jī)構(gòu)的1000多名學(xué)者，最終入圍的題目有3000多道，全部都是研究生及以上難度。

入選的問題涵蓋了數(shù)理化、生物醫(yī)藥、工程和社會科學(xué)等多種學(xué)科，按細(xì)分學(xué)科來算則多達(dá)100余個。

官方更是將它稱為“人類最后的考試”，AI安全中心主任Dan Hendrycks也用了這樣的說法。

還有世界首位提示詞工程師Riley Goodside表示，這才是考驗(yàn)頂尖模型的數(shù)據(jù)集該有的難度。

o1得分不到10%

如果按照大學(xué)科來算，入選的題目可以分為八大類，其中占比最多的是數(shù)學(xué)（42%），然后是物理和生物醫(yī)藥（均為11%）。

而且命題難度要求嚴(yán)格，必須要達(dá)到研究生難度，而且還要確保不能被檢索到。

當(dāng)然題目還應(yīng)當(dāng)有明確的答案和評判方式，證明等開放式問題不會入選。

具體難度，可以看幾道例題來感受下（翻譯由GPT-4o生成）。

其中有些題目，還會考察模型的視覺能力，比如解讀這種上古文字。

有些題目還需要結(jié)合視覺信息和文本共同理解，比如在化學(xué)，特別是有機(jī)化學(xué)當(dāng)中，需要用圖來表示相關(guān)物質(zhì)的結(jié)構(gòu)。

還有數(shù)學(xué)題計(jì)算機(jī)科學(xué)的題目，對推理的要求很高：

除了這些需要一定推理的任務(wù)之外，也有題目單純考察知識儲備，當(dāng)然并不代表難度低。

就算是對于領(lǐng)域內(nèi)人士，這些題目也達(dá)到了研究生難度，對于一般人而言，可能連題都讀不懂。

o1這樣的強(qiáng)推理模型準(zhǔn)確率只有9.1%，DeepSeek-R1也躋身到了英雄榜之中，不過不支持多模態(tài)，因此成績是在純文本子集上得到的。

但如果只比較純文本任務(wù)，DeepSeek-R1依然位列第一，并且相比于o1的優(yōu)勢變得更明顯了。

而在非推理模型當(dāng)中，Gemini 1.5 Pro表現(xiàn)最好，然后是Claude 3.5 Sonnet和Grok 2，GPT-4哦排名墊底。

有模型答錯，題目才能入選

這些題目不僅難度要求高，篩選的過程也十分嚴(yán)格。

這個項(xiàng)目由AI安全中心和Scale AI發(fā)起，命題者來自全世界500多家機(jī)構(gòu)的，人數(shù)多達(dá)上千人。

涉及的機(jī)構(gòu)包括高校、研究所和企業(yè)，還有來自醫(yī)療機(jī)構(gòu)的學(xué)者，以及一些獨(dú)立研究者等。

OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團(tuán)隊(duì)收集到的題目需要經(jīng)歷大模型和人工的雙重審查。

第一輪篩選在大模型上進(jìn)行，如果其中有大模型答錯非選擇題，或者選擇題平均準(zhǔn)確率低于隨機(jī)猜測，則題目可以通過初篩。

在進(jìn)行過7萬多次嘗試之后，有1.3萬道題目進(jìn)入了人工審核環(huán)節(jié)。

人工審核一共分兩輪，第一輪是各個領(lǐng)域的專業(yè)人士（研究生以上學(xué)歷），第二輪審核則由組織方以及第一輪中表現(xiàn)出色的審核員共同進(jìn)行。

最終有三千多道題目入圍，形成了一個較大的公共數(shù)據(jù)集和一個較小的私有數(shù)據(jù)集，這些題目來自500多家機(jī)構(gòu)中的300余家，人數(shù)為600余人。

另外據(jù)介紹，每道入選題目根據(jù)評估情況，會給予命題人500-5000美元不等的獎勵，也從側(cè)面反應(yīng)出了命題工作的復(fù)雜。（目前團(tuán)隊(duì)仍在接受新題目投稿，但不再發(fā)放獎金）

這樣的一套超難測試集，如果讓前兩天深陷作弊傳聞的o3挑戰(zhàn)一下，說不定就能看出真實(shí)水平了。

項(xiàng)目主頁：https://lastexam.ai/
數(shù)據(jù)集：https://huggingface.co/datasets/cais/hle
論文：https://lastexam.ai/paper

責(zé)任編輯：張燕妮來源：量子位

模型測試數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="gf9pg"></p>

<ruby id="gf9pg"></ruby>

<strong id="gf9pg"></strong>