偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

史上最難大模型測(cè)試集,千名專家鑄成!沒(méi)有模型得分超過(guò)10%,但DeepSeek-R1超o1

人工智能 新聞
題目來(lái)自500多家機(jī)構(gòu)的1000多名學(xué)者,最終入圍的題目有3000多道,全部都是研究生及以上難度。

史上最難的大模型測(cè)試集來(lái)了!

包括o1在內(nèi),沒(méi)有任何一個(gè)模型得分超過(guò)10%。

圖片

題目來(lái)自500多家機(jī)構(gòu)的1000多名學(xué)者,最終入圍的題目有3000多道,全部都是研究生及以上難度

入選的問(wèn)題涵蓋了數(shù)理化、生物醫(yī)藥、工程和社會(huì)科學(xué)等多種學(xué)科,按細(xì)分學(xué)科來(lái)算則多達(dá)100余個(gè)。

官方更是將它稱為“人類最后的考試”,AI安全中心主任Dan Hendrycks也用了這樣的說(shuō)法。

圖片

還有世界首位提示詞工程師Riley Goodside表示,這才是考驗(yàn)頂尖模型的數(shù)據(jù)集該有的難度。

圖片

o1得分不到10%

如果按照大學(xué)科來(lái)算,入選的題目可以分為八大類,其中占比最多的是數(shù)學(xué)(42%),然后是物理和生物醫(yī)藥(均為11%)。

圖片

而且命題難度要求嚴(yán)格,必須要達(dá)到研究生難度,而且還要確保不能被檢索到。

當(dāng)然題目還應(yīng)當(dāng)有明確的答案和評(píng)判方式,證明等開(kāi)放式問(wèn)題不會(huì)入選。

具體難度,可以看幾道例題來(lái)感受下(翻譯由GPT-4o生成)。

其中有些題目,還會(huì)考察模型的視覺(jué)能力,比如解讀這種上古文字。

圖片

有些題目還需要結(jié)合視覺(jué)信息和文本共同理解,比如在化學(xué),特別是有機(jī)化學(xué)當(dāng)中,需要用圖來(lái)表示相關(guān)物質(zhì)的結(jié)構(gòu)。

圖片

還有數(shù)學(xué)題計(jì)算機(jī)科學(xué)的題目,對(duì)推理的要求很高:

圖片

除了這些需要一定推理的任務(wù)之外,也有題目單純考察知識(shí)儲(chǔ)備,當(dāng)然并不代表難度低。

圖片

就算是對(duì)于領(lǐng)域內(nèi)人士,這些題目也達(dá)到了研究生難度,對(duì)于一般人而言,可能連題都讀不懂。

o1這樣的強(qiáng)推理模型準(zhǔn)確率只有9.1%,DeepSeek-R1也躋身到了英雄榜之中,不過(guò)不支持多模態(tài),因此成績(jī)是在純文本子集上得到的。

圖片

但如果只比較純文本任務(wù),DeepSeek-R1依然位列第一,并且相比于o1的優(yōu)勢(shì)變得更明顯了。

而在非推理模型當(dāng)中,Gemini 1.5 Pro表現(xiàn)最好,然后是Claude 3.5 Sonnet和Grok 2,GPT-4哦排名墊底。

圖片

有模型答錯(cuò),題目才能入選

這些題目不僅難度要求高,篩選的過(guò)程也十分嚴(yán)格。

這個(gè)項(xiàng)目由AI安全中心和Scale AI發(fā)起,命題者來(lái)自全世界500多家機(jī)構(gòu)的,人數(shù)多達(dá)上千人。

涉及的機(jī)構(gòu)包括高校、研究所和企業(yè),還有來(lái)自醫(yī)療機(jī)構(gòu)的學(xué)者,以及一些獨(dú)立研究者等。

OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團(tuán)隊(duì)收集到的題目需要經(jīng)歷大模型和人工的雙重審查。

圖片

第一輪篩選在大模型上進(jìn)行,如果其中有大模型答錯(cuò)非選擇題,或者選擇題平均準(zhǔn)確率低于隨機(jī)猜測(cè),則題目可以通過(guò)初篩。

在進(jìn)行過(guò)7萬(wàn)多次嘗試之后,有1.3萬(wàn)道題目進(jìn)入了人工審核環(huán)節(jié)。

人工審核一共分兩輪,第一輪是各個(gè)領(lǐng)域的專業(yè)人士(研究生以上學(xué)歷),第二輪審核則由組織方以及第一輪中表現(xiàn)出色的審核員共同進(jìn)行。

最終有三千多道題目入圍,形成了一個(gè)較大的公共數(shù)據(jù)集和一個(gè)較小的私有數(shù)據(jù)集,這些題目來(lái)自500多家機(jī)構(gòu)中的300余家,人數(shù)為600余人。

另外據(jù)介紹,每道入選題目根據(jù)評(píng)估情況,會(huì)給予命題人500-5000美元不等的獎(jiǎng)勵(lì),也從側(cè)面反應(yīng)出了命題工作的復(fù)雜。(目前團(tuán)隊(duì)仍在接受新題目投稿,但不再發(fā)放獎(jiǎng)金)

這樣的一套超難測(cè)試集,如果讓前兩天深陷作弊傳聞的o3挑戰(zhàn)一下,說(shuō)不定就能看出真實(shí)水平了。圖片

項(xiàng)目主頁(yè):https://lastexam.ai/
數(shù)據(jù)集:https://huggingface.co/datasets/cais/hle
論文:https://lastexam.ai/paper

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-02-03 14:17:27

2025-03-05 10:21:04

DeepSeekLVLM

2025-03-03 07:30:00

谷歌模型AI

2025-03-20 10:20:16

2025-04-29 09:06:00

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-13 08:51:23

DeepSeek大模型

2025-02-06 10:18:45

2025-02-19 08:00:00

2024-11-25 17:23:10

2025-05-19 08:41:00

AI模型開(kāi)發(fā)者

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2024-09-24 11:01:03

2025-03-10 08:10:00

AI研究安全

2025-02-13 01:00:00

2025-03-05 08:40:00

2025-02-08 14:03:25

2025-02-08 10:42:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)