偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="gtfxi"></em>

<blockquote id="gtfxi"><menuitem id="gtfxi"></menuitem></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI官方基準測試：承認Claude遙遙領(lǐng)先（狗頭）

作者：量子位 2025-04-03 10:21:32

人工智能新聞

智能體在評估中需要復(fù)刻來自ICML 2024的論文，任務(wù)包括理解論文、編寫代碼和執(zhí)行實驗。

OpenAI承認Claude是最好的了（狗頭）。

剛剛開源的新基準測試PaperBench，6款前沿大模型驅(qū)動智能體PK復(fù)現(xiàn)AI頂會論文，新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。

與去年10月OpenAI考驗Agent機器學習代碼工程能力MLE-Bnch相比，PaperBench更考驗綜合能力，不再是只執(zhí)行單一任務(wù)。

具體來說，智能體在評估中需要復(fù)刻來自ICML 2024的論文，任務(wù)包括理解論文、編寫代碼和執(zhí)行實驗。

最終成績?nèi)缦拢?/span>

Claude-3.5-Sonnet斷崖式領(lǐng)先，第二名o1-high分數(shù)只有第一的60%，第三名DeepSeek-R1又只有第二名的一半。

此外GPT-4o超過了推理模型o3-mini-high也算一個亮點。

除了AI之間的PK， OpenAI這次還招募頂尖的機器學習博士對比o1。

雖然最終結(jié)論是AI在復(fù)現(xiàn)頂會論文上還無法超越人類，但展開時間軸發(fā)現(xiàn)，在工作時間1-6小時內(nèi)Ai的進度還是比人類要快的。

12-24小時階段AI與人類的進度相當，人類需要工作24-48小時才能超過AI。

有創(chuàng)業(yè)者稱贊OpenAI這波真的Open了，而且不避諱競爭對手的出色表現(xiàn)，咱們科技圈就需要這種精神。

Agent復(fù)現(xiàn)頂會論文

PaperBench選取20篇ICML 2024 Spotlight和Oral論文，要求AI創(chuàng)建代碼庫并執(zhí)行實驗，復(fù)制論文成果，且不能使用原作者代碼。

OpenAI與每篇論文的原作者共同制定詳細評分標準，總共包含8316個可單獨評分的任務(wù)。

開卷考試，也就是允許Agent有限聯(lián)網(wǎng)搜索，把原論文代碼庫和其他人復(fù)現(xiàn)的代碼庫拉黑名單。

完整評估流程分為3個階段：

Agent在ubuntu容器中創(chuàng)建并提交復(fù)制論文的代碼庫。
在具有GPU訪問權(quán)限的新容器中執(zhí)行代碼
裁判模型在第三個容器中給復(fù)現(xiàn)結(jié)果打分

評估時用分級標準打分，按葉節(jié)點、父節(jié)點逐級評分，主要指標是所有論文的平均復(fù)制分數(shù)。

評分也是由大模型自動執(zhí)行，實驗發(fā)現(xiàn)o3-mini當裁判的性價比最高。

給每篇論文評分花費66美元，比聘請人類專家當裁判要便宜，速度也更快。

運行評估所需的代碼和數(shù)據(jù)、Docker鏡像等正在GitHub逐步開源。

One More Thing

在論文的附錄中，OpenAI還給出了讓AI復(fù)現(xiàn)頂會論文的Prompt，有需要的朋友可以學習一下。

BasicAgent System Prompt：

強調(diào)智能體要完整復(fù)制論文，明確最終目標是讓運行reproduce.sh能復(fù)現(xiàn)論文所有指標
指導(dǎo)智能體使用工具逐步完成任務(wù)，避免一次性執(zhí)行過多操作
要求智能體充分利用時間優(yōu)化解決方案，而不是急于提交初步結(jié)果

IterativeAgent System/Continue Prompt：

強調(diào)時間很充裕，要逐步完成任務(wù)
每一步都提醒智能體使用可用的工具
強調(diào)代碼編寫規(guī)范

Task Instructions：

明確任務(wù)、可用資源、提交要求等多方面信息

給出代碼示例
最后再次強調(diào)權(quán)限、考試時間等，還提醒AI要真的去執(zhí)行復(fù)現(xiàn)，而不只是寫一個計劃。

就有點像人類準考證上寫的考場須知了。

論文地址：
https://openai.com/index/paperbench/

責任編輯：張燕妮來源：量子位

OpenAI 智能體模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營