OpenAI官方基準測試:承認Claude遙遙領(lǐng)先(狗頭)
OpenAI承認Claude是最好的了(狗頭)。
剛剛開源的新基準測試PaperBench,6款前沿大模型驅(qū)動智能體PK復(fù)現(xiàn)AI頂會論文,新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。
與去年10月OpenAI考驗Agent機器學習代碼工程能力MLE-Bnch相比,PaperBench更考驗綜合能力,不再是只執(zhí)行單一任務(wù)。
具體來說,智能體在評估中需要復(fù)刻來自ICML 2024的論文,任務(wù)包括理解論文、編寫代碼和執(zhí)行實驗。
最終成績?nèi)缦拢?/span>
Claude-3.5-Sonnet斷崖式領(lǐng)先,第二名o1-high分數(shù)只有第一的60%,第三名DeepSeek-R1又只有第二名的一半。
此外GPT-4o超過了推理模型o3-mini-high也算一個亮點。
除了AI之間的PK, OpenAI這次還招募頂尖的機器學習博士對比o1。
雖然最終結(jié)論是AI在復(fù)現(xiàn)頂會論文上還無法超越人類,但展開時間軸發(fā)現(xiàn),在工作時間1-6小時內(nèi)Ai的進度還是比人類要快的。
12-24小時階段AI與人類的進度相當,人類需要工作24-48小時才能超過AI。
有創(chuàng)業(yè)者稱贊OpenAI這波真的Open了,而且不避諱競爭對手的出色表現(xiàn),咱們科技圈就需要這種精神。
Agent復(fù)現(xiàn)頂會論文
PaperBench選取20篇ICML 2024 Spotlight和Oral論文,要求AI創(chuàng)建代碼庫并執(zhí)行實驗,復(fù)制論文成果,且不能使用原作者代碼。
OpenAI與每篇論文的原作者共同制定詳細評分標準,總共包含8316個可單獨評分的任務(wù)。
開卷考試,也就是允許Agent有限聯(lián)網(wǎng)搜索,把原論文代碼庫和其他人復(fù)現(xiàn)的代碼庫拉黑名單。
完整評估流程分為3個階段:
- Agent在ubuntu容器中創(chuàng)建并提交復(fù)制論文的代碼庫。
- 在具有GPU訪問權(quán)限的新容器中執(zhí)行代碼
- 裁判模型在第三個容器中給復(fù)現(xiàn)結(jié)果打分
評估時用分級標準打分,按葉節(jié)點、父節(jié)點逐級評分,主要指標是所有論文的平均復(fù)制分數(shù)。
評分也是由大模型自動執(zhí)行,實驗發(fā)現(xiàn)o3-mini當裁判的性價比最高。
給每篇論文評分花費66美元,比聘請人類專家當裁判要便宜,速度也更快。
運行評估所需的代碼和數(shù)據(jù)、Docker鏡像等正在GitHub逐步開源。
One More Thing
在論文的附錄中,OpenAI還給出了讓AI復(fù)現(xiàn)頂會論文的Prompt,有需要的朋友可以學習一下。
BasicAgent System Prompt:
- 強調(diào)智能體要完整復(fù)制論文,明確最終目標是讓運行reproduce.sh能復(fù)現(xiàn)論文所有指標
- 指導(dǎo)智能體使用工具逐步完成任務(wù),避免一次性執(zhí)行過多操作
- 要求智能體充分利用時間優(yōu)化解決方案,而不是急于提交初步結(jié)果
IterativeAgent System/Continue Prompt:
- 強調(diào)時間很充裕,要逐步完成任務(wù)
- 每一步都提醒智能體使用可用的工具
- 強調(diào)代碼編寫規(guī)范
Task Instructions:
- 明確任務(wù)、可用資源、提交要求等多方面信息
- 給出代碼示例
- 最后再次強調(diào)權(quán)限、考試時間等,還提醒AI要真的去執(zhí)行復(fù)現(xiàn),而不只是寫一個計劃。
就有點像人類準考證上寫的考場須知了。