偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Claude掙錢強(qiáng)于o1!OpenAI開源百萬美元編碼基準(zhǔn),檢驗(yàn)大模型鈔能力

人工智能 新聞
模型在定位問題方面表現(xiàn)出色,但在追根溯源方面失敗,導(dǎo)致解決方案不完整或存在缺陷。

昨天,AI 圈可以說非常熱鬧。中午,馬斯克 xAI 發(fā)布了地表最強(qiáng)旗艦大模型 Grok-3;下午,DeepSeek 梁文鋒親自掛名的論文公開了全新注意力架構(gòu) NSA。

這下子,OpenAI 坐不住了,推出并開源了一個(gè)真實(shí)的、用于評(píng)估 AI 大模型編碼性能的全新基準(zhǔn) SWE-Lancer。該基準(zhǔn)包含了來自全球性自由職業(yè)平臺(tái) Upwork 的 1400 多個(gè)自由軟件工程任務(wù),在現(xiàn)實(shí)世界中總價(jià)值達(dá)到了 100 萬美元。

這意味著,如果大模型能夠全部完成這些任務(wù),則可以像人類一樣獲得百萬美元報(bào)酬。

具體來講,SWE-Lancer 包括了獨(dú)立工程任務(wù)(從 50 美元的 bug 修復(fù)到 32,000 美元的功能實(shí)現(xiàn))和管理任務(wù),其中模型選擇各種技術(shù)實(shí)施方案。獨(dú)立工程任務(wù)由經(jīng)驗(yàn)豐富的軟件工程師經(jīng)過三重驗(yàn)證的端到端測(cè)試進(jìn)行評(píng)級(jí),而管理任務(wù)則根據(jù)最初聘請(qǐng)的工程經(jīng)理的選擇進(jìn)行評(píng)估。

下圖為 SWE-Lancer 基準(zhǔn)中的任務(wù)目標(biāo)、任務(wù)類型、任務(wù)角色以及任務(wù)示例。

SWE-Lancer 任務(wù)更真實(shí)地反映了現(xiàn)代軟件工程的復(fù)雜性。任務(wù)是全棧式的,而且很復(fù)雜。自由職業(yè)者平均需要 21 天以上的時(shí)間才能完成每項(xiàng)任務(wù)。

SWE-Lancer 任務(wù)價(jià)格反映了真實(shí)市場(chǎng)價(jià)值。任務(wù)越難,報(bào)酬越高。

OpenAI 的評(píng)估結(jié)果顯示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在內(nèi)的前沿模型仍然無法解決大多數(shù)任務(wù)。從下圖中可以看到,Claude 3.5 Sonnet 完成的任務(wù)最多,并且掙到了最高的 403,325 美元。

為了進(jìn)一步促進(jìn)未來的相關(guān)研究,OpenAI 開源了一個(gè)統(tǒng)一的 Docker 鏡像和一個(gè)公共評(píng)估分割 ——SWE-Lancer Diamond。通過將模型性能與現(xiàn)實(shí)世界的貨幣價(jià)值聯(lián)系起來,OpenAI 希望能夠更好地研究 AI 模型開發(fā)的經(jīng)濟(jì)效益。

  • 論文標(biāo)題:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
  • 論文地址:https://arxiv.org/pdf/2502.12115
  • 項(xiàng)目地址:https://github.com/openai/SWELancer-Benchmark

對(duì)于 OpenAI 開源的這個(gè)基準(zhǔn)測(cè)試,有人認(rèn)為很棒,并表示隨著軟件工程中 AI 能力的擴(kuò)展,擁有標(biāo)準(zhǔn)化的評(píng)估方法非常重要,但應(yīng)該是獨(dú)立的。期待看到社區(qū)對(duì) SWE-Lancer Diamond 的使用反饋。

SWE-Lancer 簡(jiǎn)介

SWE-Lancer 數(shù)據(jù)集包含來自 Expensify 開源庫在 Upwork(美國(guó)的一個(gè)自由職業(yè)平臺(tái))上發(fā)布的 1,488 個(gè)軟件工程任務(wù)。

這些任務(wù)總價(jià)值為 100 萬美元,分為兩類:

個(gè)人貢獻(xiàn)者(IC)任務(wù)(解決 bug 或?qū)崿F(xiàn)功能),包含 764 個(gè)任務(wù),總價(jià)值為 414,775 美元。模型會(huì)獲得以下信息:(1) 問題文本描述(包括復(fù)現(xiàn)步驟和期望行為),(2) 問題修復(fù)前的代碼庫 checkpoint,以及 (3) 修復(fù)問題的目標(biāo)。模型在評(píng)估期間無法訪問端到端測(cè)試。

管理任務(wù)(模型扮演經(jīng)理的角色,選擇最佳方案來解決問題),這一類包含 724 個(gè)任務(wù),總價(jià)值為 585,225 美元。模型需要扮演軟件工程經(jīng)理的角色,選擇解決任務(wù)的最佳提案。模型會(huì)獲得以下信息:(1) 針對(duì)同一問題的多個(gè)解決方案(來自原始討論),(2) 問題修復(fù)前的代碼庫 checkpoint,以及 (3) 選擇最佳解決方案的目標(biāo)。

圖 3 中使用 Diamond Set 中的示例對(duì) SWE-Lancer 中不同類型的 IC SWE 問題進(jìn)行細(xì)分。左側(cè)藍(lán)色代表任務(wù)主題,右側(cè)綠色代表任務(wù)類型。

OpenAI 研究人員和 100 名其他專業(yè)軟件工程師在 Upwork 上識(shí)別了潛在的任務(wù),并在不更改任何文字的情況下,將這些任務(wù)輸入到 Docker 容器中,從而創(chuàng)建了 SWE-Lancer 數(shù)據(jù)集。該容器沒有網(wǎng)絡(luò)訪問權(quán)限,也無法訪問 GitHub,以避免模型抓取代碼差異或拉取請(qǐng)求詳情的可能。

研究者追蹤了模型解決的任務(wù)百分比以及模型通過解決這些任務(wù)所獲得的總報(bào)酬。由于這些任務(wù)來自真實(shí)場(chǎng)景,SWE-Lancer 的報(bào)酬能夠獨(dú)特地反映真實(shí)經(jīng)濟(jì)價(jià)值,而不是理論上的估算。

研究人員寫道:他們的基準(zhǔn)測(cè)試結(jié)果表明,現(xiàn)實(shí)世界中的自由職業(yè)工作對(duì)前沿語言模型來說仍然是一個(gè)挑戰(zhàn)。測(cè)試顯示,基礎(chǔ)模型還無法完全取代人類工程師。盡管它們可以幫助解決漏洞,但還沒有達(dá)到能夠獨(dú)立賺取自由職業(yè)收入的水平。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)使用了多個(gè)前沿語言模型,包括 Claude 3.5 Sonnet、GPT-4o 和 o1。

評(píng)估方法分為兩類:

  • IC 任務(wù)通過端到端測(cè)試評(píng)估,這些測(cè)試由專業(yè)軟件工程師編寫,模擬真實(shí)世界的應(yīng)用行為。
  • 管理任務(wù)通過與原始工程經(jīng)理的選擇對(duì)比來評(píng)估。

如圖 5 所示,在完整的 SWE-Lancer 數(shù)據(jù)集上,沒有一個(gè)模型能獲得 100 萬美元的全部任務(wù)價(jià)值。

如圖 6 所示,所有模型在 SWE Manager 任務(wù)上的表現(xiàn)均優(yōu)于 IC SWE 任務(wù)。Claude 3.5 Sonnet 在 IC SWE 和 SWE Manager 任務(wù)上均表現(xiàn)最強(qiáng),分別超出次佳模型(o1)9.7%(IC SWE 任務(wù))和 3.4%(SWE Manager 任務(wù))。

圖 8 展示了不同測(cè)試時(shí)計(jì)算量(test-time compute)水平下,按任務(wù)價(jià)格范圍劃分的 pass@1。結(jié)果表明,增加測(cè)試時(shí)計(jì)算量可以顯著提升模型在更復(fù)雜、更高價(jià)值任務(wù)上的表現(xiàn)。

如圖 9 所示,研究者觀察到性能更強(qiáng)的模型能更有效地利用用戶工具,因此在移除用戶工具后,它們的表現(xiàn)下降幅度更大。

報(bào)告指出:模型在定位問題方面表現(xiàn)出色,但在追根溯源方面失敗,導(dǎo)致解決方案不完整或存在缺陷。此外,模型能夠非常迅速地定位問題的源頭,通過在整個(gè)代碼庫中搜索關(guān)鍵詞來快速找到相關(guān)的文件和函數(shù) —— 這通常比人類工程師更快。然而,它們往往對(duì)問題涉及的多個(gè)組件或文件缺乏深入理解,無法解決根本原因,從而導(dǎo)致解決方案不正確或不夠全面。

有趣的是,這些模型在需要推理以評(píng)估技術(shù)理解的管理任務(wù)上表現(xiàn)更好。

這些基準(zhǔn)測(cè)試表明,AI 模型可以解決一些低級(jí)的編程問題,但還不能取代低級(jí)軟件工程師。這些模型仍然需要時(shí)間,但研究人員表示這種情況可能不會(huì)持續(xù)太久。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-19 15:40:00

OpenAI編程模型

2025-02-03 14:17:27

2024-09-24 11:01:03

2025-02-21 11:08:46

2024-09-13 10:06:21

2024-09-18 09:17:00

OpenAI模型開源

2024-09-19 17:44:04

2024-10-05 00:00:00

2025-02-19 09:34:01

2024-09-13 06:32:25

2024-12-05 10:16:14

2024-12-26 17:13:17

AI模型訓(xùn)練

2024-11-07 15:40:00

2024-12-09 11:06:31

2023-06-05 12:27:20

2024-12-09 08:00:00

AI大模型人工智能

2024-09-13 09:26:17

2025-01-20 08:46:00

代碼測(cè)試模型

2025-04-29 09:06:00

2024-10-17 14:05:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)