偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI百萬美元豪測:頂級大模型取代不了程序員

人工智能
最新權(quán)威測試顯示,當(dāng)今頂級大模型甚至無法取代初級軟件工程師,科技企業(yè)大裁員,AI不背這個鍋

當(dāng)Sam Altman宣稱大模型將取代"低階程序員"時,OpenAI自家的最新研究卻給出了相反的答案。該研究聯(lián)合百名工程師開展SWE-Lancer基準(zhǔn)測試,結(jié)果顯示:面對價值百萬美元的真實軟件開發(fā)任務(wù),三大頂尖大模型的總收入竟不足21%,最強(qiáng)者Claude 3.5也僅解決26%技術(shù)問題。這場AI與人類程序員的"搶飯碗"對決,暫時以機(jī)器的慘敗告終。

百萬美元懸賞:AI搶不走程序員飯碗?

研究團(tuán)隊從自由職業(yè)平臺Upwork精選1,488個真實開發(fā)任務(wù),總賞金高達(dá)100萬美元。這些任務(wù)被分為兩類:技術(shù)攻堅(IC,764項,41.5萬美元)需解決程序錯誤或開發(fā)新功能;項目管理(Manager,724項,58.5萬美元)則需評估技術(shù)方案優(yōu)劣。三大參賽選手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全斷網(wǎng)的Docker容器中,以防止其"偷看"GitHub代碼。

為確保測試真實性,研究人員構(gòu)建了堪稱嚴(yán)苛的評估體系:首先由專業(yè)工程師編寫Playwright自動化測試腳本,模擬用戶登錄、金融交易等真實操作流程;每項AI生成的代碼方案需經(jīng)過專業(yè)軟件工程師的"三重驗證",確保其能通過所有測試用例;最終結(jié)果直接接入企業(yè)級報銷平臺Expensify,完全復(fù)現(xiàn)真實商業(yè)場景。

經(jīng)過測試,研究人員發(fā)現(xiàn),沒有一個模型能包攬100萬美元的全部任務(wù)獎勵。表現(xiàn)最好的Claude 3.5 Sonnet(OpenAI自家模型o1和GPT-4o分列二三位)也只賺了20.8萬美元,解決了26.2%的個人貢獻(xiàn)者問題。然而,研究人員指出,“它的大部分解決方案都是錯誤的,可信部署需要更高的可靠性?!?/p>

LLM嘗試不同類型軟件開發(fā)任務(wù)的通過率LLM嘗試不同類型軟件開發(fā)任務(wù)的通過率

有趣的是,在技術(shù)方案評估的管理任務(wù)(SWE Manager)上,所有大模型都表現(xiàn)得更好(上圖)。

AI開發(fā)的致命短板:定位快,但治標(biāo)不治本

研究者指出,頂級大模型普遍存在致命短板:AI能快速定位bug(速度遠(yuǎn)超人類),但通常對問題如何跨越多個組件或文件表現(xiàn)出有限的理解,無法解決根本原因,導(dǎo)致解決方案不正確或不夠全面。

"就像急診室里只會貼創(chuàng)可貼的醫(yī)生。"研究報告犀利指出,大模型處理bug時呈現(xiàn)明顯模式:通過關(guān)鍵詞搜索快速鎖定可疑代碼段,卻無法理解跨組件/文件的深層關(guān)聯(lián)。典型案例中,AI會機(jī)械修改表面錯誤代碼,卻放任引發(fā)bug的根源繼續(xù)潛伏——這種"頭痛醫(yī)頭"的解決方式,導(dǎo)致多數(shù)方案僅能暫時消除癥狀。

值得玩味的是,盡管當(dāng)前測試顯示AI尚難取代初級軟件工程師,但研究者警告:"這種優(yōu)勢可能不會持續(xù)太久。"當(dāng)被問及是否擔(dān)心研究結(jié)果影響行業(yè)信心時,OpenAI團(tuán)隊回應(yīng)稱:"揭示技術(shù)邊界,正是為了突破邊界。"這場人機(jī)博弈的終局,或許比我們想象中來得更快。

責(zé)任編輯:華軒 來源: GoUpSec
相關(guān)推薦

2025-02-19 13:50:00

明星編程軟件

2023-07-26 18:57:04

2023-06-05 12:27:20

2025-05-07 10:09:28

2011-11-09 09:38:13

2021-07-01 07:43:41

項目程序員代碼

2023-09-26 01:27:09

AI程序員軟件

2013-04-23 14:20:44

創(chuàng)業(yè)創(chuàng)業(yè)者

2024-03-11 09:33:16

2024-02-27 13:38:16

微軟OpenAI模型

2024-02-27 16:30:37

OpenAIGPT-4Mistral AI

2021-07-15 10:17:14

黑客漏洞網(wǎng)絡(luò)犯罪論

2025-03-17 09:37:46

2013-02-20 09:51:17

HStreamingJanaUhlig初創(chuàng)公司

2013-08-21 10:11:04

亞馬遜宕機(jī)

2024-10-30 13:40:31

2019-07-26 10:44:52

2024-01-05 13:56:00

2025-05-27 11:52:07

2022-02-16 10:02:04

深度學(xué)習(xí)模型人工智能
點贊
收藏

51CTO技術(shù)棧公眾號