偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<span id="m26xe"><delect id="m26xe"><noframes id="m26xe">

<abbr id="m26xe"></abbr>

<ruby id="m26xe"></ruby>

<tt id="m26xe"></tt>

<button id="m26xe"></button>

<blockquote id="m26xe"><pre id="m26xe"></pre></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI百萬美元豪測：頂級大模型取代不了程序員

作者：佚名 2025-02-21 11:08:46

最新權(quán)威測試顯示，當(dāng)今頂級大模型甚至無法取代初級軟件工程師，科技企業(yè)大裁員，AI不背這個鍋

當(dāng)Sam Altman宣稱大模型將取代"低階程序員"時，OpenAI自家的最新研究卻給出了相反的答案。該研究聯(lián)合百名工程師開展SWE-Lancer基準測試，結(jié)果顯示：面對價值百萬美元的真實軟件開發(fā)任務(wù)，三大頂尖大模型的總收入竟不足21%，最強者Claude 3.5也僅解決26%技術(shù)問題。這場AI與人類程序員的"搶飯碗"對決，暫時以機器的慘敗告終。

百萬美元懸賞：AI搶不走程序員飯碗？

研究團隊從自由職業(yè)平臺Upwork精選1,488個真實開發(fā)任務(wù)，總賞金高達100萬美元。這些任務(wù)被分為兩類：技術(shù)攻堅（IC，764項，41.5萬美元）需解決程序錯誤或開發(fā)新功能；項目管理（Manager，724項，58.5萬美元）則需評估技術(shù)方案優(yōu)劣。三大參賽選手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全斷網(wǎng)的Docker容器中，以防止其"偷看"GitHub代碼。

為確保測試真實性，研究人員構(gòu)建了堪稱嚴苛的評估體系：首先由專業(yè)工程師編寫Playwright自動化測試腳本，模擬用戶登錄、金融交易等真實操作流程；每項AI生成的代碼方案需經(jīng)過專業(yè)軟件工程師的"三重驗證"，確保其能通過所有測試用例；最終結(jié)果直接接入企業(yè)級報銷平臺Expensify，完全復(fù)現(xiàn)真實商業(yè)場景。

經(jīng)過測試，研究人員發(fā)現(xiàn)，沒有一個模型能包攬100萬美元的全部任務(wù)獎勵。表現(xiàn)最好的Claude 3.5 Sonnet（OpenAI自家模型o1和GPT-4o分列二三位）也只賺了20.8萬美元，解決了26.2%的個人貢獻者問題。然而，研究人員指出，“它的大部分解決方案都是錯誤的，可信部署需要更高的可靠性?！?/p>

LLM嘗試不同類型軟件開發(fā)任務(wù)的通過率

有趣的是，在技術(shù)方案評估的管理任務(wù)（SWE Manager）上，所有大模型都表現(xiàn)得更好（上圖）。

AI開發(fā)的致命短板：定位快，但治標(biāo)不治本

研究者指出，頂級大模型普遍存在致命短板：AI能快速定位bug（速度遠超人類），但通常對問題如何跨越多個組件或文件表現(xiàn)出有限的理解，無法解決根本原因，導(dǎo)致解決方案不正確或不夠全面。

"就像急診室里只會貼創(chuàng)可貼的醫(yī)生。"研究報告犀利指出，大模型處理bug時呈現(xiàn)明顯模式：通過關(guān)鍵詞搜索快速鎖定可疑代碼段，卻無法理解跨組件/文件的深層關(guān)聯(lián)。典型案例中，AI會機械修改表面錯誤代碼，卻放任引發(fā)bug的根源繼續(xù)潛伏——這種"頭痛醫(yī)頭"的解決方式，導(dǎo)致多數(shù)方案僅能暫時消除癥狀。

值得玩味的是，盡管當(dāng)前測試顯示AI尚難取代初級軟件工程師，但研究者警告："這種優(yōu)勢可能不會持續(xù)太久。"當(dāng)被問及是否擔(dān)心研究結(jié)果影響行業(yè)信心時，OpenAI團隊回應(yīng)稱："揭示技術(shù)邊界，正是為了突破邊界。"這場人機博弈的終局，或許比我們想象中來得更快。

責(zé)任編輯：華軒來源： GoUpSec

OpenAI AI 程序員

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="mr47c"><label id="mr47c"></label></abbr>

<cite id="mr47c"><strike id="mr47c"></strike></cite>

<samp id="mr47c"></samp>