偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="qxmhg"></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

OpenAI研究人員發(fā)現(xiàn)，AI無法解決大多數(shù)編程問題

作者：Yu 2025-02-25 10:21:12

盡管這些大模型在過去幾年里發(fā)展迅速，而且很可能會繼續(xù)發(fā)展，但他們在軟件工程方面的技能還不足以取代現(xiàn)實生活中的人，這并不妨礙首席執(zhí)行官們解雇他們的人類程序員，轉(zhuǎn)而支持不成熟的人工智能模型。

2月24日消息，據(jù)外媒報道，OpenAI的研究人員承認，即使是最先進的AI模型仍然無法與人類程序員匹敵，盡管首席執(zhí)行官山姆·奧特曼(Sam?Altman)堅稱，到今年年底，他們將能夠擊敗“低級”的軟件工程師。

在一篇新論文中，該公司的研究人員發(fā)現(xiàn)，即使是前沿模型，或最先進、最具突破邊界的人工智能系統(tǒng)，“仍然無法解決大多數(shù)”編碼任務(wù)。

研究人員使用了一種名為sw-lancer的新開發(fā)基準，該基準基于自由職業(yè)者網(wǎng)站Upwork的1400多個軟件工程任務(wù)。使用這個基準，OpenAI測試了三個大模型，它自己的o1推理模型和旗艦GPT-4o，以及Anthropic的克勞德3.5十四行詩。

具體地說，新的基準評估了大模型對Upwork中的兩種任務(wù)的執(zhí)行情況：單個任務(wù)，涉及解決錯誤并實現(xiàn)對它們的修復(fù)，或者管理任務(wù)，看到模型試圖縮小并做出更高級別的決策。

這些模型在Upwork上承擔(dān)了累積價值數(shù)十萬美元的任務(wù)，但它們只能修復(fù)表面的軟件問題，而無法在更大的項目中找到BUG或找到它們的根本原因。

這篇論文指出，盡管這三位大模型通常能夠“比人類快得多”地操作，但他們也未能把握漏洞的普遍程度或理解它們的背景，“導(dǎo)致解決方案不正確或不夠全面?！?/p>

正如研究人員解釋的那樣，Claude?3.5?Sonnet比兩個OpenAI模型表現(xiàn)得更好，比o1和GPT-40賺得更多。盡管如此，它的大多數(shù)答案都是錯誤的，根據(jù)研究人員的說法，任何模型都需要“更高的可靠性”來信任現(xiàn)實生活中的編碼任務(wù)。

更直白地說，這篇論文似乎表明，盡管這些前沿模型可以快速工作并解決放大任務(wù)，但它們在處理這些任務(wù)方面遠不如人類工程師熟練。

盡管這些大模型在過去幾年里發(fā)展迅速，而且很可能會繼續(xù)發(fā)展，但他們在軟件工程方面的技能還不足以取代現(xiàn)實生活中的人，這并不妨礙首席執(zhí)行官們解雇他們的人類程序員，轉(zhuǎn)而支持不成熟的人工智能模型。

責(zé)任編輯：姜華來源：比特網(wǎng)

大模型 AI 人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="zvnd4"></tt>