偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

OpenAI研究人員發(fā)現(xiàn),AI無法解決大多數(shù)編程問題

人工智能
盡管這些大模型在過去幾年里發(fā)展迅速,而且很可能會繼續(xù)發(fā)展,但他們在軟件工程方面的技能還不足以取代現(xiàn)實生活中的人,這并不妨礙首席執(zhí)行官們解雇他們的人類程序員,轉而支持不成熟的人工智能模型。

2月24日消息,據外媒報道,OpenAI的研究人員承認,即使是最先進的AI模型仍然無法與人類程序員匹敵,盡管首席執(zhí)行官山姆·奧特曼(Sam?Altman)堅稱,到今年年底,他們將能夠擊敗“低級”的軟件工程師。

在一篇新論文中,該公司的研究人員發(fā)現(xiàn),即使是前沿模型,或最先進、最具突破邊界的人工智能系統(tǒng),“仍然無法解決大多數(shù)”編碼任務。

研究人員使用了一種名為sw-lancer的新開發(fā)基準,該基準基于自由職業(yè)者網站Upwork的1400多個軟件工程任務。使用這個基準,OpenAI測試了三個大模型,它自己的o1推理模型和旗艦GPT-4o,以及Anthropic的克勞德3.5十四行詩。

具體地說,新的基準評估了大模型對Upwork中的兩種任務的執(zhí)行情況:單個任務,涉及解決錯誤并實現(xiàn)對它們的修復,或者管理任務,看到模型試圖縮小并做出更高級別的決策。

這些模型在Upwork上承擔了累積價值數(shù)十萬美元的任務,但它們只能修復表面的軟件問題,而無法在更大的項目中找到BUG或找到它們的根本原因。

這篇論文指出,盡管這三位大模型通常能夠“比人類快得多”地操作,但他們也未能把握漏洞的普遍程度或理解它們的背景,“導致解決方案不正確或不夠全面?!?/p>

正如研究人員解釋的那樣,Claude?3.5?Sonnet比兩個OpenAI模型表現(xiàn)得更好,比o1和GPT-40賺得更多。盡管如此,它的大多數(shù)答案都是錯誤的,根據研究人員的說法,任何模型都需要“更高的可靠性”來信任現(xiàn)實生活中的編碼任務。

更直白地說,這篇論文似乎表明,盡管這些前沿模型可以快速工作并解決放大任務,但它們在處理這些任務方面遠不如人類工程師熟練。

盡管這些大模型在過去幾年里發(fā)展迅速,而且很可能會繼續(xù)發(fā)展,但他們在軟件工程方面的技能還不足以取代現(xiàn)實生活中的人,這并不妨礙首席執(zhí)行官們解雇他們的人類程序員,轉而支持不成熟的人工智能模型。

責任編輯:姜華 來源: 比特網
相關推薦

2012-12-19 10:07:18

2015-02-13 10:51:46

Java

2020-09-15 12:45:17

智慧城市數(shù)據城市

2020-07-05 08:01:44

SOC威脅檢測漏洞

2012-03-23 09:28:14

2021-08-02 15:23:16

Windows 10Windows微軟

2009-07-14 15:39:34

Swing大多數(shù)控件

2014-12-25 09:51:32

2019-10-09 10:06:22

網絡大數(shù)據物聯(lián)網

2024-03-28 08:00:00

人工智能多模態(tài)語言模型

2025-03-20 13:25:36

2023-02-16 20:24:07

OpenAI谷歌ChatGPT

2013-06-08 09:23:20

2021-02-16 10:02:36

惡意擴展安全插件網絡攻擊

2013-03-28 10:34:29

2014-01-02 10:34:54

設計設計師

2024-07-04 15:47:28

2025-02-06 07:26:35

2023-07-12 07:56:13

CSS規(guī)則元素

2024-04-07 08:08:40

OpenAI模型工具
點贊
收藏

51CTO技術棧公眾號