OpenAI研究人員發(fā)現(xiàn),AI無法解決大多數(shù)編程問題
2月24日消息,據外媒報道,OpenAI的研究人員承認,即使是最先進的AI模型仍然無法與人類程序員匹敵,盡管首席執(zhí)行官山姆·奧特曼(Sam?Altman)堅稱,到今年年底,他們將能夠擊敗“低級”的軟件工程師。
在一篇新論文中,該公司的研究人員發(fā)現(xiàn),即使是前沿模型,或最先進、最具突破邊界的人工智能系統(tǒng),“仍然無法解決大多數(shù)”編碼任務。
研究人員使用了一種名為sw-lancer的新開發(fā)基準,該基準基于自由職業(yè)者網站Upwork的1400多個軟件工程任務。使用這個基準,OpenAI測試了三個大模型,它自己的o1推理模型和旗艦GPT-4o,以及Anthropic的克勞德3.5十四行詩。
具體地說,新的基準評估了大模型對Upwork中的兩種任務的執(zhí)行情況:單個任務,涉及解決錯誤并實現(xiàn)對它們的修復,或者管理任務,看到模型試圖縮小并做出更高級別的決策。
這些模型在Upwork上承擔了累積價值數(shù)十萬美元的任務,但它們只能修復表面的軟件問題,而無法在更大的項目中找到BUG或找到它們的根本原因。
這篇論文指出,盡管這三位大模型通常能夠“比人類快得多”地操作,但他們也未能把握漏洞的普遍程度或理解它們的背景,“導致解決方案不正確或不夠全面?!?/p>
正如研究人員解釋的那樣,Claude?3.5?Sonnet比兩個OpenAI模型表現(xiàn)得更好,比o1和GPT-40賺得更多。盡管如此,它的大多數(shù)答案都是錯誤的,根據研究人員的說法,任何模型都需要“更高的可靠性”來信任現(xiàn)實生活中的編碼任務。
更直白地說,這篇論文似乎表明,盡管這些前沿模型可以快速工作并解決放大任務,但它們在處理這些任務方面遠不如人類工程師熟練。
盡管這些大模型在過去幾年里發(fā)展迅速,而且很可能會繼續(xù)發(fā)展,但他們在軟件工程方面的技能還不足以取代現(xiàn)實生活中的人,這并不妨礙首席執(zhí)行官們解雇他們的人類程序員,轉而支持不成熟的人工智能模型。