偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI編程「反直覺」調(diào)研引300萬圍觀!開發(fā)者堅(jiān)信提速20%,實(shí)測反慢19%

人工智能 新聞
近日,一家非營利性 AI 調(diào)研機(jī)構(gòu)「METR」進(jìn)行了一項(xiàng)隨機(jī)對照實(shí)驗(yàn),旨在了解 AI 編程工具如何加速經(jīng)驗(yàn)豐富的開源開發(fā)者的工作效率。

隨著大模型的崛起,AI編程領(lǐng)域正在發(fā)生翻天覆地的變化。

各種編程大模型、編程工具涌現(xiàn),通過自動補(bǔ)全代碼、自動 debug 等實(shí)用的功能為開發(fā)者的日常工作提供極大便利,并在一定程度上提升了開發(fā)效率。

不過,問題來了,AI 編程工具帶來的影響真是如此嗎?

近日,一家非營利性 AI 調(diào)研機(jī)構(gòu)「METR」進(jìn)行了一項(xiàng)隨機(jī)對照實(shí)驗(yàn),旨在了解 AI 編程工具如何加速經(jīng)驗(yàn)豐富的開源開發(fā)者的工作效率。

結(jié)果卻是非常令人意外:開發(fā)者本來堅(jiān)信使用使用 AI 工具后速度可以提升 20%,但實(shí)際上速度卻比沒有使用 AI 工具時慢了 19%。這一結(jié)論在社交媒體 X 上爆了,閱讀量幾乎要突破 300 萬。

熱度.png

如下圖所示:與專家預(yù)測和開發(fā)者本來的直覺相反,2025 年初的 AI 編程工具將減緩經(jīng)驗(yàn)豐富的開發(fā)者的開發(fā)速度。在本次隨機(jī)對照實(shí)驗(yàn)中,16 位擁有中等 AI 編程經(jīng)驗(yàn)的開發(fā)者完成了 246 項(xiàng)大型復(fù)雜項(xiàng)目的任務(wù),他們平均擁有 5 年開發(fā)經(jīng)驗(yàn)。

image.png

對于這項(xiàng)調(diào)研,網(wǎng)友反應(yīng)不一。有人感同身受,表示贊同。

image.png

有人則對 METR 的測量指標(biāo)產(chǎn)生了質(zhì)疑,表示「完成任務(wù)的時間」不能與「生產(chǎn)力」劃等號,并且中等 AI 經(jīng)驗(yàn)與復(fù)雜項(xiàng)目測試同樣是糟糕的設(shè)置。

image.png

「應(yīng)該調(diào)研普通人(非開發(fā)者)使用 AI 編寫軟件的速度快了多少」,也有人提出了這樣的建議。

image.png

研究動機(jī)

雖然編碼 / 智能體基準(zhǔn)測試已被證明有助于理解 AI 能力,但它們通常為了規(guī)模和效率而犧牲了真實(shí)性 —— 這些任務(wù)自成一體,不需要理解先前的上下文,并且使用算法評估,無法捕捉許多重要的能力。這些特性可能導(dǎo)致基準(zhǔn)測試高估了 AI 的能力。

另一方面,由于基準(zhǔn)測試是在沒有真人實(shí)時交互的情況下運(yùn)行的,模型可能盡管取得了實(shí)質(zhì)性進(jìn)展卻未能完成任務(wù),比如一些在真實(shí)場景中人類會輕松修復(fù)的小瓶頸??偟膩碚f,直接將基準(zhǔn)測試分?jǐn)?shù)轉(zhuǎn)化為現(xiàn)實(shí)世界的影響是困難的。

METR 表示,評估 AI 對軟件開發(fā)人員生產(chǎn)力的影響,可以為基準(zhǔn)測試提供補(bǔ)充證據(jù),有助于了解 AI 對 AI 研發(fā)加速的整體影響。

方法、結(jié)果與原因分析

為了直接測量 AI 工具在軟件開發(fā)中的現(xiàn)實(shí)影響力,METR 招募了 16 位經(jīng)驗(yàn)豐富的開發(fā)者,他們來自大型開源倉庫(平均擁有 22k+star 和 100 萬 + 行代碼),并已貢獻(xiàn)多年。

這些開發(fā)者提供了他們認(rèn)為對倉庫有價值的真實(shí)問題列表(總計(jì) 246 個)—— 即通常屬于他們?nèi)粘9ぷ鞣懂牭?bug 修復(fù)、功能開發(fā)和重構(gòu)任務(wù)。

接下來,METR 隨機(jī)分配每個問題,允許或禁止開發(fā)者在處理該問題時使用 AI。當(dāng)允許使用 AI 時,開發(fā)者可以選擇他們喜歡的任何工具(研究期間主要使用 Cursor Pro 搭配 Claude 3.5/3.7 Sonnet)。

當(dāng)禁止使用時,他們則在沒有生成式 AI 輔助的情況下工作。開發(fā)者在完成任務(wù)(平均每個耗時約兩小時)時錄屏,并自行報告完成所需的全部時間。

當(dāng)然,METR 按每小時 150 美元(約合人民幣 1080 元 / 小時)的標(biāo)準(zhǔn)向開發(fā)者支付參與研究的報酬。

image.png

結(jié)果顯示:當(dāng)開發(fā)者被允許使用 AI 工具時,他們解決問題所需的時間反而增加了 19%—— 這一顯著的效率下降與專家預(yù)測以及開發(fā)者的感知背道而馳。

這種感知與現(xiàn)實(shí)之間的差距令人震驚:開發(fā)者預(yù)期 AI 能將其速度提升 24%,即使在經(jīng)歷了效率下降之后,他們?nèi)匀幌嘈?AI 可以為他們提速 20%。

下文展示了開發(fā)者預(yù)測的平均時間和實(shí)際觀察到的實(shí)現(xiàn)時間。我們可以清晰地看到,當(dāng)開發(fā)者被允許使用 AI 工具時,他們花費(fèi)的時間明顯更長。

image.png

當(dāng)允許使用 AI 時,開發(fā)者在主動編碼和查找信息上的時間減少了,取而代之的是花更多時間撰寫提示詞、等待或?qū)彶?AI 輸出,以及處于空閑狀態(tài)。METR 發(fā)現(xiàn),開發(fā)進(jìn)度的放緩并不是單一原因,而是由多種因素共同導(dǎo)致的。

image.png

為了更好地理解這些因素,METR 考察了實(shí)驗(yàn)環(huán)境中的 20 項(xiàng)屬性,發(fā)現(xiàn)其中有 5 項(xiàng)很可能是造成開發(fā)速度放緩的原因,另外有 8 項(xiàng)則表現(xiàn)出混合或不明確的影響。

過程中,METR 排除了許多實(shí)驗(yàn)干擾因素,比如開發(fā)者使用了前沿模型、遵守了處理分配規(guī)則、沒有選擇性地放棄問題(例如放棄困難的不使用 AI 任務(wù)從而降低不使用 AI 組的平均難度),并且在使用和不使用 AI 的情況下都提交了質(zhì)量相近的 PR(Pull Request)。

結(jié)果發(fā)現(xiàn):無論是采用不同的結(jié)果指標(biāo)、估計(jì)方法,還是對數(shù)據(jù)進(jìn)行各種子集 / 子分析,開發(fā)速度的放緩現(xiàn)象依然存在。

image.png

更詳細(xì)的調(diào)研結(jié)果請參考原論文:

image.png

  • 論文標(biāo)題:Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity 
  • 論文地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

局限性與未來展望

此次調(diào)研得出了兩個重要結(jié)論,分別是:

  • 在某些重要場景下,近期的 AI 工具有可能并未提升生產(chǎn)力,甚至可能導(dǎo)致效率下降。
  • 關(guān)于效率提升的自我報告并不可靠 —— 要真正理解 AI 對生產(chǎn)力的影響,我們需要真實(shí)環(huán)境中的實(shí)驗(yàn)數(shù)據(jù)。

不過,METR 也表示,他們的設(shè)置并沒有代表所有(甚至可能是大多數(shù))軟件工程,同時聲明當(dāng)前的模型也能更有效地利用起來,未來的模型可能會變得更好。

image.png

當(dāng)然,沒有哪種測量方法是完美的 —— 人們希望 AI 系統(tǒng)完成的任務(wù)是多樣、復(fù)雜且難以嚴(yán)格研究的。各種方法之間存在有意義的權(quán)衡,繼續(xù)開發(fā)和使用多樣化的評估方法以更全面地描繪 AI 的現(xiàn)狀和未來發(fā)展方向,將至關(guān)重要。

未來,METR 期待運(yùn)行類似的 AI 調(diào)研,以追蹤 AI 帶來的加速(或減速)趨勢,這類評估方法可能比基準(zhǔn)測試更難被「玩弄」。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-07-14 14:39:17

AI代碼開發(fā)者

2013-10-24 21:10:27

阿里云開發(fā)者大賽

2023-11-27 13:56:00

模型數(shù)據(jù)

2014-08-06 12:29:33

騰訊開放平臺市場

2010-07-23 14:51:58

iPhone編程Android編程移動開發(fā)者

2025-07-31 02:11:00

2019-08-16 10:55:37

開發(fā)者技能AI

2025-02-24 08:36:00

2011-12-08 14:50:47

Web App

2025-09-05 09:05:00

2012-11-08 14:10:39

2024-08-28 14:27:22

2024-06-26 14:49:07

模型訓(xùn)練

2024-05-09 08:50:39

React編譯器工具

2018-06-03 08:00:24

AI開發(fā)深度學(xué)習(xí)語言

2015-05-12 14:05:49

谷歌開發(fā)者

2024-01-11 16:59:21

OpenAI

2013-03-20 14:26:52

獨(dú)立開發(fā)者手機(jī)游戲手游

2025-06-30 11:53:53

2019-01-02 08:00:00

軟件工程師軟件開發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號