AI編程「反直覺」調(diào)研引300萬圍觀!開發(fā)者堅(jiān)信提速20%,實(shí)測反慢19%
隨著大模型的崛起,AI編程領(lǐng)域正在發(fā)生翻天覆地的變化。
各種編程大模型、編程工具涌現(xiàn),通過自動補(bǔ)全代碼、自動 debug 等實(shí)用的功能為開發(fā)者的日常工作提供極大便利,并在一定程度上提升了開發(fā)效率。
不過,問題來了,AI 編程工具帶來的影響真是如此嗎?
近日,一家非營利性 AI 調(diào)研機(jī)構(gòu)「METR」進(jìn)行了一項(xiàng)隨機(jī)對照實(shí)驗(yàn),旨在了解 AI 編程工具如何加速經(jīng)驗(yàn)豐富的開源開發(fā)者的工作效率。
結(jié)果卻是非常令人意外:開發(fā)者本來堅(jiān)信使用使用 AI 工具后速度可以提升 20%,但實(shí)際上速度卻比沒有使用 AI 工具時慢了 19%。這一結(jié)論在社交媒體 X 上爆了,閱讀量幾乎要突破 300 萬。

如下圖所示:與專家預(yù)測和開發(fā)者本來的直覺相反,2025 年初的 AI 編程工具將減緩經(jīng)驗(yàn)豐富的開發(fā)者的開發(fā)速度。在本次隨機(jī)對照實(shí)驗(yàn)中,16 位擁有中等 AI 編程經(jīng)驗(yàn)的開發(fā)者完成了 246 項(xiàng)大型復(fù)雜項(xiàng)目的任務(wù),他們平均擁有 5 年開發(fā)經(jīng)驗(yàn)。

對于這項(xiàng)調(diào)研,網(wǎng)友反應(yīng)不一。有人感同身受,表示贊同。

有人則對 METR 的測量指標(biāo)產(chǎn)生了質(zhì)疑,表示「完成任務(wù)的時間」不能與「生產(chǎn)力」劃等號,并且中等 AI 經(jīng)驗(yàn)與復(fù)雜項(xiàng)目測試同樣是糟糕的設(shè)置。

「應(yīng)該調(diào)研普通人(非開發(fā)者)使用 AI 編寫軟件的速度快了多少」,也有人提出了這樣的建議。

研究動機(jī)
雖然編碼 / 智能體基準(zhǔn)測試已被證明有助于理解 AI 能力,但它們通常為了規(guī)模和效率而犧牲了真實(shí)性 —— 這些任務(wù)自成一體,不需要理解先前的上下文,并且使用算法評估,無法捕捉許多重要的能力。這些特性可能導(dǎo)致基準(zhǔn)測試高估了 AI 的能力。
另一方面,由于基準(zhǔn)測試是在沒有真人實(shí)時交互的情況下運(yùn)行的,模型可能盡管取得了實(shí)質(zhì)性進(jìn)展卻未能完成任務(wù),比如一些在真實(shí)場景中人類會輕松修復(fù)的小瓶頸??偟膩碚f,直接將基準(zhǔn)測試分?jǐn)?shù)轉(zhuǎn)化為現(xiàn)實(shí)世界的影響是困難的。
METR 表示,評估 AI 對軟件開發(fā)人員生產(chǎn)力的影響,可以為基準(zhǔn)測試提供補(bǔ)充證據(jù),有助于了解 AI 對 AI 研發(fā)加速的整體影響。
方法、結(jié)果與原因分析
為了直接測量 AI 工具在軟件開發(fā)中的現(xiàn)實(shí)影響力,METR 招募了 16 位經(jīng)驗(yàn)豐富的開發(fā)者,他們來自大型開源倉庫(平均擁有 22k+star 和 100 萬 + 行代碼),并已貢獻(xiàn)多年。
這些開發(fā)者提供了他們認(rèn)為對倉庫有價值的真實(shí)問題列表(總計(jì) 246 個)—— 即通常屬于他們?nèi)粘9ぷ鞣懂牭?bug 修復(fù)、功能開發(fā)和重構(gòu)任務(wù)。
接下來,METR 隨機(jī)分配每個問題,允許或禁止開發(fā)者在處理該問題時使用 AI。當(dāng)允許使用 AI 時,開發(fā)者可以選擇他們喜歡的任何工具(研究期間主要使用 Cursor Pro 搭配 Claude 3.5/3.7 Sonnet)。
當(dāng)禁止使用時,他們則在沒有生成式 AI 輔助的情況下工作。開發(fā)者在完成任務(wù)(平均每個耗時約兩小時)時錄屏,并自行報告完成所需的全部時間。
當(dāng)然,METR 按每小時 150 美元(約合人民幣 1080 元 / 小時)的標(biāo)準(zhǔn)向開發(fā)者支付參與研究的報酬。

結(jié)果顯示:當(dāng)開發(fā)者被允許使用 AI 工具時,他們解決問題所需的時間反而增加了 19%—— 這一顯著的效率下降與專家預(yù)測以及開發(fā)者的感知背道而馳。
這種感知與現(xiàn)實(shí)之間的差距令人震驚:開發(fā)者預(yù)期 AI 能將其速度提升 24%,即使在經(jīng)歷了效率下降之后,他們?nèi)匀幌嘈?AI 可以為他們提速 20%。
下文展示了開發(fā)者預(yù)測的平均時間和實(shí)際觀察到的實(shí)現(xiàn)時間。我們可以清晰地看到,當(dāng)開發(fā)者被允許使用 AI 工具時,他們花費(fèi)的時間明顯更長。

當(dāng)允許使用 AI 時,開發(fā)者在主動編碼和查找信息上的時間減少了,取而代之的是花更多時間撰寫提示詞、等待或?qū)彶?AI 輸出,以及處于空閑狀態(tài)。METR 發(fā)現(xiàn),開發(fā)進(jìn)度的放緩并不是單一原因,而是由多種因素共同導(dǎo)致的。

為了更好地理解這些因素,METR 考察了實(shí)驗(yàn)環(huán)境中的 20 項(xiàng)屬性,發(fā)現(xiàn)其中有 5 項(xiàng)很可能是造成開發(fā)速度放緩的原因,另外有 8 項(xiàng)則表現(xiàn)出混合或不明確的影響。
過程中,METR 排除了許多實(shí)驗(yàn)干擾因素,比如開發(fā)者使用了前沿模型、遵守了處理分配規(guī)則、沒有選擇性地放棄問題(例如放棄困難的不使用 AI 任務(wù)從而降低不使用 AI 組的平均難度),并且在使用和不使用 AI 的情況下都提交了質(zhì)量相近的 PR(Pull Request)。
結(jié)果發(fā)現(xiàn):無論是采用不同的結(jié)果指標(biāo)、估計(jì)方法,還是對數(shù)據(jù)進(jìn)行各種子集 / 子分析,開發(fā)速度的放緩現(xiàn)象依然存在。

更詳細(xì)的調(diào)研結(jié)果請參考原論文:

- 論文標(biāo)題:Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
- 論文地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf
局限性與未來展望
此次調(diào)研得出了兩個重要結(jié)論,分別是:
- 在某些重要場景下,近期的 AI 工具有可能并未提升生產(chǎn)力,甚至可能導(dǎo)致效率下降。
- 關(guān)于效率提升的自我報告并不可靠 —— 要真正理解 AI 對生產(chǎn)力的影響,我們需要真實(shí)環(huán)境中的實(shí)驗(yàn)數(shù)據(jù)。
不過,METR 也表示,他們的設(shè)置并沒有代表所有(甚至可能是大多數(shù))軟件工程,同時聲明當(dāng)前的模型也能更有效地利用起來,未來的模型可能會變得更好。

當(dāng)然,沒有哪種測量方法是完美的 —— 人們希望 AI 系統(tǒng)完成的任務(wù)是多樣、復(fù)雜且難以嚴(yán)格研究的。各種方法之間存在有意義的權(quán)衡,繼續(xù)開發(fā)和使用多樣化的評估方法以更全面地描繪 AI 的現(xiàn)狀和未來發(fā)展方向,將至關(guān)重要。
未來,METR 期待運(yùn)行類似的 AI 調(diào)研,以追蹤 AI 帶來的加速(或減速)趨勢,這類評估方法可能比基準(zhǔn)測試更難被「玩弄」。




























