偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI編程「反直覺」調(diào)研引300萬圍觀！開發(fā)者堅(jiān)信提速20%，實(shí)測反慢19%

2025-07-14 09:10:00

人工智能新聞

近日，一家非營利性 AI 調(diào)研機(jī)構(gòu)「METR」進(jìn)行了一項(xiàng)隨機(jī)對照實(shí)驗(yàn)，旨在了解 AI 編程工具如何加速經(jīng)驗(yàn)豐富的開源開發(fā)者的工作效率。

隨著大模型的崛起，AI編程領(lǐng)域正在發(fā)生翻天覆地的變化。

各種編程大模型、編程工具涌現(xiàn)，通過自動補(bǔ)全代碼、自動 debug 等實(shí)用的功能為開發(fā)者的日常工作提供極大便利，并在一定程度上提升了開發(fā)效率。

不過，問題來了，AI 編程工具帶來的影響真是如此嗎？

近日，一家非營利性 AI 調(diào)研機(jī)構(gòu)「METR」進(jìn)行了一項(xiàng)隨機(jī)對照實(shí)驗(yàn)，旨在了解 AI 編程工具如何加速經(jīng)驗(yàn)豐富的開源開發(fā)者的工作效率。

結(jié)果卻是非常令人意外：開發(fā)者本來堅(jiān)信使用使用 AI 工具后速度可以提升 20%，但實(shí)際上速度卻比沒有使用 AI 工具時慢了 19%。這一結(jié)論在社交媒體 X 上爆了，閱讀量幾乎要突破 300 萬。

熱度.png

如下圖所示：與專家預(yù)測和開發(fā)者本來的直覺相反，2025 年初的 AI 編程工具將減緩經(jīng)驗(yàn)豐富的開發(fā)者的開發(fā)速度。在本次隨機(jī)對照實(shí)驗(yàn)中，16 位擁有中等 AI 編程經(jīng)驗(yàn)的開發(fā)者完成了 246 項(xiàng)大型復(fù)雜項(xiàng)目的任務(wù)，他們平均擁有 5 年開發(fā)經(jīng)驗(yàn)。

對于這項(xiàng)調(diào)研，網(wǎng)友反應(yīng)不一。有人感同身受，表示贊同。

有人則對 METR 的測量指標(biāo)產(chǎn)生了質(zhì)疑，表示「完成任務(wù)的時間」不能與「生產(chǎn)力」劃等號，并且中等 AI 經(jīng)驗(yàn)與復(fù)雜項(xiàng)目測試同樣是糟糕的設(shè)置。

「應(yīng)該調(diào)研普通人（非開發(fā)者）使用 AI 編寫軟件的速度快了多少」，也有人提出了這樣的建議。

研究動機(jī)

雖然編碼 / 智能體基準(zhǔn)測試已被證明有助于理解 AI 能力，但它們通常為了規(guī)模和效率而犧牲了真實(shí)性 —— 這些任務(wù)自成一體，不需要理解先前的上下文，并且使用算法評估，無法捕捉許多重要的能力。這些特性可能導(dǎo)致基準(zhǔn)測試高估了 AI 的能力。

另一方面，由于基準(zhǔn)測試是在沒有真人實(shí)時交互的情況下運(yùn)行的，模型可能盡管取得了實(shí)質(zhì)性進(jìn)展卻未能完成任務(wù)，比如一些在真實(shí)場景中人類會輕松修復(fù)的小瓶頸?？偟膩碚f，直接將基準(zhǔn)測試分?jǐn)?shù)轉(zhuǎn)化為現(xiàn)實(shí)世界的影響是困難的。

METR 表示，評估 AI 對軟件開發(fā)人員生產(chǎn)力的影響，可以為基準(zhǔn)測試提供補(bǔ)充證據(jù)，有助于了解 AI 對 AI 研發(fā)加速的整體影響。

方法、結(jié)果與原因分析

為了直接測量 AI 工具在軟件開發(fā)中的現(xiàn)實(shí)影響力，METR 招募了 16 位經(jīng)驗(yàn)豐富的開發(fā)者，他們來自大型開源倉庫（平均擁有 22k+star 和 100 萬 + 行代碼），并已貢獻(xiàn)多年。

這些開發(fā)者提供了他們認(rèn)為對倉庫有價值的真實(shí)問題列表（總計(jì) 246 個）—— 即通常屬于他們?nèi)粘９ぷ鞣懂牭?bug 修復(fù)、功能開發(fā)和重構(gòu)任務(wù)。

接下來，METR 隨機(jī)分配每個問題，允許或禁止開發(fā)者在處理該問題時使用 AI。當(dāng)允許使用 AI 時，開發(fā)者可以選擇他們喜歡的任何工具（研究期間主要使用 Cursor Pro 搭配 Claude 3.5/3.7 Sonnet）。

當(dāng)禁止使用時，他們則在沒有生成式 AI 輔助的情況下工作。開發(fā)者在完成任務(wù)（平均每個耗時約兩小時）時錄屏，并自行報告完成所需的全部時間。

當(dāng)然，METR 按每小時 150 美元（約合人民幣 1080 元 / 小時）的標(biāo)準(zhǔn)向開發(fā)者支付參與研究的報酬。

結(jié)果顯示：當(dāng)開發(fā)者被允許使用 AI 工具時，他們解決問題所需的時間反而增加了 19%—— 這一顯著的效率下降與專家預(yù)測以及開發(fā)者的感知背道而馳。

這種感知與現(xiàn)實(shí)之間的差距令人震驚：開發(fā)者預(yù)期 AI 能將其速度提升 24%，即使在經(jīng)歷了效率下降之后，他們?nèi)匀幌嘈?AI 可以為他們提速 20%。

下文展示了開發(fā)者預(yù)測的平均時間和實(shí)際觀察到的實(shí)現(xiàn)時間。我們可以清晰地看到，當(dāng)開發(fā)者被允許使用 AI 工具時，他們花費(fèi)的時間明顯更長。

當(dāng)允許使用 AI 時，開發(fā)者在主動編碼和查找信息上的時間減少了，取而代之的是花更多時間撰寫提示詞、等待或?qū)彶?AI 輸出，以及處于空閑狀態(tài)。METR 發(fā)現(xiàn)，開發(fā)進(jìn)度的放緩并不是單一原因，而是由多種因素共同導(dǎo)致的。

為了更好地理解這些因素，METR 考察了實(shí)驗(yàn)環(huán)境中的 20 項(xiàng)屬性，發(fā)現(xiàn)其中有 5 項(xiàng)很可能是造成開發(fā)速度放緩的原因，另外有 8 項(xiàng)則表現(xiàn)出混合或不明確的影響。

過程中，METR 排除了許多實(shí)驗(yàn)干擾因素，比如開發(fā)者使用了前沿模型、遵守了處理分配規(guī)則、沒有選擇性地放棄問題（例如放棄困難的不使用 AI 任務(wù)從而降低不使用 AI 組的平均難度），并且在使用和不使用 AI 的情況下都提交了質(zhì)量相近的 PR（Pull Request）。

結(jié)果發(fā)現(xiàn)：無論是采用不同的結(jié)果指標(biāo)、估計(jì)方法，還是對數(shù)據(jù)進(jìn)行各種子集 / 子分析，開發(fā)速度的放緩現(xiàn)象依然存在。

更詳細(xì)的調(diào)研結(jié)果請參考原論文：

論文標(biāo)題：Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
論文地址：https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf

局限性與未來展望

此次調(diào)研得出了兩個重要結(jié)論，分別是：

在某些重要場景下，近期的 AI 工具有可能并未提升生產(chǎn)力，甚至可能導(dǎo)致效率下降。
關(guān)于效率提升的自我報告并不可靠 —— 要真正理解 AI 對生產(chǎn)力的影響，我們需要真實(shí)環(huán)境中的實(shí)驗(yàn)數(shù)據(jù)。

不過，METR 也表示，他們的設(shè)置并沒有代表所有（甚至可能是大多數(shù)）軟件工程，同時聲明當(dāng)前的模型也能更有效地利用起來，未來的模型可能會變得更好。

當(dāng)然，沒有哪種測量方法是完美的 —— 人們希望 AI 系統(tǒng)完成的任務(wù)是多樣、復(fù)雜且難以嚴(yán)格研究的。各種方法之間存在有意義的權(quán)衡，繼續(xù)開發(fā)和使用多樣化的評估方法以更全面地描繪 AI 的現(xiàn)狀和未來發(fā)展方向，將至關(guān)重要。

未來，METR 期待運(yùn)行類似的 AI 調(diào)研，以追蹤 AI 帶來的加速（或減速）趨勢，這類評估方法可能比基準(zhǔn)測試更難被「玩弄」。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AU 模型編程

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<del id="0d4fi"><option id="0d4fi"></option></del>

<nobr id="0d4fi"><optgroup id="0d4fi"></optgroup></nobr>

<em id="0d4fi"><b id="0d4fi"></b></em>