
譯者 | 核子可樂(lè)
審校 | 重樓
Claude 4甫一亮相,市場(chǎng)就被其強(qiáng)大的推理和編程能力折服。但在連續(xù)使用數(shù)月之后,我意識(shí)到大模型真正的革命不在于生成更好的代碼片段,而是其中蘊(yùn)藏的自主性潛力。
很多人更多關(guān)注AI編程的語(yǔ)法正確性、基準(zhǔn)測(cè)試得分和代碼有效率,但我在對(duì)Claude 4的實(shí)際測(cè)試中體會(huì)到:能夠全面理解開發(fā)目標(biāo)、持續(xù)尋求解決方案并自主克服障礙的AI系統(tǒng)正在出現(xiàn)。
不同于常規(guī)的基準(zhǔn)測(cè)試,我通過(guò)一項(xiàng)真實(shí)開發(fā)任務(wù)來(lái)評(píng)估Claude 4的自主能力:構(gòu)建一款與OpenAI API集成的OmniFocus功能插件。這項(xiàng)任務(wù)不僅需要編寫代碼,還要求理解文檔、處理錯(cuò)誤、提供連續(xù)的用戶體驗(yàn)并切實(shí)解決問(wèn)題。這里考察的不只是語(yǔ)法正確性,更需要主動(dòng)探索與持續(xù)推進(jìn)。
正是這種對(duì)自主能力的感受,讓我意識(shí)到開發(fā)者與AI系統(tǒng)的協(xié)作方式即將徹底改變。
三種模型,三種自主方式
Opus 4:不止于代碼生成,走向合作開發(fā)
在使用Opus 4的過(guò)程中,我意識(shí)到與之前擅長(zhǎng)根據(jù)特定指令生成代碼片段的AI系統(tǒng)不同,Opus 4表現(xiàn)出真正的開發(fā)自主性——獨(dú)立推動(dòng)開發(fā)進(jìn)程,最終找到可行的解決方案。
在遇到數(shù)據(jù)庫(kù)錯(cuò)誤時(shí),Opus 4不僅修復(fù)了相應(yīng)代碼,還主動(dòng)給出根本原因:
“我發(fā)現(xiàn)問(wèn)題了——OmniFocus插件需要使用Preferences API進(jìn)行持久存儲(chǔ),而非直接訪問(wèn)數(shù)據(jù)庫(kù)。我可以協(xié)助解決這個(gè)問(wèn)題。”
之后它用OmniFocus的Preferences API實(shí)現(xiàn)了一套完整的解決方案。
這就是代碼生成和智能體間的核心差異。代碼生成器只是輸出代碼形式的文本,而智能體可以理解開發(fā)環(huán)境、發(fā)現(xiàn)問(wèn)題,并在更廣泛的應(yīng)用需求框架內(nèi)解決現(xiàn)實(shí)問(wèn)題。
最讓我印象深刻的,則是Opus 4如何在需求之外自主增強(qiáng)以下功能:
- 用于API設(shè)置的配置界面;
- 用于調(diào)試的詳細(xì)錯(cuò)誤消息;
- 用于防止無(wú)效請(qǐng)求的輸入驗(yàn)證;
- API調(diào)用期間的進(jìn)度指示器。
Opus 4對(duì)于良好開發(fā)者體驗(yàn)明顯有自己的理解,這是傳統(tǒng)代碼生成工具所不可能實(shí)現(xiàn)的。
Sonnet 4:謹(jǐn)慎的協(xié)作者
Sonnet 4同樣展現(xiàn)出強(qiáng)大能力,但需要指引才能進(jìn)一步發(fā)揮潛力。它的交互感受像是一位能力出眾但謹(jǐn)慎的開發(fā)者,需要我定期檢查。它對(duì)任務(wù)需求的理解效果不錯(cuò),但在API集成中犯了一些小錯(cuò)誤。對(duì)此,Sonnet 4提出了一些需要澄清的問(wèn)題:
“我注意到OmniFocus采取一種特殊的HTTP請(qǐng)求處理方式,能否向我提供它的URL獲取功能說(shuō)明文檔?”
在收到提示后,它成功修復(fù)了問(wèn)題,不過(guò)仍經(jīng)歷了七到八次迭代才給出完全可行的解決方案。
有趣的是,Sonnet 4曾做出意想不到的判斷——在與OpenAI集成遇到困難時(shí),它建議暫時(shí)移除該功能,轉(zhuǎn)而使用本地分析。這體現(xiàn)出它完成任務(wù)的強(qiáng)烈意愿,甚至不惜為此調(diào)整對(duì)原始需求的遵循。
體驗(yàn)Sonnet 3.7:響應(yīng)式工具
Sonnet 3.7給我的感覺(jué)像是一款編程助手。它需要明確的指令,且很難與我正在構(gòu)建的內(nèi)容保持更廣泛的上下文關(guān)聯(lián)。
典型的交流過(guò)程如下:
- 我:“此插件需要將任務(wù)轉(zhuǎn)換為TaskPaper格式,再將結(jié)果發(fā)送至OpenAI?!?/li>
- Sonnet 3.7: “我將建立一條將任務(wù)轉(zhuǎn)換為TaskPaper格式的函數(shù)?!?[實(shí)現(xiàn)基本功能,但未提供錯(cuò)誤處理。]
- 我:“現(xiàn)在我們需要實(shí)現(xiàn)Open API集成?!?/li>
- Sonnet 3.7: [實(shí)現(xiàn)基本API調(diào)用,但未提供錯(cuò)誤處理或用戶反饋機(jī)制
- 在遇到錯(cuò)誤時(shí),Sonnet 3.7也很難獨(dú)立完成錯(cuò)誤診斷:
- 我:“我收到「文件為目錄」的錯(cuò)誤?!?/li>
- Sonnet 3.7: “很奇怪,但提供完整的錯(cuò)誤信息嗎?”
- [我給出錯(cuò)誤詳情。]
- Sonnet 3.7: “這可能與文件路徑有關(guān)。我來(lái)檢查一下插件的保存位置?!?/li>
經(jīng)過(guò)10多次交互后,我仍未得到功能完備的插件成果。
智能體光譜:不止于高質(zhì)量代碼
AI編程系統(tǒng)間的差異,已經(jīng)不只體現(xiàn)在其生成正確代碼的能力,而更多表現(xiàn)為智能體水平——即在極少指導(dǎo)下理解并實(shí)現(xiàn)開發(fā)目標(biāo)的能力。
根據(jù)我的測(cè)試,我整理出以下智能體光譜:
- 代碼生成器:根據(jù)特定提示詞生成有效代碼,但缺乏持久性和上下文理解能力。
- 響應(yīng)式助手:生成可用代碼,但在開發(fā)各階段須明確指引,專注于即時(shí)指令而非整體目標(biāo)。
- 協(xié)作型智能體:擁有較均衡的指令執(zhí)行與主動(dòng)性水平,可在定期指引下半自主工作,但可能需要隨時(shí)調(diào)整方向。
- 開發(fā)合作伙伴:將開發(fā)目標(biāo)內(nèi)化并堅(jiān)持朝著目標(biāo)努力,無(wú)需明確指引即可主動(dòng)識(shí)別并解決問(wèn)題。
由此可見(jiàn),對(duì)AI編程系統(tǒng)的評(píng)估方式將發(fā)生徹底轉(zhuǎn)變——不只是代碼質(zhì)量,而是其在實(shí)際開發(fā)環(huán)境中自主解決問(wèn)題的能力。
對(duì)開發(fā)實(shí)踐有何影響?
具備智能體水平的AI系統(tǒng)對(duì)于開發(fā)工作流程有著深遠(yuǎn)影響:
從微指令到開發(fā)目標(biāo)
代理式AI系統(tǒng)的有效協(xié)作,標(biāo)志著從分步提示轉(zhuǎn)化為更高層次的開發(fā)目標(biāo)和背景。我給Opus 4的指令如下:
“構(gòu)建一款插件,將OmniFocus任務(wù)發(fā)送給OpenAI進(jìn)行分析和匯總。此插件應(yīng)可優(yōu)雅處理錯(cuò)誤并提供良好的用戶體驗(yàn)?!?/p>
只需這種宏觀指引,它就能構(gòu)建起完整的解決方案——早期代碼生成系統(tǒng)則完全不具備此等能力。
超越token計(jì)數(shù):一種新的經(jīng)濟(jì)模式
Claude 4模型的智能體模式為成本效益分析開辟了新的維度。雖然Opus 4的單token成本更高(輸入/輸出分別為15/75美元,Sonnet 4則為3/15美元),但其自主尋求解決方案的能力顯著減少了實(shí)際交互次數(shù)。
Opus 4需要3到4次交互的任務(wù),在Sonnet 3.7上往往需要10次以上,效率的提升抵消了相對(duì)更高的每token成本。更重要的是,這節(jié)約了開發(fā)者的時(shí)間和認(rèn)知負(fù)擔(dān),大大改善了工作體驗(yàn)。
調(diào)整開發(fā)流程,適應(yīng)AI智能體
隨著AI系統(tǒng)展現(xiàn)出真正的智能體能力,開發(fā)流程也將隨之演變。也許未來(lái)的AI系統(tǒng)不僅能生成代碼,還能處理實(shí)施規(guī)劃、錯(cuò)誤診斷和質(zhì)量保證,確保開發(fā)者集中精力應(yīng)對(duì):
- 架構(gòu)與系統(tǒng)設(shè)計(jì);
- 目標(biāo)與質(zhì)量標(biāo)準(zhǔn)制定;
- 對(duì)AI生成方案進(jìn)行批判性評(píng)估;
- 軟件開發(fā)的人性化與倫理問(wèn)題。
AI并不是要取代開發(fā)者,而是幫助開發(fā)者邁向更高層次的指導(dǎo)和監(jiān)督角色。
未來(lái)之路:超越現(xiàn)有一切
AI智能體的快速發(fā)展呈現(xiàn)出以下幾大趨勢(shì):
- 智能體專用開發(fā)系統(tǒng):未來(lái)的AI系統(tǒng)可能專門針對(duì)開發(fā)需求而生,為不同開發(fā)領(lǐng)域建立專門的合作伙伴。
- 新的協(xié)作界面:現(xiàn)有聊天界面尚未針對(duì)開發(fā)協(xié)作做出優(yōu)化。未來(lái)AI系統(tǒng)或?qū)碛懈鼜?qiáng)調(diào)其自主性的工具,可探索代碼庫(kù)、運(yùn)行測(cè)試并提出一致的解決方案。
- 持續(xù)發(fā)展的評(píng)估框架:智能體的成熟要求以新的方法評(píng)估AI系統(tǒng),更多關(guān)注其理解和實(shí)現(xiàn)開發(fā)目標(biāo)的能力。
- 組織適應(yīng):開發(fā)團(tuán)隊(duì)需要重新審視如何整合AI智能體,創(chuàng)造出專注于指導(dǎo)和評(píng)估AI貢獻(xiàn)的全新職能角色。
智能體:新的前沿
大模型的發(fā)展代表著AI編程系統(tǒng)迎來(lái)重要里程碑,特別是其對(duì)于人機(jī)開發(fā)關(guān)系的顛覆。
我個(gè)人從測(cè)試中得到的重要啟示在于,AI前沿已經(jīng)從“能否編寫出正確代碼”轉(zhuǎn)為“能否理解開發(fā)者的實(shí)現(xiàn)意圖”。新模型表明,我們正邁入AI系統(tǒng)成為真正開發(fā)伙伴、而非復(fù)雜代碼生成工具的偉大時(shí)代。
原文標(biāo)題:The shift from AI code generation to true development partnership,作者:Jenil Shah























