偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

底層邏輯的轉(zhuǎn)變:從AI代碼生成,到真正的開發(fā)伙伴關(guān)系

譯文 精選
人工智能
我通過(guò)一項(xiàng)真實(shí)開發(fā)任務(wù)來(lái)評(píng)估Claude 4的自主能力:構(gòu)建一款與OpenAI API集成的OmniFocus功能插件。這項(xiàng)任務(wù)不僅需要編寫代碼,還要求理解文檔、處理錯(cuò)誤、提供連續(xù)的用戶體驗(yàn)并切實(shí)解決問(wèn)題。這里考察的不只是語(yǔ)法正確性,更需要主動(dòng)探索與持續(xù)推進(jìn)。

譯者 | 核子可樂(lè)

審校 | 重樓

Claude 4甫一亮相,市場(chǎng)就被其強(qiáng)大的推理和編程能力折服。但在連續(xù)使用數(shù)月之后,我意識(shí)到大模型真正的革命不在于生成更好的代碼片段,而是其中蘊(yùn)藏的自主性潛力。

很多人更多關(guān)注AI編程的語(yǔ)法正確性、基準(zhǔn)測(cè)試得分和代碼有效率,但我在對(duì)Claude 4的實(shí)際測(cè)試中體會(huì)到:能夠全面理解開發(fā)目標(biāo)、持續(xù)尋求解決方案并自主克服障礙的AI系統(tǒng)正在出現(xiàn)。

不同于常規(guī)的基準(zhǔn)測(cè)試,我通過(guò)一項(xiàng)真實(shí)開發(fā)任務(wù)來(lái)評(píng)估Claude 4的自主能力:構(gòu)建一款與OpenAI API集成的OmniFocus功能插件。這項(xiàng)任務(wù)不僅需要編寫代碼,還要求理解文檔、處理錯(cuò)誤、提供連續(xù)的用戶體驗(yàn)并切實(shí)解決問(wèn)題。這里考察的不只是語(yǔ)法正確性,更需要主動(dòng)探索與持續(xù)推進(jìn)。

正是這種對(duì)自主能力的感受,讓我意識(shí)到開發(fā)者與AI系統(tǒng)的協(xié)作方式即將徹底改變。

三種模型,三種自主方式

Opus 4:不止于代碼生成,走向合作開發(fā)

在使用Opus 4的過(guò)程中,我意識(shí)到與之前擅長(zhǎng)根據(jù)特定指令生成代碼片段的AI系統(tǒng)不同,Opus 4表現(xiàn)出真正的開發(fā)自主性——獨(dú)立推動(dòng)開發(fā)進(jìn)程,最終找到可行的解決方案。

在遇到數(shù)據(jù)庫(kù)錯(cuò)誤時(shí),Opus 4不僅修復(fù)了相應(yīng)代碼,還主動(dòng)給出根本原因:

“我發(fā)現(xiàn)問(wèn)題了——OmniFocus插件需要使用Preferences API進(jìn)行持久存儲(chǔ),而非直接訪問(wèn)數(shù)據(jù)庫(kù)。我可以協(xié)助解決這個(gè)問(wèn)題。”

之后它用OmniFocus的Preferences API實(shí)現(xiàn)了一套完整的解決方案。

這就是代碼生成和智能體間的核心差異。代碼生成器只是輸出代碼形式的文本,而智能體可以理解開發(fā)環(huán)境、發(fā)現(xiàn)問(wèn)題,并在更廣泛的應(yīng)用需求框架內(nèi)解決現(xiàn)實(shí)問(wèn)題。

最讓我印象深刻的,則是Opus 4如何在需求之外自主增強(qiáng)以下功能:

  • 用于API設(shè)置的配置界面;
  • 用于調(diào)試的詳細(xì)錯(cuò)誤消息;
  • 用于防止無(wú)效請(qǐng)求的輸入驗(yàn)證;
  • API調(diào)用期間的進(jìn)度指示器。

Opus 4對(duì)于良好開發(fā)者體驗(yàn)明顯有自己的理解,這是傳統(tǒng)代碼生成工具所不可能實(shí)現(xiàn)的。

Sonnet 4:謹(jǐn)慎的協(xié)作者

Sonnet 4同樣展現(xiàn)出強(qiáng)大能力,但需要指引才能進(jìn)一步發(fā)揮潛力。它的交互感受像是一位能力出眾但謹(jǐn)慎的開發(fā)者,需要我定期檢查。它對(duì)任務(wù)需求的理解效果不錯(cuò),但在API集成中犯了一些小錯(cuò)誤。對(duì)此,Sonnet 4提出了一些需要澄清的問(wèn)題:

“我注意到OmniFocus采取一種特殊的HTTP請(qǐng)求處理方式,能否向我提供它的URL獲取功能說(shuō)明文檔?”

在收到提示后,它成功修復(fù)了問(wèn)題,不過(guò)仍經(jīng)歷了七到八次迭代才給出完全可行的解決方案。

有趣的是,Sonnet 4曾做出意想不到的判斷——在與OpenAI集成遇到困難時(shí),它建議暫時(shí)移除該功能,轉(zhuǎn)而使用本地分析。這體現(xiàn)出它完成任務(wù)的強(qiáng)烈意愿,甚至不惜為此調(diào)整對(duì)原始需求的遵循。

體驗(yàn)Sonnet 3.7:響應(yīng)式工具

Sonnet 3.7給我的感覺(jué)像是一款編程助手。它需要明確的指令,且很難與我正在構(gòu)建的內(nèi)容保持更廣泛的上下文關(guān)聯(lián)。

典型的交流過(guò)程如下:

  • 我:“此插件需要將任務(wù)轉(zhuǎn)換為TaskPaper格式,再將結(jié)果發(fā)送至OpenAI?!?/li>
  • Sonnet 3.7: “我將建立一條將任務(wù)轉(zhuǎn)換為TaskPaper格式的函數(shù)?!?[實(shí)現(xiàn)基本功能,但未提供錯(cuò)誤處理。]
  • 我:“現(xiàn)在我們需要實(shí)現(xiàn)Open API集成?!?/li>
  • Sonnet 3.7: [實(shí)現(xiàn)基本API調(diào)用,但未提供錯(cuò)誤處理或用戶反饋機(jī)制
  • 在遇到錯(cuò)誤時(shí),Sonnet 3.7也很難獨(dú)立完成錯(cuò)誤診斷:
  • 我:“我收到「文件為目錄」的錯(cuò)誤?!?/li>
  • Sonnet 3.7: “很奇怪,但提供完整的錯(cuò)誤信息嗎?”
  • [我給出錯(cuò)誤詳情。]
  • Sonnet 3.7: “這可能與文件路徑有關(guān)。我來(lái)檢查一下插件的保存位置?!?/li>

經(jīng)過(guò)10多次交互后,我仍未得到功能完備的插件成果。

智能體光譜:不止于高質(zhì)量代碼

AI編程系統(tǒng)間的差異,已經(jīng)不只體現(xiàn)在其生成正確代碼的能力,而更多表現(xiàn)為智能體水平——即在極少指導(dǎo)下理解并實(shí)現(xiàn)開發(fā)目標(biāo)的能力。

根據(jù)我的測(cè)試,我整理出以下智能體光譜:

  • 代碼生成器:根據(jù)特定提示詞生成有效代碼,但缺乏持久性和上下文理解能力。
  • 響應(yīng)式助手:生成可用代碼,但在開發(fā)各階段須明確指引,專注于即時(shí)指令而非整體目標(biāo)。
  • 協(xié)作型智能體:擁有較均衡的指令執(zhí)行與主動(dòng)性水平,可在定期指引下半自主工作,但可能需要隨時(shí)調(diào)整方向。
  • 開發(fā)合作伙伴:將開發(fā)目標(biāo)內(nèi)化并堅(jiān)持朝著目標(biāo)努力,無(wú)需明確指引即可主動(dòng)識(shí)別并解決問(wèn)題。

由此可見(jiàn),對(duì)AI編程系統(tǒng)的評(píng)估方式將發(fā)生徹底轉(zhuǎn)變——不只是代碼質(zhì)量,而是其在實(shí)際開發(fā)環(huán)境中自主解決問(wèn)題的能力。

對(duì)開發(fā)實(shí)踐有何影響?

具備智能體水平的AI系統(tǒng)對(duì)于開發(fā)工作流程有著深遠(yuǎn)影響:

從微指令到開發(fā)目標(biāo)

代理式AI系統(tǒng)的有效協(xié)作,標(biāo)志著從分步提示轉(zhuǎn)化為更高層次的開發(fā)目標(biāo)和背景。我給Opus 4的指令如下:

“構(gòu)建一款插件,將OmniFocus任務(wù)發(fā)送給OpenAI進(jìn)行分析和匯總。此插件應(yīng)可優(yōu)雅處理錯(cuò)誤并提供良好的用戶體驗(yàn)?!?/p>

只需這種宏觀指引,它就能構(gòu)建起完整的解決方案——早期代碼生成系統(tǒng)則完全不具備此等能力。

超越token計(jì)數(shù):一種新的經(jīng)濟(jì)模式

Claude 4模型的智能體模式為成本效益分析開辟了新的維度。雖然Opus 4的單token成本更高(輸入/輸出分別為15/75美元,Sonnet 4則為3/15美元),但其自主尋求解決方案的能力顯著減少了實(shí)際交互次數(shù)。

Opus 4需要3到4次交互的任務(wù),在Sonnet 3.7上往往需要10次以上,效率的提升抵消了相對(duì)更高的每token成本。更重要的是,這節(jié)約了開發(fā)者的時(shí)間和認(rèn)知負(fù)擔(dān),大大改善了工作體驗(yàn)。

調(diào)整開發(fā)流程,適應(yīng)AI智能體

隨著AI系統(tǒng)展現(xiàn)出真正的智能體能力,開發(fā)流程也將隨之演變。也許未來(lái)的AI系統(tǒng)不僅能生成代碼,還能處理實(shí)施規(guī)劃、錯(cuò)誤診斷和質(zhì)量保證,確保開發(fā)者集中精力應(yīng)對(duì):

  • 架構(gòu)與系統(tǒng)設(shè)計(jì);
  • 目標(biāo)與質(zhì)量標(biāo)準(zhǔn)制定;
  • 對(duì)AI生成方案進(jìn)行批判性評(píng)估;
  • 軟件開發(fā)的人性化與倫理問(wèn)題。

AI并不是要取代開發(fā)者,而是幫助開發(fā)者邁向更高層次的指導(dǎo)和監(jiān)督角色。

未來(lái)之路:超越現(xiàn)有一切

AI智能體的快速發(fā)展呈現(xiàn)出以下幾大趨勢(shì):

  • 智能體專用開發(fā)系統(tǒng):未來(lái)的AI系統(tǒng)可能專門針對(duì)開發(fā)需求而生,為不同開發(fā)領(lǐng)域建立專門的合作伙伴。
  • 新的協(xié)作界面:現(xiàn)有聊天界面尚未針對(duì)開發(fā)協(xié)作做出優(yōu)化。未來(lái)AI系統(tǒng)或?qū)碛懈鼜?qiáng)調(diào)其自主性的工具,可探索代碼庫(kù)、運(yùn)行測(cè)試并提出一致的解決方案。
  • 持續(xù)發(fā)展的評(píng)估框架:智能體的成熟要求以新的方法評(píng)估AI系統(tǒng),更多關(guān)注其理解和實(shí)現(xiàn)開發(fā)目標(biāo)的能力。
  • 組織適應(yīng):開發(fā)團(tuán)隊(duì)需要重新審視如何整合AI智能體,創(chuàng)造出專注于指導(dǎo)和評(píng)估AI貢獻(xiàn)的全新職能角色。

智能體:新的前沿

大模型的發(fā)展代表著AI編程系統(tǒng)迎來(lái)重要里程碑,特別是其對(duì)于人機(jī)開發(fā)關(guān)系的顛覆。

我個(gè)人從測(cè)試中得到的重要啟示在于,AI前沿已經(jīng)從“能否編寫出正確代碼”轉(zhuǎn)為“能否理解開發(fā)者的實(shí)現(xiàn)意圖”。新模型表明,我們正邁入AI系統(tǒng)成為真正開發(fā)伙伴、而非復(fù)雜代碼生成工具的偉大時(shí)代。

原文標(biāo)題:The shift from AI code generation to true development partnership,作者:Jenil Shah

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2023-09-01 14:23:35

人工智能AI

2022-09-23 15:10:52

區(qū)塊鏈商業(yè)伙伴去中心化

2020-05-18 09:35:26

業(yè)務(wù)伙伴IT部門CIO

2022-12-02 15:29:00

2013-08-28 15:06:46

SUSE

2014-12-23 09:16:10

IBMDockerDevOps

2025-05-28 04:00:00

AI人工智能大數(shù)據(jù)

2015-08-07 09:54:26

升職開發(fā)者管理者

2016-03-10 14:12:47

Juniper

2010-10-14 20:50:30

統(tǒng)一通信微軟銳迪訊

2013-08-21 14:25:53

藍(lán)汛CDNWindows Azu

2010-08-26 21:35:52

光纖網(wǎng)絡(luò)英國(guó)電信華為

2022-01-11 10:32:17

MozillaFirefox瀏覽器

2014-07-23 14:07:28

華為華勝天成

2013-04-07 09:40:22

智慧商務(wù)都市麗人

2014-08-28 11:13:32

SAP中金數(shù)據(jù)MCaaS

2013-08-02 09:54:55

CDN藍(lán)汛內(nèi)容發(fā)布網(wǎng)絡(luò)

2012-08-11 10:31:22

RadwareJunipe路由器

2009-03-20 16:39:24

MAPP漏洞微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)