AI編程新王Claude 4,深夜震撼登基!連續(xù)編碼7小時(shí),開發(fā)者驚掉下巴
今晚的聚光燈,屬于Anthropic。
就在剛剛,全網(wǎng)翹首盼望的Claude 4,重磅登場(chǎng)!
CEO Dario Amodei親自上陣,攜Claude Opus 4和 Claude Sonnet 4亮相,再次將編碼、高級(jí)推理和AI智能體,推向全新的標(biāo)準(zhǔn)。
圖片
其中,Claude Opus 4是全球頂尖的編碼模型,擅長(zhǎng)復(fù)雜、長(zhǎng)時(shí)間運(yùn)行的任務(wù),在AI智能體工作流方面性能極為出色。
而Claude Sonnet 4,則是對(duì)Sonnet 3.7 的重大升級(jí),編碼和推理能力都更出色,還能更精準(zhǔn)地響應(yīng)指令。
圖片
同時(shí),Claude把這段時(shí)間積攢的一系列產(chǎn)品,通通一口氣發(fā)布了——
- Claude Opus 4和Sonnet 4混合模型的兩種模式:幾乎即時(shí)的響應(yīng)和用于更深度推理的擴(kuò)展思考。
- 擴(kuò)展思考與工具使用(測(cè)試版):兩款模型均可在擴(kuò)展思考過程中使用工具(例如網(wǎng)絡(luò)搜索),使Claude能在推理與工具使用間靈活切換,從而優(yōu)化響應(yīng)質(zhì)量。
- 新的模型能力:兩款模型均可并行使用工具,更精確地遵循指令,并且(當(dāng)開發(fā)者授予其訪問本地文件的權(quán)限時(shí))展現(xiàn)出顯著增強(qiáng)的記憶能力,能提取、保存關(guān)鍵信息,以保持連續(xù)性,并隨時(shí)間積累隱性知識(shí)。
- Claude Code:可通過GitHub Actions支持后臺(tái)任務(wù),并與VS Code和JetBrains進(jìn)行了原生集成,可直接在文件中顯示編輯內(nèi)容,實(shí)現(xiàn)無(wú)縫結(jié)對(duì)編程。
- 新的API能力:Anthropic API新增四項(xiàng)新功能,讓開發(fā)者能夠構(gòu)建更強(qiáng)大的AI智能體——代碼執(zhí)行工具、MCP連接器、文件API,以及長(zhǎng)達(dá)一小時(shí)的提示詞緩存能力。
圖片
所以,什么人能用上這次的新模型?
目前,訂閱了Pro、Max、Team和Enterprise版的Claude用戶,可以立即體驗(yàn)到這兩款模型及擴(kuò)展思考功能。其中,Sonnet 4還將向免費(fèi)用戶開放。
開發(fā)者則可通過Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI調(diào)用。
而Claude 4的定價(jià),也與此前保持一致:
- Opus 4每百萬(wàn)Token為15美元(輸入)/75美元(輸出)
- Sonnet 4每百萬(wàn)Token為3美元(輸入)/15美元(輸出)
Claude 4:AI編程新王登基
Claude Opus 4號(hào)稱是Anthropic迄今為止最強(qiáng)大的模型,也是全球最頂尖的編碼模型。
在SWE-bench和Terminal-bench測(cè)試中,分別以72.5%和43.2%的得分全面領(lǐng)先,碾壓OpenAI剛剛發(fā)布的編程智能體Codex-1和最強(qiáng)推理模型o3。
即使在需要高度專注并執(zhí)行數(shù)千步驟的長(zhǎng)時(shí)間運(yùn)行任務(wù)中,它都能展現(xiàn)出持續(xù)穩(wěn)定的性能,連續(xù)工作數(shù)小時(shí)。
圖片
圖片
可以說,Opus 4的推出極大擴(kuò)展了AI智能體的能力邊界。眾多前沿的AI智能體產(chǎn)品,都將獲得強(qiáng)大支持。
· Cursor:Opus 4的編碼能力已達(dá)業(yè)界頂尖水平,在理解復(fù)雜代碼庫(kù)方面,還取得了飛躍性進(jìn)展。
· Replit:在處理跨多個(gè)文件的復(fù)雜變更時(shí),Opus 4的精度大大提升,表現(xiàn)出顯著進(jìn)步。
· Block:在「goose」智能體中,Opus 4是首款能在編輯和調(diào)試過程中提升代碼質(zhì)量,同時(shí)還能保持完整性能和可靠性的模型。
· Rakuten:Opus 4通過了一項(xiàng)要求嚴(yán)苛的開源代碼重構(gòu)任務(wù),這項(xiàng)任務(wù)獨(dú)立運(yùn)行長(zhǎng)達(dá)7小時(shí),期間它始終保持了穩(wěn)定的性能。
· Cognition:Opus 4擅長(zhǎng)解決其他模型難以應(yīng)對(duì)的復(fù)雜挑戰(zhàn),能夠成功處理先前模型未能完成的關(guān)鍵操作。
而在Sonnet 3.7已經(jīng)算業(yè)界領(lǐng)先的能力基礎(chǔ)上,Claude Sonnet 4又再度實(shí)現(xiàn)了顯著提升。
它在編碼上極其出色,在SWE-bench測(cè)試中,直接取得72.7%的頂尖成績(jī)!
而且,Sonnet 4在內(nèi)部及外部應(yīng)用場(chǎng)景中,均實(shí)現(xiàn)了性能與效率的良好平衡,可操控性也大大增加了。
盡管在多數(shù)領(lǐng)域,Sonnet 4的表現(xiàn)并不及Opus 4,但它在能力與實(shí)用性之間卻達(dá)到了最佳平衡。
圖片
Anthropic:引爆推理革命
這就意味著,2025年的推理模型大戰(zhàn),Anthropic正式下場(chǎng)!
2025年,AI行業(yè)的一個(gè)明顯趨勢(shì),就是轉(zhuǎn)向推理模型。這類AI在做出反應(yīng)之前會(huì)系統(tǒng)地解決問題,模擬類人的思維過程,而非簡(jiǎn)單地根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行模式匹配。
去年12月,OpenAI拋出o系列,正式拉開大戰(zhàn)序幕;谷歌的Gemini 2.5 Pro,也緊隨其后推出實(shí)驗(yàn)性的“深度思考”功能;然后,就是DeepSeek-R1憑卓越性能和超高性價(jià)比,強(qiáng)勢(shì)占領(lǐng)市場(chǎng)份額。
顯然,現(xiàn)在人們使用AI的方式已經(jīng)發(fā)生了根本性變革。
Poe的《2025年春季AI模型使用趨勢(shì)報(bào)告》顯示,推理模型的使用量在短短四個(gè)月內(nèi)增長(zhǎng)了五倍,占所有AI交互的比例從2%增長(zhǎng)到10%。用戶也越來(lái)越多地將AI視為解決復(fù)雜問題的思維伙伴,而非簡(jiǎn)單的問答系統(tǒng)。
圖片
隨著新模型帶來(lái)的用戶興趣的提升,推理類信息的比例在2025年初大幅上升
而這次,Anthropic再次給推理大戰(zhàn)貢獻(xiàn)了顛覆性的形式——將工具使用直接融入推理過程。
比起以前先收集信息再進(jìn)行分析的系統(tǒng),這種同步研究與推理的方法,顯然更貼近人類認(rèn)知。
Claude Opus 4和Claude Sonnet 4這種在推理過程中暫停、查找數(shù)據(jù)并融入新發(fā)現(xiàn)的能力,就創(chuàng)造了更自然、更有效的體驗(yàn)。
模型改進(jìn):不偷懶,記性好
此外,Anthropic還顯著減少了模型在完成任務(wù)時(shí)試圖走捷徑或利用漏洞的行為。
在某類AI智能體任務(wù)上,模型特別容易走捷徑,但這次的兩款新模型發(fā)生此類行為的概率,比Sonnet 3.7要低65%。
在記憶能力上,Claude Opus 4也顯著優(yōu)于所有先前的模型。
當(dāng)開發(fā)者構(gòu)建的應(yīng)用授予Claude本地文件訪問權(quán)限時(shí),Opus 4便能熟練地創(chuàng)建和維護(hù)用于存儲(chǔ)關(guān)鍵信息的「記憶文件」,從而提高自己在AI智能體任務(wù)中的長(zhǎng)期任務(wù)感知能力、連貫性和整體性能。
一個(gè)突出表現(xiàn)就是,Opus 4在玩《寶可夢(mèng)》時(shí),能創(chuàng)建并使用「導(dǎo)航指南」!
而團(tuán)隊(duì)為Claude 4模型引入的思考摘要功能,會(huì)利用一個(gè)較小的模型來(lái)精簡(jiǎn)冗長(zhǎng)的思考過程。
不過需要注意,這項(xiàng)功能僅在約5%的情況下才需要啟用——因?yàn)榇蠖鄶?shù)思考過程本身就足夠簡(jiǎn)短,能夠完整呈現(xiàn)了。
圖片
網(wǎng)友實(shí)測(cè):簡(jiǎn)直瘋狂
手快的網(wǎng)友們,已經(jīng)開始實(shí)測(cè)了。
比如用Claude 4制作一個(gè)CRM儀表板,只需30秒,速度直接讓人瞳孔地震。
圖片
連續(xù)7小時(shí)編程,意味著AI大模型能力發(fā)展史上的一次分水嶺。
圖片
僅用一個(gè)提示,僅僅一次,Claude 4 Opus就能完成一個(gè)可運(yùn)行的瀏覽器智能體,包括API和前端。
大佬驚呼:不可能,我從未見過這樣的事!
圖片
圖片
另一位獲得提前內(nèi)測(cè)資格的用戶,體感是:Claude 4寫作和編輯能力一流,編碼能力和Gemini 2.5一樣好。
比如,它一次性就構(gòu)建了一個(gè)俄羅斯方塊游戲。
圖片
沃頓商學(xué)院教授Ethan Mollick則用Claude 4 Opus制作了一段令人印象極深的視頻,提示詞為「用p5.js創(chuàng)建小說《皮拉內(nèi)西》的三維世界」。
圖片
圖片
Claude Code
Claude Code,也正式發(fā)布了。
由此,Claude的強(qiáng)大功能就融入更多開發(fā)工作流程中——無(wú)論是在終端、用戶所偏好的IDE中,還是通過Claude Code SDK在后臺(tái)運(yùn)行。
針對(duì)VS Code和JetBrains的全新測(cè)試版擴(kuò)展程序,可將Claude Code直接集成到我們的IDE中。
甚至,Claude還會(huì)以內(nèi)聯(lián)方式,直接在文件中顯示出編輯建議,這樣就能在我們熟悉的編輯器界面中簡(jiǎn)化審查和跟蹤流程。在IDE終端中運(yùn)行Claude Code,即可安裝。
并且,團(tuán)隊(duì)還發(fā)布了一款可擴(kuò)展的Claude Code SDK,因此開發(fā)者可以使用與Claude Code相同的核心AI智能體來(lái)構(gòu)建自己的AI智能體和應(yīng)用程序。
下面就是一個(gè)SDK功能的示例:Claude Code on GitHub,目前仍處于測(cè)試階段。
可以看到,在PR(拉取請(qǐng)求)中標(biāo)記Claude Code,它就能響應(yīng)審查者反饋、修復(fù)CI錯(cuò)誤或修改代碼。
在Claude Code內(nèi)運(yùn)行/install-github-app,就可直接安裝了。
圖片
總的來(lái)說,Claude 4是向虛擬協(xié)作者邁出的一大步——能夠保持完整的上下文理解,在較長(zhǎng)項(xiàng)目中持續(xù)專注,從而推動(dòng)變革性的影響。
此外,兩款模型也都經(jīng)過了廣泛的測(cè)試和評(píng)估,最大限度地降低了風(fēng)險(xiǎn)并提高安全性,包括實(shí)施了更高級(jí)別的AI安全措施(如ASL-3)。
參考資料:https://www.anthropic.com/news/claude-4