Claude 4.5 Sonnet 發(fā)布:向軟件開發(fā)說再見?
Claude Sonnet 4.5 不只是又一次 LLM 迭代,它幾乎已是最強代碼模型。
在軟件開發(fā)、推理能力上更鋒利,對重數學任務也罕見地穩(wěn)。別家模型走幾步就絆倒的多階段任務,Sonnet 4.5 能把 30+ 小時的多步驟流程穩(wěn)穩(wěn)跑完——這在業(yè)內幾乎聞所未聞。
而且今日的“寫代碼”,已遠不止函數輸出——它得像真同事一樣用電腦:執(zhí)行命令、編輯文件、填表、做幻燈。Sonnet 4.5 全部拿捏。在“會用電腦”的 OSWorld 基準上,它以 61.4% 領先,四個月前 Sonnet 4 只有 42.2%。在真實修復任務的 SWE-bench Verified 上,它同樣位居前列——“最佳編碼模型”的名號,不是嘴上說說。

不止模型:配套產品也全面升級
- Claude Code:上線 checkpoints(終于有了)、更好用的終端、原生 VS Code 擴展。
- Claude API:支持上下文編輯與記憶工具,讓智能體跑得更久、更復雜。
- Claude Apps:在對話里直接執(zhí)行代碼、創(chuàng)建文件(文檔/表格/幻燈)。
- Claude for Chrome:面向 Max 用戶開放,讓 Sonnet 直接在瀏覽器中上手做事。
這些不是“閃亮的小掛件”,而是你要做嚴肅智能體所需的基礎管道。
Claude Agent SDK:把“內功心法”開源給你

也許是除模型外最重要的一件事。Anthropic 把內部運行 Claude Code 的同款基建以 Agent SDK 形式放出來,替你處理智能體設計里最“臟”但最關鍵的部分:
- 長會話的記憶管理
- 可控自治的權限體系
- 多子代理(Subagents)協(xié)同與分工
從“我們造工具”到“你用我們的骨架造工具”,這是一種范式遷移。
對齊與安全:更強也更穩(wěn)

Claude 4.5 Sonnet 不只更強,也更對齊。相較過往版本,它在逢迎、欺騙、尋求權力、迎合幻覺等方面的發(fā)生率更低。
- 引入 ASL-3(AI Safety Level 3) 級別保護,對 CBRN(化學/生物/放射/核)等高風險請求做分類攔截;
- 誤判率雖仍存在,但相較早前版本下降一個數量級;
- 新增把可解釋性(Mechanistic Interpretability)方法融合進安全評估——不只看表面輸出,更探查模型內部機制。
研究預覽:Imagine with Claude
與 4.5 同步露面的一個短期預覽。它能現(xiàn)場生成軟件、邊交互邊適配,不是產品化形態(tài),更像是在給“代理式編程”指路——告訴你下一步可能會走到哪里。
價格與可用性
Claude Sonnet 4.5 現(xiàn)已全面可用,價格與 Sonnet 4 一致:API 側 15 每百萬 tokens(輸入/輸出)。 對多數開發(fā)者來說,這是一場無縫置換:今天把模型名切到 claude-sonnet-4-5,你就能以相同成本獲得更強的編碼、更長的專注、更好的推理。
一句話總結
如果說之前的 LLM 更像“高級自動補全”,Sonnet 4.5 更像一個能自己動手的工程伙伴。工具鏈與基建已經鋪好——該你上場了。






























