自己打敗自己!Claude Opus 4.1緊急上線!再度刷新AI編程記錄,未來(lái)數(shù)周還有重磅!網(wǎng)友:AI圈的八月混戰(zhàn)開(kāi)始了!
原創(chuàng) 精選今天太魔幻了!
短短幾小時(shí)內(nèi),OpenAI、Anthropic、Google 先后放出新品,直接把八月這場(chǎng)大混戰(zhàn)的序幕點(diǎn)燃了!
Anthropic 選擇在這個(gè)節(jié)點(diǎn)緊急上線 Claude Opus 4.1,在編碼基準(zhǔn)測(cè)試上再次登頂。
圖片
Opus 4.1 現(xiàn)已向付費(fèi) Claude 用戶和 Claude Code 用戶開(kāi)放,并同步上線 API、Amazon Bedrock 以及 Google Cloud Vertex AI。
不過(guò),正如一些網(wǎng)友所說(shuō),這波更像是應(yīng)對(duì)GPT-5鋪天蓋地的炒作,而搞了一個(gè)臨時(shí)的小更新。
目的是緩解GPT-5上線后,可能給Claude API收入帶來(lái)的沖擊。
圖片
此外,對(duì)大多數(shù)人來(lái)說(shuō),自己的編程主力是 Sonnet,而不是這次更新的超大杯 Opus。 如果同類改進(jìn)下放到 Sonnet,可能會(huì)影響更多開(kāi)發(fā)者的日常工作體驗(yàn)。
好消息是,Anthropic 已經(jīng)放話——未來(lái)幾周還會(huì)有更大的模型更新登場(chǎng)。
圖片
一位Hacker News網(wǎng)友期待地說(shuō):
鑒于 GPT?5 的傳聞,八月才剛開(kāi)始。
另一位網(wǎng)友則幽默回復(fù):
按公歷和地球軌道,八月確實(shí)才剛開(kāi)始。
圖片
看來(lái),這將是注定是AI圈不平凡的一個(gè)月。
1.編程性能再度提升,但真實(shí)體驗(yàn)更能說(shuō)明問(wèn)題
從基準(zhǔn)測(cè)試來(lái)看,Claude這波更新更像是常規(guī)操作。
Opus 4.1 在 SWE?bench Verified 測(cè)試中將編碼性能提升至 74.5%,刷新了當(dāng)前的最高分,依舊穩(wěn)壓 OpenAI o3 和 Gemini 2.5 Pro。
根據(jù) Claude 官方文檔,新版 Opus 還強(qiáng)化了深入研究與數(shù)據(jù)分析能力,尤其是在細(xì)節(jié)追蹤和自主搜索方面。
圖片
不過(guò),紙面上的分?jǐn)?shù)是一回事,實(shí)際體驗(yàn)又是另一回事——有開(kāi)發(fā)者表示,雖然提升幅度看似不大,但上手后的感受可能會(huì)非常顯著。
這也暴露了當(dāng)前 benchmark 的一個(gè)爭(zhēng)議點(diǎn):它們?cè)絹?lái)越難真實(shí)反映模型在日常使用中的表現(xiàn)。
在 Reddit 上,一位用戶分享了自己的實(shí)測(cè)感受:
“我讓它執(zhí)行了今早做過(guò)的同一個(gè)任務(wù),結(jié)果明顯更好。任務(wù)是:在一個(gè)大型且復(fù)雜的代碼庫(kù)中,調(diào)查并識(shí)別與某個(gè)新功能相關(guān)的系統(tǒng)與組件。我給了它三個(gè)關(guān)注領(lǐng)域,并要求為每個(gè)領(lǐng)域調(diào)用一個(gè)子代理,最后將調(diào)查結(jié)果分別保存成 Markdown 文件。
結(jié)果是,Opus 4.1 的搜索行為明顯不同,犯錯(cuò)次數(shù)減少了。雖然它依然會(huì)虛構(gòu)部分服務(wù)、誤述 API 和接口,但整體表現(xiàn)的確有所改進(jìn)?!?/p>
圖片
2.Claude 全力押注 To?B,在技術(shù)文檔中“點(diǎn)名”大客戶
有意思的是,在篇幅并不長(zhǎng)的 Opus?4.1 技術(shù)文檔中,Anthropic 特地留出了一整段展示企業(yè)客戶的使用反饋。
- GitHub 表示,Claude?Opus?4.1 在大多數(shù)能力上較 Opus?4 都有提升,尤其是在多文件代碼重構(gòu)中的表現(xiàn)十分突出。
- 樂(lè)天集團(tuán) 發(fā)現(xiàn),Opus?4.1 能在大型代碼庫(kù)中精準(zhǔn)定位需要修正的部分,不會(huì)做多余改動(dòng)或引入 Bug,這種精確度在他們的日常調(diào)試中尤為重要。
- Windsurf 報(bào)告稱,在其初級(jí)開(kāi)發(fā)者基準(zhǔn)測(cè)試中,Opus?4.1 相比 Opus?4 提升了一個(gè)標(biāo)準(zhǔn)差,幅度大致相當(dāng)于從 Sonnet?3.7 升級(jí)到 Sonnet?4 的跳躍。
值得一提的是,在此前 Windsurf 與 OpenAI 收購(gòu)案鬧得沸沸揚(yáng)揚(yáng)之際,Windsurf 曾一度失去 Claude 供應(yīng),CEO 連續(xù)發(fā)帖公開(kāi)喊話批評(píng) Claude無(wú)事前溝通、直接斷供。場(chǎng)面一度十分難看。
如今在經(jīng)歷一系列風(fēng)波后,Windsurf 與 Claude 再度恢復(fù)合作,顯然關(guān)系已經(jīng)回暖。
這種“客戶背書(shū)”正好契合 Anthropic 全力做 To?B 的戰(zhàn)略方向。行業(yè)數(shù)據(jù)顯示,Anthropic 在短短 7?個(gè)月內(nèi),年化經(jīng)常性收入(ARR)從 10?億美元飆升至 50?億美元,增長(zhǎng)了整整 5 倍;其中 API 收入高達(dá) 31?億美元,占據(jù)半壁江山。
正如 Anthropic CEO Dario 上周所言:
“我們認(rèn)為,AI 在企業(yè)和專業(yè)領(lǐng)域的應(yīng)用,最終可能會(huì)超過(guò) C 端市場(chǎng)。”
3.寫在最后:編程強(qiáng)勢(shì),但 Anthropic 暗藏危機(jī)
與 OpenAI、Google 同日更新,Claude 顯然也想搶占流量,稀釋競(jìng)爭(zhēng)對(duì)手的關(guān)注度。
在編程體驗(yàn)上,Claude 系列幾乎一騎絕塵,這也為 Anthropic 帶來(lái)了可觀的收入。
但過(guò)于集中的客戶結(jié)構(gòu),讓這份優(yōu)勢(shì)伴隨著高風(fēng)險(xiǎn)——在 31 億美元的 API 收入中,Cursor 和 GitHub 兩家就貢獻(xiàn)了一半。
圖片
這也意味著,一旦 GPT?5 能在編碼能力上對(duì) Claude 發(fā)起挑戰(zhàn),并促使 Cursor、GitHub Copilot 等大客戶轉(zhuǎn)向 OpenAI,市場(chǎng)格局可能迅速逆轉(zhuǎn)。
尤其是 GitHub 本身隸屬于微軟,而微軟又是 OpenAI 的重要股東——如果雙方在編程能力上打成平手,Claude 失去 GitHub 的風(fēng)險(xiǎn)將顯著放大。
另一方面,Anthropic 也在積極布局直面企業(yè)的 Claude Code。這個(gè)產(chǎn)品一經(jīng)上線,數(shù)周內(nèi)收入就翻倍,年化收入達(dá)到 4 億美元,印證了企業(yè)級(jí)客戶對(duì)高性能 AI 編碼工具的巨大需求。
Dario出席各種訪談,也把Claude編程能力提升的細(xì)節(jié)當(dāng)做最高的商業(yè)機(jī)密,絕口不提。
接下來(lái),問(wèn)題的關(guān)鍵在于——GPT?5 會(huì)不會(huì)在編程能力上實(shí)現(xiàn)大幅躍升?
答案可能很快就要揭曉了。

































