偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ul id="70vr5"><dd id="70vr5"></dd></ul>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

全球編程最強(qiáng)、構(gòu)建智能體最強(qiáng)、使用計(jì)算機(jī)最頂尖！Anthropic深夜高調(diào)甩出王炸！知名開源大佬實(shí)測：指令遵循真天秀！強(qiáng)在三點(diǎn)！

原創(chuàng) 精選

作者：云昭 2025-09-30 12:49:37

今天凌晨，Anthropic帶著自己的新模型來秀實(shí)力了！這么高調(diào)的風(fēng)格，有點(diǎn)不太像之前Anthropic的作風(fēng)。小編非常好奇。到底效果如何？這就帶大家看一下這款高調(diào)到突破天際的Sonnt 4.5。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

全球最強(qiáng)的Coding模型！構(gòu)建復(fù)雜智能體的最強(qiáng)模型！使用computer最頂尖的模型！

今天凌晨，Anthropic帶著自己的新模型來秀實(shí)力了！

這么高調(diào)的風(fēng)格，有點(diǎn)不太像之前Anthropic的作風(fēng)。小編非常好奇。

到底效果如何？這就帶大家看一下這款高調(diào)到突破天際的Sonnt 4.5。

人工智能研發(fā)史上巨大飛躍

這款新模型名為 Claude Sonnet 4.5。官方介紹中可以說不吝筆墨去形容這款牛逼的模型。

一、實(shí)際軟件編碼能力方面，Claude Sonnet 4.5 在 SWE-bench Verified 評估中名列前茅（謙虛了一下，結(jié)果顯示是第一）。在Anthropic的內(nèi)部實(shí)際測試中，團(tuán)隊(duì)觀察到它在執(zhí)行復(fù)雜的多步驟任務(wù)時(shí)能夠保持專注超過 30 小時(shí)。

圖表顯示了 SWE-bench 上的前沿模型性能，已通過 Claude Sonnet 4.5 驗(yàn)證

二、在computer-use 方面，Claude Sonnet 4.5 在 OSWorld（一項(xiàng)測試 AI 模型在真實(shí)計(jì)算機(jī)任務(wù)中表現(xiàn)的基準(zhǔn)測試）上，Sonnet 4.5 目前以 61.4% 的成績領(lǐng)先。

Anthropic還展示另一個(gè)非常絲滑的Demo視頻，展示了 Claude 如何在瀏覽器中直接工作，瀏覽網(wǎng)站、填寫電子表格以及完成任務(wù)。

三、該模型還顯示出在推理和數(shù)學(xué)等廣泛評估方面的改進(jìn)能力：迄今為止最強(qiáng)大的Claude模型。

值得注意的是，金融、法律、醫(yī)學(xué)和 STEM 領(lǐng)域的專家發(fā)現(xiàn)，與包括 Opus 4.1 在內(nèi)的舊模型相比，Sonnet 4.5 表現(xiàn)出了更出色的領(lǐng)域特定知識(shí)和推理能力。

四、迄今為止與人類價(jià)值觀最一致的模型。Sonnet 4.5 在減少諸如諂媚、欺騙、權(quán)力追求以及鼓勵(lì)妄想思維傾向等令人擔(dān)憂的行為方面，也比較顯著。

小編注：最近有不少媒體報(bào)道ChatGPT的使用導(dǎo)致了許多糟糕的社會(huì)現(xiàn)象：一個(gè)家庭中妻子被ChatGPT引導(dǎo)得婚姻破裂甚至離婚了，（大神Hinton也遭受其害），未成年人被誘導(dǎo)得更自閉了。當(dāng)然，OpenAI很快做了回應(yīng)，已經(jīng)推出了相應(yīng)功能。

此外，對于該模型的代理和計(jì)算機(jī)使用功能，團(tuán)隊(duì)還在防御即時(shí)注入攻擊方面也取得了顯著進(jìn)展（注：即時(shí)注入攻擊是這些功能用戶面臨的最嚴(yán)重風(fēng)險(xiǎn)之一）。

圖片

這么多的“領(lǐng)先”和“最強(qiáng)”，首批測試的客戶們?nèi)绾握f呢？

其實(shí)主要就三點(diǎn)印象深刻。多步驟推理、（長上下文）代碼庫理解、代理安全準(zhǔn)確性。稍后我們會(huì)在下一part介紹大佬們的實(shí)際測評感受。

圖片

好，總結(jié)一下，對于技術(shù)人而言，Sonnet 4.5 最值得關(guān)注的，是在遵循指令方面更為出色，并且能夠 連續(xù)自主編程長達(dá) 30 小時(shí)。相比之下，之前的 Claude Opus 4 模型據(jù)稱只能自主處理約 7 小時(shí)的編程任務(wù)。

其次就是在computer-use方面，提升也十分明顯，這也是 Anthropic 一年前引入的一項(xiàng)功能的重大改進(jìn)。

知名開源大佬：體感全球最強(qiáng)編程模型

其實(shí)早在三天前，就有博主收到了新模型的邀測。知名開源框架Django Web共同構(gòu)建者、Datasette 的創(chuàng)始人，Simon Willson 第一時(shí)間放出了自己對于 Sonnet 4.5 的使用感受：的確可能是全球最強(qiáng)的編程模型，但不知道會(huì)在寶座上持續(xù)多久。

因?yàn)檫@個(gè)領(lǐng)域?qū)嵲诎l(fā)展太快了，并爆料谷歌的Gemini3.0就要發(fā)布了！

圖片

他在博文中寫道：

我在上周末獲得了一個(gè)“新模型”的預(yù)覽權(quán)限，結(jié)果就是 Sonnet 4.5。我的第一印象是，它在代碼上的表現(xiàn)比我之前最常用的 GPT-5-Codex 更好，而后者自幾周前推出以來一直是我的首選編程模型。
這個(gè)領(lǐng)域發(fā)展太快了——傳聞 Gemini 3 即將發(fā)布，所以誰也不知道 Sonnet 4.5 能在“最佳編程模型”的寶座上坐多久。

Simon 對于 Sonnet 4.5 在調(diào)用工具和指令遵循方面的表現(xiàn)大為贊嘆。

在代碼解釋器調(diào)用方面，他用了“堪稱亮眼”來形容、

背景介紹：Claude.ai 網(wǎng)頁端界面最近新增了一個(gè)功能：Claude 可以在沙盒化的服務(wù)器環(huán)境中，直接用 Python 和 Node.js 編寫并執(zhí)行代碼。我三周前詳細(xì)寫過這一功能。

“Anthropic 的實(shí)現(xiàn)比 ChatGPT 的同類功能更強(qiáng)大，因?yàn)樗梢灾苯訌?GitHub 克隆代碼，并從 NPM 和 PyPI 安裝依賴包。而Sonnet 4.5 在使用這個(gè)工具時(shí)的表現(xiàn)堪稱亮眼！”

圖片

圖片

還有一位前Meta軟件工程師也在X上曬出了體驗(yàn)感受：自動(dòng)化能力非常強(qiáng)，但不用擔(dān)心人被取代：因?yàn)橥瓿傻拇a根本跑不起來（還需要調(diào)試）。

Claude 4.5 Sonnet 剛剛用一次調(diào)用就重構(gòu)了我的整個(gè)代碼庫。
調(diào)用了 25 個(gè)工具，生成了 3000 多行新代碼，新增了 12 個(gè)全新的文件。
它把一切都模塊化了，拆分了單體結(jié)構(gòu)，清理了“意大利面條”式代碼。
結(jié)果是——全都跑不起來。
但不得不說，真是漂亮極了。

圖片

Anthropic首席產(chǎn)品官親自下場：用Claude來克隆Claude.ai界面

這里不得不提 Instagram的聯(lián)合創(chuàng)始人、現(xiàn)Anthropic的首席產(chǎn)品官

更是在7個(gè)小時(shí)前放出了一個(gè)Claude各個(gè)版本的能力對比，而評估的維度則讓外界感到了AGI時(shí)刻——

讓Claude來克隆自家的網(wǎng)站界面。

從Claude1到Sonnet4.5，每一項(xiàng)能力的演進(jìn)都盡收眼底?？梢哉f是整個(gè)大模型領(lǐng)域的一個(gè)進(jìn)化史縮影了！

圖片

圖片

圖片

甚至有一位眼尖的網(wǎng)友，花了5個(gè)半小時(shí)最終復(fù)刻視頻中的Artifacts功能！并忍不住感嘆：未來真的是太妙了！

圖片

Agent：上下文記憶方面也有新動(dòng)作

正如開頭提到的，Claude Agent SDK 也迎來了新一波的更新，而且直指目前 Agent 在設(shè)計(jì)和構(gòu)建中最大的瓶頸：上下文記憶管理。

圖片

此外，在“如何處理平衡自主性和用戶控制權(quán)的權(quán)限系統(tǒng)，以及如何協(xié)調(diào)各個(gè)子代理朝著共同目標(biāo)努力”方面，這款SDK也都有所有改進(jìn)。

全家桶大升級(jí)

Claude Sonnet 4.5 模型發(fā)布的同時(shí)，Anthropic 還同步發(fā)布了一系列重大產(chǎn)品升級(jí)：

?Claude Code：新增了用戶呼聲最高的「檢查點(diǎn)（checkpoints）」功能，可保存進(jìn)度并一鍵回滾；終端界面煥新，原生 VS Code 插件上線。

?Claude API：新增上下文編輯功能和記憶工具，讓智能體可以長時(shí)間運(yùn)行任務(wù)，而不會(huì)頻繁達(dá)到上下文限制，完成更復(fù)雜的任務(wù)。

注：其中，上下文編輯可自動(dòng)清除陳舊的上下文；記憶工具用于存儲(chǔ)和查閱上下文窗口之外的信息的記憶工具。

?Claude 應(yīng)用：直接在對話中支持代碼執(zhí)行與文件創(chuàng)建（表格、幻燈片、文檔）。

?Claude for Chrome 插件：已面向上月申請候補(bǔ)的 Max 用戶開放

Claude憑什么是世界上最強(qiáng)的編程模型

編程模型的發(fā)展速度實(shí)在是太快了，尤其今年以來，國內(nèi)外各家模型公司都紛紛專門為編程場景推出自己的model。

這一次，Anthropic的新模型發(fā)布再一次在圈內(nèi)引發(fā)了“最強(qiáng)編程模型”的討論。

有網(wǎng)友表示：自己還是認(rèn)為Gemini2.5 Pro是最強(qiáng)的，而Claude/GPT-5在執(zhí)行提示時(shí)更好些。

也有網(wǎng)友對國內(nèi)的模型提了一些建議：Kimi、GLM、Qwen等雖然速度很快，但沒那么聰明，需要更多的時(shí)候修改。

這里，不得不提一下馬斯克的Grok4-Fast模型哈，主打的就是快和便宜~

而Claude的優(yōu)勢就在于，它在速度、價(jià)格、智能、自主性之間取得了最佳平衡。

圖片

我想，這就是眾多網(wǎng)友較為真實(shí)的一個(gè)寫照吧：大家會(huì)根據(jù)自己的使用場景去權(quán)衡這些維度：速度、價(jià)格、智能、自主性。

以后各家模型都需要在幾方面展開角逐。

受傷的網(wǎng)友：千萬別再降智！

此前兩個(gè)月，Claude 被大量Reddit網(wǎng)友吐槽，模型似乎降智了，這次新品發(fā)布，受過傷的網(wǎng)友對此還心有余悸：這么厲害的模型，那又怎么樣，我們交了訂閱費(fèi)之后，就開始降低模型的能力了！

下面的gif圖，就是網(wǎng)友此時(shí)此刻、擔(dān)心的心情：一開始絲滑的飛起，然后翻車了！

CDN media

不過，小編只能說，這一現(xiàn)象，比較難以避免。算力就擺在那里，Anthropic 和 OpenAI 在平衡高階付費(fèi)用戶和免費(fèi)用戶的過程中，勢必要給數(shù)據(jù)中心里的GPU去降降火（以免融化了），短時(shí)間靈活減低大模型的智力，只能說是不得不采取的一種下下策。

多說一嘴，很快就有更強(qiáng)大的編程模型問世了，Claude Opus 4.5 V.S Gemini 3.0,很快就會(huì)贏了一場新的PK，拭目以待！

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

Anthropic 智能體 Coding模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營