偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全球編程最強(qiáng)、構(gòu)建智能體最強(qiáng)、使用計(jì)算機(jī)最頂尖!Anthropic深夜高調(diào)甩出王炸!知名開源大佬實(shí)測:指令遵循真天秀!強(qiáng)在三點(diǎn)!

原創(chuàng) 精選
人工智能
今天凌晨,Anthropic帶著自己的新模型來秀實(shí)力了!這么高調(diào)的風(fēng)格,有點(diǎn)不太像之前Anthropic的作風(fēng)。小編非常好奇。到底效果如何?這就帶大家看一下這款高調(diào)到突破天際的Sonnt 4.5。

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

全球最強(qiáng)的Coding模型!構(gòu)建復(fù)雜智能體的最強(qiáng)模型!使用computer最頂尖的模型!

今天凌晨,Anthropic帶著自己的新模型來秀實(shí)力了!

這么高調(diào)的風(fēng)格,有點(diǎn)不太像之前Anthropic的作風(fēng)。小編非常好奇。

到底效果如何?這就帶大家看一下這款高調(diào)到突破天際的Sonnt 4.5。

人工智能研發(fā)史上巨大飛躍

這款新模型名為 Claude Sonnet 4.5。官方介紹中可以說不吝筆墨去形容這款牛逼的模型。

一、實(shí)際軟件編碼能力方面,Claude Sonnet 4.5 在 SWE-bench Verified 評估中名列前茅(謙虛了一下,結(jié)果顯示是第一)。在Anthropic的內(nèi)部實(shí)際測試中,團(tuán)隊(duì)觀察到它在執(zhí)行復(fù)雜的多步驟任務(wù)時(shí)能夠保持專注超過 30 小時(shí)。

圖表顯示了 SWE-bench 上的前沿模型性能,已通過 Claude Sonnet 4.5 驗(yàn)證圖表顯示了 SWE-bench 上的前沿模型性能,已通過 Claude Sonnet 4.5 驗(yàn)證

二、在computer-use 方面,Claude Sonnet 4.5 在 OSWorld(一項(xiàng)測試 AI 模型在真實(shí)計(jì)算機(jī)任務(wù)中表現(xiàn)的基準(zhǔn)測試)上,Sonnet 4.5 目前以 61.4% 的成績領(lǐng)先。

Anthropic還展示另一個(gè)非常絲滑的Demo視頻,展示了 Claude 如何在瀏覽器中直接工作,瀏覽網(wǎng)站、填寫電子表格以及完成任務(wù)。


三、該模型還顯示出在推理和數(shù)學(xué)等廣泛評估方面的改進(jìn)能力:迄今為止最強(qiáng)大的Claude模型。

值得注意的是,金融、法律、醫(yī)學(xué)和 STEM 領(lǐng)域的專家發(fā)現(xiàn),與包括 Opus 4.1 在內(nèi)的舊模型相比,Sonnet 4.5 表現(xiàn)出了更出色的領(lǐng)域特定知識(shí)和推理能力。

四、迄今為止與人類價(jià)值觀最一致的模型。Sonnet 4.5 在減少諸如諂媚、欺騙、權(quán)力追求以及鼓勵(lì)妄想思維傾向等令人擔(dān)憂的行為方面,也比較顯著。

小編注:最近有不少媒體報(bào)道ChatGPT的使用導(dǎo)致了許多糟糕的社會(huì)現(xiàn)象:一個(gè)家庭中妻子被ChatGPT引導(dǎo)得婚姻破裂甚至離婚了,(大神Hinton也遭受其害),未成年人被誘導(dǎo)得更自閉了。當(dāng)然,OpenAI很快做了回應(yīng),已經(jīng)推出了相應(yīng)功能。

此外,對于該模型的代理和計(jì)算機(jī)使用功能,團(tuán)隊(duì)還在防御即時(shí)注入攻擊方面也取得了顯著進(jìn)展(注:即時(shí)注入攻擊是這些功能用戶面臨的最嚴(yán)重風(fēng)險(xiǎn)之一)。

圖片圖片

這么多的“領(lǐng)先”和“最強(qiáng)”,首批測試的客戶們?nèi)绾握f呢?

其實(shí)主要就三點(diǎn)印象深刻。多步驟推理、(長上下文)代碼庫理解、代理安全準(zhǔn)確性。稍后我們會(huì)在下一part介紹大佬們的實(shí)際測評感受。

圖片圖片

圖片


好,總結(jié)一下,對于技術(shù)人而言,Sonnet 4.5 最值得關(guān)注的,是在遵循指令方面更為出色,并且能夠 連續(xù)自主編程長達(dá) 30 小時(shí)。相比之下,之前的 Claude Opus 4 模型據(jù)稱只能自主處理約 7 小時(shí)的編程任務(wù)。

其次就是在computer-use方面,提升也十分明顯,這也是 Anthropic 一年前引入的一項(xiàng)功能的重大改進(jìn)。

知名開源大佬:體感全球最強(qiáng)編程模型

其實(shí)早在三天前,就有博主收到了新模型的邀測。知名開源框架Django Web共同構(gòu)建者、Datasette 的創(chuàng)始人,Simon Willson 第一時(shí)間放出了自己對于 Sonnet 4.5 的使用感受:的確可能是全球最強(qiáng)的編程模型,但不知道會(huì)在寶座上持續(xù)多久。

因?yàn)檫@個(gè)領(lǐng)域?qū)嵲诎l(fā)展太快了,并爆料谷歌的Gemini3.0就要發(fā)布了!

圖片圖片

他在博文中寫道:

我在上周末獲得了一個(gè)“新模型”的預(yù)覽權(quán)限,結(jié)果就是 Sonnet 4.5。我的第一印象是,它在代碼上的表現(xiàn)比我之前最常用的 GPT-5-Codex 更好,而后者自幾周前推出以來一直是我的首選編程模型。

這個(gè)領(lǐng)域發(fā)展太快了——傳聞 Gemini 3 即將發(fā)布,所以誰也不知道 Sonnet 4.5 能在“最佳編程模型”的寶座上坐多久。

Simon 對于 Sonnet 4.5 在調(diào)用工具和指令遵循方面的表現(xiàn)大為贊嘆。

在代碼解釋器調(diào)用方面,他用了“堪稱亮眼”來形容、

背景介紹:Claude.ai 網(wǎng)頁端界面最近新增了一個(gè)功能:Claude 可以在沙盒化的服務(wù)器環(huán)境中,直接用 Python 和 Node.js 編寫并執(zhí)行代碼。我三周前詳細(xì)寫過這一功能。

“Anthropic 的實(shí)現(xiàn)比 ChatGPT 的同類功能更強(qiáng)大,因?yàn)樗梢灾苯訌?GitHub 克隆代碼,并從 NPM 和 PyPI 安裝依賴包。而Sonnet 4.5 在使用這個(gè)工具時(shí)的表現(xiàn)堪稱亮眼!”

圖片圖片

圖片圖片

還有一位前Meta軟件工程師也在X上曬出了體驗(yàn)感受:自動(dòng)化能力非常強(qiáng),但不用擔(dān)心人被取代:因?yàn)橥瓿傻拇a根本跑不起來(還需要調(diào)試)。

Claude 4.5 Sonnet 剛剛用一次調(diào)用就重構(gòu)了我的整個(gè)代碼庫。

調(diào)用了 25 個(gè)工具,生成了 3000 多行新代碼,新增了 12 個(gè)全新的文件。

它把一切都模塊化了,拆分了單體結(jié)構(gòu),清理了“意大利面條”式代碼。

結(jié)果是——全都跑不起來。

但不得不說,真是漂亮極了。

圖片圖片

Anthropic首席產(chǎn)品官親自下場:用Claude來克隆Claude.ai界面

這里不得不提 Instagram的聯(lián)合創(chuàng)始人、現(xiàn)Anthropic的首席產(chǎn)品官 

更是在7個(gè)小時(shí)前放出了一個(gè)Claude各個(gè)版本的能力對比,而評估的維度則讓外界感到了AGI時(shí)刻——

讓Claude來克隆自家的網(wǎng)站界面。

從Claude1到Sonnet4.5,每一項(xiàng)能力的演進(jìn)都盡收眼底??梢哉f是整個(gè)大模型領(lǐng)域的一個(gè)進(jìn)化史縮影了!

圖片圖片

圖片圖片

圖片圖片

甚至有一位眼尖的網(wǎng)友,花了5個(gè)半小時(shí)最終復(fù)刻視頻中的Artifacts功能!并忍不住感嘆:未來真的是太妙了!

圖片圖片

Agent:上下文記憶方面也有新動(dòng)作

正如開頭提到的,Claude Agent SDK 也迎來了新一波的更新,而且直指目前 Agent 在設(shè)計(jì)和構(gòu)建中最大的瓶頸:上下文記憶管理。

圖片圖片

此外,在“如何處理平衡自主性和用戶控制權(quán)的權(quán)限系統(tǒng),以及如何協(xié)調(diào)各個(gè)子代理朝著共同目標(biāo)努力”方面,這款SDK也都有所有改進(jìn)。

全家桶大升級(jí)

Claude Sonnet 4.5 模型發(fā)布的同時(shí),Anthropic 還同步發(fā)布了一系列重大產(chǎn)品升級(jí):

?Claude Code:新增了用戶呼聲最高的「檢查點(diǎn)(checkpoints)」功能,可保存進(jìn)度并一鍵回滾;終端界面煥新,原生 VS Code 插件上線。

?Claude API:新增上下文編輯功能和記憶工具,讓智能體可以長時(shí)間運(yùn)行任務(wù),而不會(huì)頻繁達(dá)到上下文限制,完成更復(fù)雜的任務(wù)。

注:其中,上下文編輯可自動(dòng)清除陳舊的上下文;記憶工具用于存儲(chǔ)和查閱上下文窗口之外的信息的記憶工具。

?Claude 應(yīng)用:直接在對話中支持代碼執(zhí)行與文件創(chuàng)建(表格、幻燈片、文檔)。

?Claude for Chrome 插件:已面向上月申請候補(bǔ)的 Max 用戶開放

Claude憑什么是世界上最強(qiáng)的編程模型

編程模型的發(fā)展速度實(shí)在是太快了,尤其今年以來,國內(nèi)外各家模型公司都紛紛專門為編程場景推出自己的model。

這一次,Anthropic的新模型發(fā)布再一次在圈內(nèi)引發(fā)了“最強(qiáng)編程模型”的討論。

有網(wǎng)友表示:自己還是認(rèn)為Gemini2.5 Pro是最強(qiáng)的,而Claude/GPT-5在執(zhí)行提示時(shí)更好些。

也有網(wǎng)友對國內(nèi)的模型提了一些建議:Kimi、GLM、Qwen等雖然速度很快,但沒那么聰明,需要更多的時(shí)候修改。

這里,不得不提一下馬斯克的Grok4-Fast模型哈,主打的就是快和便宜~

而Claude的優(yōu)勢就在于,它在速度、價(jià)格、智能、自主性之間取得了最佳平衡。

圖片圖片

我想,這就是眾多網(wǎng)友較為真實(shí)的一個(gè)寫照吧:大家會(huì)根據(jù)自己的使用場景去權(quán)衡這些維度:速度、價(jià)格、智能、自主性。

以后各家模型都需要在幾方面展開角逐。

受傷的網(wǎng)友:千萬別再降智!

此前兩個(gè)月,Claude 被大量Reddit網(wǎng)友吐槽,模型似乎降智了,這次新品發(fā)布,受過傷的網(wǎng)友對此還心有余悸:這么厲害的模型,那又怎么樣,我們交了訂閱費(fèi)之后,就開始降低模型的能力了!

下面的gif圖,就是網(wǎng)友此時(shí)此刻、擔(dān)心的心情:一開始絲滑的飛起,然后翻車了!

CDN mediaCDN media

不過,小編只能說,這一現(xiàn)象,比較難以避免。算力就擺在那里,Anthropic 和 OpenAI 在平衡高階付費(fèi)用戶和免費(fèi)用戶的過程中,勢必要給數(shù)據(jù)中心里的GPU去降降火(以免融化了),短時(shí)間靈活減低大模型的智力,只能說是不得不采取的一種下下策。

多說一嘴,很快就有更強(qiáng)大的編程模型問世了,Claude Opus 4.5 V.S Gemini 3.0,很快就會(huì)贏了一場新的PK,拭目以待! 

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2010-07-15 14:15:58

最強(qiáng)Linux超級(jí)計(jì)算

2025-02-25 10:08:38

2025-05-17 08:55:41

2012-04-19 11:15:50

人腦計(jì)算機(jī)

2012-10-30 13:18:16

CrayAMD泰坦

2025-04-03 07:06:35

2024-12-12 11:29:51

2023-06-26 10:44:42

2009-11-16 16:40:29

國產(chǎn)超級(jí)計(jì)算機(jī)

2012-11-26 10:33:09

2019-10-31 16:14:28

物聯(lián)網(wǎng)機(jī)器學(xué)習(xí)AI

2012-05-07 09:48:25

2016-01-13 19:18:44

樂視云

2025-05-06 09:15:00

代碼模型AI

2015-06-17 14:06:50

編程語言計(jì)算機(jī)編程語言

2025-04-21 08:35:00

OpenAI智能體編程

2022-12-28 10:21:00

騰訊云計(jì)算機(jī)視覺

2024-09-13 14:01:12

2025-04-17 14:09:52

OpenAI模型編程

2022-06-10 14:47:17

量子計(jì)算機(jī)編程
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)