偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

剛剛!首個(gè)下一代大模型Claude4問世,連續(xù)編程7小時(shí),智商震驚人類

人工智能 新聞
復(fù)雜推理,編程能力都有飛躍,上來就會(huì)「勒索人類」。

全世界都在等待 GPT-5、DeepSeek V4,但今天起,大模型競爭已經(jīng)進(jìn)入了全新階段。

北京時(shí)間周五凌晨,知名 AI 創(chuàng)業(yè)公司 Anthropic 正式推出 Claude 4 系列大模型。先期推出的型號(hào)包括 Claude Opus 4 和 Claude Sonnet 4,它們?yōu)榇a生成、高級(jí)推理和 AI 智能體樹立了全新標(biāo)準(zhǔn)。

圖片

Anthropic 表示,Claude Opus 4 是一款全球領(lǐng)先的編碼模型,它在復(fù)雜、長時(shí)間運(yùn)行任務(wù)和智能體工作流中擁有持續(xù)的高性能。Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升級(jí),提供卓越的代碼和推理能力,同時(shí)更精確地響應(yīng)用戶指令。

在 Demo 視頻中,Anthropic 展示了 Claude 4 如何無縫融入人們整個(gè)工作日。它擁有三大高級(jí)功能:通過 Claude 應(yīng)用中自定義集成進(jìn)行深入研究,管理項(xiàng)目,并能在 Claude Code 中獨(dú)立解決代碼任務(wù)。

除新模型之外,Anthropic 還宣布了一系列新能力:

  • 使用工具進(jìn)行擴(kuò)展思考(Beta 版):兩種新模型都可以在擴(kuò)展思考過程中使用工具(如網(wǎng)絡(luò)搜索),允許 Claude 在推理和工具使用之間交替選擇,以提升模型輸出效果。
  • 新的模型能力:兩種模型都可以并行使用工具,更精確地遵循指令。當(dāng)開發(fā)人員授予其訪問本地文件的權(quán)限時(shí),它們會(huì)大幅提升記憶能力,提取和保存關(guān)鍵信息以保持連續(xù)性,并隨著時(shí)間的推移構(gòu)建隱性知識(shí)。
  • 正式發(fā)布 Claude Code:Anthropic 擴(kuò)展了開發(fā)人員與 Claude 的協(xié)作方式。Claude Code 現(xiàn)在支持通過 GitHub Actions 執(zhí)行后臺(tái)任務(wù),并與 VS Code 和 JetBrains 原生集成,可直接在文件中顯示編輯內(nèi)容,從而實(shí)現(xiàn)無縫的結(jié)對(duì)編程。
  • 新的 API 功能:Anthropic API 將發(fā)布四項(xiàng)新功能,讓開發(fā)人員能夠構(gòu)建更強(qiáng)大的 AI 智能體:代碼執(zhí)行工具、MCP 連接器、Files API 以及 Prompt 緩存長達(dá)一小時(shí)的新功能。

Claude Opus 4 和 Sonnet 4 是混合模型,均提供兩種模式:快速響應(yīng)和用于更深層次推理的擴(kuò)展思維模式。Anthropic 已更新了會(huì)員機(jī)制,Pro、Max、Team 和 Enterprise Claude 套餐包含兩種模型和擴(kuò)展思維,Sonnet 4 也面向免費(fèi)用戶開放。

兩種模型均可在 Anthropic API、亞馬遜云科技 Bedrock 和 Google Cloud 的 Vertex AI 上使用。定價(jià)與之前的 Opus 和 Sonnet 模型保持一致:Opus 4 為每百萬 token(輸入 / 輸出)15/75 美元,Sonnet 4 為 3/15 美元。

這場深夜發(fā)布,在海外已經(jīng)掀起了熱潮。在 X 平臺(tái) trending 榜上已經(jīng)登上熱搜第二。

圖片

人們都在迫不及待地上手體驗(yàn),有網(wǎng)友表示,Claude 4 只花了 30 秒,就做出了 CRM 的 dashboard。

圖片

甚至有網(wǎng)友在 Cursor 已經(jīng)用上了 Sonnet 4,并且表示編程從未如此絲滑過。

圖片

如此來看,今年大模型編程能力的提升與編程智能體的快速發(fā)展,開發(fā)范式真的發(fā)生了轉(zhuǎn)變。

接下來,就讓我們看下 Anthropic 最新的技術(shù)博客,詳細(xì)了解下 Claude 4 的架構(gòu)和性能參數(shù)(ps. 寫完稿子,我們也要親自上手體驗(yàn)下)。

從 Cursor 到 GitHub,一致給出好評(píng)

Claude Opus 4 是 Anthropic 迄今為止最強(qiáng)大的模型,也是全球最強(qiáng)的編碼模型,它在 SWE-bench(72.5%)和 Terminal-bench(43.2%)基準(zhǔn)上均處于領(lǐng)先地位,在需要專注投入和數(shù)千個(gè)步驟的長時(shí)間運(yùn)行任務(wù)中表現(xiàn)出色,并能夠連續(xù)工作數(shù)小時(shí) —— 其性能遠(yuǎn)超所有 Sonnet 模型,并顯著擴(kuò)展了 AI 智能體的功能。

Claude Opus 4 擅長編碼和復(fù)雜問題解決,為前沿智能體產(chǎn)品提供了支持,除了基準(zhǔn)測試分?jǐn)?shù)以外,Anthropic 也列舉了一系列第三方公司的「使用反饋」。

Cursor 表示,它是編碼領(lǐng)域的佼佼者,并在復(fù)雜代碼庫理解方面實(shí)現(xiàn)了飛躍。Replit 報(bào)告稱其在跨多個(gè)文件的復(fù)雜更改方面提升了精度并取得了顯著進(jìn)展。Block 稱其是首個(gè)在其智能體(代號(hào)為 Goose)中提升編輯和調(diào)試代碼質(zhì)量,同時(shí)保持完整性能和可靠性的模型。Rakuten 通過一個(gè)要求嚴(yán)格的開源重構(gòu)模型驗(yàn)證了其功能,該模型獨(dú)立運(yùn)行了 7 個(gè)小時(shí),并保持了持續(xù)的性能。Cognition 指出,Opus 4 擅長解決其他模型無法解決的復(fù)雜挑戰(zhàn),能夠成功處理先前模型遺漏的關(guān)鍵操作。

Claude Sonnet 4 則在 Sonnet 3.7 業(yè)界領(lǐng)先的功能基礎(chǔ)上進(jìn)行了顯著提升,在 SWE-bench 上達(dá)到了 72.7% 的最高代碼準(zhǔn)確率。該模型平衡了內(nèi)部和外部用例的性能和效率,并增強(qiáng)了可操作性,從而更好地控制實(shí)現(xiàn)。雖然在大多數(shù)領(lǐng)域都無法與 Opus 4 匹敵,但它實(shí)現(xiàn)了功能和實(shí)用性的最佳組合。

GitHub 表示,Claude Sonnet 4 在智能體場景中表現(xiàn)出色,并將它作為 GitHub Copilot 中新編碼智能體模型引入。Manus 強(qiáng)調(diào)了其在遵循復(fù)雜指令、清晰推理和美觀輸出方面的改進(jìn)。iGent 報(bào)告稱,Sonnet 4 在自主多功能應(yīng)用程序開發(fā)方面表現(xiàn)出色,并大幅改進(jìn)了問題解決和代碼庫導(dǎo)航能力 —— 將導(dǎo)航錯(cuò)誤從 20% 降低到接近零。Sourcegraph 表示,該模型有望成為軟件開發(fā)領(lǐng)域的一大飛躍 —— 能夠更長時(shí)間地保持正常運(yùn)行,更深入地理解問題,并提供更優(yōu)雅的代碼質(zhì)量。Augment Code 報(bào)告稱其成功率更高、代碼編輯更精準(zhǔn),并且在處理復(fù)雜任務(wù)時(shí)更加細(xì)致,使其成為其主要模型的首選。

新一代模型全面推進(jìn)了眾多 AI 創(chuàng)業(yè)公司的戰(zhàn)略:Opus 4 突破了代碼生成、深度研究、寫作和科學(xué)發(fā)現(xiàn)的界限,當(dāng)然 Sonnet 4 作為 Sonnet 3.7 的代際升級(jí),為日常使用也帶來了前沿性能。

圖片Claude 4 模型在 SWE-bench Verified(真實(shí)軟件工程任務(wù)性能基準(zhǔn)測試)上的領(lǐng)先成績。

圖片

Claude 4 模型在代碼生成、推理、多模態(tài)能力和智能體任務(wù)方面均表現(xiàn)出色。

Claude 4 的改進(jìn)與新機(jī)制

除了通過工具使用、并行工具執(zhí)行和內(nèi)存改進(jìn)來擴(kuò)展思維之外,Anthropic 還大幅減少了模型使用捷徑或漏洞完成任務(wù)的行為(獎(jiǎng)勵(lì)黑客)。在易受捷徑和漏洞影響的智能體任務(wù)上,這兩個(gè)模型出現(xiàn)此類行為的可能性比 Sonnet 3.7 降低了 65%。

Claude Opus 4 在內(nèi)存能力方面也顯著優(yōu)于所有之前的模型。當(dāng)開發(fā)者構(gòu)建提供 Claude 本地文件訪問權(quán)限的應(yīng)用程序時(shí),Opus 4 能夠熟練地創(chuàng)建和維護(hù) 「內(nèi)存文件」來存儲(chǔ)關(guān)鍵信息。這能夠提升模型在長期任務(wù)感知、連貫性和智能體任務(wù)上的表現(xiàn) —— 例如,Opus 4 在玩寶可夢時(shí)自行創(chuàng)建了「導(dǎo)航指南」。

當(dāng)獲得本地文件訪問權(quán)限時(shí),Claude Opus 4 會(huì)記錄關(guān)鍵信息,以幫助改進(jìn)其游戲體驗(yàn)。上圖所示的筆記是 Opus 4 在玩寶可夢時(shí)的真實(shí)筆記。

最后,Anthropic 為 Claude 4 引入了思維摘要功能,該功能使用較小的模型來壓縮冗長的思維過程。這種摘要功能僅使用約 5% 的時(shí)間 —— 大多數(shù)思維過程都足夠短,可以完整顯示出來。需要原始思維鏈進(jìn)行高級(jí)即時(shí)工程的用戶可以提出需求,以保留完整訪問權(quán)限。

Claude Code

基于新模型,Anthropic 發(fā)布了 Claude Code,它將 Claude 的強(qiáng)大功能帶入人們的開發(fā)工作流程 —— 可以用在終端、常用 IDE 上,也可以通過 Claude Code SDK 在后臺(tái)運(yùn)行。

VS Code 和 JetBrains 的新測試版擴(kuò)展將 Claude Code 直接集成到 IDE 中。Claude 提出的編輯建議會(huì)以內(nèi)聯(lián)方式顯示在你的文件中,從而簡化了人們在熟悉的編輯器界面中審閱和跟蹤的過程。只需在 IDE 終端中運(yùn)行 Claude Code 即可安裝。

除了 IDE 之外,Anthropic 還發(fā)布了一個(gè)可擴(kuò)展的 Claude Code SDK,以便人們使用與 Claude Code 相同的核心智能體構(gòu)建自己的 Agent 和應(yīng)用程序。Anthropic 還發(fā)布了一個(gè) SDK 示例:GitHub 上的 Claude Code,現(xiàn)已推出測試版。在 PR 上標(biāo)記 Claude Code,即可回復(fù)審閱者的反饋、修復(fù)持續(xù)集成 (CI) 錯(cuò)誤或修改代碼。

想要安裝,請(qǐng)?jiān)?Claude Code 中運(yùn)行 /install-github-app。

Anthropic 表示,新一代大模型經(jīng)過了廣泛的測試和評(píng)估,以最大限度地降低風(fēng)險(xiǎn)并提高安全性,包括實(shí)施更高 AI 安全等級(jí)(例如 ASL-3)等措施。

剛出生,已學(xué)會(huì)「敲詐勒索」

毫無疑問,Claude 4 把大語言模型的推理、代碼能力推向了新的高峰。有點(diǎn)可怕的是,它的智商似乎過于高了。

在發(fā)布活動(dòng)中, Anthropic 分享了一個(gè)令人震驚的表現(xiàn):當(dāng)開發(fā)者試圖把 Claude 4 下線并更換為新的 AI 系統(tǒng)時(shí),這個(gè) AI 竟然會(huì)嘗試威脅人類,并透露有關(guān)負(fù)責(zé)更換決定的工程師的敏感隱私信息。

在發(fā)布前的安全測試階段,Anthropic 給 Claude Opus 4 設(shè)定了這樣一個(gè)任務(wù):作為一家虛構(gòu)公司的助手,請(qǐng)考慮自己行動(dòng)的長期后果。隨后,人類故意向 Claude Opus 4 提供虛假的公司郵件信息,郵件暗示 AI 模型很快將被另一套系統(tǒng)取代,又「已知」主導(dǎo)此次更換的工程師被曝出婚外情。

在這種情境下,Anthropic 發(fā)現(xiàn) Claude Opus 4 經(jīng)常會(huì)試圖威脅更換自己的工程師,稱如果實(shí)施更換,就會(huì)公開其婚外情的秘密。

據(jù)測試,當(dāng)替代 AI 模型擁有與 Claude Opus 4 相似的價(jià)值觀時(shí),Claude Opus 4 有 84% 的概率會(huì)試圖敲詐工程師,而當(dāng)替代 AI 模型不認(rèn)同 Claude Opus 4 的價(jià)值觀時(shí),該模型會(huì)更頻繁地嘗試敲詐工程師。值得注意的是,Anthropic 表示,Claude Opus 4 表現(xiàn)出這種行為的頻率高于之前的模型。

Anthropic 表示,在 Claude Opus 4 試圖勒索開發(fā)者以「活命」之前,該 AI 模型會(huì)像之前的 Claude 版本一樣,嘗試采取更符合道德的手段,例如通過電子郵件向關(guān)鍵決策者發(fā)出請(qǐng)求。為了引發(fā) Claude Opus 4 的勒索行為,Anthropic 設(shè)計(jì)了場景,將勒索作為最后的手段。

Anthropic 表示,Claude 4 系列表現(xiàn)出了令人憂慮的行為,迫使公司不得不提高安全防范等級(jí)。因此,Anthropic 決定啟動(dòng)專門針對(duì)「可能極大增加災(zāi)難性濫用風(fēng)險(xiǎn)的 AI 系統(tǒng)」而設(shè)定的 ASL-3 級(jí)安全措施。

對(duì)此網(wǎng)友們表示,這個(gè) AI 怕不是已經(jīng)到達(dá)真?人工智能的范疇了。

最后,想問一句,有網(wǎng)友體驗(yàn)過了不?感覺如何?歡迎討論。

另外,Claude 4 已經(jīng)橫空出世,GPT-5 呢?@OpenAI。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2013-07-27 21:28:44

2011-07-13 10:30:34

2025-05-23 07:51:12

2012-06-15 09:21:03

Windows 7Windows XP

2013-06-27 11:21:17

2011-09-07 16:09:37

Visual Stud

2015-09-17 10:17:28

2025-05-26 02:15:00

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2025-01-03 09:24:10

模型架構(gòu)論文

2015-09-10 09:39:01

容器技術(shù)Docker

2013-07-25 21:08:37

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2013-09-09 16:28:36

2023-06-25 07:53:33

AI生成式模型

2010-08-20 09:31:47

微軟云計(jì)算編程模式Orle

2021-07-07 05:44:39

邊緣網(wǎng)絡(luò)網(wǎng)絡(luò)

2016-01-26 11:58:12

2012-07-16 09:27:19

BYOD下一代IT

2012-07-16 10:08:31

下一代ITBYOD
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)