深夜王炸!剛剛Anthropic發(fā)布全球首個混合推理模型與全新代碼“神器”:雙面王牌組合
剛剛Anthropic公司正式發(fā)布了他們最新的AI王牌組合—— Claude 3.7 Sonnet 和 Claude Code!各種能力超群,只是數(shù)學(xué)能力還是不及DeepSeek等,感覺Claude所有重點(diǎn)都在代碼能力。
第一時間(熬夜??)給大家劃個重點(diǎn)
Claude 3.7 Sonnet:混合推理架構(gòu)登場,打造前所未有的智能巔峰!
Anthropic毫不掩飾對Claude 3.7 Sonnet的自信,直接稱其為 “迄今為止最智能的模型”,更重要的是,它還開創(chuàng)性地成為了 “市場上首個混合推理模型”!
與以往模型不同,Claude 3.7 Sonnet 的獨(dú)特之處在于其 “混合” 能力:
? 極速響應(yīng)與深度思考并存: 它既能像獵豹一樣 “即時響應(yīng)”,滿足對速度有極致要求的場景;又能進(jìn)行 “擴(kuò)展的、逐步思考”,處理需要復(fù)雜推理的任務(wù)。深度思考的過程不再是黑箱操作,而是 “對用戶可見的”!
? 思考時長由你掌控: 對于API開發(fā)者而言,Anthropic 開放了 “思考預(yù)算 (budget for thinking)” 的精細(xì)控制權(quán)。你可以根據(jù)任務(wù)的復(fù)雜程度和對結(jié)果質(zhì)量的要求,設(shè)定模型思考的tokens上限 (最高可達(dá) 128K tokens 輸出限制)。 這意味著開發(fā)者可以根據(jù)實際需求,在 速度、成本和答案質(zhì)量 之間自由調(diào)優(yōu),實現(xiàn)真正的 “按需定制”!?? 這種靈活性是前所未有的,也體現(xiàn)了Anthropic對開發(fā)者需求的深刻理解。
? 標(biāo)準(zhǔn)模式與擴(kuò)展思考模式: Claude 3.7 Sonnet 在 標(biāo)準(zhǔn)模式 下,是 Claude 3.5 Sonnet 的升級版,性能已經(jīng)非常出色。 而在 擴(kuò)展思考模式 下,它會進(jìn)行 “自我反思 (self-reflects)” 后再給出答案,這使得它在 數(shù)學(xué)、物理、指令跟隨、編碼 等多個領(lǐng)域的性能都得到顯著提升。更棒的是,無論在哪種模式下,prompt的編寫方式都基本一致,降低了用戶的學(xué)習(xí)成本。
?? 代碼能力史詩級躍升!Claude Code橫空出世,賦能智能體編碼新范式!
如果你是一名開發(fā)者,尤其是專注于 編程和前端Web開發(fā),那么Claude 3.7 Sonnet 和 Claude Code 的組合絕對會不失所望! Anthropic 明確指出,新模型在 “編碼和前端Web開發(fā)” 領(lǐng)域取得了 “特別強(qiáng)勁的改進(jìn)”。
更重要的是“Claude Code” —— 一個跨時代的 “智能體編碼命令行工具”! 這不僅是 Claude 系列的首款代碼工具,更預(yù)示著AI輔助編程進(jìn)入了一個全新的階段。 目前 Claude Code 以 “限量研究預(yù)覽版” 的形式推出。
Claude Code 的強(qiáng)大之處在于,它將 AI 的代碼智能直接融入開發(fā)者的工作流中,讓你能夠在熟悉的 終端環(huán)境 下,“直接委托實質(zhì)性的工程任務(wù)給 Claude”。 想象一下,你只需在命令行輸入指令,就能讓 AI 智能體完成代碼搜索、文件編輯、測試編寫和運(yùn)行、代碼提交和推送等一系列復(fù)雜的編程任務(wù)。
Claude Code 的核心能力包括:
- ? 代碼檢索與閱讀: 快速搜索和理解代碼庫,不再需要在海量代碼中手動翻找。
- ? 文件編輯: 智能修改代碼文件,無論是簡單的bug修復(fù)還是復(fù)雜的重構(gòu),都能輕松應(yīng)對。
- ? 測試編寫與運(yùn)行: 自動生成和執(zhí)行測試用例,確保代碼質(zhì)量,提升軟件可靠性。
- ? 代碼提交與推送 (GitHub 集成): 無縫集成 GitHub,方便代碼的版本控制和協(xié)作。
- ? 命令行工具集成: 靈活使用各種命令行工具,擴(kuò)展功能,滿足更復(fù)雜的需求。
- Anthropic 強(qiáng)調(diào),Claude Code 在 測試驅(qū)動開發(fā)、復(fù)雜問題調(diào)試和大規(guī)模重構(gòu) 等場景中尤其得心應(yīng)手。 在早期測試中,Claude Code 能夠在 “單次操作中完成通常需要 45 分鐘以上的手動工作”,顯著縮短開發(fā)時間和成本。
Claude Code 目前處于研究預(yù)覽的 beta 階段:
https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview
權(quán)威評測數(shù)據(jù)震撼發(fā)布:實力碾壓,問鼎多項榜單!
性能是檢驗 AI 模型實力的硬指標(biāo)。Anthropic 在公告中展示了 Claude 3.7 Sonnet 在多個權(quán)威基準(zhǔn)測試上的卓越表現(xiàn),用數(shù)據(jù)說話,實力盡顯:
?SWE-bench Verified (軟件工程基準(zhǔn)測試): Claude 3.7 Sonnet 以 70.3% (使用定制 scaffold) 和 62.3% (標(biāo)準(zhǔn) scaffold) 的驚人成績,再次成為該榜單的王者,遠(yuǎn)超 OpenAI 的 GPT-4 和 DeepSeek R1 等強(qiáng)勁對手。 SWE-bench Verified 專注于評估 AI 模型解決真實世界軟件問題的能力,Claude 3.7 Sonnet 的優(yōu)異表現(xiàn)充分證明了其在實際編碼場景中的強(qiáng)大實力。值得注意的是,70.3% 的高分使用了 “定制 scaffold”,并在問題子集上進(jìn)行了內(nèi)部評分,而 62.3% 的分?jǐn)?shù)則使用了 bash/editor 工具和一個 “思考工具”,在 500 個問題上進(jìn)行了單次嘗試,沒有額外的測試時計算。
- TAU-bench (智能體工具使用基準(zhǔn)測試): Claude 3.7 Sonnet 在 TAU-bench 的 零售 (retail) 和 航空 (airline) 兩個場景中,分別取得了 81.2% 和 58.4% 的領(lǐng)先成績。 TAU-bench 考察的是 AI 智能體在復(fù)雜的真實世界任務(wù)中,與用戶和各種工具進(jìn)行有效交互的能力。Claude 3.7 Sonnet 在此項測試中再次拔得頭籌,印證了其作為智能體工具的卓越性能。為了獲得這些分?jǐn)?shù),Anthropic 使用了 prompt addendum 指導(dǎo) Claude 更好地利用 “planning” tool,鼓勵模型寫下思考過程。
通用benchmark測試
總而言之,Claude 3.7 Sonnet 在 指令跟隨、通用推理、多模態(tài)能力和智能體編碼 等多個關(guān)鍵領(lǐng)域都展現(xiàn)出了卓越的性能,在 數(shù)學(xué)和科學(xué) 方面,擴(kuò)展思考模式帶來了顯著的提升但是沒有超越deepseek等模型。 在 Anthropic 內(nèi)部的 Pokémon gameplay tests (寶可夢游戲測試) 中,Claude 3.7 Sonnet 也超越了以往的所有模型。
寫在最后:
按照Anthropic的說法:Claude 3.7 Sonnet 和 Claude Code 的發(fā)布,是在 “構(gòu)建真正增強(qiáng)人類能力的 AI 系統(tǒng)” 道路上邁出的重要一步。 Anthropic 堅信,憑借其強(qiáng)大的 “深度推理、自主工作和有效協(xié)作” 能力,AI 將把我們帶向一個更加美好的未來,在那里,AI 將 “豐富和擴(kuò)展人類所能成就的一切”。
Anthropic 也在公告中展望了 Claude 的發(fā)展藍(lán)圖,描繪了 Claude 從 “助手 (assists)” 到 “合作者 (collaborates)” 再到 “先鋒 (pioneers)” 的進(jìn)化路徑,預(yù)示著 AI 在未來將扮演越來越重要的角色,最終將能夠 “找到突破性的解決方案,解決需要團(tuán)隊數(shù)年才能完成的挑戰(zhàn)性問題”。