偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

小模型才是 Agent 的未來？這篇立場文把話挑明了

2025-08-19 09:20:02

人工智能新聞

最近，來自英偉達和佐治亞理工學(xué)院的研究人員發(fā)表了一篇論文《小型語言模型是智能體AI的未來》（Small Language Models are the Future of Agentic AI）。他們大膽斷言：當前以LLM為中心的智能體構(gòu)建方式，不僅成本高昂、效率低下，而且可能根本不是未來的方向

AI圈最近什么最火？答案里一定有AI Agent。

從能幫你預(yù)訂機票、規(guī)劃旅行的私人助理，到能自動編寫、調(diào)試代碼的程序員搭檔，AI智能體的浪潮正洶涌而來。目前，構(gòu)建這些智能體的主流方式，幾乎都是把一個超大規(guī)模的語言模型（LLM），比如GPT-4，作為智能體的大腦。我們似乎都默認了一個邏輯：大腦越強，智能體就越聰明。

但是，凡事都非得大力出奇跡嗎？我們真的需要用一個核反應(yīng)堆來給我們手機充電嗎？

最近，來自英偉達和佐治亞理工學(xué)院的研究人員發(fā)表了一篇論文《小型語言模型是智能體AI的未來》（Small Language Models are the Future of Agentic AI）。他們大膽斷言：當前以LLM為中心的智能體構(gòu)建方式，不僅成本高昂、效率低下，而且可能根本不是未來的方向。

一句話結(jié)論：在大多數(shù)實際的 Agent 場景里，小語言模型（SLM）已經(jīng)足夠強、更好管、更省錢。真正需要“談笑風生、上天入地”時，再把LLM當備用核反應(yīng)堆拉出來用——默認用小、必要時用大，才是更健康的工程范式。

我先把概念說清楚

SLM（小語言模型）：能在常見消費級設(shè)備上本地推理，并且延遲對單用戶來說是可接受的。作者給出刻度是：<10B 參數(shù)基本可算小。（對應(yīng)的，LLM就是不滿足這些條件的一類）。

Agent/Agentic System：帶一點自主性的系統(tǒng)，會調(diào)用工具、讀寫上下文、分解任務(wù)，語言模型是它的中樞大腦。

這就埋下一個關(guān)鍵伏筆：Agent 里語言模型承擔的工作，大多是窄而重復(fù)的子任務(wù)，不是開放域長談。

論文的核心觀點（翻譯成人話）

1.V1：能力足夠

新一代 SLM 的真實能力，已經(jīng)能覆蓋相當多 Agent 子模塊的需求。

2. V2：工程更合拍

Agent 需要的是可控、穩(wěn)定、格式對齊的小腦袋，而不是永遠把全才往上塞。

3. V3：經(jīng)濟性碾壓

在大多數(shù)調(diào)用場景里，小模型的延遲/能耗/FLOPs都占優(yōu)，整體成本占比更低。

一句話：SLM-first、LLM-as-needed，是工程團隊應(yīng)當默認的系統(tǒng)設(shè)定。

為何說能力足夠？看幾組代表性信號

作者并不是泛泛而談，而是給了一串小而強的樣本（我挑重點翻譯）：

Phi 系列：Phi-2（2.7B）在常識推理和代碼生成上能追平 30B 級別，同時推理快一個量級；Phi-3 Small（7B）把理解/常識/代碼進一步推到 70B 同代的水準。

Nemotron-H（2/4.8/9B）：混合結(jié)構(gòu)（Mamba+Transformer），在指令跟隨/代碼生成上對齊 30B 密集模型，推理算力只要十分之一左右。

SmolLM2（125M–1.7B）：在語言理解、工具調(diào)用、指令跟隨上逼近 14B；對比兩年前的 70B，已平替。

Hymba-1.5B：指令跟隨超 13B，吞吐高 3.5×。

DeepSeek-R1-Distill（1.5–8B）：蒸餾后的小模型在常識/推理上非常能打。

RETRO-7.5B：檢索增強后 7.5B 直懟 GPT-3（175B）量級的語言建模能力。

xLAM-2-8B：工具調(diào)用專項性能搶眼，甚至壓過一些前沿閉源模型。

更有意思的是：推理時增強（test-time compute）、自一致、Verifier 反饋、工具增強等拼裝術(shù)，在小模型上更劃算。換句話說，參數(shù)規(guī)模 ≠ 能力上限，尤其當你允許在推理時多跑幾步/多投幾票時。

為什么說工程更合拍？

1）Agent 本質(zhì)只暴露了語言模型的窄切片

絕大多數(shù)模塊都在反復(fù)做有限模板化的工作：解析意圖、抽取字段、調(diào)用函數(shù)（嚴格 JSON）、生成特定格式的結(jié)果。

這類活兒最怕有時靈光、有時走神。SLM 更容易做成只會這一招、但永遠不走樣的專家，把格式、風格、約束寫進后訓(xùn)練/微調(diào)，穩(wěn)定性就上來了。

2）Agent 天然多模型異構(gòu)

復(fù)雜對話/HCI 層：可以用 LLM。

工具調(diào)用/控制流/結(jié)構(gòu)化生成層：用若干?？?SLM。

模型本身也可作為彼此的工具，路由與分工變成一等公民。

這和現(xiàn)代工程微服務(wù)化直覺契合。

3）數(shù)據(jù)閉環(huán)白送

Agent 的每一次工具/模型調(diào)用，本來就有指令模板和效果標簽。加個安全合規(guī)的埋點 Logger，自然長出高質(zhì)量?？茢?shù)據(jù)，你就能持續(xù)把 LLM 的接口蒸餾/遷移成更便宜的 SLM。

為什么說更省錢？

單次推理成本：7B 相比 70–175B，延遲/能耗/FLOPs 常見 10–30× 優(yōu)勢；并且不需要跨卡/跨機并行，運維復(fù)雜度和漏損都下降。

微調(diào)敏捷：LoRA/QLoRA 幾個 GPU 小時就能迭代一個專家 SLM，今晚修 bug，明早發(fā)版。

邊緣/本地部署：實時、離線、數(shù)據(jù)不出域。

樂高式系統(tǒng)設(shè)計：橫向擴技能（多加幾個小專家），比縱向堆參數(shù)更易調(diào)、更可控、更容易做 A/B 與回滾。

常見質(zhì)疑與回應(yīng)

質(zhì)疑 1：大模型的整體語言理解永遠更好，為什么不用？

回應(yīng)：

經(jīng)典Scaling Law多數(shù)假設(shè)同構(gòu)架構(gòu)隨規(guī)模放大，而新一代 SLM 大量引入結(jié)構(gòu)創(chuàng)新（混合狀態(tài)空間、注意力變體等），不在同一個曲線上。

微調(diào)/蒸餾 + 推理時增加計算，在 SLM 上性價比更好。

Agent 會主動分解任務(wù)，把復(fù)雜問題切成小步，所謂語義樞紐的潛在優(yōu)勢在簡化子任務(wù)里體現(xiàn)不出來。

質(zhì)疑 2：LLM 集中化服務(wù)更容易攤薄成本，實際更便宜？

回應(yīng)：

負載均衡/排隊系統(tǒng)正在快速進化，SLM 高吞吐低延遲的調(diào)度越做越順手。

基礎(chǔ)設(shè)施與人才成本確實要算，但行業(yè)數(shù)據(jù)在顯示一個持續(xù)下行趨勢。

場景相關(guān)是關(guān)鍵：高并發(fā)、重對話的前臺接口用 LLM 合理，但后排那堆結(jié)構(gòu)化子任務(wù)很少需要。

質(zhì)疑 3：行業(yè)慣性太大，來不及換

回應(yīng)：承認慣性。但只要你從一個高頻、可度量、可回滾的接口開始做 PoC，收益（成本/延遲/穩(wěn)定性）常常能用腳投票。

從 LLM 遷到 SLM：一份可抄作業(yè)的轉(zhuǎn)型清單

論文把遷移過程寫成了一個六步算法，我把它翻成工程 checklist：

1. 安全埋點：記錄所有非 HCI的模型/工具調(diào)用（輸入、輸出、參數(shù)、延遲）。注意加密、RBAC、脫敏。

2. 數(shù)據(jù)清洗：去除 PII/PHI/敏感內(nèi)容；必要時自動釋義/匿名化領(lǐng)域數(shù)據(jù)，避免跨租戶泄露風險。

3. 任務(wù)聚類：對調(diào)用與動作做無監(jiān)督聚類，找出重復(fù)性高的候選子任務(wù)（意圖識別、結(jié)構(gòu)化抽取、某類文檔摘要、特定工具的函數(shù)調(diào)用、代碼片段生成等）。

4. 模型選型：為每個子任務(wù)挑 1–2 個候選 SLM（看指令跟隨、推理能力、上下文長度、許可協(xié)議、顯存/算力足跡）。

5. ?？莆⒄{(diào)：用步驟 2/3 得到的任務(wù)數(shù)據(jù)，跑 PEFT（LoRA/QLoRA）或全參微調(diào)；必要時做蒸餾（讓 SLM 學(xué) LLM 的輸出分布和邊界）。

6. 迭代路由：把 SLM 接到生產(chǎn)路由中，和 LLM 做灰度/AB；持續(xù)采樣新數(shù)據(jù)、定期再訓(xùn)練 SLM 與路由策略。

小建議：先挑格式嚴格 + 失敗可回滾 + 量大穩(wěn)定的接口做 PoC（比如表單抽取、工具 JSON 調(diào)用）。一旦跑通一兩個點，剩下都是復(fù)制粘貼。

你可能踩到的坑（以及怎么繞）

B1：基礎(chǔ)設(shè)施慣性——團隊/供應(yīng)商的算力與計費都押在 LLM 上。

對策：從邊緣/本地與微服務(wù)后排開刀，做非侵入式替換。

B2：訓(xùn)練/評測只盯通用基準——與 Agent 真實效用脫節(jié)。

對策：引入任務(wù)內(nèi)指標（工具調(diào)用成功率、結(jié)構(gòu)化字段符合率、端到端成功/時延/成本）。

B3：認知與宣傳偏差——SLM 的市場聲量更小。

對策：用可視化儀表盤把"錢、省了多少；錯，少了多少；快，快了多少”擺給老板看。

參考系統(tǒng)形態(tài)（一個可落地的“三層”）

1.HCI/對話層：LLM 負責開放式對話與復(fù)雜規(guī)劃（可選）。

2. 執(zhí)行器層：若干 SLM 專家（抽取、路由、工具 JSON、代碼片段、模板化寫作）。

3. 工具層：數(shù)據(jù)庫/搜索/API/函數(shù)執(zhí)行/向量檢索。

配套度量與回歸：覆蓋正確率、延遲、P50/P95、成本、故障注入回放。

寫給老板的 3 條摘要

不是砍掉大模型，而是把大模型放在該用的地方；其它 70%–90% 的窄任務(wù)，交給 SLM。

錢和可靠性會說話：你會看到顯著的成本下降和更穩(wěn)的格式輸出。

越早埋點、越快閉環(huán)，你的SLM ?？栖妶F就越快長出來。

責任編輯：張燕妮來源： AI寒武紀

Agent 模型 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營