
譯者 | 布加迪
審校 | 重樓
智能體AI行業(yè)蓬勃發(fā)展,產值超過 52 億美元,預計到 2034年將達到2000億美元。我們正進入一個AI將像互聯(lián)網(wǎng)一樣普及的時代,但其根基存在嚴重缺陷。當今的AI革命依賴龐大且耗能的大語言模型(LLM),面向智能體AI的小語言模型(SLM)擁有獨特的優(yōu)勢,可以解決這一問題。雖然LLM接近人類的能力令人印象深刻,但對于某些特定任務往往顯得大材小用,好比用大錘砸核桃。結果如何?成本高昂、能源浪費嚴重、創(chuàng)新受阻,而面向智能體AI的SLM克服的正是這種挑戰(zhàn)。
但還有更好的方法。英偉達的研究論文《小語言模型是智能體AI的未來》揭示了SLM如何提供了一條更智能化、更可持續(xù)的出路。不妨深入探討為什么更小常常更好以及SLM如何重塑AI的未來。
為何選擇SLM?
在理解為什么SLM是正確的選擇之前,不妨先來了解一下SLM究竟是什么。該論文將其定義為一種語言模型,能夠部署在常見的消費電子設備上,以足夠低的延遲進行推理,從而能夠切實處理單個用戶的智能體請求。截至2025年,這通常包括參數(shù)數(shù)量不足100億的模型。

圖片來源:英偉達研究論文
論文作者認為,SLM不僅是LLM的可行替代方案,而且在許多情況下,它們是更優(yōu)的選擇。他們基于以下三大支柱提出了令人信服的理由:
- SLM足夠強大
- SLM更經濟
- SLM更靈活
不妨逐一分析這些理由。
SLM的驚人“威力”
人們很容易認為SLM不如大模型強大。畢竟,“越大越好”這個口號多年來一直是AI界的驅動力。但最近的進展表明,情況不再如此。
精心設計的SLM如今在執(zhí)行各種任務時能夠達到甚至超越大語言模型的性能。論文重點介紹了幾個例子,包括如下:
- 微軟的Phi系列:Phi-2模型僅包含27億個參數(shù),其常識推理和代碼生成得分與包含 300億個參數(shù)的模型相當,同時運行速度提高了約15倍。Phi-3小模型(包含70億個參數(shù))的表現(xiàn)更出彩,其語言理解、常識推理和代碼生成得分可媲美規(guī)模大其10倍的模型。
- 英偉達的Nemotron-H系列:這些混合Mamba-Transformer模型的參數(shù)規(guī)模從20億到90億不等,其指令跟蹤和代碼生成精度可與密集的300億參數(shù)LLM相媲美,而推理成本卻只是其一小部分。
- Hugging Face的SmolLM2系列:這一系列緊湊語言模型的參數(shù)規(guī)模從1.25億到17億不等,其性能可與同一代140億參數(shù)模型,甚至兩年前的700億參數(shù)模型相媲美。
這些只是幾個例子,但傳達的訊息很明確:就性能而言,規(guī)模并非一切。借助現(xiàn)代訓練技術、提示和智能體增強技術,SLM大有作為。
小型化的“經濟”效益
這是SLM真正引人注目的地方。在這個精打細算的世界,SLM的經濟優(yōu)勢不容忽視。
- 推理效率:在延遲、能耗和FLOP方面,部署一個擁有70億個參數(shù)的SLM比部署一個擁有700億到1750億個參數(shù)的LLM便宜10到30倍。這意味著你可以獲得大規(guī)模的實時智能體響應,無需花費巨資。
- 微調敏捷性:需要添加新的行為或修復錯誤?使用SLM,你可以在數(shù)小時內完成,而不是數(shù)周。這便于快速迭代和適應,這在當今快節(jié)奏的世界至關重要。
- 邊緣部署:SLM可以在消費級GPU上運行,這意味著你可以進行實時離線的智能體推理,擁有更低的延遲和更強的數(shù)據(jù)控制能力。這為設備端AI開辟了全新的無限可能。
- 模塊化系統(tǒng)設計:你可以結合使用多個小型專用SLM來處理不同的任務,無需依賴單個龐大的LLM。這種類似積木的方法成本更低、調試速度更快、部署更輕松,并且更符合現(xiàn)實世界中智能體的多樣性操作。
綜上所述,SLM的經濟效益毋庸置疑。它們比大模型更便宜、更快速、更高效,對于任何想要構建經濟高效、模塊化且可持續(xù)的AI智能體的組織來說,它們是明智之選。
為什么一種“尺寸”無法適應所有場景?
世界并非千篇一律,我們要求AI智能體執(zhí)行的任務也并非千篇一律。這時候SLM的靈活性大放異彩。
由于SLM規(guī)模更小、訓練成本更低,你可以為不同的智能體例程創(chuàng)建多個專門的專家模型。這使你能夠:
- 適應不斷變化的用戶需求:需要支持新的行為或輸出格式?沒問題。只需對新的SLM進行微調。
- 遵守不斷變化的法規(guī):借助SLM,你可以輕松適應不同市場的新法規(guī),無需重新訓練龐大的單體模型。
- 推動AI大眾化:通過降低進入門檻,SLM有助于推動AI大眾化,讓更多的人和組織參與到語言模型的開發(fā)中。這將帶來一個更加多元化、創(chuàng)新的AI生態(tài)系統(tǒng)。
未來之路:克服采用障礙
既然SLM的優(yōu)點如此明顯,我們?yōu)楹稳匀粚?/span>LLM如此癡迷?論文指出了采用面臨的三大障礙:
- 前期投入:AI行業(yè)已在集中式LLM推理基礎設施上投入了數(shù)十億美元,也不會在一夜之間放棄這筆龐大的投入。
- 通用基準:AI社區(qū)歷來專注于通用基準,這導致人們偏向更龐大、更通用的模型。
- 缺乏意識:SLM的市場營銷和媒體關注度遠不及LLM,這意味著許多人根本不知道它們的潛力。
但這些并非不可逾越的障礙。隨著SLM的經濟效益越來越廣為人知,以及支持SLM的新工具和基礎設施日益開發(fā),可以預見人們將逐漸從LLM轉向以SLM為中心的方法。
LLM到SLM的轉換算法
論文甚至提供了實現(xiàn)這一轉變的路線圖,即將智能體應用程序從LLM轉換為SLM的六步算法:
- 使用數(shù)據(jù)安全收集:記錄所有非HCI智能體調用,以捕獲輸入提示、輸出響應及其他相關數(shù)據(jù)。
- 數(shù)據(jù)篩選和過濾:清除所有敏感數(shù)據(jù),并準備用于微調的數(shù)據(jù)。
- 任務聚類:識別請求或內部智能體操作的重復模式,以定義適合SLM專業(yè)化的任務。
- SLM 選擇:根據(jù)SLM的功能、性能、許可和部署占用空間,為每個任務選擇最佳的SLM。
- 專業(yè)化 SLM微調:根據(jù)特定任務的數(shù)據(jù)集對所選擇的SLM進行微調。
- 迭代和改進:使用新數(shù)據(jù)不斷重新訓練SLM和路由模型,以保持性能,并適應不斷變化的使用模式。
這是一個切實可行的計劃,任何組織都可以用來立即開始享受SLM的優(yōu)勢。
結論
AI革命已然到來,但使用能耗密集型的LLM無法實現(xiàn)可持續(xù)的規(guī)?;l(fā)展。未來將建立在面向智能體AI的SLM之上——設計小巧、高效且靈活。英偉達的研究論文既是一記警鐘,又是一份路線圖,質疑了業(yè)界對LLM的執(zhí)念,同時證明了面向智能體AI的SLM能夠以極低的成本提供相當?shù)男阅?。這不僅僅側重技術,更側重打造一個更可持續(xù)性、公平、創(chuàng)新的AI生態(tài)系統(tǒng)。面向智能體AI的SLM這波即將到來的浪潮甚至會推動硬件創(chuàng)新,英偉達據(jù)稱在開發(fā)專門針對這些緊湊小模型經過優(yōu)化的專用處理單元。
原文標題:SLMs for Agentic AI: Why Small Language Models Outperform LLMs?,作者:Anu Madan





































