偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

英偉達(dá)新研究:小模型才是智能體的未來

人工智能 新聞
在Agent任務(wù)中,大語言模型經(jīng)常處理重復(fù)、專業(yè)化的子任務(wù),這讓它們消耗大量計(jì)算資源,且成本高、效率低、靈活性差。

大模型OUT,小模型才是智能體的未來!

這可不是標(biāo)題黨,而是英偉達(dá)最新論文觀點(diǎn):

在Agent任務(wù)中,大語言模型經(jīng)常處理重復(fù)、專業(yè)化的子任務(wù),這讓它們消耗大量計(jì)算資源,且成本高、效率低、靈活性差。

相比之下,小語言模型則能在性能夠用的前提下,讓Agent任務(wù)的執(zhí)行變得更加經(jīng)濟(jì)靈活。

網(wǎng)友的實(shí)測也印證了英偉達(dá)的觀點(diǎn):當(dāng)6.7B的Toolformer學(xué)會調(diào)用API后,其性能超越了175B的GPT-3。

7B參數(shù)的DeepSeek-R1-Distill推理表現(xiàn)也已勝過Claude3.5和GPT-4o。

那么,小模型是如何“四兩撥千斤”,放倒大模型的?

針對硬件與任務(wù)的優(yōu)化

總的來說,小模型通過優(yōu)化硬件資源Agent任務(wù)設(shè)計(jì)兩個(gè)方面來更高效地執(zhí)行Agent任務(wù)。

首先是針對GPU資源和調(diào)度的優(yōu)化。

由于小模型“體積”小巧的獨(dú)特優(yōu)勢,它們可以在GPU上高效共享資源,其可在并行運(yùn)行多個(gè)工作負(fù)載的同時(shí)保持性能隔離。

相應(yīng)的,小巧的體積還帶來了更低的顯存占用,從而使得超分配機(jī)制得以可能,進(jìn)一步提升并發(fā)能力。

此外,GPU資源還能根據(jù)運(yùn)行需求靈活劃分,實(shí)現(xiàn)異構(gòu)負(fù)載的彈性調(diào)度和整體資源優(yōu)化。

而在GPU調(diào)度中,通過優(yōu)先調(diào)度小模型的低延遲請求,同時(shí)預(yù)留部分資源應(yīng)對偶發(fā)的大模型調(diào)用,就能實(shí)現(xiàn)更優(yōu)的整體吞吐與成本控制。

其次是針對特定任務(wù)的模型部署

在傳統(tǒng)的Agent任務(wù)場景中,Agent依賴大模型完成工具調(diào)用、任務(wù)拆解、流程控制和推理規(guī)劃等操作。

然而就像網(wǎng)友提到的,Agent任務(wù)往往是重復(fù)性的、可預(yù)測的、范圍明確的。譬如,幫我“總結(jié)這份文檔,提取這份信息,編寫這份模板,調(diào)用這個(gè)工具”,這些最大公約數(shù)需求最常被拉起。

因此,在大部分需求中,往往不需要一個(gè)單一的大模型來執(zhí)行簡單重復(fù)的任務(wù),而是需要為每個(gè)子任務(wù)選擇合適的工具。

基于此,英偉達(dá)指出,與其讓花費(fèi)高企的通用大模型處理這些常見的任務(wù),不如讓一個(gè)個(gè)經(jīng)過專業(yè)微調(diào)的小模型執(zhí)行每個(gè)子任務(wù)。

這樣一來,不僅可以避免Agent任務(wù)中,大模型“高射炮打蚊子”帶來的資源浪費(fèi),還可以有效地降低推理成本。

舉例來說,運(yùn)行一個(gè)70億參數(shù)的小模型做推理,要比用700–1750億參數(shù)的大模型便宜10–30倍。

同時(shí),由于小模型計(jì)算資源占用低,因而也更適合在本地或邊緣部署,而大模型則更多地依賴大量GPU的并行計(jì)算,依賴中心化的云計(jì)算供應(yīng)商,需要花費(fèi)更多地計(jì)算成本。

此外,大模型還有“大船掉頭難”的毛病,不僅預(yù)訓(xùn)練和微調(diào)成本遠(yuǎn)高于小模型,難以快速適配新需求或新規(guī)則,而且還無法充分利用海量參數(shù)(一次推理只激活少量參數(shù))。

與之相對,小模型則可以在較小數(shù)據(jù)量和資源條件下完成高效微調(diào),迭代更快,同時(shí)還能憑借更合理的模型結(jié)構(gòu)和定制設(shè)計(jì),帶來更高的參數(shù)利用率。

不過,也有一些研究者提出了反對的聲音。

例如,就有研究者認(rèn)為大模型因其規(guī)模龐大而具有更好的通用理解能力,即使在專業(yè)的任務(wù)中也表現(xiàn)更佳。

針對這一疑問,英偉達(dá)表示,這種觀點(diǎn)忽略了小模型的靈活性,小模型可以通過輕松的微調(diào)來達(dá)到所需的可靠性水平 。

同時(shí),先進(jìn)的Agent系統(tǒng)會將復(fù)雜問題分解為簡單的子任務(wù),這使得大模型的通用抽象理解能力變得不那么重要 。

此外,還有研究者對小模型相對大模型的經(jīng)濟(jì)性提出了質(zhì)疑:

小模型雖然單次推理成本低,但當(dāng)考慮大規(guī)模部署時(shí),規(guī)模經(jīng)濟(jì)(大量使用大模型分?jǐn)偝杀荆┛赡鼙刃∧P偷墓?jié)省更重要。

對此,英偉達(dá)表示了部分地認(rèn)同,但同時(shí)也指出:

隨著推理調(diào)度優(yōu)化和大型推理系統(tǒng)模塊化的發(fā)展,單體計(jì)算集群的靈活性大幅提升,同時(shí)基礎(chǔ)設(shè)施搭建成本因技術(shù)進(jìn)步持續(xù)下降。

最后,也是爭議的核心——雖然小模型部署門檻正在下降,但大模型已經(jīng)占先,行業(yè)慣性讓創(chuàng)新仍集中在大模型,轉(zhuǎn)型未必會真的降本增效。

這就引出了小模型在實(shí)際落地中要面臨的挑戰(zhàn)。

從大模型到小模型

英偉達(dá)表示,小模型雖然以其高效、經(jīng)濟(jì)的特點(diǎn)在特定任務(wù)中表現(xiàn)出了不錯(cuò)的潛力,但仍然需面臨以下挑戰(zhàn):

  • 基礎(chǔ)設(shè)施適配:當(dāng)前大部分GPU架構(gòu)是為大模型優(yōu)化設(shè)計(jì),尚不完全適配多模型并發(fā)的微服務(wù)架構(gòu)。
  • 市場認(rèn)知度低:小模型缺乏像大模型那樣的品牌和話題熱度,推廣和教育成本較高。
  • 評估標(biāo)準(zhǔn)缺失:通用基準(zhǔn)測試往往無法全面衡量小模型在任務(wù)中的實(shí)際表現(xiàn)。

由此看來,一種折衷的手段就變得未嘗不可:

結(jié)合不同規(guī)模和能力的多種語言模型,與查詢復(fù)雜度級別相匹配,為小模型的采用提供自然的集成路徑。

為此,英偉達(dá)給出了將大模型轉(zhuǎn)換為小模型的方法:

首先,通過數(shù)據(jù)采集記錄當(dāng)前大模型的運(yùn)行數(shù)據(jù)、資源占用和請求特征,然后對數(shù)據(jù)進(jìn)行脫敏處理,只保留使用模式。

接著,根據(jù)請求類型和任務(wù)結(jié)構(gòu)對工作負(fù)載進(jìn)行聚類,識別常見子任務(wù)。

隨后,選擇合適的小模型,并匹配相應(yīng)的GPU分配策略。在定制數(shù)據(jù)上完成模型微調(diào)后,將其部署上線服務(wù)。

最后,構(gòu)建持續(xù)反饋閉環(huán)機(jī)制,不斷優(yōu)化模型性能和資源利用率,實(shí)現(xiàn)迭代提升。

小模型vs大模型

圍繞英偉達(dá)的這篇論文,網(wǎng)友們針對“小模型才是 Agentic AI的未來”這一觀點(diǎn)展開了討論。

例如,就有網(wǎng)友分享了自己在Amazon處理產(chǎn)品退款的心得,他認(rèn)為在這種簡單的任務(wù)中,使用小模型比使用大型語言模型更具成本效益。

就像論文里指出的,大模型在處理簡單任務(wù)時(shí),其強(qiáng)大的通用性往往會被浪費(fèi),因此,使用小模型更為合適。

不過,也有網(wǎng)友提出了反對意見。

比如,小模型因其專業(yè)性在面對偏離預(yù)設(shè)流程的情況時(shí),可能不夠魯棒。同時(shí),為了應(yīng)對這些corner case,設(shè)計(jì)者還需要預(yù)先考慮更多的變數(shù),而大模型在應(yīng)對復(fù)雜情況時(shí)可能更具適應(yīng)性。

說起來,小模型就像Unix“一個(gè)程序只做好一件事”(Do One Thing and Do It Well)的設(shè)計(jì)哲學(xué),把復(fù)雜系統(tǒng)(大模型)拆成小、專一、可組合的模塊(小模型),每個(gè)模塊做好一件事,然后讓它們協(xié)同完成更大任務(wù)。

但與此同時(shí),系統(tǒng)也需要在功能多樣性和操作復(fù)雜度之間作出取舍。

一方面,小模型越多,那么理論上其可以完成的任務(wù)就越豐富(功能多樣性高)。

另一方面,功能越多,用戶和系統(tǒng)操作的復(fù)雜度也會隨之增加,容易導(dǎo)致難以理解、難以維護(hù)或錯(cuò)誤頻發(fā),到頭來可能還不如一個(gè)通用的大模型方便。

到底是“少而精”的小模型更靠譜,還是“大而全”的大模型更穩(wěn)?你怎么看?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-22 18:58:27

英偉達(dá)微軟小語言模型

2024-10-31 15:00:00

AI模型

2016-09-20 10:22:58

京東智能GPU技術(shù)

2025-08-19 09:20:02

2025-09-26 08:03:41

2025-10-15 02:35:00

2025-09-23 03:00:00

2024-10-22 20:00:00

2025-05-20 08:00:45

2025-08-12 09:02:00

2023-10-16 13:27:00

AI數(shù)據(jù)

2015-08-07 09:34:44

AMDLinux

2022-09-21 18:41:15

英偉達(dá)顯卡

2025-01-14 14:37:35

2024-12-04 10:59:26

2024-11-25 08:54:41

2017-03-15 08:43:35

2025-06-12 08:08:00

自主式AIRPA自動化

2024-06-03 14:24:00

2024-03-20 09:00:00

人工智能AI大模型深度學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號