研究大模型門檻太高?不妨看看小模型SLM,知識點(diǎn)都在這
本篇綜述的作者團(tuán)隊包括賓州州立大學(xué)的博士研究生王發(fā)利,張智維,吳縱宇,張先仁,指導(dǎo)教師王蘇杭副教授,以及來自倫斯勒理工學(xué)院的馬耀副教授,亞馬遜湯先鋒、何奇,德克薩斯大學(xué)休斯頓健康科學(xué)中心黃明副教授團(tuán)隊。
摘要:大型語言模型(LLMs)在多種任務(wù)中表現(xiàn)出色,但由于龐大的參數(shù)和高計算需求,面臨時間和計算成本挑戰(zhàn)。因此,小型語言模型(SLMs)因低延遲、成本效益及易于定制等優(yōu)勢優(yōu)點(diǎn),適合資源有限環(huán)境和領(lǐng)域知識獲取,正變得越來越受歡迎。我們給出了小語言模型的定義來填補(bǔ)目前定義上的空白。我們對小型語言模型的增強(qiáng)方法、已存在的小模型、應(yīng)用、與 LLMs 的協(xié)作、以及可信賴性方面進(jìn)行了詳細(xì)調(diào)查。我們還探討了未來的研究方向,并在 GitHub 上發(fā)布了相關(guān)模型及文章:https://github.com/FairyFali/SLMs-Survey。

論文鏈接:https://arxiv.org/abs/2411.03350
文章結(jié)構(gòu)

圖 1 文章結(jié)構(gòu)
LLMs 的挑戰(zhàn)
神經(jīng)語言模型(LM)從 BERT 的預(yù)訓(xùn)練微調(diào)到 T5 的預(yù)訓(xùn)練提示,再到 GPT-3 的上下文學(xué)習(xí),極大增強(qiáng)了 NLP。模型如 ChatGPT、Llama 等在擴(kuò)展至大數(shù)據(jù)集和模型時顯示出 “涌現(xiàn)能力”。這些進(jìn)步推動了 NLP 在多個領(lǐng)域的應(yīng)用,如編程、推薦系統(tǒng)和醫(yī)學(xué)問答。
盡管大型語言模型(LLMs)在復(fù)雜任務(wù)中表現(xiàn)出色,但其龐大的參數(shù)和計算需求限制了部署本地或者限制在云端調(diào)用。這帶來了一系列挑戰(zhàn):
- LLMs 的高 GPU 內(nèi)存占用和計算成本通常使得其只能通過云 API 部署,用戶需上傳數(shù)據(jù)查詢,可能引起數(shù)據(jù)泄漏及隱私問題,特別是在醫(yī)療、金融和電商等敏感領(lǐng)域。
 - 在移動設(shè)備上調(diào)用云端 LLMs 時面臨云延遲問題,而直接部署又面臨高參數(shù)和緩存需求超出普通設(shè)備能力的問題。
 - LLMs 龐大的參數(shù)數(shù)量可能導(dǎo)致幾秒至幾分鐘的推理延遲,不適合實(shí)時應(yīng)用。
 - LLMs 在專業(yè)領(lǐng)域如醫(yī)療和法律的表現(xiàn)不佳,需要成本高的微調(diào)來提升性能。
 - 雖然通用 LLMs 功能強(qiáng)大,但許多應(yīng)用和任務(wù)只需特定功能和知識,部署 LLMs 可能浪費(fèi)資源且性能不如專門模型。
 
SLMs 的優(yōu)勢
最近,小型語言模型(SLMs)在處理特定領(lǐng)域問題時顯示出與大型語言模型(LLMs)相當(dāng)?shù)男阅?,同時在效率、成本、靈活性和定制方面具有優(yōu)勢。由于參數(shù)較少,SLMs 在預(yù)訓(xùn)練和推理過程中節(jié)約了大量計算資源,減少了內(nèi)存和存儲需求,特別適合資源有限的環(huán)境和低功耗設(shè)備。因此,SLMs 作為 LLMs 的替代品越來越受到關(guān)注。如圖 2 所示,Hugging Face 社區(qū)中 SLMs 的下載頻率已超過大型模型,而圖 3 顯示了 SLMs 版本隨時間推移的日益流行。

圖 2 Hugging Face 上個月下載量(數(shù)據(jù)獲取在 2024 年 10 月 7 日)

圖 3 SLMs 時間線
SLMs 的定義
通常,具有涌現(xiàn)能力的語言模型被歸類為大型語言模型(LLMs)。然而,小型語言模型(SLMs)的分類尚無統(tǒng)一標(biāo)準(zhǔn)。一些研究認(rèn)為 SLMs 的參數(shù)少于 10 億,且在移動設(shè)備上通常配備約 6GB 的內(nèi)存;而另一些研究則認(rèn)為 SLMs 的參數(shù)可達(dá)到 100 億,但這些模型通常缺乏涌現(xiàn)能力。考慮到 SLMs 在資源受限的環(huán)境及特定任務(wù)中的應(yīng)用,我們提出了一個廣義的定義:SLMs 的參數(shù)范圍應(yīng)介于能展現(xiàn)專門任務(wù)涌現(xiàn)能力的最小規(guī)模和在資源限制條件下可管理的最大規(guī)模之間。這一定義旨在整合不同觀點(diǎn),并考慮移動計算及能力閾值因素。
SLMs 的增強(qiáng)方法
在大語言模型時代小語言模型的增強(qiáng)方法會有不同,包括從頭開始訓(xùn)練 SLMs 的訓(xùn)練方法、使 SLMs 遵循指令的監(jiān)督微調(diào) (SFT)、先進(jìn)的知識提煉和量化技術(shù),以及 LLMs 中經(jīng)常使用的技術(shù),以增強(qiáng) SLMs 針對特定應(yīng)用的性能。我們詳細(xì)介紹了其中一些代表性方法,包括參數(shù)共享的模型架構(gòu)(從頭開始訓(xùn)練子章節(jié) 3.1)、從人類反饋中優(yōu)化偏好(有監(jiān)督微調(diào)子章節(jié) 3.2)、知識蒸餾的數(shù)據(jù)質(zhì)量(3.3 章節(jié))、蒸餾過程中的分布一致性(3.4 章節(jié))、訓(xùn)練后量化和量化感知訓(xùn)練技術(shù)(3.5 章節(jié))、RAG 和 MoE 方法增強(qiáng) SLMs(3.6 章節(jié))。這一章節(jié)的未來方法是探索可提高性能同時降低計算需求的模型架構(gòu),比如 Mamba。
SLMs 的應(yīng)用
由于 SLMs 能夠滿足增強(qiáng)隱私性和較低的內(nèi)存需求,許多 NLP 任務(wù)已開始采用 SLMs,并通過專門技術(shù)提升其在特定任務(wù)上的性能(見 4.1 節(jié)),如問答、代碼執(zhí)行、推薦系統(tǒng)以及移動設(shè)備上的自動化任務(wù)。典型應(yīng)用包括在移動設(shè)備上自動執(zhí)行任務(wù),SLMs 可以作為代理智能調(diào)用必需的 API,或者根據(jù)智能手機(jī) UI 頁面代碼自動完成給定的操作指令(見 4.1.5 節(jié))。
此外,部署 SLMs 時通常需考慮內(nèi)存使用和運(yùn)行效率,這對預(yù)算有限的邊緣設(shè)備(特別是智能手機(jī))上的資源尤為關(guān)鍵(見 4.2 節(jié))。內(nèi)存效率主要體現(xiàn)在 SLMs 及其緩存的空間占用上,我們調(diào)研了如何壓縮 SLMs 本身及其緩存(見 4.2.1 節(jié))。運(yùn)行效率涉及 SLMs 參數(shù)量大及切換開銷,如內(nèi)存緩存區(qū)與 GPU 內(nèi)存之間的切換(見 4.2.2 節(jié)),因此我們探討了減少 MoE 切換時間和降低分布式 SLMs 延遲等策略。
未來研究方向包括使用 LoRA 為不同用戶提供個性化服務(wù)、識別 SLMs 中的固有知識及確定有效微調(diào)所需的最少數(shù)據(jù)等(更多未來方向詳見第 8 章)。
已存在的 SLMs
我們總結(jié)了一些代表性的小型語言模型(詳見圖 3),這些模型包括適用于通用領(lǐng)域和特定領(lǐng)域的小型語言模型(參數(shù)少于 70 億)。本文詳細(xì)介紹了這些小型語言模型的獲取方法、使用的數(shù)據(jù)集和評估任務(wù),并探討了通過壓縮、微調(diào)或從頭開始訓(xùn)練等技術(shù)獲取 SLMs 的策略。通過統(tǒng)計分析一些技術(shù),我們歸納出獲取通用 SLMs 的常用技術(shù),包括 GQA、Gated FFN,SiLU 激活函數(shù)、RMS 正則化、深且窄的模型架構(gòu)和 embedding 的優(yōu)化等(見 5.1 章)。特定領(lǐng)域的 SLMs,如科學(xué)、醫(yī)療健康和法律領(lǐng)域的模型,通常是通過對大模型生成的有監(jiān)督領(lǐng)域數(shù)據(jù)進(jìn)行指令式微調(diào)或在領(lǐng)域數(shù)據(jù)上繼續(xù)訓(xùn)練來獲取的(見 5.2 章)。未來的研究方向?qū)ㄔ诜?、金融、教育、電信和交通等關(guān)鍵領(lǐng)域開發(fā)專業(yè)化的小型語言模型。
SLMs 輔助 LLMs
由于 SLMs 在運(yùn)行效率上表現(xiàn)出色且與 LLMs 的行為規(guī)律相似,SLMs 能夠作為代理輔助 LLMs 快速獲取一些先驗(yàn)知識,進(jìn)而增強(qiáng) LLMs 的功能,例如減少推理過程中的延遲、縮短微調(diào)時間、改善檢索中的噪聲過濾問題、提升次優(yōu)零樣本性能、降低版權(quán)侵權(quán)風(fēng)險和優(yōu)化評估難度。
在第 6 章中,我們探討了以下五個方面:
(i) 使用 SLMs 幫助 LLMs 生成可靠內(nèi)容:例如,使用 SLMs 判斷 LLMs 輸入和輸出的真實(shí)置信度,或根據(jù) LLMs 的中間狀態(tài)探索幻覺分?jǐn)?shù)。詳細(xì)的可靠生成方法、增強(qiáng) LLMs 的推理能力、改進(jìn) LLMs RAG 以及緩解 LLMs 輸出的版權(quán)和隱私問題,請參考原文。
(ii) SLMs 輔助提取 LLMs 提示:一些攻擊方法通過 SLMs 逆向生成 Prompts。
(iii) SLMs 輔助 LLMs 微調(diào):SLMs 的微調(diào)參數(shù)差異可以模擬 LLMs 參數(shù)的演變,從而實(shí)現(xiàn) LLMs 的高效微調(diào)。
(iv) SLMs 在特定任務(wù)上輔助 LLMs 表現(xiàn):定制化的 SLMs 在某些特定任務(wù)上可能優(yōu)于 LLMs,而在困難樣本上可能表現(xiàn)不佳,因此 SLMs 和 LLMs 的合作可以在特定任務(wù)上實(shí)現(xiàn)更優(yōu)表現(xiàn)。
(v) 使用 SLMs 評估 LLMs:SLMs 在經(jīng)過微調(diào)后可以作為評估器,評估 LLMs 生成的更加格式自由的內(nèi)容。
未來的方向包括使用 SLMs 作為代理探索 LLMs 更多的行為模式,如優(yōu)化 Prompts、判斷缺失知識和評估數(shù)據(jù)質(zhì)量等,更多信息請參見原文第 8 章未來工作。
SLMs 的可信賴性

圖 4 Trustworthiness 分類
語言模型已成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠?,我們對它們的依賴日益增加。然而,它們在隱私、公平等信任維度上存在局限,帶來了一定風(fēng)險。因此,許多研究致力于評估語言模型的可信賴性。盡管目前的研究主要集中在大型語言模型(LLMs)上,我們在第 7 章關(guān)注 7B 參數(shù)及以下的模型和五個關(guān)鍵的信任場景:魯棒性、隱私性、可靠性、安全性和公平性,詳見圖 4。在魯棒性方面,我們討論了對抗性魯棒性和分布外魯棒性兩種情況;在安全性方面,我們重點(diǎn)分析了誤導(dǎo)信息和毒性問題;在可靠性方面,我們主要關(guān)注幻覺和諂媚現(xiàn)象。然而,大多數(shù)現(xiàn)有研究都集中在具有至少 7B 參數(shù)的模型上,這留下了對小型語言模型(SLMs)可信度全面分析的空白。因此,系統(tǒng)地評估 SLMs 的可信度并了解其在各種應(yīng)用中的表現(xiàn),是未來研究的重要方向。
總結(jié)
隨著對小型語言模型需求的增長,當(dāng)下研究文獻(xiàn)涵蓋了 SLMs 的多個方面,例如針對特定應(yīng)用優(yōu)化的訓(xùn)練技術(shù)如量化感知訓(xùn)練和選擇性架構(gòu)組件。盡管 SLMs 性能受到認(rèn)可,但其潛在的可信度問題,如幻覺產(chǎn)生和隱私泄露風(fēng)險,仍需注意。當(dāng)前缺乏全面調(diào)查徹底探索 LLMs 時代 SLMs 的這些工作。本文旨在提供詳盡調(diào)查,分析 LLMs 時代 SLMs 的各個方面及未來發(fā)展。詳見我們的綜述原文。















 
 
 
















 
 
 
 