微軟BitDistill將LLM壓縮到1.58比特:10倍內(nèi)存節(jié)省、2.65倍CPU推理加速
大語言模型(LLM)不僅在推動(dòng)通用自然語言處理方面發(fā)揮了關(guān)鍵作用,更重要的是,它們已成為支撐多種下游應(yīng)用如推薦、分類和檢索的核心引擎。盡管 LLM 具有廣泛的適用性,但在下游任務(wù)中高效部署仍面臨重大挑戰(zhàn)。隨著模型規(guī)模的急劇擴(kuò)大,這些挑戰(zhàn)被進(jìn)一步放大,尤其是在資源受限的設(shè)備上(如智能手機(jī)),內(nèi)存占用和計(jì)算開銷都變得極其昂貴。
為應(yīng)對(duì)這些問題,近期研究提出了極低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。這種方法旨在顯著降低內(nèi)存占用并加速推理,從而為 LLM 在下游應(yīng)用中的高效部署提供一條可行途徑。
然而,要讓 1.58 比特的 BitNet 在下游任務(wù)中達(dá)到與高精度模型相媲美的準(zhǔn)確率,通常需要從零開始在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練,這會(huì)帶來巨大的計(jì)算和能耗成本。
如圖 1 所示,直接對(duì)已有的全精度 LLM 進(jìn)行 1.58 比特量化感知訓(xùn)練(Quantization-Aware Training, QAT)時(shí),在特定下游任務(wù)上的訓(xùn)練過程往往不穩(wěn)定,難以保持原有的性能,并表現(xiàn)出較差的可擴(kuò)展性:當(dāng)模型規(guī)模從 0.6B 增大到 4B 時(shí),相對(duì)于全精度基線的性能差距從 13.9 擴(kuò)大到 15.3。

這一現(xiàn)象凸顯出:迫切需要專門為 1.58 比特 BitNet 設(shè)計(jì)的更有效的量化感知訓(xùn)練方法。
在本研究中,來自微軟的研究者聚焦于將已有的 LLM 微調(diào)至 1.58 比特以適配特定下游任務(wù),同時(shí)保持與全精度模型相當(dāng)?shù)男阅?。為此,本文提出?nbsp;BitDistill(BitNet Distillation)—— 一種具備良好可擴(kuò)展性的量化感知訓(xùn)練(QAT)框架,旨在彌合極端 1.58 比特量化與實(shí)際部署之間的性能差距。
在四個(gè)基準(zhǔn)任務(wù)及多種模型規(guī)模上的大量實(shí)驗(yàn)表明,BitDistill 具有出色的可擴(kuò)展性,其下游任務(wù)性能可與全精度基線持平。同時(shí),如圖 1 所示,BitDistill 在 CPU 上實(shí)現(xiàn)了 10 倍的內(nèi)存節(jié)省和 2.65 倍的推理加速,顯著改善了延遲、吞吐量、內(nèi)存效率和能耗,使其特別適合部署在資源受限的硬件平臺(tái)上。

- 論文地址:https://www.arxiv.org/pdf/2510.13998
- 代碼地址:https://github.com/microsoft/BitNet
- 論文標(biāo)題:BitNet Distillation
方法介紹:BitDistill
本文針對(duì)在資源受限設(shè)備上部署 LLM 以執(zhí)行特定下游任務(wù)。重點(diǎn)是高效地將現(xiàn)有的預(yù)訓(xùn)練 LLM 壓縮為 1.58 比特的 BitNet 模型,同時(shí)盡量減少性能損失與訓(xùn)練成本。
BitDistill 框架包含三個(gè)關(guān)鍵階段:
第一階段:模型精煉階段。
與全精度模型不同,在標(biāo)準(zhǔn)初始化方案下,全精度模型的隱藏狀態(tài)方差通常能夠保持在一個(gè)穩(wěn)定范圍內(nèi);而低比特量化模型(如 1.58 比特 LLM)則常常遭受過大的激活方差問題,導(dǎo)致優(yōu)化過程不穩(wěn)定并造成收斂性能下降。
為緩解這一問題,借鑒先前 1.58 比特 BitNet 的設(shè)計(jì)原則,本文在每個(gè) Transformer 模塊內(nèi)的關(guān)鍵位置引入了額外的歸一化層(SubLN),以實(shí)現(xiàn)穩(wěn)定的優(yōu)化過程。
第二階段:持續(xù)預(yù)訓(xùn)練階段。
如圖 1 所示,直接將已有的全精度 LLM 轉(zhuǎn)換為 1.58 比特 BitNet 并在下游任務(wù)上進(jìn)行微調(diào),往往會(huì)得到次優(yōu)結(jié)果。這是因?yàn)橛邢薜挠?xùn)練 token 數(shù)量不足以有效地將全精度權(quán)重適配到受限的 1.58 比特表示空間中,從而導(dǎo)致可擴(kuò)展性較差:隨著模型規(guī)模的增大,其性能與全精度基線之間的差距也隨之?dāng)U大。
為此,本文提出了一個(gè)兩階段訓(xùn)練流程:首先進(jìn)行持續(xù)訓(xùn)練階段,利用少量預(yù)訓(xùn)練語料來實(shí)現(xiàn)所需的適配;隨后再在下游任務(wù)上進(jìn)行微調(diào)。
第三階段:基于蒸餾的微調(diào)。
為更有效地緩解由精度降低帶來的性能退化,本文在下游任務(wù)微調(diào)階段引入了兩種知識(shí)蒸餾技術(shù):其中,微調(diào)后的全精度 LLM 作為教師模型,而其 1.58 比特量化版本作為學(xué)生模型,通過蒸餾過程進(jìn)行學(xué)習(xí)與性能對(duì)齊。
蒸餾過程主要利用 logits 蒸餾和多頭注意力蒸餾來恢復(fù)全精度性能。

實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
BitDistill 方法的有效性在兩個(gè)代表性任務(wù)上進(jìn)行評(píng)估:文本分類與文本摘要。分類任務(wù)采用通用語言理解評(píng)估 (GLUE) 基準(zhǔn)中的 MNLI、QNLI 與 SST-2 三個(gè)數(shù)據(jù)集,摘要任務(wù)使用 CNN/DailyMail (CNNDM) 數(shù)據(jù)集。所有數(shù)據(jù)集均用于訓(xùn)練與評(píng)估,以全面驗(yàn)證方法性能。
BitDistill 的目標(biāo)是將預(yù)訓(xùn)練的全精度大語言模型 (LLM) 微調(diào)為適用于下游任務(wù)的 1.58-bit BitNet 模型。比較對(duì)象包括:
(1) 在相同任務(wù)上直接微調(diào)的全精度 FP16 模型 (FP16-SFT);
(2) 將全精度模型量化為 1.58-bit BitNet 后再微調(diào)的模型 (BitNet-SFT)。
實(shí)驗(yàn)以 Qwen3 系列為基礎(chǔ)模型,涵蓋 0.6B、1.7B 與 4B 三種規(guī)模,并額外測(cè)試了 Qwen2.5 與 Gemma 等替代骨干網(wǎng)絡(luò)以評(píng)估模型類型影響。所有方法均采用貪心搜索確定學(xué)習(xí)率與訓(xùn)練輪數(shù),以兼顧性能與公平比較。最大訓(xùn)練序列長(zhǎng)度設(shè)為 512,批大小為 32,所有模型均在配備 8 塊 AMD Mi300X GPU 的服務(wù)器上訓(xùn)練。
Logits 蒸餾溫度設(shè)為 5.0;分類任務(wù)中 λ=10、γ=1e5,摘要任務(wù)中 λ=1、γ=1e3,所有實(shí)驗(yàn)中 αi=1.0。持續(xù)預(yù)訓(xùn)練階段使用 FALCON 語料庫中采樣的 100 億個(gè) token,與從頭訓(xùn)練 1.58-bit 模型所需的約 4 萬億個(gè) token 相比,成本幾乎可忽略。
評(píng)估設(shè)置
采樣參數(shù)固定為 top-p=1.0、溫度 = 0。分類性能以準(zhǔn)確率衡量,摘要性能使用 BLEU、ROUGE-1/2/L/SUM 評(píng)估,最大生成長(zhǎng)度為 4096 token。運(yùn)行時(shí)效率通過 16 線程 CPU 的 token 吞吐量(tokens/s)報(bào)告。
主要結(jié)果
BitDistill 在各基準(zhǔn)數(shù)據(jù)集上表現(xiàn)如表 1 與表 2 所示。與全精度基線相比,1.58-bit 模型在準(zhǔn)確率和摘要質(zhì)量上保持接近性能,同時(shí)推理速度提升約 2 倍,內(nèi)存占用減少近 10 倍,展示出在資源受限環(huán)境下的顯著優(yōu)勢(shì)。這表明通過合理蒸餾策略,激進(jìn)量化仍可實(shí)現(xiàn)高性能。

文本分類任務(wù)上的結(jié)果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每個(gè)指標(biāo)和數(shù)據(jù)集的最高分均以粗體突出顯示。1.58-bit 的 BitDistill 模型實(shí)現(xiàn)了與 FP16 基線相當(dāng)?shù)男阅埽瑫r(shí)在所有數(shù)據(jù)集上將推理速度提升了 2 倍,并將內(nèi)存占用降低了 10 倍。符號(hào) * 表示在 BitDistill 中所使用的 FP16 教師模型。

文本摘要任務(wù)(CNNDM 數(shù)據(jù)集)上的結(jié)果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每個(gè)指標(biāo)和數(shù)據(jù)集的最高分均以粗體突出顯示。1.58-bit 的 BitDistill 模型實(shí)現(xiàn)了與 FP16 基線相當(dāng)?shù)男阅?,同時(shí)在所有數(shù)據(jù)集上將推理速度提升了 2 倍,并將內(nèi)存占用降低了 10 倍。符號(hào) * 表示在 BitDistill 中所使用的 FP16 教師模型。
將基礎(chǔ)模型替換為 Qwen2.5 和 Gemma 后,BitDistill 仍保持穩(wěn)定性能(見表 4)。雖然不同預(yù)訓(xùn)練模型間存在輕微波動(dòng),但整體趨勢(shì)一致,顯示該方法具備跨架構(gòu)通用性和良好的部署適應(yīng)性。

不同量化技術(shù)在文本分類任務(wù)上的結(jié)果。B、G、A 分別代表塊量化、GPTQ 和 AWQ。
消融實(shí)驗(yàn)
BitDistill 包含三個(gè)階段。消融實(shí)驗(yàn)表明,移除任一階段均顯著降低性能(表 5),說明各階段相互補(bǔ)充,完整流程對(duì)效率與準(zhǔn)確率平衡至關(guān)重要。

BitDistill 中不同階段的效果。此處使用 Qwen3 0.6B 作為基礎(chǔ)模型。M.D.、C.T. 和 D.T. 分別表示建模優(yōu)化、持續(xù)預(yù)訓(xùn)練以及基于蒸餾的微調(diào)。
在第三階段中,單獨(dú)使用 logits 蒸餾或注意力蒸餾均能提升性能,但聯(lián)合使用效果最佳(表 6)。兩種技術(shù)從不同角度緩解量化優(yōu)化難題,其協(xié)同作用在極低比特環(huán)境下尤為顯著。

蒸餾技術(shù)的效果。此處,LD 表示公式 9 中的 logits 蒸餾,AD 表示公式 12 中的多頭注意力蒸餾。
BitDistill 與 Block-Quant、GPTQ、AWQ 等多種量化方案兼容。實(shí)驗(yàn)顯示:(1) 無論底層量化方法為何,BitDistill 均能穩(wěn)定提升性能;(2) GPTQ、AWQ 等復(fù)雜量化策略在其基礎(chǔ)上進(jìn)一步增強(qiáng)效果。這表明 BitDistill 提供了一種普適的低比特模型增強(qiáng)框架。
分析
在階段一中插入 SubLN 層能穩(wěn)定 1.58-bit BitNet 的優(yōu)化并加速收斂。如圖 3 (a) 所示,帶 SubLN 的模型在 FALCON 語料庫上的微調(diào)表現(xiàn)優(yōu)于未使用 SubLN 的版本。

(a) 使用 SubLN 將現(xiàn)有的大語言模型 (LLMs) 微調(diào)為 1.58-bit BitNet,可以獲得更優(yōu)的性能和更快的收斂速度。
持續(xù)訓(xùn)練可顯著縮小大模型的 1.58-bit 與 FP16 性能差距。權(quán)重分布可視化(圖 2)顯示,經(jīng)過持續(xù)訓(xùn)練后,BitNet 權(quán)重從近似高斯分布轉(zhuǎn)變?yōu)楦咏鼜念^訓(xùn)練的分布。該特征促使權(quán)重集中于 0 與 ±1 過渡區(qū)域,增加梯度更新的敏感度,從而提升模型對(duì)下游任務(wù)的擬合能力。

模型權(quán)重的可視化。上面兩行展示了從頭開始訓(xùn)練的 BitNet 的量化權(quán)重,及其對(duì)應(yīng)的 FP16 分布。下面兩行展示的是從 LLM 加載權(quán)重并進(jìn)行持續(xù)訓(xùn)練后,BitNet 的量化權(quán)重及其對(duì)應(yīng)的 FP16 分布。
在第三階段,單層注意力蒸餾優(yōu)于多層蒸餾(圖 3 (b))。后期層的蒸餾效果更佳,表明層選擇對(duì)蒸餾質(zhì)量至關(guān)重要。

(b) 在 Qwen3 0.6B 模型上,通過蒸餾不同層所獲得的 MNLI 準(zhǔn)確率對(duì)比。
使用更大規(guī)模的 FP16 教師(如 Qwen3-1.7B、Qwen3-4B)顯著提升學(xué)生模型性能(圖 3 (c)),甚至超越同規(guī)模的 FP16 模型,證明高質(zhì)量教師能為 BitDistill 帶來額外收益。

(c) 使用不同規(guī)模的 FP16 教師模型對(duì) Qwen3-0.6B 進(jìn)行蒸餾,所獲得的 MNLI 準(zhǔn)確率對(duì)比。





































