1.58bit不輸FP16!微軟推出全新模型蒸餾框架,作者全是華人
1.58bit量化,內(nèi)存僅需1/10,但表現(xiàn)不輸FP16?
微軟最新推出的蒸餾框架BitNet Distillation(簡稱BitDistill),實(shí)現(xiàn)了幾乎無性能損失的模型量化。
該框架在4B及以下的Qwen、Gemma上已被證實(shí)有效,理論上可用于其他Transformer模型。

同等硬件性能下,使用該方法量化后的推理速度提升2.65倍,內(nèi)存消耗僅1/10。

網(wǎng)友看了之后表示,如此一來昂貴的GPU將不再是必需品,英偉達(dá)的好日子要到頭了。

BitDistill框架設(shè)計
BitDistill包含三個依次銜接的階段,分別是模型結(jié)構(gòu)優(yōu)化(Modeling Refinement)、繼續(xù)預(yù)訓(xùn)練(Continue Pre-training)和蒸餾式微調(diào)(Distillation-based Fine-tuning)。
建模結(jié)構(gòu)優(yōu)化的主要目標(biāo)是為1.58-bit模型訓(xùn)練提供結(jié)構(gòu)層面的支持,緩解低精度訓(xùn)練中常見的優(yōu)化不穩(wěn)定問題。
在傳統(tǒng)的全精度Transformer模型中,隱藏狀態(tài)的方差通常在預(yù)訓(xùn)練時已被良好控制。然而,當(dāng)模型被壓縮到極低位寬(如1.58-bit)后,激活值在經(jīng)過量化前的分布可能會出現(xiàn)方差膨脹等問題,從而導(dǎo)致訓(xùn)練過程震蕩甚至失敗。
為了應(yīng)對這一問題,BitDistill在每一個Transformer層中引入了一個名為SubLN(Sub-layer LayerNorm)的歸一化模塊。
具體來說,SubLN的插入位置有兩個,一是在多頭自注意力模塊的輸出投影之前,二是在前饋網(wǎng)絡(luò)的輸出投影之前。
這樣的插入方式,不改變主干計算路徑,僅在關(guān)鍵位置對信號做規(guī)范化調(diào)整,使得量化后模型具備更好的收斂性。
這種設(shè)計使得量化前的表示能夠在進(jìn)入下一計算階段前被重新歸一化,有效抑制激活尺度的發(fā)散,提升訓(xùn)練穩(wěn)定性。

經(jīng)過第一階段的結(jié)構(gòu)修改后,模型雖具備量化訓(xùn)練的能力,但如果直接將其用于特定任務(wù)的微調(diào),尤其是在模型規(guī)模較大時,仍會遭遇顯著的性能損失。
也就是說,隨著模型參數(shù)增大,1.58-bit模型與其全精度版本之間的性能差距反而進(jìn)一步擴(kuò)大。
為了緩解這一問題,BitDistill設(shè)計了一個輕量級的繼續(xù)預(yù)訓(xùn)練階段。在此階段中,模型會在少量通用語料上進(jìn)行自回歸語言建模訓(xùn)練,訓(xùn)練目標(biāo)為最大化條件概率。
這一過程并不涉及特定任務(wù)數(shù)據(jù),也不需精調(diào)標(biāo)簽,僅是讓模型權(quán)重從全精度空間緩慢遷移到適合1.58-bit表示的分布上。
換句話說,這個階段的本質(zhì)是一種預(yù)適配訓(xùn)練,讓模型“學(xué)會如何被量化”,避免在微調(diào)階段才倉促適應(yīng)低位寬帶來的信息丟失。

完成結(jié)構(gòu)調(diào)整與繼續(xù)預(yù)訓(xùn)練后,模型被正式引入到具體下游任務(wù)中進(jìn)行1.58-bit量化訓(xùn)練。
為了彌補(bǔ)量化后模型在表達(dá)能力上的損失,BitDistill采用了一種雙重蒸餾機(jī)制——Logits蒸餾與多頭注意力蒸餾。
這一階段的目的是從原始的全精度模型中提取關(guān)鍵行為模式,并引導(dǎo)低位寬模型在具體任務(wù)上學(xué)習(xí)這些模式,從而恢復(fù)性能。
Logits蒸餾是將全精度模型輸出的類概率分布作為“軟標(biāo)簽”,引導(dǎo)量化模型在預(yù)測分布上向其靠攏。具體做法是使用Kullback–Leibler散度(KL散度)來最小化兩者輸出分布之間的差異。

由于Transformer模型的性能很大程度依賴其注意力機(jī)制,BitDistill進(jìn)一步從結(jié)構(gòu)層面對注意力關(guān)系進(jìn)行蒸餾。這種蒸餾不是對注意力權(quán)重做對齊,而是對Q、K、V向量構(gòu)成的關(guān)系矩陣進(jìn)行分布層面的模仿。
具體而言,對于選定的某一層(通常是模型后部的一層),分別從教師模型與學(xué)生模型中提取Q、K、V三組張量,并計算它們之間的點(diǎn)積相關(guān)性,形成關(guān)系分布矩陣。
然后通過KL散度使兩者對齊,訓(xùn)練學(xué)生模型還原出與教師模型相似的結(jié)構(gòu)依賴。

FP16無損量化至1.58bit
BitDistill展示出在多個下游任務(wù)中幾乎等同于全精度模型的表現(xiàn),同時顯著降低了內(nèi)存開銷并提升了推理速度。作者在兩個典型任務(wù)類型上進(jìn)行了全面實(shí)驗(yàn),分別是文本分類與文本摘要。
以Qwen3為基礎(chǔ)模型,測試中的分類任務(wù)包括MNLI、QNLI與SST-2,摘要任務(wù)則采用CNN/DailyMail數(shù)據(jù)集作為標(biāo)準(zhǔn)。
分類任務(wù)中,BitDistill的1.58-bit模型在準(zhǔn)確率與生成質(zhì)量指標(biāo)上與全精度微調(diào)模型(FP16-SFT)幾乎一致,而顯著優(yōu)于直接對量化模型進(jìn)行微調(diào)的BitNet-SFT。

在文本摘要任務(wù)中,BitDistill同樣表現(xiàn)出高度保真的生成能力。
以ROUGE和BLEU等標(biāo)準(zhǔn)指標(biāo)衡量,在CNN/DailyMail上,BitDistill所生成文本的BLEU為14.41,ROUGE-L為27.49,與FP16模型的13.98和27.72幾乎等同,甚至在BLEU上略有超出。
相比之下,直接量化后的模型在BLEU與ROUGE上普遍下降2至3個百分點(diǎn)。

為了驗(yàn)證BitDistill在不同模型架構(gòu)上的通用性,作者還將其應(yīng)用于Gemma和Qwen2.5等其他預(yù)訓(xùn)練模型,結(jié)果BitDistill都能實(shí)現(xiàn)對全精度性能的高度還原。
進(jìn)一步的實(shí)驗(yàn)表明,BitDistill在不同量化策略下也具備良好的兼容性。作者將其與常見的Block-Quant、GPTQ、AWQ等量化方法結(jié)合,在分類任務(wù)上依然能夠穩(wěn)定地恢復(fù)原始性能,證明該方法可作為一個獨(dú)立于量化算法的上層蒸餾方案,適用于多種后量化優(yōu)化場景。
One More Thing
BitStill的作者全部來自微軟研究院,而且均為華人。
通訊作者為微軟亞洲研究院副總裁、武漢大學(xué)校友韋福如博士。
他讀博期間就曾在MSRA實(shí)習(xí),畢業(yè)后到IBM工作,又于2010年重回微軟,工作至今。

第一作者Xun Wu為清華計算機(jī)碩士,本科畢業(yè)于中南大學(xué),2023年開始到微軟研究院實(shí)習(xí),畢業(yè)后正式入職。

其他作者名單如下:

論文地址:https://arxiv.org/abs/2510.13998





























