偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

^{<thead id="2nsaf"></thead>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

微軟BitDistill將LLM壓縮到1.58比特：10倍內(nèi)存節(jié)省、2.65倍CPU推理加速

2025-10-21 08:54:00

人工智能新聞

近期研究提出了極低比特（extreme low-bit）LLM，例如使用 1.58 比特（即三值 {-1, 0, 1}）表示的 BitNet。這種方法旨在顯著降低內(nèi)存占用并加速推理，從而為 LLM 在下游應(yīng)用中的高效部署提供一條可行途徑。

大語言模型（LLM）不僅在推動(dòng)通用自然語言處理方面發(fā)揮了關(guān)鍵作用，更重要的是，它們已成為支撐多種下游應(yīng)用如推薦、分類和檢索的核心引擎。盡管 LLM 具有廣泛的適用性，但在下游任務(wù)中高效部署仍面臨重大挑戰(zhàn)。隨著模型規(guī)模的急劇擴(kuò)大，這些挑戰(zhàn)被進(jìn)一步放大，尤其是在資源受限的設(shè)備上（如智能手機(jī)），內(nèi)存占用和計(jì)算開銷都變得極其昂貴。

為應(yīng)對(duì)這些問題，近期研究提出了極低比特（extreme low-bit）LLM，例如使用 1.58 比特（即三值 {-1, 0, 1}）表示的 BitNet。這種方法旨在顯著降低內(nèi)存占用并加速推理，從而為 LLM 在下游應(yīng)用中的高效部署提供一條可行途徑。

然而，要讓 1.58 比特的 BitNet 在下游任務(wù)中達(dá)到與高精度模型相媲美的準(zhǔn)確率，通常需要從零開始在大規(guī)模語料上進(jìn)行預(yù)訓(xùn)練，這會(huì)帶來巨大的計(jì)算和能耗成本。

如圖 1 所示，直接對(duì)已有的全精度 LLM 進(jìn)行 1.58 比特量化感知訓(xùn)練（Quantization-Aware Training, QAT）時(shí)，在特定下游任務(wù)上的訓(xùn)練過程往往不穩(wěn)定，難以保持原有的性能，并表現(xiàn)出較差的可擴(kuò)展性：當(dāng)模型規(guī)模從 0.6B 增大到 4B 時(shí)，相對(duì)于全精度基線的性能差距從 13.9 擴(kuò)大到 15.3。

這一現(xiàn)象凸顯出：迫切需要專門為 1.58 比特 BitNet 設(shè)計(jì)的更有效的量化感知訓(xùn)練方法。

在本研究中，來自微軟的研究者聚焦于將已有的 LLM 微調(diào)至 1.58 比特以適配特定下游任務(wù)，同時(shí)保持與全精度模型相當(dāng)?shù)男阅?。為此，本文提出?nbsp;BitDistill（BitNet Distillation）—— 一種具備良好可擴(kuò)展性的量化感知訓(xùn)練（QAT）框架，旨在彌合極端 1.58 比特量化與實(shí)際部署之間的性能差距。

在四個(gè)基準(zhǔn)任務(wù)及多種模型規(guī)模上的大量實(shí)驗(yàn)表明，BitDistill 具有出色的可擴(kuò)展性，其下游任務(wù)性能可與全精度基線持平。同時(shí)，如圖 1 所示，BitDistill 在 CPU 上實(shí)現(xiàn)了 10 倍的內(nèi)存節(jié)省和 2.65 倍的推理加速，顯著改善了延遲、吞吐量、內(nèi)存效率和能耗，使其特別適合部署在資源受限的硬件平臺(tái)上。

論文地址：https://www.arxiv.org/pdf/2510.13998
代碼地址：https://github.com/microsoft/BitNet
論文標(biāo)題：BitNet Distillation

方法介紹：BitDistill

本文針對(duì)在資源受限設(shè)備上部署 LLM 以執(zhí)行特定下游任務(wù)。重點(diǎn)是高效地將現(xiàn)有的預(yù)訓(xùn)練 LLM 壓縮為 1.58 比特的 BitNet 模型，同時(shí)盡量減少性能損失與訓(xùn)練成本。

BitDistill 框架包含三個(gè)關(guān)鍵階段：

第一階段：模型精煉階段。

與全精度模型不同，在標(biāo)準(zhǔn)初始化方案下，全精度模型的隱藏狀態(tài)方差通常能夠保持在一個(gè)穩(wěn)定范圍內(nèi)；而低比特量化模型（如 1.58 比特 LLM）則常常遭受過大的激活方差問題，導(dǎo)致優(yōu)化過程不穩(wěn)定并造成收斂性能下降。

為緩解這一問題，借鑒先前 1.58 比特 BitNet 的設(shè)計(jì)原則，本文在每個(gè) Transformer 模塊內(nèi)的關(guān)鍵位置引入了額外的歸一化層（SubLN），以實(shí)現(xiàn)穩(wěn)定的優(yōu)化過程。

第二階段：持續(xù)預(yù)訓(xùn)練階段。

如圖 1 所示，直接將已有的全精度 LLM 轉(zhuǎn)換為 1.58 比特 BitNet 并在下游任務(wù)上進(jìn)行微調(diào)，往往會(huì)得到次優(yōu)結(jié)果。這是因?yàn)橛邢薜挠?xùn)練 token 數(shù)量不足以有效地將全精度權(quán)重適配到受限的 1.58 比特表示空間中，從而導(dǎo)致可擴(kuò)展性較差：隨著模型規(guī)模的增大，其性能與全精度基線之間的差距也隨之?dāng)U大。

為此，本文提出了一個(gè)兩階段訓(xùn)練流程：首先進(jìn)行持續(xù)訓(xùn)練階段，利用少量預(yù)訓(xùn)練語料來實(shí)現(xiàn)所需的適配；隨后再在下游任務(wù)上進(jìn)行微調(diào)。

第三階段：基于蒸餾的微調(diào)。

為更有效地緩解由精度降低帶來的性能退化，本文在下游任務(wù)微調(diào)階段引入了兩種知識(shí)蒸餾技術(shù)：其中，微調(diào)后的全精度 LLM 作為教師模型，而其 1.58 比特量化版本作為學(xué)生模型，通過蒸餾過程進(jìn)行學(xué)習(xí)與性能對(duì)齊。

蒸餾過程主要利用 logits 蒸餾和多頭注意力蒸餾來恢復(fù)全精度性能。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

BitDistill 方法的有效性在兩個(gè)代表性任務(wù)上進(jìn)行評(píng)估：文本分類與文本摘要。分類任務(wù)采用通用語言理解評(píng)估 (GLUE) 基準(zhǔn)中的 MNLI、QNLI 與 SST-2 三個(gè)數(shù)據(jù)集，摘要任務(wù)使用 CNN/DailyMail (CNNDM) 數(shù)據(jù)集。所有數(shù)據(jù)集均用于訓(xùn)練與評(píng)估，以全面驗(yàn)證方法性能。

BitDistill 的目標(biāo)是將預(yù)訓(xùn)練的全精度大語言模型 (LLM) 微調(diào)為適用于下游任務(wù)的 1.58-bit BitNet 模型。比較對(duì)象包括：

(1) 在相同任務(wù)上直接微調(diào)的全精度 FP16 模型 (FP16-SFT)；

(2) 將全精度模型量化為 1.58-bit BitNet 后再微調(diào)的模型 (BitNet-SFT)。

實(shí)驗(yàn)以 Qwen3 系列為基礎(chǔ)模型，涵蓋 0.6B、1.7B 與 4B 三種規(guī)模，并額外測(cè)試了 Qwen2.5 與 Gemma 等替代骨干網(wǎng)絡(luò)以評(píng)估模型類型影響。所有方法均采用貪心搜索確定學(xué)習(xí)率與訓(xùn)練輪數(shù)，以兼顧性能與公平比較。最大訓(xùn)練序列長(zhǎng)度設(shè)為 512，批大小為 32，所有模型均在配備 8 塊 AMD Mi300X GPU 的服務(wù)器上訓(xùn)練。

Logits 蒸餾溫度設(shè)為 5.0；分類任務(wù)中 λ=10、γ=1e5，摘要任務(wù)中 λ=1、γ=1e3，所有實(shí)驗(yàn)中 αi=1.0。持續(xù)預(yù)訓(xùn)練階段使用 FALCON 語料庫中采樣的 100 億個(gè) token，與從頭訓(xùn)練 1.58-bit 模型所需的約 4 萬億個(gè) token 相比，成本幾乎可忽略。

評(píng)估設(shè)置

采樣參數(shù)固定為 top-p=1.0、溫度 = 0。分類性能以準(zhǔn)確率衡量，摘要性能使用 BLEU、ROUGE-1/2/L/SUM 評(píng)估，最大生成長(zhǎng)度為 4096 token。運(yùn)行時(shí)效率通過 16 線程 CPU 的 token 吞吐量（tokens/s）報(bào)告。

主要結(jié)果

BitDistill 在各基準(zhǔn)數(shù)據(jù)集上表現(xiàn)如表 1 與表 2 所示。與全精度基線相比，1.58-bit 模型在準(zhǔn)確率和摘要質(zhì)量上保持接近性能，同時(shí)推理速度提升約 2 倍，內(nèi)存占用減少近 10 倍，展示出在資源受限環(huán)境下的顯著優(yōu)勢(shì)。這表明通過合理蒸餾策略，激進(jìn)量化仍可實(shí)現(xiàn)高性能。

文本分類任務(wù)上的結(jié)果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每個(gè)指標(biāo)和數(shù)據(jù)集的最高分均以粗體突出顯示。1.58-bit 的 BitDistill 模型實(shí)現(xiàn)了與 FP16 基線相當(dāng)?shù)男阅埽瑫r(shí)在所有數(shù)據(jù)集上將推理速度提升了 2 倍，并將內(nèi)存占用降低了 10 倍。符號(hào) * 表示在 BitDistill 中所使用的 FP16 教師模型。

文本摘要任務(wù)（CNNDM 數(shù)據(jù)集）上的結(jié)果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每個(gè)指標(biāo)和數(shù)據(jù)集的最高分均以粗體突出顯示。1.58-bit 的 BitDistill 模型實(shí)現(xiàn)了與 FP16 基線相當(dāng)?shù)男阅?，同時(shí)在所有數(shù)據(jù)集上將推理速度提升了 2 倍，并將內(nèi)存占用降低了 10 倍。符號(hào) * 表示在 BitDistill 中所使用的 FP16 教師模型。

將基礎(chǔ)模型替換為 Qwen2.5 和 Gemma 后，BitDistill 仍保持穩(wěn)定性能（見表 4）。雖然不同預(yù)訓(xùn)練模型間存在輕微波動(dòng)，但整體趨勢(shì)一致，顯示該方法具備跨架構(gòu)通用性和良好的部署適應(yīng)性。

不同量化技術(shù)在文本分類任務(wù)上的結(jié)果。B、G、A 分別代表塊量化、GPTQ 和 AWQ。

消融實(shí)驗(yàn)

BitDistill 包含三個(gè)階段。消融實(shí)驗(yàn)表明，移除任一階段均顯著降低性能（表 5），說明各階段相互補(bǔ)充，完整流程對(duì)效率與準(zhǔn)確率平衡至關(guān)重要。

BitDistill 中不同階段的效果。此處使用 Qwen3 0.6B 作為基礎(chǔ)模型。M.D.、C.T. 和 D.T. 分別表示建模優(yōu)化、持續(xù)預(yù)訓(xùn)練以及基于蒸餾的微調(diào)。

在第三階段中，單獨(dú)使用 logits 蒸餾或注意力蒸餾均能提升性能，但聯(lián)合使用效果最佳（表 6）。兩種技術(shù)從不同角度緩解量化優(yōu)化難題，其協(xié)同作用在極低比特環(huán)境下尤為顯著。

蒸餾技術(shù)的效果。此處，LD 表示公式 9 中的 logits 蒸餾，AD 表示公式 12 中的多頭注意力蒸餾。

BitDistill 與 Block-Quant、GPTQ、AWQ 等多種量化方案兼容。實(shí)驗(yàn)顯示：(1) 無論底層量化方法為何，BitDistill 均能穩(wěn)定提升性能；(2) GPTQ、AWQ 等復(fù)雜量化策略在其基礎(chǔ)上進(jìn)一步增強(qiáng)效果。這表明 BitDistill 提供了一種普適的低比特模型增強(qiáng)框架。

分析

在階段一中插入 SubLN 層能穩(wěn)定 1.58-bit BitNet 的優(yōu)化并加速收斂。如圖 3 (a) 所示，帶 SubLN 的模型在 FALCON 語料庫上的微調(diào)表現(xiàn)優(yōu)于未使用 SubLN 的版本。

(a) 使用 SubLN 將現(xiàn)有的大語言模型 (LLMs) 微調(diào)為 1.58-bit BitNet，可以獲得更優(yōu)的性能和更快的收斂速度。

持續(xù)訓(xùn)練可顯著縮小大模型的 1.58-bit 與 FP16 性能差距。權(quán)重分布可視化（圖 2）顯示，經(jīng)過持續(xù)訓(xùn)練后，BitNet 權(quán)重從近似高斯分布轉(zhuǎn)變?yōu)楦咏鼜念^訓(xùn)練的分布。該特征促使權(quán)重集中于 0 與 ±1 過渡區(qū)域，增加梯度更新的敏感度，從而提升模型對(duì)下游任務(wù)的擬合能力。

模型權(quán)重的可視化。上面兩行展示了從頭開始訓(xùn)練的 BitNet 的量化權(quán)重，及其對(duì)應(yīng)的 FP16 分布。下面兩行展示的是從 LLM 加載權(quán)重并進(jìn)行持續(xù)訓(xùn)練后，BitNet 的量化權(quán)重及其對(duì)應(yīng)的 FP16 分布。

在第三階段，單層注意力蒸餾優(yōu)于多層蒸餾（圖 3 (b)）。后期層的蒸餾效果更佳，表明層選擇對(duì)蒸餾質(zhì)量至關(guān)重要。

(b) 在 Qwen3 0.6B 模型上，通過蒸餾不同層所獲得的 MNLI 準(zhǔn)確率對(duì)比。

使用更大規(guī)模的 FP16 教師（如 Qwen3-1.7B、Qwen3-4B）顯著提升學(xué)生模型性能（圖 3 (c)），甚至超越同規(guī)模的 FP16 模型，證明高質(zhì)量教師能為 BitDistill 帶來額外收益。

(c) 使用不同規(guī)模的 FP16 教師模型對(duì) Qwen3-0.6B 進(jìn)行蒸餾，所獲得的 MNLI 準(zhǔn)確率對(duì)比。

責(zé)任編輯：張燕妮來源：機(jī)器之心

微軟 LLM 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="oiryg"></sub>

<blockquote id="oiryg"><i id="oiryg"><video id="oiryg"></video></i></blockquote>