偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="twpmt"></var>

<ruby id="twpmt"><th id="twpmt"><pre id="twpmt"></pre></th></ruby>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

1.58bit不輸FP16！微軟推出全新模型蒸餾框架，作者全是華人

2025-10-20 17:15:35

人工智能新聞

微軟最新推出的蒸餾框架BitNet Distillation（簡稱BitDistill），實(shí)現(xiàn)了幾乎無性能損失的模型量化。

1.58bit量化，內(nèi)存僅需1/10，但表現(xiàn)不輸FP16？

微軟最新推出的蒸餾框架BitNet Distillation（簡稱BitDistill），實(shí)現(xiàn)了幾乎無性能損失的模型量化。

該框架在4B及以下的Qwen、Gemma上已被證實(shí)有效，理論上可用于其他Transformer模型。

同等硬件性能下，使用該方法量化后的推理速度提升2.65倍，內(nèi)存消耗僅1/10。

網(wǎng)友看了之后表示，如此一來昂貴的GPU將不再是必需品，英偉達(dá)的好日子要到頭了。

BitDistill框架設(shè)計

BitDistill包含三個依次銜接的階段，分別是模型結(jié)構(gòu)優(yōu)化（Modeling Refinement）、繼續(xù)預(yù)訓(xùn)練（Continue Pre-training）和蒸餾式微調(diào)（Distillation-based Fine-tuning）。

建模結(jié)構(gòu)優(yōu)化的主要目標(biāo)是為1.58-bit模型訓(xùn)練提供結(jié)構(gòu)層面的支持，緩解低精度訓(xùn)練中常見的優(yōu)化不穩(wěn)定問題。

在傳統(tǒng)的全精度Transformer模型中，隱藏狀態(tài)的方差通常在預(yù)訓(xùn)練時已被良好控制。然而，當(dāng)模型被壓縮到極低位寬（如1.58-bit）后，激活值在經(jīng)過量化前的分布可能會出現(xiàn)方差膨脹等問題，從而導(dǎo)致訓(xùn)練過程震蕩甚至失敗。

為了應(yīng)對這一問題，BitDistill在每一個Transformer層中引入了一個名為SubLN（Sub-layer LayerNorm）的歸一化模塊。

具體來說，SubLN的插入位置有兩個，一是在多頭自注意力模塊的輸出投影之前，二是在前饋網(wǎng)絡(luò)的輸出投影之前。

這樣的插入方式，不改變主干計算路徑，僅在關(guān)鍵位置對信號做規(guī)范化調(diào)整，使得量化后模型具備更好的收斂性。

這種設(shè)計使得量化前的表示能夠在進(jìn)入下一計算階段前被重新歸一化，有效抑制激活尺度的發(fā)散，提升訓(xùn)練穩(wěn)定性。

經(jīng)過第一階段的結(jié)構(gòu)修改后，模型雖具備量化訓(xùn)練的能力，但如果直接將其用于特定任務(wù)的微調(diào)，尤其是在模型規(guī)模較大時，仍會遭遇顯著的性能損失。

也就是說，隨著模型參數(shù)增大，1.58-bit模型與其全精度版本之間的性能差距反而進(jìn)一步擴(kuò)大。

為了緩解這一問題，BitDistill設(shè)計了一個輕量級的繼續(xù)預(yù)訓(xùn)練階段。在此階段中，模型會在少量通用語料上進(jìn)行自回歸語言建模訓(xùn)練，訓(xùn)練目標(biāo)為最大化條件概率。

這一過程并不涉及特定任務(wù)數(shù)據(jù)，也不需精調(diào)標(biāo)簽，僅是讓模型權(quán)重從全精度空間緩慢遷移到適合1.58-bit表示的分布上。

換句話說，這個階段的本質(zhì)是一種預(yù)適配訓(xùn)練，讓模型“學(xué)會如何被量化”，避免在微調(diào)階段才倉促適應(yīng)低位寬帶來的信息丟失。

完成結(jié)構(gòu)調(diào)整與繼續(xù)預(yù)訓(xùn)練后，模型被正式引入到具體下游任務(wù)中進(jìn)行1.58-bit量化訓(xùn)練。

為了彌補(bǔ)量化后模型在表達(dá)能力上的損失，BitDistill采用了一種雙重蒸餾機(jī)制——Logits蒸餾與多頭注意力蒸餾。

這一階段的目的是從原始的全精度模型中提取關(guān)鍵行為模式，并引導(dǎo)低位寬模型在具體任務(wù)上學(xué)習(xí)這些模式，從而恢復(fù)性能。

Logits蒸餾是將全精度模型輸出的類概率分布作為“軟標(biāo)簽”，引導(dǎo)量化模型在預(yù)測分布上向其靠攏。具體做法是使用Kullback–Leibler散度（KL散度）來最小化兩者輸出分布之間的差異。

由于Transformer模型的性能很大程度依賴其注意力機(jī)制，BitDistill進(jìn)一步從結(jié)構(gòu)層面對注意力關(guān)系進(jìn)行蒸餾。這種蒸餾不是對注意力權(quán)重做對齊，而是對Q、K、V向量構(gòu)成的關(guān)系矩陣進(jìn)行分布層面的模仿。

具體而言，對于選定的某一層（通常是模型后部的一層），分別從教師模型與學(xué)生模型中提取Q、K、V三組張量，并計算它們之間的點(diǎn)積相關(guān)性，形成關(guān)系分布矩陣。

然后通過KL散度使兩者對齊，訓(xùn)練學(xué)生模型還原出與教師模型相似的結(jié)構(gòu)依賴。

FP16無損量化至1.58bit

BitDistill展示出在多個下游任務(wù)中幾乎等同于全精度模型的表現(xiàn)，同時顯著降低了內(nèi)存開銷并提升了推理速度。作者在兩個典型任務(wù)類型上進(jìn)行了全面實(shí)驗(yàn)，分別是文本分類與文本摘要。

以Qwen3為基礎(chǔ)模型，測試中的分類任務(wù)包括MNLI、QNLI與SST-2，摘要任務(wù)則采用CNN/DailyMail數(shù)據(jù)集作為標(biāo)準(zhǔn)。

分類任務(wù)中，BitDistill的1.58-bit模型在準(zhǔn)確率與生成質(zhì)量指標(biāo)上與全精度微調(diào)模型（FP16-SFT）幾乎一致，而顯著優(yōu)于直接對量化模型進(jìn)行微調(diào)的BitNet-SFT。

在文本摘要任務(wù)中，BitDistill同樣表現(xiàn)出高度保真的生成能力。

以ROUGE和BLEU等標(biāo)準(zhǔn)指標(biāo)衡量，在CNN/DailyMail上，BitDistill所生成文本的BLEU為14.41，ROUGE-L為27.49，與FP16模型的13.98和27.72幾乎等同，甚至在BLEU上略有超出。

相比之下，直接量化后的模型在BLEU與ROUGE上普遍下降2至3個百分點(diǎn)。

為了驗(yàn)證BitDistill在不同模型架構(gòu)上的通用性，作者還將其應(yīng)用于Gemma和Qwen2.5等其他預(yù)訓(xùn)練模型，結(jié)果BitDistill都能實(shí)現(xiàn)對全精度性能的高度還原。

進(jìn)一步的實(shí)驗(yàn)表明，BitDistill在不同量化策略下也具備良好的兼容性。作者將其與常見的Block-Quant、GPTQ、AWQ等量化方法結(jié)合，在分類任務(wù)上依然能夠穩(wěn)定地恢復(fù)原始性能，證明該方法可作為一個獨(dú)立于量化算法的上層蒸餾方案，適用于多種后量化優(yōu)化場景。

One More Thing

BitStill的作者全部來自微軟研究院，而且均為華人。

通訊作者為微軟亞洲研究院副總裁、武漢大學(xué)校友韋福如博士。

他讀博期間就曾在MSRA實(shí)習(xí)，畢業(yè)后到IBM工作，又于2010年重回微軟，工作至今。

第一作者Xun Wu為清華計算機(jī)碩士，本科畢業(yè)于中南大學(xué)，2023年開始到微軟研究院實(shí)習(xí)，畢業(yè)后正式入職。

其他作者名單如下：

論文地址：https://arxiv.org/abs/2510.13998

責(zé)任編輯：張燕妮來源：量子位

AI 框架模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<em id="8kt5k"><b id="8kt5k"></b></em>