北大提出首個復(fù)數(shù)大模型，2比特量化，推理僅加法，可手機部署！

2025-08-18 08:40:00

人工智能新聞

北大團隊首次提出iFairy方案，把模型權(quán)重量化到復(fù)數(shù)集合 {+1, -1, +i, -i}。

首個復(fù)數(shù)大模型！北大提出2比特超低比特量化算法。

現(xiàn)如今，大模型在推理時通常都非常耗存儲和計算，這是因為權(quán)重采用FP16存儲，占用空間大。

北大團隊首次提出iFairy方案，把模型權(quán)重量化到復(fù)數(shù)集合 {+1, -1, +i, -i}。

這四個值剛好可以用2比特表示，相當(dāng)于壓縮到原本的1/8。

推理時，復(fù)數(shù)與{±1，±i}相乘，不需要真正做乘法，只需加減或交換數(shù)據(jù)位置，計算成本更低。

研究團隊還將整個Transformer架構(gòu)都進行了“復(fù)數(shù)化”改造。

結(jié)果顯示，iFairy模型取得了比全精度（FP16）LLaMA基座模型更低的困惑度（PPL），降幅高達10%，語言建模能力和下游任務(wù)表現(xiàn)反超其全精度的LLaMA基座模型，讓GPT-5這樣的大模型也有在手機上運行的可能。

目前，相關(guān)論文及代碼全面開源，人人都能復(fù)現(xiàn)訓(xùn)練。

研究核心：模型體積壓縮與全新量化算法PhaseQuant

為追求更高的模型性能，業(yè)界普遍做法是不斷堆疊參數(shù)量，模型部署成本高昂。

同時，龐大的參數(shù)量帶來了計算量的激增，盡管學(xué)界和業(yè)界已涌現(xiàn)出如gpt-oss的MXFP4訓(xùn)練等優(yōu)秀的量化方案，但其核心計算邏輯依然沒有消除對硬件資源消耗巨大的“乘法”運算的依賴，推理延遲沒有實現(xiàn)根本性的降低。

北大團隊的iFairy超低比特量化方案為此破局。

模型體積極致壓縮，僅為原1/8

在“空間”上，iFairy實現(xiàn)了極致的壓縮。

傳統(tǒng)的全精度（FP16）權(quán)重需要16比特，而iFairy方案僅用2比特，就完成了對一個權(quán)重信息的編碼。

這意味著，相較于流行的FP16模型，其模型體積可以直接壓縮至原來的1/8。這種極致的壓縮率，為大模型在手機、汽車等邊緣設(shè)備上的部署掃清了存儲障礙。

PhaseQuant實現(xiàn)“無乘法”計算

在“時間”上，團隊提出全新量化算法PhaseQuant，iFairy實現(xiàn)“無乘法”計算。

PhaseQuant算法

這一切，都源于團隊提出的全新量化算法PhaseQuant。它不再將權(quán)重映射到實數(shù)軸上的點，而是基于參數(shù)的相位將其映射到復(fù)平面上的四個單位根{+1, -1, +i, -i}。

△PhaseQuant量化算法示意圖

這一操作一舉多得：

信息密度：用 {+1, -1, +i, -i}四個值，徹底利用了2-bit的全部信息容量，信息熵從傳統(tǒng)三元量化（如BitNet b1.58）的log?(3)≈1.58-bit，提升到滿格的log?(4)=2-bit。
對稱性：這四個點在復(fù)平面上關(guān)于原點中心對稱，保持了模型訓(xùn)練所需的良好性質(zhì)。
稀疏性：每個量化后的復(fù)數(shù)權(quán)重，其實部或虛部必有一個為零，這在高維度上保留了稀疏性的優(yōu)勢。

“無乘法”運算

一個標(biāo)準(zhǔn)的復(fù)數(shù)乘法(a+ib)(c+id)需要4次實數(shù)乘法和2次加法，計算量不小。

但在iFairy模型中，當(dāng)一個復(fù)數(shù)激活值與量化后的權(quán)重{±1, ±i}相乘時，運算發(fā)生變化：所有乘法都消失了。

△超低比特復(fù)數(shù)運算規(guī)則

整個模型中最核心、最龐大的矩陣乘法（GEMM），被徹底重構(gòu)。

原本昂貴的浮點乘法運算，被完全替換為硬件成本幾乎為零的加法、減法和數(shù)據(jù)交換（shuffle）操作。這從根本上消除了計算瓶頸，為實現(xiàn)數(shù)量級的推理加速提供了可能。

架構(gòu)革新：一個全面“復(fù)數(shù)化”的Transformer

研究團隊還將整個Transformer架構(gòu)都進行了“復(fù)數(shù)化”改造。

△Fairy±i模型主干

復(fù)數(shù)注意力機制：傳統(tǒng)注意力計算Q和K的點積，這里則巧妙地使用了Hermitian內(nèi)積的實部作為相似度分?jǐn)?shù)，既利用了所有復(fù)數(shù)信息，又自然地得到了實數(shù)分?jǐn)?shù)用于Softmax。

復(fù)數(shù)旋轉(zhuǎn)位置編碼(RoPE)：在復(fù)數(shù)域，位置編碼的旋轉(zhuǎn)操作變得異常簡潔和統(tǒng)一，一個簡單的復(fù)數(shù)乘法即可實現(xiàn)。

性能表現(xiàn)：PPL降低10%，性能反超全精度

結(jié)果顯示，iFairy不僅沒有出現(xiàn)超低比特量化常見的性能懸崖，反而實現(xiàn)了性能反超。

在LLM的語言建模能力方面，模型的困惑度（PPL）越低，代表模型對文本的理解和預(yù)測能力越強。在對PPL的測試中，基于相同數(shù)據(jù)集訓(xùn)練（注：為保證對比的嚴(yán)謹(jǐn)性，所有對比模型的訓(xùn)練數(shù)據(jù)均保持一致，具體信息可參見論文）的2-bit的iFairy模型取得了比全精度（FP16）模型更低的困惑度（PPL），降幅高達10%。

△iFairy PPL評測結(jié)果

在下游任務(wù)評測方面，iFairy模型更是在多個任務(wù)的評分反超了全精度的Llama基座模型。

△iFairy 下游任務(wù)評測結(jié)果（zero-shot）

對量化后權(quán)重的分析還發(fā)現(xiàn)，模型在訓(xùn)練后，這四個復(fù)數(shù)值{±1, ±i}的分布非常均勻，證明模型確實學(xué)會了充分利用這套全新的“編碼系統(tǒng)”。

△左為iFairy模型k_proj的參數(shù)分布，右為iFairy模型o_proj的參數(shù)分布

這項工作將復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的思想與超低比特量化相結(jié)合，通過利用“相位”這一被忽略的信息維度，在不增加任何存儲成本的前提下，顯著提升了模型的表達能力和最終性能。

或許，我們離在普通手機上流暢運行GPT-5級別的模型，又近了一步。相關(guān)論文、訓(xùn)練代碼、模型權(quán)重與實驗?zāi)_本已全部開源，配套提供從訓(xùn)練、評測到可復(fù)現(xiàn)實驗的完整流程，人人皆可復(fù)現(xiàn)訓(xùn)練。

論文鏈接：https://arxiv.org/pdf/2508.05571
huggingface鏈接：
https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-700M，https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-1.3B
github鏈接：https://github.com/PKULab1806/Fairy-plus-minus-i

責(zé)任編輯：張燕妮來源：量子位

模型 AI 算法

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

北大提出首個復(fù)數(shù)大模型，2比特量化，推理僅加法，可手機部署！