多模態(tài)大語言模型離散標(biāo)記化技術(shù):演進(jìn)、挑戰(zhàn)與未來方向
多模態(tài)大模型為何需要離散標(biāo)記化?
大語言模型(LLMs)的核心優(yōu)勢在于處理離散文本序列,但現(xiàn)實(shí)世界數(shù)據(jù)(圖像、音頻、視頻等)本質(zhì)上是連續(xù)信號。直接將這些數(shù)據(jù)輸入LLMs會面臨兩大挑戰(zhàn):
- 模態(tài)鴻溝:連續(xù)信號與LLMs的離散token空間不兼容,導(dǎo)致跨模態(tài)對齊困難。
- 計(jì)算瓶頸:高維原始數(shù)據(jù)(如4K視頻)直接輸入LLMs將引發(fā)災(zāi)難性的計(jì)算開銷。
離散標(biāo)記化(Discrete Tokenization) 成為關(guān)鍵解決方案:通過向量量化(VQ) 技術(shù)將連續(xù)數(shù)據(jù)壓縮為緊湊的離散token序列,既保留語義信息,又無縫適配LLMs的架構(gòu)。
新方法:八大量化技術(shù)構(gòu)建統(tǒng)一token空間
論文提出首個(gè)系統(tǒng)化VQ技術(shù)分類框架,涵蓋8類核心方法,突破傳統(tǒng)量化瓶頸:
1. 向量量化(VQ)
- 原理:將連續(xù)向量映射到有限碼本(Codebook)的最近鄰碼字。
- 創(chuàng)新點(diǎn):提出EMA碼本更新與碼本重置策略,解決“碼本坍塌”(90%碼字未被使用)問題。

2. 殘差向量量化(RVQ)
- 原理:多階段量化殘差信號(如圖3),逐步逼近原始數(shù)據(jù)。
- 優(yōu)勢:MAGVIT-v2采用RVQ,在視頻生成任務(wù)中**碼本利用率達(dá)99%**,比傳統(tǒng)VQ提升40%。

3. 免查找量化技術(shù)
- 有限標(biāo)量量化(FSQ):將向量各維度獨(dú)立量化為整數(shù)(如
{-1,0,1}),無需碼本查找。 - 查找自由量化(LFQ):二值化量化(
{-1,1}),直接生成token索引。 - 突破:LFQ在ImageNet生成任務(wù)中推理速度提升3倍,且無碼本坍塌問題。
FSQ/LFQ/BSQ對比
FSQ/LFQ/BSQ對比
4. 其他關(guān)鍵技術(shù)
- 乘積量化(PQ):高維空間分解為子空間獨(dú)立量化,壓縮率提升10倍。
- 圖錨點(diǎn)標(biāo)記化(GART):用錨節(jié)點(diǎn)+關(guān)系類型替代傳統(tǒng)碼本,**知識圖譜任務(wù)參數(shù)量減少70%**。
實(shí)驗(yàn)結(jié)果
論文通過100+篇文獻(xiàn)實(shí)驗(yàn)驗(yàn)證離散標(biāo)記化的有效性,關(guān)鍵結(jié)果如下:
1. 圖像生成:LFQ碾壓傳統(tǒng)VQ

2. 語音處理:離散token提升魯棒性
- VALL-E [192]:基于離散token的TTS模型,在零樣本語音合成中MOS評分達(dá)4.28(人類評分4.5)。
- JTFS LM [230]:離散token在語音識別任務(wù)中WER降低15%**,優(yōu)于連續(xù)特征。
3. 多模態(tài)LLMs:統(tǒng)一token空間成關(guān)鍵
- Chameleon [183]:采用VQ統(tǒng)一圖文token,實(shí)現(xiàn)圖文交錯(cuò)生成。
- VideoPoet [87]:結(jié)合LFQ(圖像/視頻)+RVQ(音頻),在分鐘級視頻生成中FID達(dá)18.7。

4. 推薦系統(tǒng):RVQ壓縮效率顯著
- VQ-Rec :用RVQ壓縮用戶行為序列,存儲空間減少60%,召回率提升8%。
總結(jié)
本文首次系統(tǒng)梳理了多模態(tài)LLMs的離散標(biāo)記化技術(shù):
- 技術(shù)價(jià)值:通過VQ/RVQ/FSQ等8類方法,解決模態(tài)鴻溝與計(jì)算瓶頸。
- 性能突破:LFQ、MAGVIT-v2等模型在圖像/視頻生成、語音合成等任務(wù)中達(dá)到SOTA。
- 未來方向:動態(tài)量化、跨模態(tài)統(tǒng)一token空間、可解釋碼本設(shè)計(jì)。
?
論文代碼與數(shù)據(jù)集:GitHub鏈接:https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey


































