Discrete Tokenization：多模態(tài)大模型的關(guān)鍵基石，首個系統(tǒng)化綜述發(fā)布

2025-08-06 09:10:10

本文團隊發(fā)布了首個面向多模態(tài) LLM 的 Discrete Tokenization 系統(tǒng)化綜述，系統(tǒng)地梳理技術(shù)脈絡(luò)，總結(jié)多模態(tài)場景下的實踐、挑戰(zhàn)與前沿研究方向，為該領(lǐng)域提供全面的技術(shù)地圖。

近年來，大語言模型（LLM）在語言理解、生成和泛化方面取得了突破性進展，并廣泛應(yīng)用于各種文本任務(wù)。隨著研究的深入，人們開始關(guān)注將 LLM 的能力擴展至非文本模態(tài)，例如圖像、音頻、視頻、圖結(jié)構(gòu)、推薦系統(tǒng)等。這為多模態(tài)統(tǒng)一建模帶來了機遇，也提出了一個核心挑戰(zhàn)：如何將各種模態(tài)信號轉(zhuǎn)化為 LLM 可處理的離散表示。

在這一背景下，Discrete Tokenization（離散化）逐漸成為關(guān)鍵方案。通過向量量化（Vector Quantization, VQ）等技術(shù)，高維連續(xù)輸入可以被壓縮為緊湊的離散 token，不僅實現(xiàn)高效存儲與計算，還能與 LLM 原生的 token 機制無縫銜接，從而顯著提升跨模態(tài)理解、推理與生成的能力。

盡管 Discrete Tokenization 在多模態(tài) LLM 中扮演著日益重要的角色，現(xiàn)有研究卻缺乏系統(tǒng)化的總結(jié)，研究者在方法選擇、應(yīng)用設(shè)計與優(yōu)化方向上缺少統(tǒng)一參考。為此，本文團隊發(fā)布了首個面向多模態(tài) LLM 的 Discrete Tokenization 系統(tǒng)化綜述，系統(tǒng)地梳理技術(shù)脈絡(luò)，總結(jié)多模態(tài)場景下的實踐、挑戰(zhàn)與前沿研究方向，為該領(lǐng)域提供全面的技術(shù)地圖。

論文標(biāo)題：Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey
論文鏈接：https://arxiv.org/abs/2507.22920
論文倉庫：https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey
發(fā)文單位：香港科技大學(xué)（廣州），吉林大學(xué)，香港中文大學(xué)，南京大學(xué)，加州大學(xué)默塞德分校

此綜述按照輸入數(shù)據(jù)的模態(tài)與模態(tài)組合來組織內(nèi)容：從早期的單模態(tài)與多模態(tài) Tokenization 方法，到 LLM 結(jié)合下的單模態(tài)與多模態(tài)應(yīng)用，逐步構(gòu)建出清晰的技術(shù)全景。這種結(jié)構(gòu)既反映了方法的演進路徑，也方便讀者快速定位自己關(guān)心的模態(tài)領(lǐng)域。

方法體系：八大類核心技術(shù)全景梳理

此綜述首次系統(tǒng)性地整理了八類 Vector Quantization 方法，覆蓋從經(jīng)典方法到最新技術(shù)變體，并剖析了它們在碼本構(gòu)建、梯度傳播、量化實現(xiàn)上的差異。

八類方法包括：

VQ（Vector Quantization）：經(jīng)典碼本設(shè)計與更新機制，結(jié)構(gòu)簡單、便于實現(xiàn)；
RVQ（Residual Vector Quantization）：多階段殘差量化，逐步細化編碼精度；
PQ（Product Quantization）：乘積量化，子空間劃分與獨立量化；
AQ（Additive Quantization）：加性量化，多碼本疊加建模，增強表達能力；
FSQ（Finite Scalar Quantization）：有限標(biāo)量量化，每個維度獨立映射到有限標(biāo)量集合，通過隱式碼本組合實現(xiàn)離散化，無需顯式存儲完整碼本，計算高效；
LFQ（Lookup-Free Quantization）：去查表量化，每個維度通過符號函數(shù)直接離散化，無需顯式存儲完整碼本；
BSQ（Binary Spherical Quantization）：球面二值量化，單位球面上進行離散化，無需顯式碼本；
Graph Anchor-Relation Tokenization：面向圖結(jié)構(gòu)的錨點 - 關(guān)系離散化，降低存儲與計算開銷。

不同方法在編碼器訓(xùn)練、梯度傳遞、量化精度等方面各具特點，適用于不同模態(tài)與任務(wù)場景。

方法挑戰(zhàn)：碼本坍塌（Codebook Collapse）

在多種 VQ 方法實踐中，碼本坍塌是影響性能的核心問題之一。它指的是在訓(xùn)練過程中，碼本的有效向量逐漸收斂到極少數(shù)幾個，導(dǎo)致碼本利用率下降、表示多樣性不足。

常見解決思路包括：

碼本重置（Code Reset）：對長期未使用的碼字進行重新初始化，使其靠近活躍碼字，從而提升利用率；
線性再參數(shù)化（Linear Reparameterization）：通過線性變換優(yōu)化碼字分布，并為未使用碼字引入可學(xué)習(xí)參數(shù)，保持其活躍狀態(tài)；
軟量化（Soft Quantization）：將輸入表示為多個碼字的加權(quán)組合，平衡不同碼字的使用頻率，防止過度集中在少數(shù)碼字；
正則化（Regularization）：引入熵正則、先驗分布約束或 KL 正則等機制，提高碼本利用率并避免表示空間坍縮。

緩解碼本坍塌對于提升 Discrete Tokenization 在多模態(tài) LLM 中的穩(wěn)定性與泛化能力至關(guān)重要。

早期 Tokenization

在 LLM 出現(xiàn)之前，Discrete Tokenization 已經(jīng)在多個深度學(xué)習(xí)任務(wù)中得到廣泛應(yīng)用，涵蓋單模態(tài)場景與多模態(tài)場景。在這一階段，它的主要作用是實現(xiàn)高效表示、壓縮以及不同模態(tài)間的對齊。典型應(yīng)用包括：

早期單模態(tài)任務(wù)：在圖像任務(wù)中，Discrete Tokenization 常用于檢索與合成，高效保留全局語義與關(guān)鍵細節(jié)；在音頻任務(wù)中，它在編解碼中作為穩(wěn)定中間表示，兼顧壓縮比與音質(zhì)；在視頻任務(wù)中，它實現(xiàn)幀級高效表示，支持可控生成與長時序建模；在結(jié)構(gòu)化數(shù)據(jù)任務(wù)中，它將節(jié)點、邊或交互序列映射為緊湊的離散表示，用于圖表示學(xué)習(xí)與推薦系統(tǒng)。
早期多模態(tài)任務(wù)：在視覺 - 語言任務(wù)中，Discrete Tokenization 將視覺特征離散化，與文本 token 共享模型接口，實現(xiàn)描述生成與跨模態(tài)檢索；在語音 - 文本任務(wù)中，它將連續(xù)語音離散化，與文本 token 對齊，支持語音識別、合成、翻譯等互轉(zhuǎn)；在跨模態(tài)生成任務(wù)中，它讓視覺、音頻、文本等模態(tài)能夠統(tǒng)一輸入到生成模型，完成多模態(tài)協(xié)同輸出。

這一階段的實踐奠定了 Discrete Tokenization 在后續(xù) LLM 時代廣泛應(yīng)用的技術(shù)基礎(chǔ)，并為跨模態(tài)對齊和統(tǒng)一處理提供了早期經(jīng)驗。

LLM 驅(qū)動的單模態(tài)離散建模

LLMs 在生成、理解、泛化等任務(wù)中展現(xiàn)了強大的能力，使其成為建模非文本模態(tài)的理想骨干。在單模態(tài)任務(wù)中，Discrete Tokenization 被廣泛應(yīng)用于圖像、音頻、圖、動作以及推薦系統(tǒng)等領(lǐng)域，通過將非文本模態(tài)編碼為 LLM 可讀的 token，Discrete Tokenization 實現(xiàn)了與語言 token 在同一空間下的融合。這些離散 token 作為橋梁，使 LLM 能夠完成多類下游任務(wù)：

圖像任務(wù)：通過離散 token 編碼局部細節(jié)與全局語義，實現(xiàn)圖像描述、生成與編輯；
音頻任務(wù)：利用量化后的語音單元支持語音識別、語音合成等任務(wù)；
圖結(jié)構(gòu)任務(wù)：將節(jié)點與邊離散化，支持節(jié)點分類、鏈接預(yù)測、圖分類等結(jié)構(gòu)化任務(wù)；
動作序列任務(wù)：對動作軌跡與控制信號進行離散化，便于 LLM 處理序列生成與預(yù)測；
推薦系統(tǒng)任務(wù)：將用戶行為、商品屬性等多類型非語言特征映射為統(tǒng)一 token，提升推薦與排序性能。

通過 Discrete Tokenization，不同單模態(tài)的數(shù)據(jù)特征得以映射到 LLM 的詞表空間中，統(tǒng)一進入模型處理框架，從而充分利用 LLM 強大的序列建模和泛化能力。

LLM 驅(qū)動的多模態(tài)離散建模

在多模態(tài)任務(wù)中，Discrete Tokenization 的作用尤為關(guān)鍵，它為不同模態(tài)之間建立了統(tǒng)一的語義橋梁，使模型能夠在一致的 token 表示下處理復(fù)雜的多模態(tài)輸入。

雙模態(tài)融合

雙模態(tài)組合起步于 2023 年，其中 Text + Image 是最活躍的方向，其次是 Text + Audio，隨后擴展到 Text + Video、Text + Graph、Text + Motion。在這些任務(wù)中，各模態(tài)通過各自的 tokenizer 轉(zhuǎn)換為離散 token，并映射到統(tǒng)一空間，從而支持圖文描述、跨模態(tài)問答、語音合成、視頻理解、動作生成等任務(wù)。

多模態(tài)融合

在三模態(tài)及以上的組合中，Discrete Tokenization 幫助更多模態(tài)在統(tǒng)一框架中協(xié)同工作，例如 Text + Image + Audio、Text + Image + Video、Text + Image + Audio + Action。這些組合在統(tǒng)一 token 空間中實現(xiàn)檢索、生成、對話、理解等復(fù)雜任務(wù)。

統(tǒng)一 token 機制使得模型無需為每個模態(tài)單獨定制架構(gòu)，而能夠在單一框架內(nèi)自然擴展到更多模態(tài)組合，大幅提升泛化性與擴展性。

挑戰(zhàn)與未來方向

盡管已有顯著進展，Discrete Tokenization 在多模態(tài) LLM 中仍存在多方面挑戰(zhàn)：

碼本利用率不足：部分碼字長期閑置，降低表示多樣性。
信息損失：量化過程中壓縮語義細節(jié)，影響下游性能。
梯度傳播困難：離散化阻礙了梯度流動，影響穩(wěn)定訓(xùn)練。
粒度與語義對齊：粒度選擇不當(dāng)可能導(dǎo)致細節(jié)缺失或計算開銷高。
離散與連續(xù)統(tǒng)一：缺乏兩類表示的有效協(xié)同。
模態(tài)與任務(wù)可遷移性：跨模態(tài)與跨任務(wù)的泛化能力不足。
可解釋性與可控性：token 語義不透明，難以調(diào)試與控制。

未來研究方向可以聚焦在：自適應(yīng)量化、統(tǒng)一框架、生物啟發(fā)式碼本、跨模態(tài)泛化、可解釋性提升等方面，推動離散化在多模態(tài) LLM 中更高效、更通用地發(fā)展。

結(jié)語

作為多模態(tài) LLM 的底層橋梁，Discrete Tokenization 的重要性會隨著模型能力邊界的拓展而不斷提升。此綜述提供了首個全景化、系統(tǒng)化的離散化參考，不僅梳理了八類核心技術(shù)，還圍繞輸入數(shù)據(jù)的模態(tài)與模態(tài)組合構(gòu)建了完整的應(yīng)用全景，從單模態(tài)到雙模態(tài)，再到多模態(tài)融合，形成了清晰的技術(shù)脈絡(luò)。

這是首個以輸入模態(tài)為主線構(gòu)建內(nèi)容結(jié)構(gòu)的系統(tǒng)化綜述，為研究者提供了按模態(tài)快速檢索方法與應(yīng)用的技術(shù)地圖。這種組織方式不僅凸顯方法演進的脈絡(luò)，還為不同研究方向提供了清晰的切入路徑，有望在推動理論創(chuàng)新的同時，加速實際落地與跨模態(tài)系統(tǒng)的發(fā)展。

責(zé)任編輯：張燕妮來源：機器之心

AI 模型技術(shù)

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Discrete Tokenization：多模態(tài)大模型的關(guān)鍵基石，首個系統(tǒng)化綜述發(fā)布