偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Discrete Tokenization:多模態(tài)大模型的關(guān)鍵基石,首個系統(tǒng)化綜述發(fā)布

人工智能 新聞
本文團隊發(fā)布了首個面向多模態(tài) LLM 的 Discrete Tokenization 系統(tǒng)化綜述,系統(tǒng)地梳理技術(shù)脈絡(luò),總結(jié)多模態(tài)場景下的實踐、挑戰(zhàn)與前沿研究方向,為該領(lǐng)域提供全面的技術(shù)地圖。

近年來,大語言模型(LLM)在語言理解、生成和泛化方面取得了突破性進展,并廣泛應(yīng)用于各種文本任務(wù)。隨著研究的深入,人們開始關(guān)注將 LLM 的能力擴展至非文本模態(tài),例如圖像、音頻、視頻、圖結(jié)構(gòu)、推薦系統(tǒng)等。這為多模態(tài)統(tǒng)一建模帶來了機遇,也提出了一個核心挑戰(zhàn):如何將各種模態(tài)信號轉(zhuǎn)化為 LLM 可處理的離散表示。

在這一背景下,Discrete Tokenization(離散化)逐漸成為關(guān)鍵方案。通過向量量化(Vector Quantization, VQ)等技術(shù),高維連續(xù)輸入可以被壓縮為緊湊的離散 token,不僅實現(xiàn)高效存儲與計算,還能與 LLM 原生的 token 機制無縫銜接,從而顯著提升跨模態(tài)理解、推理與生成的能力。

盡管 Discrete Tokenization 在多模態(tài) LLM 中扮演著日益重要的角色,現(xiàn)有研究卻缺乏系統(tǒng)化的總結(jié),研究者在方法選擇、應(yīng)用設(shè)計與優(yōu)化方向上缺少統(tǒng)一參考。為此,本文團隊發(fā)布了首個面向多模態(tài) LLM 的 Discrete Tokenization 系統(tǒng)化綜述,系統(tǒng)地梳理技術(shù)脈絡(luò),總結(jié)多模態(tài)場景下的實踐、挑戰(zhàn)與前沿研究方向,為該領(lǐng)域提供全面的技術(shù)地圖。

圖片

圖片

  • 論文標(biāo)題:Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey
  • 論文鏈接:https://arxiv.org/abs/2507.22920 
  • 論文倉庫:https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey
  • 發(fā)文單位:香港科技大學(xué)(廣州),吉林大學(xué),香港中文大學(xué),南京大學(xué),加州大學(xué)默塞德分校

圖片

此綜述按照輸入數(shù)據(jù)的模態(tài)與模態(tài)組合來組織內(nèi)容:從早期的單模態(tài)與多模態(tài) Tokenization 方法,到 LLM 結(jié)合下的單模態(tài)與多模態(tài)應(yīng)用,逐步構(gòu)建出清晰的技術(shù)全景。這種結(jié)構(gòu)既反映了方法的演進路徑,也方便讀者快速定位自己關(guān)心的模態(tài)領(lǐng)域。

方法體系:八大類核心技術(shù)全景梳理

此綜述首次系統(tǒng)性地整理了八類 Vector Quantization 方法,覆蓋從經(jīng)典方法到最新技術(shù)變體,并剖析了它們在碼本構(gòu)建、梯度傳播、量化實現(xiàn)上的差異。

八類方法包括:

  • VQ(Vector Quantization):經(jīng)典碼本設(shè)計與更新機制,結(jié)構(gòu)簡單、便于實現(xiàn);
  • RVQ(Residual Vector Quantization):多階段殘差量化,逐步細化編碼精度;
  • PQ(Product Quantization):乘積量化,子空間劃分與獨立量化;
  • AQ(Additive Quantization):加性量化,多碼本疊加建模,增強表達能力;
  • FSQ(Finite Scalar Quantization):有限標(biāo)量量化,每個維度獨立映射到有限標(biāo)量集合,通過隱式碼本組合實現(xiàn)離散化,無需顯式存儲完整碼本,計算高效;
  • LFQ(Lookup-Free Quantization):去查表量化,每個維度通過符號函數(shù)直接離散化,無需顯式存儲完整碼本;
  • BSQ(Binary Spherical Quantization):球面二值量化,單位球面上進行離散化,無需顯式碼本;
  • Graph Anchor-Relation Tokenization:面向圖結(jié)構(gòu)的錨點 - 關(guān)系離散化,降低存儲與計算開銷。

不同方法在編碼器訓(xùn)練、梯度傳遞、量化精度等方面各具特點,適用于不同模態(tài)與任務(wù)場景。

圖片

方法挑戰(zhàn):碼本坍塌(Codebook Collapse)

在多種 VQ 方法實踐中,碼本坍塌是影響性能的核心問題之一。它指的是在訓(xùn)練過程中,碼本的有效向量逐漸收斂到極少數(shù)幾個,導(dǎo)致碼本利用率下降、表示多樣性不足。

常見解決思路包括:

  • 碼本重置(Code Reset):對長期未使用的碼字進行重新初始化,使其靠近活躍碼字,從而提升利用率;
  • 線性再參數(shù)化(Linear Reparameterization):通過線性變換優(yōu)化碼字分布,并為未使用碼字引入可學(xué)習(xí)參數(shù),保持其活躍狀態(tài);
  • 軟量化(Soft Quantization):將輸入表示為多個碼字的加權(quán)組合,平衡不同碼字的使用頻率,防止過度集中在少數(shù)碼字;
  • 正則化(Regularization):引入熵正則、先驗分布約束或 KL 正則等機制,提高碼本利用率并避免表示空間坍縮。

緩解碼本坍塌對于提升 Discrete Tokenization 在多模態(tài) LLM 中的穩(wěn)定性與泛化能力至關(guān)重要。

圖片

早期 Tokenization

在 LLM 出現(xiàn)之前,Discrete Tokenization 已經(jīng)在多個深度學(xué)習(xí)任務(wù)中得到廣泛應(yīng)用,涵蓋單模態(tài)場景與多模態(tài)場景。在這一階段,它的主要作用是實現(xiàn)高效表示、壓縮以及不同模態(tài)間的對齊。典型應(yīng)用包括:

  • 早期單模態(tài)任務(wù):在圖像任務(wù)中,Discrete Tokenization 常用于檢索與合成,高效保留全局語義與關(guān)鍵細節(jié);在音頻任務(wù)中,它在編解碼中作為穩(wěn)定中間表示,兼顧壓縮比與音質(zhì);在視頻任務(wù)中,它實現(xiàn)幀級高效表示,支持可控生成與長時序建模;在結(jié)構(gòu)化數(shù)據(jù)任務(wù)中,它將節(jié)點、邊或交互序列映射為緊湊的離散表示,用于圖表示學(xué)習(xí)與推薦系統(tǒng)。
  • 早期多模態(tài)任務(wù):在視覺 - 語言任務(wù)中,Discrete Tokenization 將視覺特征離散化,與文本 token 共享模型接口,實現(xiàn)描述生成與跨模態(tài)檢索;在語音 - 文本任務(wù)中,它將連續(xù)語音離散化,與文本 token 對齊,支持語音識別、合成、翻譯等互轉(zhuǎn);在跨模態(tài)生成任務(wù)中,它讓視覺、音頻、文本等模態(tài)能夠統(tǒng)一輸入到生成模型,完成多模態(tài)協(xié)同輸出。

這一階段的實踐奠定了 Discrete Tokenization 在后續(xù) LLM 時代廣泛應(yīng)用的技術(shù)基礎(chǔ),并為跨模態(tài)對齊和統(tǒng)一處理提供了早期經(jīng)驗。

LLM 驅(qū)動的單模態(tài)離散建模

LLMs 在生成、理解、泛化等任務(wù)中展現(xiàn)了強大的能力,使其成為建模非文本模態(tài)的理想骨干。在單模態(tài)任務(wù)中,Discrete Tokenization 被廣泛應(yīng)用于圖像、音頻、圖、動作以及推薦系統(tǒng)等領(lǐng)域,通過將非文本模態(tài)編碼為 LLM 可讀的 token,Discrete Tokenization 實現(xiàn)了與語言 token 在同一空間下的融合。這些離散 token 作為橋梁,使 LLM 能夠完成多類下游任務(wù):

  • 圖像任務(wù):通過離散 token 編碼局部細節(jié)與全局語義,實現(xiàn)圖像描述、生成與編輯;
  • 音頻任務(wù):利用量化后的語音單元支持語音識別、語音合成等任務(wù);
  • 圖結(jié)構(gòu)任務(wù):將節(jié)點與邊離散化,支持節(jié)點分類、鏈接預(yù)測、圖分類等結(jié)構(gòu)化任務(wù);
  • 動作序列任務(wù):對動作軌跡與控制信號進行離散化,便于 LLM 處理序列生成與預(yù)測;
  • 推薦系統(tǒng)任務(wù):將用戶行為、商品屬性等多類型非語言特征映射為統(tǒng)一 token,提升推薦與排序性能。

通過 Discrete Tokenization,不同單模態(tài)的數(shù)據(jù)特征得以映射到 LLM 的詞表空間中,統(tǒng)一進入模型處理框架,從而充分利用 LLM 強大的序列建模和泛化能力。

圖片

LLM 驅(qū)動的多模態(tài)離散建模

在多模態(tài)任務(wù)中,Discrete Tokenization 的作用尤為關(guān)鍵,它為不同模態(tài)之間建立了統(tǒng)一的語義橋梁,使模型能夠在一致的 token 表示下處理復(fù)雜的多模態(tài)輸入。

雙模態(tài)融合

雙模態(tài)組合起步于 2023 年,其中 Text + Image 是最活躍的方向,其次是 Text + Audio,隨后擴展到 Text + Video、Text + Graph、Text + Motion。在這些任務(wù)中,各模態(tài)通過各自的 tokenizer 轉(zhuǎn)換為離散 token,并映射到統(tǒng)一空間,從而支持圖文描述、跨模態(tài)問答、語音合成、視頻理解、動作生成等任務(wù)。

多模態(tài)融合

在三模態(tài)及以上的組合中,Discrete Tokenization 幫助更多模態(tài)在統(tǒng)一框架中協(xié)同工作,例如 Text + Image + Audio、Text + Image + Video、Text + Image + Audio + Action。這些組合在統(tǒng)一 token 空間中實現(xiàn)檢索、生成、對話、理解等復(fù)雜任務(wù)。

統(tǒng)一 token 機制使得模型無需為每個模態(tài)單獨定制架構(gòu),而能夠在單一框架內(nèi)自然擴展到更多模態(tài)組合,大幅提升泛化性與擴展性。

圖片

圖片

挑戰(zhàn)與未來方向

盡管已有顯著進展,Discrete Tokenization 在多模態(tài) LLM 中仍存在多方面挑戰(zhàn):

  • 碼本利用率不足:部分碼字長期閑置,降低表示多樣性。
  • 信息損失:量化過程中壓縮語義細節(jié),影響下游性能。
  • 梯度傳播困難:離散化阻礙了梯度流動,影響穩(wěn)定訓(xùn)練。
  • 粒度與語義對齊:粒度選擇不當(dāng)可能導(dǎo)致細節(jié)缺失或計算開銷高。
  • 離散與連續(xù)統(tǒng)一:缺乏兩類表示的有效協(xié)同。
  • 模態(tài)與任務(wù)可遷移性:跨模態(tài)與跨任務(wù)的泛化能力不足。
  • 可解釋性與可控性:token 語義不透明,難以調(diào)試與控制。

未來研究方向可以聚焦在:自適應(yīng)量化、統(tǒng)一框架、生物啟發(fā)式碼本、跨模態(tài)泛化、可解釋性提升等方面,推動離散化在多模態(tài) LLM 中更高效、更通用地發(fā)展。

結(jié)語

作為多模態(tài) LLM 的底層橋梁,Discrete Tokenization 的重要性會隨著模型能力邊界的拓展而不斷提升。此綜述提供了首個全景化、系統(tǒng)化的離散化參考,不僅梳理了八類核心技術(shù),還圍繞輸入數(shù)據(jù)的模態(tài)與模態(tài)組合構(gòu)建了完整的應(yīng)用全景,從單模態(tài)到雙模態(tài),再到多模態(tài)融合,形成了清晰的技術(shù)脈絡(luò)。

這是首個以輸入模態(tài)為主線構(gòu)建內(nèi)容結(jié)構(gòu)的系統(tǒng)化綜述,為研究者提供了按模態(tài)快速檢索方法與應(yīng)用的技術(shù)地圖。這種組織方式不僅凸顯方法演進的脈絡(luò),還為不同研究方向提供了清晰的切入路徑,有望在推動理論創(chuàng)新的同時,加速實際落地與跨模態(tài)系統(tǒng)的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-13 15:00:00

模型數(shù)據(jù)

2025-01-08 08:21:16

2024-07-01 10:19:22

2024-12-16 07:30:00

2025-09-16 09:35:52

2025-07-04 16:50:07

工具AI模型

2024-03-22 15:08:47

CLIP機器學(xué)習(xí)人工智能

2024-04-08 00:12:19

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-03-25 12:30:18

AI訓(xùn)練開源

2023-06-08 11:32:00

模型論文

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-05-17 16:02:00

2023-05-15 12:14:02

ChatGPT語音模型

2024-10-14 14:10:00

大模型AI開源

2024-09-23 08:20:00

模型訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號