偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大語言模型離散標(biāo)記化技術(shù):演進(jìn)、挑戰(zhàn)與未來方向

人工智能
大語言模型(LLMs)的核心優(yōu)勢在于處理離散文本序列,但現(xiàn)實(shí)世界數(shù)據(jù)(圖像、音頻、視頻等)本質(zhì)上是連續(xù)信號。

多模態(tài)大模型為何需要離散標(biāo)記化?

大語言模型(LLMs)的核心優(yōu)勢在于處理離散文本序列,但現(xiàn)實(shí)世界數(shù)據(jù)(圖像、音頻、視頻等)本質(zhì)上是連續(xù)信號。直接將這些數(shù)據(jù)輸入LLMs會面臨兩大挑戰(zhàn):

  1. 模態(tài)鴻溝:連續(xù)信號與LLMs的離散token空間不兼容,導(dǎo)致跨模態(tài)對齊困難。
  2. 計(jì)算瓶頸:高維原始數(shù)據(jù)(如4K視頻)直接輸入LLMs將引發(fā)災(zāi)難性的計(jì)算開銷。

離散標(biāo)記化(Discrete Tokenization) 成為關(guān)鍵解決方案:通過向量量化(VQ) 技術(shù)將連續(xù)數(shù)據(jù)壓縮為緊湊的離散token序列,既保留語義信息,又無縫適配LLMs的架構(gòu)。

新方法:八大量化技術(shù)構(gòu)建統(tǒng)一token空間

論文提出首個(gè)系統(tǒng)化VQ技術(shù)分類框架,涵蓋8類核心方法,突破傳統(tǒng)量化瓶頸:

1. 向量量化(VQ)

  • 原理:將連續(xù)向量映射到有限碼本(Codebook)的最近鄰碼字。
  • 創(chuàng)新點(diǎn):提出EMA碼本更新碼本重置策略,解決“碼本坍塌”(90%碼字未被使用)問題。

2. 殘差向量量化(RVQ)

  • 原理:多階段量化殘差信號(如圖3),逐步逼近原始數(shù)據(jù)。
  • 優(yōu)勢:MAGVIT-v2采用RVQ,在視頻生成任務(wù)中**碼本利用率達(dá)99%**,比傳統(tǒng)VQ提升40%。

3. 免查找量化技術(shù)

  • 有限標(biāo)量量化(FSQ):將向量各維度獨(dú)立量化為整數(shù)(如{-1,0,1}),無需碼本查找
  • 查找自由量化(LFQ):二值化量化({-1,1}),直接生成token索引。
  • 突破:LFQ在ImageNet生成任務(wù)中推理速度提升3倍,且無碼本坍塌問題。

FSQ/LFQ/BSQ對比FSQ/LFQ/BSQ對比

FSQ/LFQ/BSQ對比

4. 其他關(guān)鍵技術(shù)

  • 乘積量化(PQ):高維空間分解為子空間獨(dú)立量化,壓縮率提升10倍
  • 圖錨點(diǎn)標(biāo)記化(GART):用錨節(jié)點(diǎn)+關(guān)系類型替代傳統(tǒng)碼本,**知識圖譜任務(wù)參數(shù)量減少70%**。

實(shí)驗(yàn)結(jié)果

論文通過100+篇文獻(xiàn)實(shí)驗(yàn)驗(yàn)證離散標(biāo)記化的有效性,關(guān)鍵結(jié)果如下:

1. 圖像生成:LFQ碾壓傳統(tǒng)VQ

2. 語音處理:離散token提升魯棒性

  • VALL-E [192]:基于離散token的TTS模型,在零樣本語音合成中MOS評分達(dá)4.28(人類評分4.5)。
  • JTFS LM [230]:離散token在語音識別任務(wù)中WER降低15%**,優(yōu)于連續(xù)特征。

3. 多模態(tài)LLMs:統(tǒng)一token空間成關(guān)鍵

  • Chameleon [183]:采用VQ統(tǒng)一圖文token,實(shí)現(xiàn)圖文交錯(cuò)生成。
  • VideoPoet [87]:結(jié)合LFQ(圖像/視頻)+RVQ(音頻),在分鐘級視頻生成中FID達(dá)18.7。

4. 推薦系統(tǒng):RVQ壓縮效率顯著

  • VQ-Rec :用RVQ壓縮用戶行為序列,存儲空間減少60%,召回率提升8%。

總結(jié)

本文首次系統(tǒng)梳理了多模態(tài)LLMs的離散標(biāo)記化技術(shù)

  1. 技術(shù)價(jià)值:通過VQ/RVQ/FSQ等8類方法,解決模態(tài)鴻溝與計(jì)算瓶頸。
  2. 性能突破:LFQ、MAGVIT-v2等模型在圖像/視頻生成、語音合成等任務(wù)中達(dá)到SOTA。
  3. 未來方向:動態(tài)量化、跨模態(tài)統(tǒng)一token空間、可解釋碼本設(shè)計(jì)。

?

論文代碼與數(shù)據(jù)集:GitHub鏈接:https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey

責(zé)任編輯:武曉燕 來源: AIGC深一度
相關(guān)推薦

2024-11-11 15:11:23

2025-05-20 08:30:00

2024-07-23 10:34:57

2025-09-16 09:35:52

2025-01-08 08:21:16

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2025-07-17 09:16:20

AI模型視覺

2024-05-17 16:02:00

2025-01-02 08:36:25

多模態(tài)RAG深度學(xué)習(xí)自然語言處理

2023-08-14 07:20:10

2017-03-08 11:10:30

存儲網(wǎng)絡(luò)閃存

2024-07-18 08:26:09

2024-10-18 15:40:00

2024-11-22 08:22:58

2025-04-07 00:00:00

多模態(tài)大模型

2023-12-22 08:00:00

2024-12-18 18:57:58

2024-11-13 09:39:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號