偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<form id="nyaab"></form>

<var id="nyaab"><form id="nyaab"></form></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

多模態(tài)大語言模型離散標(biāo)記化技術(shù)：演進(jìn)、挑戰(zhàn)與未來方向

作者：一度 2025-08-05 02:25:00

大語言模型（LLMs）的核心優(yōu)勢在于處理離散文本序列，但現(xiàn)實(shí)世界數(shù)據(jù)（圖像、音頻、視頻等）本質(zhì)上是連續(xù)信號。

多模態(tài)大模型為何需要離散標(biāo)記化？

大語言模型（LLMs）的核心優(yōu)勢在于處理離散文本序列，但現(xiàn)實(shí)世界數(shù)據(jù)（圖像、音頻、視頻等）本質(zhì)上是連續(xù)信號。直接將這些數(shù)據(jù)輸入LLMs會面臨兩大挑戰(zhàn)：

模態(tài)鴻溝：連續(xù)信號與LLMs的離散token空間不兼容，導(dǎo)致跨模態(tài)對齊困難。
計(jì)算瓶頸：高維原始數(shù)據(jù)（如4K視頻）直接輸入LLMs將引發(fā)災(zāi)難性的計(jì)算開銷。

離散標(biāo)記化（Discrete Tokenization） 成為關(guān)鍵解決方案：通過向量量化（VQ） 技術(shù)將連續(xù)數(shù)據(jù)壓縮為緊湊的離散token序列，既保留語義信息，又無縫適配LLMs的架構(gòu)。

新方法：八大量化技術(shù)構(gòu)建統(tǒng)一token空間

論文提出首個(gè)系統(tǒng)化VQ技術(shù)分類框架，涵蓋8類核心方法，突破傳統(tǒng)量化瓶頸：

1. 向量量化（VQ）

原理：將連續(xù)向量映射到有限碼本（Codebook）的最近鄰碼字。
創(chuàng)新點(diǎn)：提出EMA碼本更新與碼本重置策略，解決“碼本坍塌”（90%碼字未被使用）問題。

2. 殘差向量量化（RVQ）

原理：多階段量化殘差信號（如圖3），逐步逼近原始數(shù)據(jù)。
優(yōu)勢：MAGVIT-v2采用RVQ，在視頻生成任務(wù)中**碼本利用率達(dá)99%**，比傳統(tǒng)VQ提升40%。

3. 免查找量化技術(shù)

有限標(biāo)量量化（FSQ）：將向量各維度獨(dú)立量化為整數(shù)（如{-1,0,1}），無需碼本查找。
查找自由量化（LFQ）：二值化量化（{-1,1}），直接生成token索引。
突破：LFQ在ImageNet生成任務(wù)中推理速度提升3倍，且無碼本坍塌問題。

FSQ/LFQ/BSQ對比

FSQ/LFQ/BSQ對比

4. 其他關(guān)鍵技術(shù)

乘積量化（PQ）：高維空間分解為子空間獨(dú)立量化，壓縮率提升10倍。
圖錨點(diǎn)標(biāo)記化（GART）：用錨節(jié)點(diǎn)+關(guān)系類型替代傳統(tǒng)碼本，**知識圖譜任務(wù)參數(shù)量減少70%**。

實(shí)驗(yàn)結(jié)果

論文通過100+篇文獻(xiàn)實(shí)驗(yàn)驗(yàn)證離散標(biāo)記化的有效性，關(guān)鍵結(jié)果如下：

1. 圖像生成：LFQ碾壓傳統(tǒng)VQ

2. 語音處理：離散token提升魯棒性

VALL-E [192]：基于離散token的TTS模型，在零樣本語音合成中MOS評分達(dá)4.28（人類評分4.5）。
JTFS LM [230]：離散token在語音識別任務(wù)中WER降低15%**，優(yōu)于連續(xù)特征。

3. 多模態(tài)LLMs：統(tǒng)一token空間成關(guān)鍵

Chameleon [183]：采用VQ統(tǒng)一圖文token，實(shí)現(xiàn)圖文交錯(cuò)生成。
VideoPoet [87]：結(jié)合LFQ（圖像/視頻）+RVQ（音頻），在分鐘級視頻生成中FID達(dá)18.7。

4. 推薦系統(tǒng)：RVQ壓縮效率顯著

VQ-Rec ：用RVQ壓縮用戶行為序列，存儲空間減少60%，召回率提升8%。

總結(jié)

本文首次系統(tǒng)梳理了多模態(tài)LLMs的離散標(biāo)記化技術(shù)：

技術(shù)價(jià)值：通過VQ/RVQ/FSQ等8類方法，解決模態(tài)鴻溝與計(jì)算瓶頸。
性能突破：LFQ、MAGVIT-v2等模型在圖像/視頻生成、語音合成等任務(wù)中達(dá)到SOTA。
未來方向：動態(tài)量化、跨模態(tài)統(tǒng)一token空間、可解釋碼本設(shè)計(jì)。

?
論文代碼與數(shù)據(jù)集：GitHub鏈接：https://github.com/jindongli-Ai/LLM-Discrete-Tokenization-Survey

責(zé)任編輯：武曉燕來源： AIGC深一度

多模態(tài)大語言模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<pre id="40tmb"></pre>

<pre id="40tmb"></pre>

<samp id="40tmb"></samp>