偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ETT:打破原生多模態(tài)學(xué)習(xí)視覺瓶頸,重塑視覺tokenizer優(yōu)化范式

人工智能 新聞
我們提出了 ETT(End-to-End Vision Tokenizer Tuning),一種全新的端到端視覺 tokenizer 調(diào)優(yōu)方法。

本文由北京智源研究院多模態(tài)大模型研究中心(團(tuán)隊(duì)負(fù)責(zé)人王鑫龍,團(tuán)隊(duì)代表作 EMU 系列、EVA 系列、Painter & SegGPT)、中科院自動(dòng)化所和大連理工大學(xué)聯(lián)合完成。 

在多模態(tài)學(xué)習(xí)蓬勃發(fā)展的當(dāng)下,視覺 tokenizer 作為連接視覺信息與下游任務(wù)的關(guān)鍵橋梁,其性能優(yōu)劣直接決定了多模態(tài)模型的表現(xiàn)。然而,傳統(tǒng)的視覺 tokenization 方法存在一個(gè)致命缺陷:視覺 tokenizer 的優(yōu)化與下游任務(wù)的訓(xùn)練是相互割裂的。

這種分離式的訓(xùn)練范式假設(shè)視覺 tokens 能夠在不同任務(wù)間無(wú)縫通用,但現(xiàn)實(shí)情況是,為低級(jí)重建任務(wù)優(yōu)化的視覺 tokenizer 往往難以滿足諸如圖像生成、視覺問答等需要豐富語(yǔ)義表示的下游任務(wù)需求,導(dǎo)致下游任務(wù)的性能受限。

針對(duì)這一亟待解決的問題,我們提出了 ETT(End-to-End Vision Tokenizer Tuning),一種全新的端到端視覺 tokenizer 調(diào)優(yōu)方法。

圖片

  • 論文標(biāo)題:End-to-End Vision Tokenizer Tuning
  • arXiv 鏈接:https://arxiv.org/abs/2505.10562

ETT 創(chuàng)新性地實(shí)現(xiàn)了視覺 tokenization 與目標(biāo)自回歸任務(wù)的聯(lián)合優(yōu)化,打破了傳統(tǒng)方法中視覺 tokenizer 一旦訓(xùn)練完成便固定的常規(guī),充分釋放了視覺 tokenizer 在多模態(tài)學(xué)習(xí)中的潛力,為多模態(tài)任務(wù)帶來(lái)了顯著的性能提升。

傳統(tǒng)方法的局限與 ETT 的突破

在現(xiàn)有的多模態(tài)預(yù)訓(xùn)練框架中,如 Emu3 等工作,雖然通過將圖像、文本等多模態(tài)數(shù)據(jù)編碼為離散 tokens 實(shí)現(xiàn)了統(tǒng)一的序列建模,但在實(shí)際操作中,這些方法僅僅利用了凍結(jié)的視覺 tokenizer 的離散索引,這不僅極大地浪費(fèi)了視覺 tokenizer 的豐富特征表示能力,還阻礙了端到端訓(xùn)練的實(shí)現(xiàn),使得視覺 tokenizer 無(wú)法根據(jù)下游任務(wù)的具體需求進(jìn)行針對(duì)性優(yōu)化。

ETT 的出現(xiàn)徹底改變了這一局面。我們巧妙地引入視覺 tokenizer 的碼本嵌入,取代了以往僅使用離散索引的方式,并結(jié)合 token 級(jí)別的字幕損失函數(shù),對(duì)視覺 tokenizer 和下游任務(wù)進(jìn)行聯(lián)合優(yōu)化。這樣一來(lái),ETT 不僅能夠充分利用視覺 tokenizer 內(nèi)部的豐富特征表示,還能讓視覺 tokenizer 根據(jù)下游任務(wù)的反饋不斷調(diào)整自身參數(shù),從而更好地適應(yīng)多模態(tài)理解與生成任務(wù)的需求。

圖片

ETT 的核心架構(gòu)與訓(xùn)練策略

ETT 的核心架構(gòu)基于改進(jìn)的 IBQ 框架。我們通過精心調(diào)整碼本大小至 131,072 并將特征維度設(shè)置為 256,成功構(gòu)建了一個(gè)高效的視覺 tokenizer。

在訓(xùn)練初期,我們利用編碼器將輸入圖像映射到特征空間,經(jīng)量化器將特征映射到離散碼本后,再由解碼器重建圖像,這一過程奠定了視覺 tokenizer 的基礎(chǔ)重構(gòu)能力。我們還引入了多層感知機(jī)作為投影層,將視覺嵌入與預(yù)訓(xùn)練大型語(yǔ)言模型的隱藏層維度相匹配,從而實(shí)現(xiàn)視覺信息到語(yǔ)言模型的有效映射。

ETT 的訓(xùn)練策略層次分明且重點(diǎn)突出。前期對(duì)齊學(xué)習(xí)階段,我們?cè)诒3诸A(yù)訓(xùn)練的大型語(yǔ)言模型和視覺 tokenizer 參數(shù)凍結(jié)的狀態(tài)下,僅訓(xùn)練視覺投影層,利用圖像到文本的 caption 損失函數(shù),使語(yǔ)言模型能夠從視覺 tokenizer 中直接獲取視覺概念和實(shí)體,從而建立起視覺與語(yǔ)言模態(tài)之間的初步聯(lián)系。

緊接著,在語(yǔ)義學(xué)習(xí)階段,我們解凍大型語(yǔ)言模型、投影層以及視覺 tokenizer 的權(quán)重,通過聯(lián)合優(yōu)化 caption 損失函數(shù)和重建損失函數(shù),對(duì)它們進(jìn)行端到端的訓(xùn)練,使視覺 tokenizer 能夠在保持圖像重建能力的同時(shí),學(xué)習(xí)到更強(qiáng)大的感知能力,以支持多模態(tài)理解和重建任務(wù)。

第二階段是 ETT 方法的核心創(chuàng)新,讓視覺 tokenizer 得以根據(jù)下游任務(wù)需求深度調(diào)優(yōu),大幅提升其感知和表征能力。最后是后訓(xùn)練階段,我們進(jìn)一步對(duì)兩個(gè)專業(yè)模型進(jìn)行微調(diào),以增強(qiáng)其在特定多模態(tài)任務(wù)中的表現(xiàn)。

圖片

ETT 的卓越性能表現(xiàn)

多模態(tài)理解

ETT 在多模態(tài)理解任務(wù)中展現(xiàn)出了卓越的性能。在 GQA、TextVQA 等特定任務(wù)評(píng)估,以及 POPE、MME、MMBench、SEED-Bench、MMVet 等廣泛基準(zhǔn)測(cè)試中均取得了優(yōu)異成績(jī),與現(xiàn)有最先進(jìn)的視覺語(yǔ)言模型相比,在模型參數(shù)和數(shù)據(jù)規(guī)模更小的情況下,依然能夠取得更好的或具有競(jìng)爭(zhēng)力的結(jié)果。

例如,在 MMBench 多模態(tài)理解基準(zhǔn)測(cè)試中,ETT 的性能表現(xiàn)與連續(xù)編碼器基礎(chǔ)的視覺語(yǔ)言模型相當(dāng),甚至在某些子任務(wù)上更勝一籌,而無(wú)需額外的復(fù)雜視覺編碼器。這表明 ETT 通過端到端的視覺 tokenization 訓(xùn)練方法,在減少計(jì)算開銷的同時(shí),簡(jiǎn)化了模型架構(gòu),并有效提升了多模態(tài)理解能力。

圖片

多模態(tài)生成

在視覺生成任務(wù)中,ETT 同樣表現(xiàn)出色。在 GenEval 和 T2I-CompBench 等廣泛使用的文本到圖像生成基準(zhǔn)數(shù)據(jù)集上,ETT 實(shí)現(xiàn)了與其他最先進(jìn)的基于擴(kuò)散模型和自回歸模型的方法相媲美的性能,同時(shí)在模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)模上更具優(yōu)勢(shì)。特別是在 T2I-CompBench 數(shù)據(jù)集的顏色、形狀和紋理模式等子任務(wù)上,ETT 取得了令人滿意的成績(jī),充分證明了其在文本到圖像生成任務(wù)中的強(qiáng)大能力。

圖片

此外,ETT 在定性結(jié)果方面也展現(xiàn)出了其優(yōu)勢(shì)。通過生成的圖像樣本可以看出,ETT 能夠準(zhǔn)確地遵循文本提示,生成風(fēng)格多樣、細(xì)節(jié)豐富的視覺內(nèi)容,涵蓋了不同的藝術(shù)風(fēng)格、主題和背景,并能夠適應(yīng)不同的構(gòu)圖結(jié)構(gòu)和審美偏好。

圖片

視覺重構(gòu)

ETT 在視覺重構(gòu)任務(wù)中的表現(xiàn)同樣令人矚目。通過對(duì)比引入 ETT 前后的視覺重構(gòu)結(jié)果,我們可以看到,ETT 不僅保留了原始視覺 tokenizer 的豐富低級(jí)細(xì)節(jié)表示,還有效提升了高級(jí)語(yǔ)義表示能力。

圖片

如上圖所示,經(jīng)過 ETT 調(diào)優(yōu)后的視覺 tokenizer 在保留原始視覺細(xì)節(jié)的同時(shí),顯著提升了特定方面的表現(xiàn),例如文本渲染效果更好。這表明 ETT 能夠在保持圖像重建質(zhì)量的同時(shí),增強(qiáng)視覺 tokenizer 的語(yǔ)義表達(dá)能力,為進(jìn)一步的多模態(tài)任務(wù)提供更優(yōu)質(zhì)的視覺表示。

ETT 的潛在局限與未來(lái)發(fā)展

盡管 ETT 在多模態(tài)任務(wù)中取得了顯著的性能提升,但我們也意識(shí)到當(dāng)前方法存在一定的局限性。

首先,ETT 的端到端微調(diào)所使用的數(shù)據(jù)規(guī)模和模型容量仍有進(jìn)一步擴(kuò)大的潛力,以進(jìn)一步提升視覺表示質(zhì)量和下游任務(wù)性能。其次,ETT 主要側(cè)重于利用大型語(yǔ)言模型的語(yǔ)義能力優(yōu)化現(xiàn)有視覺 tokenizer 的視覺特征,而非從頭開始設(shè)計(jì)一個(gè)同時(shí)適用于理解和生成的視覺 tokenizer。

未來(lái),我們計(jì)劃探索從頭開始端到端訓(xùn)練視覺 tokenizer,以創(chuàng)建一個(gè)更全面、更適應(yīng)多模態(tài)任務(wù)的表示方法。此外,將 ETT 的方法擴(kuò)展到圖像和文本之外的其他模態(tài),如視頻和音頻,也是一個(gè)令人興奮的研究方向。

總的來(lái)說,ETT 作為一種簡(jiǎn)單而有效的端到端視覺 tokenizer 調(diào)優(yōu)方法,易于實(shí)現(xiàn)和集成,為原生多模態(tài)學(xué)習(xí)領(lǐng)域帶來(lái)了新的突破。通過優(yōu)化視覺 tokenizer 的特征表示,ETT 為提升多模態(tài)模型的性能提供了新的思路和方法,有望推動(dòng)多模態(tài)基礎(chǔ)模型在更廣泛的領(lǐng)域的應(yīng)用和發(fā)展。我們期待 ETT 的出現(xiàn)能夠激發(fā)更多關(guān)于視覺 tokenization 和多模態(tài)學(xué)習(xí)的研究,共同探索這一充滿潛力的領(lǐng)域。

作者介紹

王文軒,中科院自動(dòng)化所-北京智源研究院聯(lián)培博士,研究方向?yàn)橐曈X語(yǔ)言模型、多模態(tài)理解生成等,在 ICLR、CVPR、ECCV、ACL 等頂級(jí)會(huì)議上發(fā)表過多篇論文; 

張帆、崔玉峰,智源研究院研究員,研究方向?yàn)樵嗄B(tài)模型、視覺生成等,Emu 系列工作核心作者; 

刁海文,大連理工大學(xué)博士,研究方向包括大模型高效遷移、多模態(tài)基座大模型等,在 NeurIPS、ICLR、CVPR、ECCV 等頂級(jí)會(huì)議上發(fā)表過多篇論文; 

羅卓彥,清華大學(xué)碩士,研究方向?yàn)橐曈X生成等,在 NeurIPS、CVPR 等頂級(jí)會(huì)議上發(fā)表過論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-13 09:39:13

2025-02-26 13:00:00

2024-10-22 13:33:48

2024-07-16 13:18:36

2024-03-01 12:19:00

接口性能優(yōu)化

2024-08-08 13:04:28

2024-07-23 10:34:57

2025-04-07 04:30:00

2024-12-13 14:30:00

AI模型數(shù)據(jù)

2024-10-06 10:00:00

3D模型

2025-03-10 08:47:00

模型AI訓(xùn)練

2025-06-26 09:13:22

2024-12-18 14:50:00

AI訓(xùn)練數(shù)據(jù)

2025-02-27 09:51:04

2024-11-12 10:20:00

模型數(shù)據(jù)

2023-05-28 23:26:16

多模態(tài)機(jī)器學(xué)習(xí)大腦

2022-02-28 10:31:22

人工智能視覺檢測(cè)

2025-03-04 17:27:05

2024-09-09 13:50:00

2025-04-29 09:21:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)