偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸

發(fā)布于 2025-6-10 09:36
瀏覽
0收藏

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

論文鏈接:???https://openaccess.thecvf.com/content/CVPR2025/papers/Hu_Improving_Autoregressive_Visual_Generation_with_Cluster-Oriented_Token_Prediction_CVPR_2025_paper.pdf??? 
項(xiàng)目鏈接:https://sjtuplayer.github.io/projects/IAR/ 
Git鏈接:https://github.com/sjtuplayer/IAR 
單位:上海交通大學(xué)、騰訊優(yōu)圖、浙江大學(xué)

1.引言

使用自回歸進(jìn)行視覺生成最近已成為一個(gè)研究重點(diǎn)。然而,現(xiàn)有的方法主要是將自回歸架構(gòu)轉(zhuǎn)移到視覺生成中,但很少研究語言和視覺之間的根本差異。這種疏忽可能導(dǎo)致自回歸框架內(nèi)視覺生成能力的次優(yōu)利用。在本文中,作者探討了自回歸框架下視覺特征空間的特點(diǎn),發(fā)現(xiàn)視覺編碼之間的相關(guān)性可以幫助實(shí)現(xiàn)更穩(wěn)定和更魯棒的生成結(jié)果。為此,上海交通大學(xué)數(shù)字媒體與計(jì)算機(jī)視覺實(shí)驗(yàn)室,聯(lián)合騰訊優(yōu)圖和浙江大學(xué),提出了IAR,一種改進(jìn)的自回歸視覺生成方法,提高了基于自回歸的視覺生成模型的訓(xùn)練效率和生成質(zhì)量。


(1) Codebook重排策略,該策略使用平衡的k-means聚類算法將視覺碼本重新排列成簇,確保每個(gè)簇內(nèi)視覺特征之間的高度相似性。


(2) 面向簇的交叉熵?fù)p失,引導(dǎo)模型正確預(yù)測目標(biāo)Token所在的簇。結(jié)合Codebook重排列,可以確保即使模型預(yù)測錯(cuò)誤的Token索引,預(yù)測的錯(cuò)誤Token位于正確的簇中的概率也很高,從而保證生成圖像與目標(biāo)圖像的相似性。


IAR顯著提高了生成質(zhì)量和穩(wěn)健性。IAR可以直接應(yīng)用到現(xiàn)有的自回歸視覺生成框架中,在LLamaGen和VAR上,能夠穩(wěn)定提升訓(xùn)練效率和效果,最大提升42%的訓(xùn)練效率。

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖1:IAR能夠使得AR模型預(yù)測錯(cuò)誤Token時(shí),最大概率保證其落在正確的簇中,使得解碼后與目標(biāo)圖像仍然是相似的

2.圖像與自然語言之間的連續(xù)性差異

近年來,生成模型在圖像和視頻生成領(lǐng)域取得了顯著突破,隨著多模態(tài)研究的興起,圖像與文本的融合成為了一個(gè)重要方向。研究人員希望開發(fā)一種統(tǒng)一的多模態(tài)模型,能夠同時(shí)理解和生成圖像與文本內(nèi)容。基于此,將圖像生成技術(shù)與大型語言模型(LLM)結(jié)合逐漸成為熱點(diǎn)。


傳統(tǒng)圖像生成方法如 GAN 和擴(kuò)散模型,主要在連續(xù)空間中建模圖像分布,而自回歸方法則選擇先將圖像離散化為Token,再通過語言模型的方式進(jìn)行預(yù)測。這些方法借鑒了自然語言處理中的經(jīng)驗(yàn),比如自回歸模型采用 GPT 的“Next-Token預(yù)測”策略。


然而,圖像與文本在本質(zhì)上存在重要區(qū)別:文本是離散的,可以直接通過查找表將詞語映射到索引;而圖像是連續(xù)的,需要通過編碼器將其轉(zhuǎn)化為離散的Token,再通過碼本(codebook)檢索對(duì)應(yīng)的編碼,最終解碼為圖像。這種差異啟發(fā)了圖像生成可以考慮利用視覺特征空間中的連續(xù)性和相關(guān)性,而不僅僅是預(yù)測單一的Token索引。


由于圖像編碼位于連續(xù)的特征空間中,相似的編碼通常對(duì)應(yīng)于內(nèi)容相近的圖像。這是否意味著,即使模型預(yù)測的Token略有偏差,只要其對(duì)應(yīng)的編碼足夠相似,生成的圖像質(zhì)量也不會(huì)受到太大影響。

3.圖像編碼的相似性

作者發(fā)現(xiàn),在碼本(codebook)中相近距離的編碼表示相似的圖像信息。當(dāng)距離(code distance)較小時(shí),解碼出的圖像與目標(biāo)圖像在感知質(zhì)量上幾乎一致。作者在VQGAN上驗(yàn)證了這一想法。

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖2:Code Distance與圖像相似性的關(guān)聯(lián)


同時(shí),作者進(jìn)一步可視化了不同Code Distance解碼出的圖像,當(dāng)Code Distance較低(例如,小于 12)時(shí),解碼出的圖像與源圖像幾乎相同,且具有良好的視覺質(zhì)量。這表明,即使預(yù)測的 token 索引不是準(zhǔn)確的目標(biāo)索引,只要相應(yīng)編碼之間的Code Distance處于一定范圍內(nèi),解碼出的圖像仍然與目標(biāo)圖像相似,且具有良好的視覺質(zhì)量。

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖3:Code Distance在一定范圍內(nèi),能夠保證相似且高質(zhì)量的圖像生成

4.方法

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖4:框架圖

4.1 Codebook重排

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖5:均衡K-means聚類

4.2 面向簇的視覺生成:

在現(xiàn)有的自回歸模型中,都是面向Token設(shè)計(jì)交叉熵?fù)p失:

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

由于簇的數(shù)量少,預(yù)測簇比直接預(yù)測token更簡單,同時(shí),只要預(yù)測正確了簇的索引,即可保證生成圖像不會(huì)偏離目標(biāo)圖像,從而極大地促進(jìn)模型的魯棒性與生成質(zhì)量的穩(wěn)定性。

5.實(shí)驗(yàn)結(jié)果

5.1 生成質(zhì)量比較

為了評(píng)估圖片質(zhì)量,IAR選擇 LlamaGen作為基模型,并保持超參數(shù)與LlamaGe一致。實(shí)驗(yàn)在 ImageNet數(shù)據(jù)集上進(jìn)行。實(shí)驗(yàn)生成了 50,000 張隨機(jī)標(biāo)簽的圖像,并計(jì)算生成數(shù)據(jù)的FID、IS、精度(Precision)和召回率(Recall)。作者首先比較了不同類型圖像生成模型在這些參數(shù)上的表現(xiàn):

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖6:實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,與 GAN、擴(kuò)散模型、掩碼預(yù)測方法和自回歸方法等相比,IAR達(dá)到了最優(yōu)的 FID(2.19)和 IS(362.0),并且在不同的參數(shù)量下(100M到1.4B),IAR都取得了優(yōu)于LLamaGen的表現(xiàn)。

5.2 與 LlamaGen 的更多比較:

效果對(duì)比:在不同模型參數(shù)規(guī)模(111M 至 1.4B),圖像分辨率(16×16 和 24×24 圖像塊),訓(xùn)練輪次(50 和 300 輪)條件下,IAR均有著更好的FID和IS,優(yōu)于基線模型 LLamaGen;

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖7:不同setting下與LLaMaGen的詳細(xì)比較

訓(xùn)練效率:在175個(gè)epoch時(shí),IAR 模型的FID與 LlamaGen 300個(gè)epoch的相當(dāng),訓(xùn)練速度提升約 42%。此外,在 300 個(gè) epoch 的訓(xùn)練下,IAR 模型進(jìn)一步提升了生成質(zhì)量。

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖8:訓(xùn)練效率比較

5.3 VAR+IAR

IAR可以用于現(xiàn)有任意的自回歸模型中,為了驗(yàn)證在不同自回歸模型上的有效性,實(shí)驗(yàn)選取了VAR作為基礎(chǔ)模型,并進(jìn)一步將IAR應(yīng)用于VAR中,實(shí)驗(yàn)表明,IAR同樣能夠有效促進(jìn)VAR的效果,驗(yàn)證了IAR在不同自回歸模型中的有效性。

CVPR 2025 | 訓(xùn)練效率提升42%!上交&騰訊優(yōu)圖&浙大發(fā)布IAR:打破LLM視覺生成瓶頸-AI.x社區(qū)

圖9:VAR+IAR的效果提升

6.總結(jié)

IAR分析了基于 LLM 的視覺生成中自然語言與圖像的差異,發(fā)現(xiàn)碼本中相似的圖像編碼可生成相似圖像。據(jù)此提出 IAR,有效提升了訓(xùn)練效率和生成質(zhì)量。本文通過平衡 K-means 聚類對(duì)碼本重排,使簇內(nèi)的編碼相似,并引入面向簇的交叉熵?fù)p失,引導(dǎo)模型學(xué)習(xí)目標(biāo)簇的擬合,從而保證即使預(yù)測錯(cuò)誤圖像 Token ,也能生成高質(zhì)量圖像。實(shí)驗(yàn)證明 IAR 可穩(wěn)定提升 LlamaGen的性能,并適配多種 LLM 視覺生成模型(如VAR等),為該自回歸視覺生成提供新方向。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

原文鏈接:???https://mp.weixin.qq.com/s/VP85WGtFHq2Sfj2gbevQAw?????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦