純自回歸圖像生成模型開(kāi)源來(lái)了,復(fù)旦聯(lián)手字節(jié)seed共同捍衛(wèi)自回歸
基于Transformer的自回歸架構(gòu)在語(yǔ)言建模上取得了顯著成功,但在圖像生成領(lǐng)域,擴(kuò)散模型憑借強(qiáng)大的生成質(zhì)量和可控性占據(jù)了主導(dǎo)地位。
雖然一些早期工作如Parti、LlamaGen,嘗試用更強(qiáng)的視覺(jué)tokenizer和Transformer架構(gòu)來(lái)提升自回歸生成的效果,但他們論文中的結(jié)果表明,只有更多的參數(shù)量才能讓自回歸模型勉強(qiáng)和擴(kuò)散模型“掰掰手腕”。
這也讓越來(lái)越多的研究者質(zhì)疑自回歸視覺(jué)生成是否是一條可行、值得探索的路徑。通常來(lái)說(shuō),大家認(rèn)為自回歸視覺(jué)生成模型的不足集中:
1. 離散的token必然帶來(lái)更多的信息損失:當(dāng)下改進(jìn)視覺(jué)tokenizer也是一個(gè)備受關(guān)注的方向,最新的方法無(wú)論是離散或連續(xù)都可以取得非常好的重建效果(至少不會(huì)制約生成模型),因此相信這一點(diǎn)不會(huì)是制約兩條路線的核心原因;
2。 視覺(jué)token序列往往較長(zhǎng)、因此很難建模token間的關(guān)系:對(duì)于一個(gè)512分辨率的圖像來(lái)說(shuō),16倍壓縮比的tokenizer意味著視覺(jué)token序列的長(zhǎng)度是1024。對(duì)于采用因果掩碼(causal mask)的自回歸模型來(lái)說(shuō),建模這么長(zhǎng)的序列無(wú)疑是很有挑戰(zhàn)性的;
3. 下一個(gè)token預(yù)測(cè)的效率太低:相比于擴(kuò)散模型或MaskGIT那樣一步出整圖或多個(gè)token,自回歸模型串行預(yù)測(cè)token的方式在生成速度方面存在明顯劣勢(shì)。
近些時(shí)間,也有一些工作如VAR和MAR嘗試重新定義視覺(jué)里自回歸的形式,比如下一個(gè)尺度預(yù)測(cè)、或用連續(xù)token做自回歸。這些方法在ImageNet這樣的學(xué)術(shù)數(shù)據(jù)集上取得了不錯(cuò)的效果,但是也潛在地破壞了視覺(jué)模態(tài)和語(yǔ)言模型的對(duì)齊性。
帶著好奇的心態(tài),來(lái)自復(fù)旦視覺(jué)與學(xué)習(xí)實(shí)驗(yàn)室和字節(jié)Seed的研究者們希望“驗(yàn)一驗(yàn)”自回歸視覺(jué)生成模型的能力,他們保持“Next-token prediction”這樣簡(jiǎn)潔優(yōu)美的形式,而通過(guò)優(yōu)化訓(xùn)練和推理過(guò)程來(lái)探究自回歸視覺(jué)生成是否可以像擴(kuò)散模型一樣取得不錯(cuò)的文生圖效果。
不依賴外掛文本編碼器的自回歸模型
先說(shuō)結(jié)論!這篇工作有三點(diǎn)驚艷的發(fā)現(xiàn):
在0.5B的參數(shù)規(guī)模下,純自回歸模型可以生成1024分辨率的高質(zhì)量圖像,且在常用文生圖基準(zhǔn)上取得了非常有競(jìng)爭(zhēng)力的結(jié)果,例如在GenEval上取得了0.59, 是1B以內(nèi)模型的SOTA;
通過(guò)“預(yù)訓(xùn)練-有監(jiān)督微調(diào)-強(qiáng)化學(xué)習(xí)”這樣的三階段訓(xùn)練,模型可以生成出具有很高美學(xué)性的圖像,且有監(jiān)督微調(diào)(SFT)和基于GRPO的強(qiáng)化學(xué)習(xí)可以持續(xù)提升模型的指令跟隨能力以及生成效果;
當(dāng)用vLLM進(jìn)行部署時(shí),0.5B的模型可以在14秒以內(nèi)生成1024分辨率的圖像。
性能比較
本文提出的SimpleAR在GenEval和DPG上都取得了不錯(cuò)的結(jié)果,其中0.5B模型顯著超越了SDv2.1和LlamaGen。
值得一提的是,擴(kuò)散模型和Infinity這類(lèi)方法都依賴于外掛的文本編碼器,如Infinity使用了3B的FlanT5-XL,而本文提出的自回歸模型則將文本(prompt)編碼和視覺(jué)生成集成在了一個(gè)decoder-only的Transformer里,不僅可以更好地學(xué)習(xí)跨模態(tài)對(duì)齊,也能更加高效地利用參數(shù)。
1.5B模型的性能距離Infinity還有差距,但本文相信這主要是由數(shù)據(jù)規(guī)模導(dǎo)致的,當(dāng)用更多的高質(zhì)量數(shù)據(jù)訓(xùn)練時(shí),模型的性能還可以被進(jìn)一步提升。此外,本文選擇了Cosmos作為視覺(jué)tokenizer,其在重建低分辨率圖像和人臉等細(xì)節(jié)上十分有限,因此生成能力還有充分被改進(jìn)的空間。
本文還首次在文生圖上成功應(yīng)用了GRPO進(jìn)行后訓(xùn)練,結(jié)果表明:利用CLIP這樣非常簡(jiǎn)單的reward函數(shù),也依然可以觀察到非常有潛力的reward曲線、并在GenEval上了取得了顯著的性能提升:
最后是關(guān)于效率問(wèn)題。本文首先嘗試了用vLLM將模型部署到A100上,結(jié)果表明其可以顯著地提升模型的推理速度:僅需13.55秒就能生成1024分辨率的高質(zhì)量圖像,這顯著縮小了和擴(kuò)散模型的差距,并由于可以使用KV Cache技術(shù)而相比于MaskGIT更有優(yōu)勢(shì)。本文也實(shí)現(xiàn)了推斷采樣,其可以有效降低2倍的自回歸推理步數(shù)。盡管由于不能使用KV Cache,單純的步數(shù)減少不能直接帶來(lái)推理時(shí)間的降低,但這為高效自回歸視覺(jué)生成提供了一些嶄新的思路。
可視化結(jié)果
幾點(diǎn)思考
顧名思義,SimpleAR只是團(tuán)隊(duì)關(guān)于自回歸視覺(jué)生成的一次簡(jiǎn)單嘗試,但從中可以看到自回歸模型相較于擴(kuò)散模型的幾點(diǎn)優(yōu)勢(shì):
1. 將文本和視覺(jué)token擺上平等的地位,更好地支持不同模態(tài)之間的聯(lián)合建模學(xué)習(xí),從而有利于構(gòu)建原生的多模態(tài)理解和生成模型;
2. 與現(xiàn)有支持語(yǔ)言模型后訓(xùn)練和推理加速的技術(shù)兼容性高:通過(guò)強(qiáng)化學(xué)習(xí)可以顯著提升模型的文本跟隨能力和生成效果、通過(guò)vLLM可以有效降低模型的推理時(shí)間;
本文訓(xùn)練及測(cè)試代碼以及模型權(quán)重均已開(kāi)源,希望鼓勵(lì)更多的人參與到自回歸視覺(jué)生成的探索中。
論文鏈接:
https://arxiv.org/abs/2504.11455
代碼地址:
https://github.com/wdrink/SimpleAR