Scaling laws在視覺自回歸模型上失效了?谷歌聯(lián)合MIT發(fā)布Fluid:文生圖質(zhì)量刷新紀(jì)錄! 精華
文章鏈接:https://arxiv.org/pdf/2410.13863
縮放法則(Scaling laws)是大語言模型(LLMs)前所未有成功的基礎(chǔ)。實證研究表明,在自回歸模型中增加參數(shù)數(shù)量通常會顯著提升性能,并在自然語言處理(NLP)任務(wù)中產(chǎn)生新的能力。這一實證關(guān)系激勵了眾多擴展語言模型的努力,導(dǎo)致許多高性能模型的發(fā)展。受到這一成功的鼓舞,許多嘗試將自回歸模型應(yīng)用并擴展到計算機視覺領(lǐng)域,特別是在文本到圖像生成等生成任務(wù)中。然而,這些模型生成的內(nèi)容在性能和視覺質(zhì)量上往往不及其他生成模型,如擴散模型,使得在視覺領(lǐng)域是否適用類似的縮放法則仍不清楚。
本文提出了幾個關(guān)于性能差距的假設(shè)。
- 首先,大多數(shù)視覺自回歸模型所需的矢量量化(VQ)步驟可能會引入顯著的信息損失,最終限制模型的性能。
- 其次,與語言的固有順序性質(zhì)不同,生成視覺內(nèi)容可能更需要不同的自回歸預(yù)測順序。
- 第三,在評估視覺模型的縮放法則時,通常會在兩個層次的泛化能力之間產(chǎn)生混淆:(a) 使用與訓(xùn)練損失相同的指標(biāo)(通常稱為驗證損失)對新數(shù)據(jù)的泛化,和 (b) 對不同于訓(xùn)練目標(biāo)的新指標(biāo)或問題的泛化,例如FID、GenEval基準(zhǔn)或視覺質(zhì)量。我們假設(shè),冪律縮放適用于自回歸模型在視覺數(shù)據(jù)上的(a)情況,但不一定適用于(b)情況。
為了研究這些假設(shè),對文本到圖像生成背景下自回歸模型的縮放行為進(jìn)行了全面的實證研究。并基于研究提出了一個新的模型——Fluid,先來看看效果如何。
效果展示
總結(jié)速覽
解決的問題:本文探討了在視覺領(lǐng)域,特別是文本生成圖像任務(wù)中,擴大自回歸模型并不像在大語言模型中那樣有益的現(xiàn)象。具體關(guān)注了以下兩個關(guān)鍵問題:
- 模型使用離散還是連續(xù)的token。
- 模型在生成token時,使用隨機順序還是固定順序(基于BERT或GPT的Transformer架構(gòu))。
提出的方案:
- 通過實驗對比不同模型,研究模型在使用離散或連續(xù)token,以及在隨機順序或光柵順序生成時的表現(xiàn)。
- 基于實驗結(jié)果,提出了一種新的模型——Fluid,該模型使用隨機順序的自回歸生成方式,并基于連續(xù)token進(jìn)行訓(xùn)練。
應(yīng)用的技術(shù):
- 使用BERT和GPT類型的Transformer架構(gòu),結(jié)合離散和連續(xù)token的生成。
- 通過FID(Fréchet Inception Distance)、GenEval評分,以及視覺質(zhì)量來評估模型性能。
- 在新提出的Fluid模型中采用隨機順序的自回歸生成方式,并利用連續(xù)token進(jìn)行訓(xùn)練。
達(dá)到的效果:
- 使用連續(xù)token的模型在視覺質(zhì)量上顯著優(yōu)于使用離散token的模型。
- 隨機順序的模型在GenEval評分上優(yōu)于光柵順序的模型。
- Fluid 10.5B 模型在MS-COCO 30K數(shù)據(jù)集上實現(xiàn)了新的零樣本生成的FID紀(jì)錄,并在GenEval基準(zhǔn)上獲得了 0.69 的綜合評分,達(dá)到當(dāng)前最佳表現(xiàn)。
實現(xiàn)
本文的文本生成圖像模型訓(xùn)練的整體框架非常簡單。首先,圖像分詞器將原始圖像轉(zhuǎn)換為tokens。然后,這些tokens被部分masked,接著訓(xùn)練一個Transformer模型,在文本的條件下重建被masked的tokens。下圖3詳細(xì)描述框架中的每個組件。
圖像分詞器:使用一個預(yù)訓(xùn)練的圖像分詞器將256×256的圖像編碼為token空間。該分詞器可以是離散的或連續(xù)的,以便為自回歸模型實現(xiàn)不同的訓(xùn)練目標(biāo)。實驗中,離散分詞器是一個預(yù)訓(xùn)練于WebLI數(shù)據(jù)集的VQGAN模型。Muse的方法,將每張圖像編碼為16×16的離散tokens,詞匯表大小為8192。對于連續(xù)分詞器采用了Stable Diffusion模型,該模型將圖像編碼為32×32的連續(xù)tokens,每個token包含4個通道。為了與離散分詞器在序列長度上一致,將每2×2塊的連續(xù)tokens分組為一個token,最終序列長度為256,每個token包含16個通道。如下圖4所示,連續(xù)分詞器在重建質(zhì)量上明顯優(yōu)于離散分詞器。
文本編碼器:原始文本(最大長度128)通過SentencePiece進(jìn)行分詞,并通過預(yù)訓(xùn)練的T5-XXL編碼器進(jìn)行嵌入,該編碼器有47億個參數(shù)并在訓(xùn)練期間被凍結(jié)。為了進(jìn)一步對齊用于圖像生成的文本embeddings,在T5嵌入的基礎(chǔ)上添加了一個由六個可訓(xùn)練的Transformer模塊組成的小型文本對齊器,來提取最終的文本表示。
Transformer:在將原始圖像編碼為tokens序列后,使用一個標(biāo)準(zhǔn)的僅解碼Transformer模型進(jìn)行自回歸生成。每個塊由三個連續(xù)的層組成——自注意力、交叉注意力和MLP層。自注意力和MLP層僅應(yīng)用于視覺tokens,而交叉注意力層則將視覺和文本tokens分別作為查詢和鍵。如下圖2所示,對于光柵順序模型,Transformer使用自注意力塊中的因果注意力基于先前的tokens預(yù)測下一個token,類似于GPT。在隨機順序模型中,未知的tokens由一個可學(xué)習(xí)的token masked,Transformer使用雙向注意力來預(yù)測這些被masked的tokens,類似于BERT。
輸出頭:對于離散tokens,遵循自回歸模型的常見做法。輸出通過一個線性層后,使用softmax轉(zhuǎn)換為類別分布,這個線性層的權(quán)重與輸入embedding層的權(quán)重共享。對于連續(xù)tokens,應(yīng)用一個六層輕量級的MLP作為擴散頭來建模每個token的分布。該擴散頭的嵌入維度與主干transformer相同。每個token的擴散過程遵循。噪聲調(diào)度為余弦形狀,訓(xùn)練時為1000步;在推理時,重新采樣為100步。
實驗
數(shù)據(jù)集:使用WebLI(Web Language Image)數(shù)據(jù)集的一個子集作為訓(xùn)練集,該數(shù)據(jù)集由網(wǎng)絡(luò)上的圖像-文本對組成,并且這些對在圖像質(zhì)量和alt文本相關(guān)性上都有高分。默認(rèn)情況下,圖像進(jìn)行中心裁剪并調(diào)整大小為256×256。
推理:遵循Imagen、Muse和Parti的做法,根據(jù)文本提示生成圖像,不進(jìn)行拒絕采樣。對于隨機順序模型,使用64步生成并按照余弦調(diào)度。為了進(jìn)一步增強生成性能,應(yīng)用了溫度和無分類器引導(dǎo),這是常見的做法。
評估:對不同的自回歸模型變體的擴展行為進(jìn)行了定量和定性評估。定量評估包括在MS-COCO 2014訓(xùn)練集中的30K圖像上計算驗證損失,以及兩個廣泛采用的指標(biāo):MS-COCO上的零樣本Frechet Inception Distance(FID)和GenEval分?jǐn)?shù)。推理的超參數(shù),如溫度和無分類器引導(dǎo),針對每個評估指標(biāo)進(jìn)行優(yōu)化。FID是在MS-COCO 2014訓(xùn)練集中的30K隨機選取的圖像-文本對上計算的,用于評估生成圖像的保真度和多樣性。GenEval基準(zhǔn)則衡量模型生成準(zhǔn)確反映給定提示的圖像的能力。對于定性評估,從幾個提示中生成圖像,并比較生成圖像的視覺質(zhì)量。
擴展行為
研究者們探索了自回歸圖像生成模型中的兩個關(guān)鍵設(shè)計選擇——token表示和生成順序——如何影響性能和擴展行為。構(gòu)建了具有這兩種設(shè)計選擇不同組合的模型,產(chǎn)生了四種不同的自回歸圖像生成模型變體。還探討了這些模型在不同數(shù)據(jù)和評估指標(biāo)上的泛化能力。本文的實驗揭示了幾個有趣的特性。
驗證損失隨模型規(guī)模線性擴展。在下圖5中,研究者們考察了四種自回歸變體在驗證損失方面的擴展行為。驗證損失和模型規(guī)模在對數(shù)空間中呈現(xiàn)線性關(guān)系,模型規(guī)模從1.5億參數(shù)增加到30億參數(shù)。這與Henighan等人發(fā)現(xiàn)的冪律規(guī)律相一致。這表明,增加模型規(guī)模所帶來的訓(xùn)練損失改進(jìn)能夠很好地泛化到與訓(xùn)練數(shù)據(jù)不同的驗證數(shù)據(jù)上。
使用連續(xù)tokens的隨機順序模型在評估分?jǐn)?shù)上的擴展表現(xiàn)最佳。下圖6中分析了四種自回歸變體在FID和GenEval總體分?jǐn)?shù)方面的擴展行為。驗證損失的改進(jìn)并不總是線性地轉(zhuǎn)化為更好的評估指標(biāo),這意味著這些指標(biāo)與模型規(guī)模之間沒有嚴(yán)格的冪律關(guān)系。例如,使用離散tokens的光柵順序模型(藍(lán)線)在約10億參數(shù)時FID和GenEval分?jǐn)?shù)趨于平穩(wěn)。在四種變體中,使用連續(xù)tokens的隨機順序模型(即Fluid)在評估指標(biāo)上顯示出一致的改進(jìn),參數(shù)規(guī)模擴展至30億,表現(xiàn)最佳。
隨機順序模型的連續(xù)token隨訓(xùn)練計算量擴展。下圖7中繪制了不同大小的Fluid模型在總訓(xùn)練步數(shù)和計算量上的驗證損失、FID和GenEval分?jǐn)?shù)。隨著訓(xùn)練步數(shù)和計算量的增加,驗證損失和評估性能都表現(xiàn)出持續(xù)改進(jìn)。然而,訓(xùn)練步數(shù)的收益在大約1M步時趨于飽和,這表明相比于訓(xùn)練較小模型更長時間,訓(xùn)練較大模型更少的步數(shù)在計算上更加高效。這一行為與語言模型中的觀察結(jié)果一致,突顯了在足夠的訓(xùn)練條件下擴展模型大小的潛力。
驗證損失和評估指標(biāo)之間的強相關(guān)性。下圖8繪制了不同大小的Fluid模型的FID和GenEval分?jǐn)?shù)與驗證損失的關(guān)系,并觀察到兩者之間存在強相關(guān)性。為了量化這一關(guān)系,使用線性回歸擬合了數(shù)據(jù)點。FID和GenEval分?jǐn)?shù)的皮爾遜相關(guān)系數(shù)分別為0.917和-0.931,表明在150M到3B的模型規(guī)模范圍內(nèi),驗證損失與這些評估指標(biāo)之間存在近乎線性的關(guān)系。訓(xùn)練了一個擁有10.5B參數(shù)、批次大小為4096的模型,并訓(xùn)練1M步,取得了最先進(jìn)的文本生成圖像性能。
連續(xù)token和大模型對視覺質(zhì)量至關(guān)重要。下圖9比較了四種自回歸變體生成的圖像的視覺質(zhì)量。使用離散token的模型生成的圖像質(zhì)量明顯不如使用連續(xù)token的模型。例如,離散token模型生成的柯基犬的眼睛是不對稱的,擴大模型規(guī)模無法解決這個問題。這個局限性主要是由于離散tokenizer引入了大量信息丟失。例如,即使擁有3B參數(shù),使用離散token的模型也無法生成精確的《蒙娜麗莎》,這是因為tokenizer的重構(gòu)質(zhì)量較差(見前面圖4)。相比之下,使用連續(xù)token的模型能夠生成質(zhì)量更高的圖像。
此外,較大的模型在視覺質(zhì)量和圖像-文本對齊方面表現(xiàn)出持續(xù)改進(jìn)。例如,一個擁有0.2B參數(shù)的隨機順序模型難以生成“一個憤怒的鴨子在健身房舉重”,而擁有3B參數(shù)的相同模型則可以成功生成對應(yīng)的圖像。這表明,處理連續(xù)token并增加模型規(guī)模對于在自回歸圖像生成模型中實現(xiàn)高質(zhì)量視覺效果至關(guān)重要。
與之前系統(tǒng)的對比
下表1為Fluid模型(即連續(xù)隨機順序自回歸模型)與領(lǐng)先的文本生成圖像系統(tǒng)進(jìn)行比較。Fluid最小的模型,擁有369M參數(shù),在MS-COCO數(shù)據(jù)集上實現(xiàn)了零樣本FID 7.23和GenEval總分0.62,與許多擁有數(shù)十億參數(shù)的最先進(jìn)模型相匹敵(例如,Parti擁有20B參數(shù)僅實現(xiàn)了7.23)。Fluid最大的模型,擁有10.5B參數(shù),進(jìn)一步將MS-COCO數(shù)據(jù)集上的零樣本FID提高到6.16,并將GenEval總分提升至0.692,在每個TPU上生成每張圖像的速度為1.571秒(基于32 TPU v5,批次大小為2048)。
結(jié)論
本文對自回歸模型在文本生成圖像任務(wù)中的擴展行為進(jìn)行了實證研究。探討了兩個關(guān)鍵設(shè)計因素:隨機順序與光柵順序,以及離散token與連續(xù)token。結(jié)果表明,使用連續(xù)token的隨機順序模型在各種評估指標(biāo)和視覺質(zhì)量方面均表現(xiàn)出最佳的性能和擴展性?;谶@些發(fā)現(xiàn),將連續(xù)token的隨機順序模型(即Fluid)擴展至10.5B參數(shù),取得了最先進(jìn)的文本生成圖像性能。希望這些發(fā)現(xiàn)和有前景的結(jié)果能為自回歸模型在圖像生成任務(wù)中的擴展性行為提供有價值的見解,并幫助縮小視覺模型與語言模型之間的性能差距。
本文轉(zhuǎn)自AI生成未來,作者:AI生成未來
