FlexTok-一種圖像編碼新方式 原創(chuàng)
本文介紹一種圖像編碼的方法。
圖像標(biāo)記化推動(dòng)了自回歸圖像生成發(fā)展,但傳統(tǒng) 2D 網(wǎng)格標(biāo)記和現(xiàn)有 1D 標(biāo)記方法存在不足,如無(wú)法適應(yīng)圖像內(nèi)在復(fù)雜性。FlexTok 創(chuàng)新之處在于可將 2D 圖像投影為可變長(zhǎng)度、有序的 1D 標(biāo)記序列,圖像標(biāo)記化通過(guò)提供一種比原始像素更高效、更易處理的壓縮離散表示,極大地推動(dòng)了自回歸圖像生成的發(fā)展。
傳統(tǒng)方法多采用二維網(wǎng)格標(biāo)記化,但像TiTok這樣的最新研究表明,一維標(biāo)記化能夠通過(guò)消除網(wǎng)格冗余來(lái)實(shí)現(xiàn)高質(zhì)量的圖像生成。
感興趣的小伙伴可以閱讀原文:https://arxiv.org/pdf/2502.13967
模型介紹

上圖展示了 FlexTok 的整體架構(gòu)和工作流程,分為兩個(gè)主要階段:
階段 1:FlexTok 訓(xùn)練:
- 重采樣與量化:FlexTok 使用帶有寄存器的視覺(jué) Transformer(ViT)將 2D 的變分自編碼器(VAE)潛在特征重采樣為 1D 的離散標(biāo)記序列。之后,使用有限標(biāo)量量化FSQ對(duì)這些序列進(jìn)行量化,得到瓶頸層表示。
- 整流流模型解碼與重建:量化后的瓶頸層表示被用于為整流流模型提供條件,該模型負(fù)責(zé)解碼并重建原始圖像。
- 學(xué)習(xí)有序可變長(zhǎng)度標(biāo)記序列:通過(guò)對(duì)寄存器標(biāo)記應(yīng)用嵌套隨機(jī)失活,F(xiàn)lexTok 學(xué)習(xí)到有序的、可變長(zhǎng)度的標(biāo)記序列。這種方式使得模型能夠以一種從粗到細(xì)的方式對(duì)圖像進(jìn)行編碼,早期的標(biāo)記捕獲圖像的高級(jí)語(yǔ)義和幾何信息,而后續(xù)添加的標(biāo)記則逐步補(bǔ)充更精細(xì)的細(xì)節(jié)。
階段 2:自回歸(AR)訓(xùn)練
- 訓(xùn)練 AR 模型:訓(xùn)練類(lèi)別條件和文本條件的自回歸 Transformer 模型,以從粗到細(xì)的方式預(yù)測(cè) 1D 標(biāo)記序列。
- 生成圖像細(xì)節(jié)遞進(jìn):隨著預(yù)測(cè)的標(biāo)記數(shù)量增加,生成的圖像會(huì)變得更加具體。模型首先編碼高級(jí)概念,例如圖像中是否有汽車(chē);然后逐漸添加更精細(xì)的細(xì)節(jié),如汽車(chē)的形狀、品牌和顏色等 。通過(guò)這種方式,F(xiàn)lexTok 能夠根據(jù)不同的條件和需求,生成具有不同細(xì)節(jié)程度的圖像,展示了其在圖像生成任務(wù)中的靈活性和有效性。
實(shí)驗(yàn)效果
FlexTok將圖像轉(zhuǎn)化為有序的標(biāo)記序列。通過(guò)訓(xùn)練基于類(lèi)別和文本條件的模型,F(xiàn)lexTok標(biāo)記序列扮演了“視覺(jué)詞匯表”的角色,使自回歸模型能夠以遞增的特異性描述圖像內(nèi)容。與傳統(tǒng)自回歸模型在固定光柵掃描順序下生成圖像不同,F(xiàn)lexTok方法能夠逐步細(xì)化圖像細(xì)節(jié)。簡(jiǎn)單的條件,例如ImageNet類(lèi)別標(biāo)簽,可能僅需16個(gè)標(biāo)記即可滿足;而更復(fù)雜的條件,如開(kāi)放式文本提示,則可能需要多達(dá)256個(gè)標(biāo)記才能達(dá)到最佳效果。

如上圖所示,不同詞元數(shù)量的圖像生成示例。使用類(lèi)別條件(前3行)和文本條件(后3行)生成的圖像表明,基于FlexTok的模型在僅使用單個(gè)詞元的情況下也能生成高質(zhì)量圖像,并且所有這些都在單個(gè)模型內(nèi)實(shí)現(xiàn)。隨著生成的詞元增多,條件對(duì)齊效果增強(qiáng)。例如,對(duì)于提示語(yǔ)“一只柯基犬的頭部被描繪成星云爆炸的樣子”,前兩個(gè)詞元捕捉到了狗的藝術(shù)描繪這一高級(jí)概念,而添加更多詞元?jiǎng)t會(huì)增加更多細(xì)節(jié),如狗的品種和星云背景。
文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷
原文鏈接:??https://mp.weixin.qq.com/s/fp_FEuISXmHPCa0fhEGJDg??

















