偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂! 精華

發(fā)布于 2025-8-20 09:50
瀏覽
0收藏

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2508.09987 項(xiàng)目鏈接:https://yejy53.github.io/Echo-4o 
Git鏈接:https://github.com/yejy53/Echo-4o 數(shù)據(jù)集:https://huggingface.co/datasets/Yejy53/Echo-4o-Image/ 

亮點(diǎn)直擊

  • 分析并總結(jié)了合成數(shù)據(jù)相對(duì)于真實(shí)世界圖像的優(yōu)勢(shì),強(qiáng)調(diào)其能夠生成罕見(jiàn)場(chǎng)景,并為指令跟隨任務(wù)提供純凈、長(zhǎng)尾分布的監(jiān)督信號(hào)。
  • Echo-4o-Image,一個(gè)包含18萬(wàn)樣本的合成數(shù)據(jù)集,使用GPT-4o生成,涵蓋超現(xiàn)實(shí)場(chǎng)景、多參考生成指令跟隨任務(wù)。
  • 數(shù)據(jù)集上微調(diào)Bagel模型,得到統(tǒng)一生成模型Echo-4o,該模型在多個(gè)基準(zhǔn)測(cè)試中達(dá)到SOTA。數(shù)據(jù)集還能持續(xù)提升其他骨干(如OmniGen2和BLIP3-o),展現(xiàn)強(qiáng)大可遷移性。
  • 兩個(gè)新評(píng)測(cè)基準(zhǔn):GenEval++通過(guò)增加指令復(fù)雜度緩解文本到圖像評(píng)測(cè)中的分?jǐn)?shù)飽和問(wèn)題;Imagine-Bench專(zhuān)注于幻想任務(wù),旨在評(píng)估對(duì)想象內(nèi)容的理解與生成能力。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

總結(jié)速覽

解決的問(wèn)題

  1. 現(xiàn)實(shí)世界圖像數(shù)據(jù)集的局限性
  • 缺乏罕見(jiàn)場(chǎng)景(如超現(xiàn)實(shí)幻想、多參考圖像生成),無(wú)法滿(mǎn)足用戶(hù)多樣化需求。
  • 存在背景噪聲文本-圖像不對(duì)齊問(wèn)題,影響模型學(xué)習(xí)的準(zhǔn)確性。
  • 長(zhǎng)尾分布不足(如特定屬性組合“8個(gè)紅蘋(píng)果”),導(dǎo)致模型難以處理復(fù)雜指令。
  1. 開(kāi)源模型與GPT-4o的生成能力差距
  • 指令對(duì)齊、想象力生成多參考合成等任務(wù)上表現(xiàn)較弱。

提出的方案

  1. 構(gòu)建合成數(shù)據(jù)集Echo-4o-Image
  • 超現(xiàn)實(shí)幻想(38K樣本,如“撲克牌組成的火車(chē)”)。
  • 多參考生成(73K樣本,支持多圖像融合)。
  • 復(fù)雜指令對(duì)齊(68K樣本,純凈背景+精準(zhǔn)屬性控制)。
  • 利用GPT-4o生成18萬(wàn)條高質(zhì)量合成數(shù)據(jù),覆蓋三類(lèi)關(guān)鍵場(chǎng)景:
  • 通過(guò)合成數(shù)據(jù)彌補(bǔ)現(xiàn)實(shí)數(shù)據(jù)的盲區(qū),提供干凈、可控的監(jiān)督信號(hào)。
  1. 訓(xùn)練新模型Echo-4o
  • 基于開(kāi)源基線模型Bagel,用Echo-4o-Image微調(diào),提升生成能力。
  1. 新評(píng)測(cè)基準(zhǔn)
  • GenEval++:增加指令復(fù)雜度,解決現(xiàn)有評(píng)測(cè)分?jǐn)?shù)飽和問(wèn)題。
  • Imagine-Bench:專(zhuān)注評(píng)估想象力生成(幻想實(shí)現(xiàn)、身份保持、美學(xué)質(zhì)量)。

應(yīng)用的技術(shù)

  1. 數(shù)據(jù)蒸餾技術(shù)
  • 從GPT-4o生成數(shù)據(jù)中提取高質(zhì)量合成樣本,遷移至開(kāi)源模型。
  1. 多模態(tài)生成模型微調(diào)
  • 統(tǒng)一框架(如Bagel)適配文本到圖像、多參考生成等任務(wù)。
  1. 自動(dòng)化評(píng)估體系
  • 基于GPT-4.1的自動(dòng)評(píng)分,結(jié)合人工驗(yàn)證,確保評(píng)測(cè)嚴(yán)謹(jǐn)性。

達(dá)到的效果

  1. 模型性能提升
  • Echo-4o在標(biāo)準(zhǔn)評(píng)測(cè)(GenEval、DPG、OmniContext)和新基準(zhǔn)(GenEval++、Imagine-Bench)中表現(xiàn)優(yōu)異,尤其在復(fù)雜指令遵循想象力生成上顯著領(lǐng)先。
  • 支持多參考生成,實(shí)現(xiàn)多圖像融合與視覺(jué)一致性。
  1. 數(shù)據(jù)集泛化性
  • Echo-4o-Image遷移至其他模型(如OmniGen2、BLIP3-o)后,多項(xiàng)指標(biāo)一致提升,證明其通用性。
  1. 解決現(xiàn)實(shí)數(shù)據(jù)缺陷
  • 合成數(shù)據(jù)有效補(bǔ)充長(zhǎng)尾分布純凈對(duì)齊幻想場(chǎng)景,縮小與閉源模型的差距。

Echo-4o-Image

Echo-4o-Image——一個(gè)從GPT-4o蒸餾得到的大規(guī)模合成數(shù)據(jù)集。如圖3所示,該數(shù)據(jù)集包含約17.9萬(wàn)個(gè)樣本,涵蓋三種任務(wù)類(lèi)型:

  • 3.8萬(wàn)項(xiàng)超現(xiàn)實(shí)幻想生成任務(wù)
  • 7.3萬(wàn)項(xiàng)多參考圖像生成任務(wù)
  • 6.8萬(wàn)項(xiàng)復(fù)雜指令執(zhí)行任務(wù)

其中,超現(xiàn)實(shí)幻想和多參考生成子集包含現(xiàn)有資源中罕見(jiàn)或代表性不足的數(shù)據(jù)。下文將詳細(xì)說(shuō)明數(shù)據(jù)集構(gòu)建流程與策略。

超現(xiàn)實(shí)幻想圖像生成

本文構(gòu)建了專(zhuān)注于超現(xiàn)實(shí)幻想內(nèi)容的文本到圖像數(shù)據(jù)子集。這類(lèi)提示詞涉及對(duì)物體常規(guī)屬性、時(shí)間或空間的不規(guī)則修改。雖然該數(shù)據(jù)類(lèi)型在用戶(hù)請(qǐng)求中占比很大,但在真實(shí)訓(xùn)練數(shù)據(jù)中卻十分罕見(jiàn)。

如下圖3(a)所示,設(shè)計(jì)了結(jié)構(gòu)化流程來(lái)構(gòu)建Echo-4o-Image的幻想生成子集:

  1. 從COCO和Open Images數(shù)據(jù)集中收集常見(jiàn)物體概念作為生成主體
  2. GPT-4o先進(jìn)行身份屬性構(gòu)建(描述顏色/形狀/尺寸等規(guī)范屬性)
  3. 隨后執(zhí)行概念變形,通過(guò)創(chuàng)造性修改和重組引入新穎特征

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

變形主要分為三類(lèi):

  • 屬性替換:改變常規(guī)特征(如白色香蕉、立方體足球、手掌大小的長(zhǎng)頸鹿)
  • 混合重組:重定義物體材質(zhì)(如水晶番茄)或組合不同物體(如香蕉構(gòu)成的房屋)
  • 時(shí)空異常:將物體置于不可能的場(chǎng)景(如云層中的火車(chē))或融合不同時(shí)代特征(如帶有未來(lái)科技的古代文物)


本文還將單物體提示擴(kuò)展到多物體幻想組合,使GPT-4o生成涉及多個(gè)實(shí)體互動(dòng)的超現(xiàn)實(shí)指令,最終產(chǎn)出視覺(jué)連貫且富有創(chuàng)意的樣本。

多參考圖像生成

多參考圖像生成以若干參考圖像和文本提示為輸入,要求提取各圖像元素并組合成連貫輸出。該任務(wù)既需要強(qiáng)大的提示理解能力,又要求保留各參考圖像的顯著特征并實(shí)現(xiàn)無(wú)縫融合。與超現(xiàn)實(shí)幻想生成類(lèi)似,現(xiàn)成訓(xùn)練數(shù)據(jù)極其有限。


如上圖3(b)所示,我們?cè)O(shè)計(jì)了包含人物/物體/場(chǎng)景的多參考組合(每樣本2-4張輸入圖像),參考圖像涵蓋肖像、街拍、動(dòng)物、物品、服飾、自然景觀、地標(biāo)和室內(nèi)場(chǎng)景等多元類(lèi)別。


使用GPT-4o生成基于參考圖像的指令時(shí):

  • 每條指令針對(duì)特定交互類(lèi)型(如人-物、物-景)
  • 明確標(biāo)注圖像索引(如Image_1/Image_2)以降低歧義
  • 生成目標(biāo)圖像后,通過(guò)改寫(xiě)策略提升語(yǔ)言多樣性和語(yǔ)義清晰度


改寫(xiě)過(guò)程中,可能將"Image_1"等索引替換為對(duì)應(yīng)物體的具體描述,從而增強(qiáng)訓(xùn)練數(shù)據(jù)質(zhì)量和模型在多圖像生成任務(wù)中的泛化能力。

指令跟隨數(shù)據(jù)生成

針對(duì)文本到圖像的指令跟隨任務(wù),通過(guò)引入更復(fù)雜的多物體多屬性指令來(lái)合成數(shù)據(jù)。如圖3(c)所示:

  1. 精選基礎(chǔ)物體概念集
  2. 采用模板驅(qū)動(dòng)策略系統(tǒng)構(gòu)建包含顏色/位置/數(shù)量/尺寸等屬性的提示詞
  3. 使用GPT-4o生成圖像


相比真實(shí)數(shù)據(jù),合成數(shù)據(jù)具有兩大優(yōu)勢(shì):純凈指令對(duì)齊:GPT-4o生成的圖像通常具有簡(jiǎn)潔背景且無(wú)無(wú)關(guān)物體。例如生成"小提琴與兩雙筷子"時(shí),這些物體會(huì)直接呈現(xiàn)在整潔背景上。這種視覺(jué)純凈性降低了指令跟隨任務(wù)的學(xué)習(xí)難度。


可控長(zhǎng)尾組合:相比僅包含有限語(yǔ)義概念的Geneval,我們的數(shù)據(jù)集顯著提升指令復(fù)雜度。例如:

  • GenEval最復(fù)雜提示可能僅含4個(gè)語(yǔ)義單元(如"橙色電視和綠色蝴蝶結(jié)")
  • 本文的數(shù)據(jù)集包含"橙色電視、綠色蝴蝶結(jié)和黃色螺絲刀"或"皮帶、盤(pán)子和三個(gè)乒乓球拍"等組合


通過(guò)增加物體數(shù)量及其屬性,我們解決了真實(shí)圖像分布中長(zhǎng)尾數(shù)據(jù)稀缺的問(wèn)題。


盡管使用最先進(jìn)的GPT-4o生成圖像,仍可能出現(xiàn)對(duì)齊錯(cuò)誤(生成圖像與提示不完全匹配)。為此我們引入文本改寫(xiě)策略確保數(shù)據(jù)可用性,核心原則是:"沒(méi)有無(wú)效圖像,只有無(wú)效文本"。當(dāng)檢測(cè)到不對(duì)齊時(shí),根據(jù)生成圖像修正原始文本,使每個(gè)圖像-指令對(duì)構(gòu)成語(yǔ)義有效且一致的訓(xùn)練樣本。例如圖4中,若生成圖像包含3塊手表而文本指定4塊,則將描述修正為3塊。通過(guò)改寫(xiě)而非丟棄樣本,我們充分釋放了GPT-4o合成數(shù)據(jù)的價(jià)值。

Echo-4o

為了驗(yàn)證本文精心構(gòu)建的Echo-4o-Image數(shù)據(jù)集的有效性,對(duì)強(qiáng)基線模型Bagel進(jìn)行微調(diào),得到了Echo-4o——一個(gè)在文本到圖像和多參考生成任務(wù)中均表現(xiàn)卓越的統(tǒng)一多模態(tài)生成模型。


Bagel是一個(gè)統(tǒng)一的多模態(tài)生成模型,能夠同時(shí)實(shí)現(xiàn)圖像理解和生成。該模型支持文本到圖像生成和單圖像到圖像生成任務(wù),包括圖像編輯和自由形式操控。在架構(gòu)上,Bagel采用ViT進(jìn)行圖像理解,VAE進(jìn)行圖像生成,并使用了混合專(zhuān)家(mixture of transformers)方法,其中一個(gè)專(zhuān)家處理VAE token,另一個(gè)專(zhuān)家處理所有其他token。對(duì)于多參考任務(wù),圖像的ViT和VAE特征均輸入模型。然而,盡管多圖像輸入在架構(gòu)上是可行的,Bagel在多參考生成任務(wù)上的表現(xiàn)較差。


本文使用Echo-4o-Image中的所有文本到圖像和多參考數(shù)據(jù)對(duì)Bagel進(jìn)行微調(diào)。訓(xùn)練目標(biāo)采用僅針對(duì)輸出圖像計(jì)算的流匹配損失(flow matching loss)。除VAE外,對(duì)所有模型組件進(jìn)行了24,000步訓(xùn)練,學(xué)習(xí)率為2e-5。通過(guò)這一微調(diào)過(guò)程,Echo-4o在多參考生成任務(wù)上取得了卓越的性能,同時(shí)進(jìn)一步提升了文本到圖像生成能力(詳見(jiàn)第5節(jié))。我們特意選擇Bagel作為基線模型,因?yàn)樗跀?shù)萬(wàn)億token的交錯(cuò)多模態(tài)數(shù)據(jù)進(jìn)行了訓(xùn)練。Echo-4o-Image在這一經(jīng)過(guò)廣泛訓(xùn)練的模型上仍能帶來(lái)顯著提升,這證明了精心設(shè)計(jì)的合成數(shù)據(jù)的互補(bǔ)價(jià)值。

GenEval++ & Imagine-Bench

指令跟隨評(píng)估——GenEval++

以往的指令跟隨基準(zhǔn)測(cè)試(如GenEval)被廣泛用于評(píng)估圖像生成模型遵循文本指令的能力。然而,這些基準(zhǔn)測(cè)試通常依賴(lài)目標(biāo)檢測(cè)器或基于CLIP的模型進(jìn)行自動(dòng)評(píng)分,而這兩種方法在準(zhǔn)確性上存在顯著局限性。如圖4所示,在GenEval中,當(dāng)評(píng)估“綠色熱狗”等提示詞時(shí),檢測(cè)器經(jīng)常因“熱狗”(一種食物)與綠色之間的弱關(guān)聯(lián)而做出錯(cuò)誤判斷——盡管生成的圖像在視覺(jué)上是正確的。類(lèi)似地,物體之間的遮擋可能導(dǎo)致計(jì)數(shù)不準(zhǔn)確,從而產(chǎn)生假陰性結(jié)果。此外,現(xiàn)有基準(zhǔn)測(cè)試中的文本指令相對(duì)簡(jiǎn)單,語(yǔ)義多樣性有限。因此,當(dāng)前模型的得分通常在0.8–0.9之間,表明指標(biāo)飽和,從而限制了這些基準(zhǔn)測(cè)試的區(qū)分能力。

 

為了解決這些局限性,本文推出了GenEval++,這是一個(gè)更準(zhǔn)確、更具挑戰(zhàn)性的基準(zhǔn)測(cè)試,用于評(píng)估圖像生成中的指令遵循能力。如下圖4所示,GenEval++采用GPT-4.1多模態(tài)模型作為評(píng)估器,利用其強(qiáng)大的復(fù)雜語(yǔ)義組合理解能力來(lái)評(píng)估生成圖像與文本指令的一致性。根據(jù)預(yù)定義的檢查清單(涵蓋對(duì)象、數(shù)量、顏色、位置和大小等多重標(biāo)準(zhǔn)),評(píng)估器僅在所有條件均滿(mǎn)足時(shí)才判定結(jié)果為正確。此外,該基準(zhǔn)測(cè)試覆蓋了七種任務(wù)類(lèi)型,涉及不同屬性組合,每種類(lèi)型包含40個(gè)高復(fù)雜度提示詞,總計(jì)280條文本指令。GenEval++具有更豐富的語(yǔ)義和更多樣的組合,任務(wù)難度顯著高于原始GenEval。另外,為了與“一張……的照片”的提示風(fēng)格保持一致,動(dòng)漫風(fēng)格或包含多個(gè)不相關(guān)元素的輸出被視為無(wú)效。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

超現(xiàn)實(shí)與幻想評(píng)估——Imagine-Bench

此外,現(xiàn)有的評(píng)估協(xié)議主要關(guān)注現(xiàn)實(shí)世界生成任務(wù)。然而,生成模型的真正價(jià)值不僅在于再現(xiàn)現(xiàn)實(shí),還在于創(chuàng)造未知,這與用戶(hù)驅(qū)動(dòng)的創(chuàng)意指令的重要組成部分相契合。為此,我們推出了一個(gè)新的基準(zhǔn)測(cè)試Imagine-Bench,旨在評(píng)估模型在超現(xiàn)實(shí)和幻想圖像生成中的能力。Imagine-Bench的主要任務(wù)是為常見(jiàn)物體添加奇幻元素,同時(shí)保留其核心身份特征。例如,指令“一個(gè)方形的足球”要求模型將形狀改為立方體,同時(shí)保留標(biāo)準(zhǔn)的黑白足球紋理。此類(lèi)任務(wù)對(duì)當(dāng)前理解-生成統(tǒng)一模型提出了嚴(yán)格挑戰(zhàn),因?yàn)樗鼈冃枰蚱聘拍钆c外觀之間的固有關(guān)聯(lián),以實(shí)現(xiàn)真正的創(chuàng)造性合成。


Imagine-Bench包含270條多樣化的創(chuàng)意指令,涵蓋廣泛的超現(xiàn)實(shí)屬性。在評(píng)估過(guò)程中,每條指令首先由GPT-4o處理,生成相應(yīng)的檢查清單,包含詳細(xì)解釋和預(yù)期結(jié)果(包括所需的奇幻修改和物體不變身份特征的描述)。給定提示詞和生成的圖像,GPT-4.1從三個(gè)維度進(jìn)行評(píng)分:

  1. 幻想實(shí)現(xiàn)度(Fantasy Fulfillment)——生成的圖像是否忠實(shí)實(shí)現(xiàn)了提示詞的超現(xiàn)實(shí)方面;
  2. 身份保留度(Identity Preservation)——變換后的物體是否保留了其原始身份的基本視覺(jué)特征;
  3. 美學(xué)質(zhì)量(Aesthetic Quality)——生成圖像的視覺(jué)吸引力、創(chuàng)造力和多樣性。

受VIEScore和OmniGen2評(píng)估協(xié)議的啟發(fā),GPT-4.1為每個(gè)維度給出0–10的評(píng)分,并為每個(gè)評(píng)分提供明確的推理,確保評(píng)估的嚴(yán)謹(jǐn)性和可解釋性。進(jìn)一步采用更嚴(yán)格的評(píng)分方案,最終得分為: 

實(shí)驗(yàn)

本節(jié)對(duì)Echo-4o進(jìn)行全面評(píng)估,重點(diǎn)關(guān)注其在多樣化生成任務(wù)中的表現(xiàn),包括指令跟隨圖像生成、超現(xiàn)實(shí)/幻想圖像合成以及多參考圖像生成。結(jié)果表明,Echo-4o在這些任務(wù)中均表現(xiàn)優(yōu)異,凸顯了Echo-4o-Image合成數(shù)據(jù)集在提升生成模型能力方面的有效性。

指令跟隨圖像生成

在兩個(gè)廣泛使用的基準(zhǔn)測(cè)試——GenEval和DPG-Bench,以及新提出的GenEval++上評(píng)估模型的指令跟隨能力。如下表1所示,Echo-4o在GenEval上取得了0.89的分?jǐn)?shù),優(yōu)于Bagel和OmniGen2等先前的統(tǒng)一模型。在DPG-Bench(下表2)上,Echo-4o以86.07的總分超越了SD3和UniWorld等強(qiáng)勁競(jìng)爭(zhēng)對(duì)手。這些結(jié)果表明,Echo-4o在不同類(lèi)型的基準(zhǔn)測(cè)試中均表現(xiàn)優(yōu)異,展現(xiàn)了其在短文本和復(fù)雜長(zhǎng)文本指令上的強(qiáng)大指令跟隨生成能力。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

在現(xiàn)有的文本到圖像指令跟隨任務(wù)中,Echo-4o始終表現(xiàn)卓越。與基線模型Bagel相比,Echo-4o在GenEval上實(shí)現(xiàn)了8.5%的提升,驗(yàn)證了Echo-4o-Image數(shù)據(jù)集中純合成數(shù)據(jù)對(duì)增強(qiáng)指令跟隨能力的有效性。這些干凈背景的樣本提升了模型學(xué)習(xí)圖像與文本指令之間精確對(duì)齊的能力。盡管訓(xùn)練數(shù)據(jù)主要由短文本指令組成,但模型在復(fù)雜長(zhǎng)文本生成任務(wù)上也表現(xiàn)出強(qiáng)大的泛化能力,DPG-Bench上的表現(xiàn)即為明證。


此外,在新提出的更具挑戰(zhàn)性的GenEval++基準(zhǔn)測(cè)試上,大多數(shù)模型表現(xiàn)不佳,得分低于0.4。盡管GenEval++的任務(wù)與GenEval的主要區(qū)別僅在于增加了一兩個(gè)額外對(duì)象及其屬性,但這一看似微小的變化顯著提高了任務(wù)難度。例如,生成五個(gè)熱狗比生成四個(gè)更具挑戰(zhàn)性。早期的基于擴(kuò)散的模型(如SDXL)在此類(lèi)場(chǎng)景中幾乎完全無(wú)法遵循指令。即使是Bagel和OmniGen2等先進(jìn)統(tǒng)一模型(在GenEval上與GPT-4o差距較小),在這些更難的任務(wù)上也遠(yuǎn)遠(yuǎn)落后。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

Echo-4o在所有模型中(除GPT-4o外)表現(xiàn)最佳,超越OmniGen2和Bagel達(dá)40%以上。這凸顯了Echo-4o強(qiáng)大的指令跟隨能力,這與Echo-4o-Image中包含更復(fù)雜、長(zhǎng)尾的屬性數(shù)據(jù)密切相關(guān)。下圖5進(jìn)一步提供了不同模型的定性比較。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

超現(xiàn)實(shí)幻想圖像生成

本文在Imagine-Bench基準(zhǔn)測(cè)試上評(píng)估了多個(gè)模型的理解和創(chuàng)意能力,結(jié)果如下表4所示。傳統(tǒng)圖像生成模型在此任務(wù)上表現(xiàn)不佳,主要因其訓(xùn)練范式通常在文本概念與視覺(jué)表征之間建立直接綁定。受限于有限的理解能力,這些模型難以區(qū)分現(xiàn)有物體的固有概念與幻想導(dǎo)向指令中指定的額外要求。BLIP3o和OmniGen2等統(tǒng)一模型得益于更強(qiáng)的理解能力,取得了稍好的結(jié)果。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

在開(kāi)源模型中,Echo-4o表現(xiàn)最佳,直接受益于Echo-4o-Image中包含的幻想導(dǎo)向圖像數(shù)據(jù)。這些數(shù)據(jù)突破了現(xiàn)實(shí)世界圖像的領(lǐng)域限制,從而以相對(duì)直接的方式提升了性能。未來(lái)工作可探索更系統(tǒng)的方法,進(jìn)一步提升統(tǒng)一模型在理解和創(chuàng)意生成上的能力。

多參考圖像生成

使用OminiContext基準(zhǔn)測(cè)試評(píng)估多參考圖像生成能力。現(xiàn)有圖像生成模型和統(tǒng)一架構(gòu)對(duì)這一能力的探索仍顯不足。開(kāi)源模型中僅OmniGen2進(jìn)行了初步嘗試,F(xiàn)LUX和Bagel等多數(shù)模型要么缺乏原生支持,要么完全無(wú)法適配多參考場(chǎng)景。通過(guò)利用專(zhuān)為多參考場(chǎng)景設(shè)計(jì)的合成數(shù)據(jù),Echo-4o獲得了基礎(chǔ)Bagel架構(gòu)所不具備的該能力。

如下表5所示,Echo-4o在MULTIPLE和SCENE兩種設(shè)置下均優(yōu)于所有開(kāi)源模型,較Bagel基線實(shí)現(xiàn)顯著提升,并超越此前最佳開(kāi)源模型OmniGen2。下圖7的定性對(duì)比進(jìn)一步表明,在二圖或三圖參考生成任務(wù)中,Echo-4o在指令遵循和參考圖像內(nèi)容保真度上持續(xù)優(yōu)于OmniGen2。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

基礎(chǔ)模型的普適有效性

為驗(yàn)證Echo-4o-Image數(shù)據(jù)集的廣泛有效性,本文使用該合成數(shù)據(jù)對(duì)多個(gè)現(xiàn)有統(tǒng)一模型進(jìn)行微調(diào)實(shí)驗(yàn)。如下圖1(b)所示,BLIP-3-o、Bagel和OmniGen2等模型在GenEval、GenEval++、DPG-Bench和OminiContext等基準(zhǔn)測(cè)試上均獲得一致提升。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

這些結(jié)果表明,Echo-4o-Image能為不同基礎(chǔ)模型提供通用性增強(qiáng),顯著改善其指令理解、幻想圖像合成和多參考圖像生成能力??缛蝿?wù)與跨架構(gòu)的穩(wěn)定增益證實(shí)了該數(shù)據(jù)集的廣泛適用性,及其對(duì)統(tǒng)一多模態(tài)生成模型高質(zhì)量微調(diào)的重要價(jià)值。

與ShareGPT-4o-Image的對(duì)比

本文進(jìn)一步將本數(shù)據(jù)集與GPT-4o衍生的另一合成數(shù)據(jù)集ShareGPT-4o-Image進(jìn)行對(duì)比。在相同訓(xùn)練設(shè)置下,兩者均用于微調(diào)Bagel基線模型直至收斂。下圖8顯示:Echo-4o-Image使指令跟隨能力大幅提升(GenEval分?jǐn)?shù)從0.820增至0.895),而ShareGPT-4o-Image僅帶來(lái)邊際改善(增至0.838)。GenEval++上也呈現(xiàn)相似趨勢(shì)。

比真圖更香?統(tǒng)一生成模型Echo-4o用GPT-4o合成數(shù)據(jù)“反哺”模型,多項(xiàng)SOTA,效果炸裂!-AI.x社區(qū)

該差異可能源于ShareGPT-4o-Image大量數(shù)據(jù)源自ALLaVA的文本輸入(已包含高質(zhì)量真實(shí)圖像對(duì)),導(dǎo)致其本質(zhì)上復(fù)現(xiàn)了真實(shí)數(shù)據(jù)集的圖像,對(duì)指令跟隨的增益有限。不過(guò)ShareGPT-4o-Image仍能提升美學(xué)對(duì)齊能力。值得注意的是,ShareGPT-4o-Image缺少多參考圖像生成數(shù)據(jù)——這一Echo-4o-Image成功實(shí)現(xiàn)的關(guān)鍵能力——進(jìn)一步突顯后者的廣泛實(shí)用性。

結(jié)論

本研究提出由GPT-4o生成的大規(guī)模合成數(shù)據(jù)集Echo-4o-Image,并通過(guò)開(kāi)發(fā)Echo-4o驗(yàn)證其在增強(qiáng)統(tǒng)一多模態(tài)生成模型方面的有效性。同時(shí),推出Geneval++和Imagine-Bench兩個(gè)新基準(zhǔn)測(cè)試,為圖像生成能力提供更全面、更具挑戰(zhàn)性的評(píng)估框架。


實(shí)驗(yàn)結(jié)果表明,高質(zhì)量合成數(shù)據(jù)集Echo-4o-Image能有效彌補(bǔ)真實(shí)數(shù)據(jù)集的局限,并跨不同基礎(chǔ)模型實(shí)現(xiàn)知識(shí)遷移。期望該數(shù)據(jù)集的開(kāi)源能通過(guò)合成數(shù)據(jù)填補(bǔ)真實(shí)圖像缺口,推動(dòng)統(tǒng)一多模態(tài)生成模型在指令跟隨、創(chuàng)意生成和多參考圖像合成等能力的進(jìn)步。未來(lái)工作將擴(kuò)展數(shù)據(jù)集至圖像編輯任務(wù)(另一高質(zhì)量真實(shí)數(shù)據(jù)稀缺的場(chǎng)景),并對(duì)FLUX等更多模型進(jìn)行微調(diào),進(jìn)一步驗(yàn)證其通用性和影響力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/J1dCttWfEM1QqFdjnfIu0A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄