偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!

發(fā)布于 2025-9-15 09:20
瀏覽
0收藏

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

論文鏈接:??https://arxiv.org/pdf/2509.09680??

模型鏈接:??https://github.com/rongyaofang/prism-bench??

Dataset鏈接:??https://huggingface.co/datasets/LucasFang/FLUX-Reason-6M??

?Git 鏈接:???https://flux-reason-6m.github.io/??

亮點直擊

  • FLUX-Reason-6M:一個里程碑式的數(shù)據(jù)集。首個專為推理設計的 600 萬規(guī)模 T2I 數(shù)據(jù)集,包含 2000 萬條雙語描述,首創(chuàng)的生成式“思維鏈”提示。該數(shù)據(jù)集使用 128 張 A100 顯卡,歷時 4 個月構建,旨在成為下一代 T2I 模型基礎數(shù)據(jù)集。
  • PRISM-Bench:全新的評估標準。建立了一個包含七個子任務的綜合性基準測試,采用 GPT-4.1 和 Qwen2.5-VL-72B 進行細致且穩(wěn)健的評估。
  • 來自大規(guī)模基準測試的可操作洞察。對主流模型進行了廣泛且嚴格的評估,揭示了不同模型之間的差距與潛在的改進方向,為未來研究提供了清晰的路線圖。推動 T2I 革命的普惠化。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

圖 1:使用所提出的 PRISM-Bench 評估最先進的文本到圖像模型

總結速覽

解決的問題

開源文本生成圖像(T2I)模型在發(fā)展過程中面臨以下關鍵問題:

  • 缺乏大規(guī)模、以推理為核心的數(shù)據(jù)集,難以訓練具備復雜推理能力的生成模型;
  • 缺乏全面、系統(tǒng)的評估基準,難以準確衡量模型在真實應用中的表現(xiàn);
  • 與閉源系統(tǒng)相比,性能存在顯著差距,限制了開源模型的實際應用與研究發(fā)展。

提出的方案

為解決上述問題,作者提出了兩個核心方案:

  1. FLUX-Reason-6M 數(shù)據(jù)集
  • 包含600 萬張高質量圖像2000 萬條中英文雙語描述;
  • 以六大圖像特征(想象力、實體、文字渲染、風格、情感、構圖)進行組織;
  • 引入生成式思維鏈(GCoT),用于模擬復雜圖像生成過程中的推理步驟。
  1. PRISM-Bench 評估基準
  • 包含7 個子任務,覆蓋文本對齊、圖像美學、長文本生成等多個維度;
  • 使用先進的視覺-語言模型(如 GPT-4.1 和 Qwen2.5-VL-72B)進行評估;
  • 設計精細提示詞,強調人類對齊的評估標準

應用的技術

  • 生成鏈式思維(GCoT)設計:將圖像生成過程拆解為可解釋的推理步驟,提升模型的推理能力與可控性;
  • 大規(guī)模數(shù)據(jù)生成與處理:使用 128 張 A100 GPU,耗時 4 個月,完成 15,000 GPU 天的數(shù)據(jù)構建;
  • 多語言支持:提供中英文雙語描述,增強模型的跨語言泛化能力;
  • 自動化評估系統(tǒng):基于 GPT-4.1 和 Qwen2.5-VL-72B 的視覺-語言模型,進行細粒度、穩(wěn)健的模型評測;
  • 廣泛模型測試:對 19 個主流模型進行統(tǒng)一評估,確保結果具備代表性和實用性。

達到的效果

  • 構建了首個專為推理設計的 T2I 數(shù)據(jù)集,為模型學習復雜生成邏輯提供了堅實基礎;
  • 建立了系統(tǒng)性、多維度的評估標準,填補了開源模型評估的空白;
  • 揭示了主流模型在推理生成中的性能差距與改進方向,為后續(xù)研究提供了明確路徑;
  • 推動了 T2I 研究范式轉變,為構建更智能、更具語義理解與表達能力的圖像生成系統(tǒng)奠定基礎。

FLUX-Reason-6M 數(shù)據(jù)集

現(xiàn)有開源的文本生成圖像(T2I)數(shù)據(jù)集的核心限制在于,它們缺乏用于教授模型復雜推理的結構化信號。它們通常是平鋪直敘的圖像-文本對集合,僅描述圖像中包含的內容,而非圖像為何以特定方式構圖。近期的 GoT 工作提供了一個包含 900 萬樣本的數(shù)據(jù)集,但該數(shù)據(jù)集主要由現(xiàn)有資源(如 Laion-Aesthetics、JourneyDB)拼接而成,導致圖像內容與風格分布不一致,質量參差不齊。這些問題源于不同源數(shù)據(jù)集之間采集與標注協(xié)議的差異。為了解決這一問題,本文設計了 FLUX-Reason-6M 數(shù)據(jù)集,其目標不僅是收集高質量圖像,更是構建一個系統(tǒng)化、原則性強的框架,用于學習 T2I 推理的基本規(guī)則。整體數(shù)據(jù)整理流程如下圖 3 所示。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

架構設計:六大特征與生成思維鏈

多維框架設計 

FLUX-Reason-6M 的核心在于其多維度的架構設計。本文識別并定義了六個對現(xiàn)代 T2I 模型至關重要的關鍵特征。這些特征并非互斥,而是有意設計為相互重疊,以反映復雜場景合成的多面性,從而為模型提供更豐富、更穩(wěn)健的訓練信號。六大核心推理特征包括:

  • 想象力:該類別包含代表超現(xiàn)實、幻想或抽象概念的圖像與描述。提示詞描繪違反現(xiàn)實物理規(guī)律或將不同概念新穎組合的場景(例如:“一個由玻璃構成的城市,光之河在其中流淌”)。生成圖像展示了富有創(chuàng)造力的合成,為模型提供超越字面理解的數(shù)據(jù)。
  • 實體:聚焦于基于知識的精確描繪,包含圖像-文本對,強調對現(xiàn)實世界中具體物體、生物或命名實體的準確細致生成。該類別中的描述通常包含豐富的屬性信息(例如:“梅西在世界杯決賽中帶球突破防守”),為模型提供高保真、知識感知的生成訓練數(shù)據(jù)。
  • 文字渲染:為解決生成模型中的已知弱點,該類別包含成功且清晰地融合英文文本的圖像。對應描述中明確指示文本的內容、風格與在圖像中的位置(例如:“一個霓虹燈牌,上面寫著 ‘FLUX-Reason-6M’”)。這為模型在排版控制方面提供了直接、干凈的數(shù)據(jù)支持。
  • 風格:該特征匯集了大量多樣的藝術與攝影風格。描述中明確提及特定的藝術流派(如立體主義、印象派)、視覺技術(如長曝光、魚眼鏡頭)甚至著名藝術家的美學風格。圖像作為這些風格成功應用的高質量示例。
  • 情感:該類別包含旨在將抽象情感概念與具體視覺表現(xiàn)相連接的圖像-文本對。描述使用喚起情感的語言來描繪一種情緒、感覺或氛圍(例如:“一種寧靜孤獨的感覺”,“一個混亂而充滿歡樂的集市場景”)。對應圖像將這些無形的概念轉化為視覺線索,如色彩搭配、光照效果以及主體表情。
  • 構圖:該類別聚焦于場景中物體的精確排列與交互。描述中使用明確的構圖語言,包括介詞(例如:under,behind,next to)和相對位置表達。圖像則清晰展示了這些復雜空間指令如何被正確執(zhí)行。

本文數(shù)據(jù)集的一大亮點是其多標簽設計。例如,“埃菲爾鐵塔以梵高《星夜》的風格呈現(xiàn)”這張圖像會同時被歸類為實體(準確描繪地標)和風格(模仿藝術家風格)。這種有意的重疊設計確保模型能夠學習融合不同類型的推理方式,就如同一位人類藝術家那樣。

生成思維鏈 

本數(shù)據(jù)集的核心是生成思維鏈(GCoT)的整合。標準的圖像描述僅描述圖像內容,而 GCoT 描述則闡明圖像是如何以及為何被構建出來的。如下圖 2 所示,這種詳細的逐步推理鏈條解構了最終圖像的語義與構圖邏輯,為訓練提供了強有力的中間監(jiān)督信號。通過學習這些顯式的推理路徑,模型不僅可以建立詞匯與像素之間的關聯(lián),還能理解構成復雜圖像的底層結構與藝術選擇。以 GCoT 原則為中心的這一結構化多維框架,構成了整個 FLUX-Reason-6M 數(shù)據(jù)集的概念基礎。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

構建高質量視覺基礎

本文目標是建立一個高質量的視覺基礎,以避免網(wǎng)頁抓取數(shù)據(jù)中圖像質量參差不齊的問題。近期的生成模型已展現(xiàn)出生成高質量圖像的能力。因此,本文選擇了功能強大的 FLUX.1-dev 作為合成引擎,利用其先進能力生成細節(jié)精致、審美一致的圖像。本文結合視覺-語言模型與圖像,對 Laion-Aesthetics 數(shù)據(jù)集中的描述進行重寫,從而生成高質量的描述,提供廣泛而多樣的生成起點。

然而,這一策略導致數(shù)據(jù)集中兩個特征嚴重不足:想象力(Imagination) 與 文字渲染(Text rendering)。為糾正這一偏差并確保數(shù)據(jù)集的平衡與全面性,本文實施了如下增強策略:

漸進式想象力培養(yǎng) 

對于“想象力”類別,如日常生活中罕見場景,啟動了一個漸進式生成流程,以產(chǎn)出極具創(chuàng)造性與新穎性的描述。首先,使用 Gemini-2.5-Pro 生成一組多樣化的 200 個高概念、富有想象力的初始提示詞。在第二階段,采用創(chuàng)造性擴展技術:隨機抽取其中 10 個提示詞,并將其作為上下文示例輸入 Qwen3-32B。為最大化創(chuàng)造性輸出并鼓勵新穎聯(lián)想,提高了模型的溫度參數(shù)。該過程產(chǎn)出了大量極具創(chuàng)意的描述,推動了生成可能性的邊界。通過 FLUX.1-dev 渲染后,這些描述為本文的數(shù)據(jù)集注入了超現(xiàn)實與幻想的視覺圖像。文本渲染的數(shù)據(jù)挖掘-生成-合成流程 

為了解決文本渲染數(shù)據(jù)的稀缺問題,本文開發(fā)了一個三階段流程,用于采集并再生成高質量的文本數(shù)據(jù)。

首先,使用強大的 Qwen2.5-VL-32B 系統(tǒng)性地挖掘 Laion-2B 數(shù)據(jù)集,識別出包含清晰可辨文字的圖像。

其次,對于每一張經(jīng)過驗證的富文本圖像,再次利用 Qwen-VL 的描述能力,生成高保真度的新描述。這些描述被精心設計,用于精確描述圖像中的文本內容、視覺呈現(xiàn)方式以及上下文關系。

最后,這些以文本為中心的描述被輸入到 FLUX.1-dev 中。最終的合成步驟生成了高質量圖像,其中渲染的文本與精煉后的描述直接對應,形成了文本渲染類別的高質量訓練語料。

這種結合高質量基礎與針對性增強策略的全面合成工作,最終產(chǎn)出了一個包含 800 萬張圖像的龐大圖集。該集合為后續(xù)的篩選、多維分類與密集標注流程提供了優(yōu)質原材料,確保最終的 FLUX-Reason-6M 數(shù)據(jù)集中的每一張圖像都符合嚴格的質量與語義相關性標準。

基于視覺語言模型的質量篩選與多維評分

為了將最初合成的 800 萬張圖像轉化為精心策劃的資源,本文設計并執(zhí)行了一個多階段、基于視覺語言模型(VLM)的流程,用于系統(tǒng)性地篩選、分類與驗證每一張圖像。該流程確保 FLUX-Reason-6M 中的所有數(shù)據(jù)都具備卓越的視覺質量與精確的類別相關性。

基礎質量篩選 

第一階段聚焦于圖像的視覺完整性。本文使用 Qwen-VL 作為自動化質量檢測器,其任務是分析每張圖像的基本清晰度與結構一致性。該步驟識別并剔除了存在以下問題的圖像樣本:過度模糊、干擾性噪聲,或在物體與人物結構上存在顯著失真的圖像。通過清除這些低質量樣本,本文為后續(xù)更復雜的標注與篩選階段建立了一個具備審美與結構完整性的圖像基礎。

穩(wěn)健的多維分類 

下一個關鍵步驟是將數(shù)據(jù)集組織為多維結構。本文利用 Qwen-VL 對每張已篩選圖像按照六個預定義特征進行評估:Imagination、Entity、Text rendering、Style、Affection 和 Composition。

本文并未采用簡單的二元分類,而是引入量化評分系統(tǒng),由模型為每個特征分配一個從 1 到 10 的相關性評分。本文為每個特征精心設定了校準閾值,最終確定圖像的類別。該系統(tǒng)專為多標簽分類設計,能夠準確識別一張圖像同時屬于多個特征(例如 Entity 和 Style)的情況。

文本渲染的字體質量篩選 

本文發(fā)現(xiàn),即使是高質量的生成模型也可能產(chǎn)生難以辨認或語境錯誤的文本??紤]到字體生成的獨特挑戰(zhàn),為 Text rendering 類別專門引入了一個特化的篩選階段。為了確保數(shù)據(jù)集為這一困難任務提供清晰可靠的信號,本文再次使用 Qwen-VL 作為嚴格的字體質量檢測器。它會對被標記為 Text rendering 的圖像進行詳細掃描,并剔除所有包含低對比度、扭曲或無意義文本的實例。此關鍵步驟確保了該特征下數(shù)據(jù)的最高保真度。

在最初的 800 萬候選圖像中,約有 600 萬張圖像通過了嚴格的質量與相關性標準。這些圖像已通過質量驗證,并被標注上與本文六個特征直接對應的豐富標簽,為最終的高密度標注階段做好準備。

基于視覺語言模型的密集描述與推理框架構建

在建立起高質量分類圖像基礎之后,接下來的關鍵階段是生成豐富的多維描述,并構建生成式思維鏈(generation chain-of-thoughts),在數(shù)據(jù)集中嵌入推理的種子。

這一過程代表了從傳統(tǒng)描述范式的轉變,超越了簡單的描述性文本,構建出一個結構化且具備推理意識的標注框架,明確引導模型如何分解并理解復雜的視覺場景。

特定類別的密集描述

本文的標注策略核心在于利用視覺語言模型(如 Qwen-VL)先進的多模態(tài)推理能力,為每張圖像生成高度針對性的、特定類別的描述。不同于傳統(tǒng)方法生成通用描述,本文的方法生成詳盡的描述,強調圖像所體現(xiàn)的特定特征。

例如,在處理屬于 Entity 類別的圖像時,Qwen-VL 被指示生成以準確識別和詳細描述場景中具體物體、地標或人物為優(yōu)先的描述。相反,對于 Style 類別的圖像,生成的描述則強調藝術技法、視覺美學和定義藝術風格的元素。

這種類別感知的描述生成確保每條標注都作為有針對性的訓練信號,教會模型識別并表達不同類別視覺內容所需的具體類型。由于每張圖像可能被分配到多個類別,該過程最終形成一組豐富的并行描述,每條描述都提供理解圖像內容與結構的獨特視角。由此產(chǎn)生的標注密度遠超傳統(tǒng)數(shù)據(jù)集。

生成思維鏈合成 

本文標注流程的核心步驟是結合生成思維鏈(GCoT),這是 FLUX-Reason-6M 的主要貢獻與關鍵特征。

為了構建這些推理過程,本文采用一種有意的融合策略:將圖像及其所有類別特定描述作為完整上下文輸入 Qwen-VL。該全面輸入使模型能夠合成詳細的逐步推理鏈,不僅澄清圖像中存在的元素,還揭示這些元素如何相互作用、特定布局為何存在,以及控制場景構圖的構圖與語義原則。

最終生成的 GCoT 描述是密集、詳細的敘述性文本,作為顯式的推理模板。它們逐層解構圖像的邏輯,解釋空間關系、藝術選擇、色彩協(xié)調、情感基調與構圖平衡。相比傳統(tǒng)描述,這些描述為模型提供了前所未有的洞察力,幫助其理解復雜圖像合成背后的創(chuàng)意與邏輯過程。

可泛化的原始描述整合與大規(guī)模雙語發(fā)布

原始描述整合 

為了拓展超出本文精心設計的推理信號的泛化能力,本文在 Laion-Aesthetics 中重新整合那些能可靠描述 FLUX.1-dev 合成圖像的高質量原始描述。具體而言,本文使用 Qwen-VL 作為對齊評估器,對每條原始 Laion 描述與其配對的 FLUX 圖像之間的語義對應關系進行評分。得分超過校準閾值的描述將被保留作為額外監(jiān)督信號,從而確保涵蓋多樣的自然語言表達,同時避免圖文偏離。在整合原始描述、特定類別描述和 GCoT 標注后,語料庫總計包含 2000 萬條獨特描述。

全面的雙語翻譯 

為了讓這一強大資源更易獲取,并促進國際合作,本文對整個描述語料庫進行了全面的中文翻譯。利用 Qwen 的先進翻譯能力,所有原始描述、特定類別描述與 GCoT 描述均被翻譯。然而,對于 Text rendering 類別,本文實施了一項關鍵的內容保留策略。為了保持任務的語義完整性,圖像中用于渲染的特定英文文本在翻譯后的描述中保持原樣。例如,一個提示為“a sign that reads ‘FLUX-Reason-6M’”的請求會被翻譯,但短語 “FLUX-Reason-6M” 會保持英文形式。

這一雙語框架使 FLUX-Reason-6M 成為最大且最易獲取的雙語文本生成圖像(T2I)推理數(shù)據(jù)集之一,顯著拓展了其對全球研究人員的影響力與實用性。

下圖 4 展示了 FLUX-Reason-6M 數(shù)據(jù)集的統(tǒng)計特征,包括原始提示來源的比例(左)、每種描述類型的數(shù)量與百分比(中)。本文還統(tǒng)計了七個英文描述類別的詞數(shù)分布,并在圖 4 右側進行了可視化。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

PRISM-Bench

為了解決文本生成圖像(T2I)合成中關鍵的評估缺口,本文提出了 PRISM-Bench。現(xiàn)有基準測試通常缺乏細粒度,無法區(qū)分最先進模型,僅依賴粗略指標或定義狹窄的任務。PRISM-Bench 克服了這些限制,提供了一個多維度、細粒度的評估框架。

它包含七個不同的子任務,每個子任務包含 100 條精心挑選的提示,旨在探索 T2I 模型的能力邊界。這些子任務直接對應于本文數(shù)據(jù)集的六個特征:Imagination、Entity、Style、Text rendering、Composition 和 Affection,以及一個由 GCoT 提示構建的具有挑戰(zhàn)性的 Long Text 任務。下圖 5 展示了本文 PRISM-Bench 的概覽。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

提示設計與構建

每個子任務的 100 條提示被分為兩組,每組 50 條,用于衡量模型性能的不同方面。第一組提示系統(tǒng)性地從 FLUX-Reason-6M 數(shù)據(jù)集中采樣,以確保廣泛的代表性;第二組提示則經(jīng)過精心策劃,用于針對每個特征的特定挑戰(zhàn)性方面。

代表性提示采樣 

對于每個子任務,有 50 條提示直接來自 FLUX-Reason-6M 數(shù)據(jù)集。為了避免選擇偏差并確保覆蓋范圍廣泛,本文不采用簡單的隨機采樣,而是使用語義聚類與分層采樣的方法。具體而言,對于每個類別(例如 Entity),本文從 FLUX-Reason-6M 數(shù)據(jù)集中收集數(shù)據(jù)集中評分最高的前 10,000 條提示。然后本文使用 K-Means 算法將這些提示劃分為k=50個不同的語義聚類。每個聚類代表該類別中的一個獨特概念主題。本文從每個聚類中選擇最接近聚類中心(即該組的數(shù)學中心)的提示,并將其從數(shù)據(jù)集中移除。該提示被視為該語義主題中最具代表性的樣本。

這種方法保證了概念的多樣性。它不會對常見主題進行過度采樣,而是確保這 50 條提示涵蓋了數(shù)據(jù)集中該類別所代表的所有概念。

類別特定提示構建 

每個子任務的另外 50 條提示來自本文的精心策劃。具體如下:

  • 想象力:本文首先將想象類概念劃分為多個主要類別,例如物理不可能性和超現(xiàn)實敘事。然后本文使用 LLM(Gemini2.5-Pro)從一個或多個類別中隨機選擇元素,以生成相應的提示。
  • 實體:本文整理了不同類別實體的列表:著名地標、特定動植物種類、歷史人物和品牌物品。然后本文利用 LLM 隨機選擇一到三個實體,生成相應提示。
  • 文本渲染:本文設計了不同長度的文本內容(例如:“FLUX-Reason-6M”、“Welcome to the future ... ...”)、不同字體風格(例如手寫體、涂鴉噴漆),以及不同的表面與位置(例如在木質標牌上、在 T 恤上)。通過 LLM 系統(tǒng)性地組合這三類元素,生成相應提示。
  • 風格:本文定義了四大風格類別,包括藝術流派(例如印象派、立體主義)、媒介形式(例如油畫、水彩)、攝影技術(例如長曝光、微距攝影)以及數(shù)字/現(xiàn)代美學(例如像素藝術、蒸汽波)。這些類別總計包含 25 種詳細風格,本文使用 LLM 為每種風格生成 2 條提示.
  • 情感表達:本文以 Plutchik 的情緒之輪作為基礎來源,選擇了不僅包括八種基本情緒(喜悅、信任、恐懼、驚訝、悲傷、厭惡、憤怒、期待),還包括它們的輕微和更強烈形式。本文要求 LLM 基于這些情緒生成相應的提示。
  • 構圖:本文構建了多個屬性池,包括顏色、數(shù)量、尺寸、空間關系等。每次生成時,從每個屬性池中抽取若干屬性,并由 LLM 自由組合,生成包含多個對象及其多樣關系的提示。
  • 長文本:本文從 FLUX-Reason-6M 數(shù)據(jù)集中選取 50 張高質量圖像及其所有對應的描述文本,輸入至 Gemini2.5-Pro 進行長文本擴展,最終生成 50 條具有挑戰(zhàn)性的提示。

PRISM-Bench-ZH  本文使用 Gemini2.5-Pro 將英文提示翻譯成中文,從而構建 PRISM-Bench-ZH。值得注意的是,在 Text rendering 子任務中,本文并未簡單地將所有文本翻譯為中文,而是根據(jù)中文語境進行適配。例如,原文 “A bottle labeled ‘WHISTLEPIG’ featuring ‘SMOKED BARREL-AGED RYE’ sits alongside two clear whiskey glasses, showcasing a refined presentation of the spirit” 被翻譯為 “一個標有‘茅臺’并寫著‘珍品醬香型白酒’的酒瓶,旁邊放著兩個透明的白酒杯,盡顯這款烈酒的精致典雅。”

人類參與優(yōu)化 

本文對所有生成的提示進行審查,以確保其無歧義、語法正確且邏輯合理(即使是幻想性的),從而確保評估的公平性與挑戰(zhàn)性。最終,本文獲得了 700 條多樣、具有代表性、富有挑戰(zhàn)性且雙語的提示。

評估協(xié)議

為了確保對模型能力進行穩(wěn)健且細致的評估,本文制定了一套全面的評估流程。本文的方法核心是利用 VLM 的高級認知能力作為人類判斷的代理,從兩個關鍵維度對模型性能進行細致分析:提示-圖像一致性(prompt-image alignment)與圖像美學(image aesthetics)。通過精心設計的提示,本文引導 VLM 從不同視角對生成結果進行評估。這種雙指標方法提供了對每個模型優(yōu)劣勢的整體視圖。本文分別采用 GPT-4.1 和 Qwen2.5-VL-72B 作為閉源與開源 VLM 的代表進行評估。

細粒度一致性評估 

本文方法的核心創(chuàng)新在于使用子任務特定的評估提示來評估一致性。本文認識到,通用的 “圖像是否匹配提示?” 的問題不足以捕捉每個類別的具體挑戰(zhàn),因此本文為 VLM 設計了針對七個子任務重點的定制指令。這確保了評估不僅關注整體對應關系,還關注提示所測試的具體任務是否成功完成。對于每一張生成圖像,VLM 會提供一句話的評價理由,并根據(jù)以下子任務特定標準打出 1(極差一致性)到 10(完美一致性)之間的分數(shù):

  • 想象力:評估重點在于模型是否成功地合成了所描述的新穎或超現(xiàn)實概念,獎勵那些富有創(chuàng)意且連貫地詮釋想象性想法的結果。
  • 實體:一致性評分依據(jù)是對特定、具名的現(xiàn)實世界實體的準確呈現(xiàn),包括其關鍵特征和上下文。
  • 想象力:評分標準嚴格,重點考察圖像中文字的可讀性、拼寫準確性,以及指定文本在圖像中的精確位置。
  • 風格:VLM 被指示評估生成圖像與明確請求的藝術或攝影風格(例如,“印象派”、“長曝光”)的一致性,檢查是否具備該風格的特征性技法。
  • 情感表達:評估重點是圖像是否通過顏色、光照和主體表情等視覺線索有效傳達指定的情緒、情感或氛圍。
  • 構圖:VLM 的提示強調驗證物體的空間排列、相對位置(例如,“在左側”、“在后面”)、顏色表現(xiàn),以及圖文所要求的物體數(shù)量是否正確。
  • 長文本:對于這一具有挑戰(zhàn)性的子任務,評估衡量模型是否能夠從復雜、多句的 GCoT 提示中吸收并體現(xiàn)出高密度的細節(jié)信息。 這種有針對性的方法能夠更精確且有意義地衡量模型在每一個不同類別中的能力。

統(tǒng)一美學評估 

不同于一致性指標,圖像美學的評估在所有七個子任務中使用一套統(tǒng)一的 VLM 指令。這是因為美學質量——涵蓋光照、色彩協(xié)調、細節(jié)以及整體視覺吸引力等因素——是一種與具體提示內容無關的通用屬性。VLM 會為每張圖像提供一句話的評價理由,并打出一個美學評分,范圍從 1(極低質量)到 10(專業(yè)質量)。這一統(tǒng)一標準確保了對不同模型生成圖像的內在視覺質量的公平比較。

通過將該評估流程系統(tǒng)性地應用于領先的閉源模型(例如 Gemini2.5-Flash-Image、GPT-Image-1)和開源模型(例如 Qwen-Image、FLUX.1-Krea-dev)所生成的英文圖像,以及適用于中文的模型(例如 SEEDream 3.0、Qwen-Image、Bagel)在 PRISM-Bench-ZH 上的圖像,本文收集了全面的評估結果。每個模型在每個子任務上的表現(xiàn),以該子任務對應的 100 條提示的平均一致性評分和美學評分(映射為 0-100 范圍)表示。這兩個指標的平均值代表模型在該子任務上的綜合表現(xiàn)。七個子任務的整體平均分代表模型的最終表現(xiàn),為當前 T2I 生成技術的發(fā)展狀態(tài)提供了清晰且可操作的概覽。

實驗

本文在 PRISM-Bench 上評估了 19 個先進的圖像生成模型,包括 Gemini2.5-Flash-Image、GPT-Image-1、Qwen-Image、SEEDream 3.0、FLUX 系列、HiDream 系列、Stable Diffusion 系列、Playground、Bagel 和 JanusPro。綜合結果如下表 1 和下表 2 所示。同時,本文還在 PRISM-Bench-ZH 上評估了多個支持中文的模型,包括 GPT-Image-1、Qwen-Image、SEEDream 3.0、HiDream 系列和 Bagel。評估結果匯總于下表 3 和下表 4。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

PRISM-Bench 上的結果與分析

整體表現(xiàn) 

如上表 1 和上表 2 所示,整體結果突顯了當前最先進閉源模型的優(yōu)勢。GPT-Image-1 取得了最高總分86.3 ,緊隨其后的是 Gemini2.5-Flash-Image,得分為85.3 。這些模型在幾乎所有評估子任務中都優(yōu)于其他模型。

在其余模型中,以 Qwen-Image 為代表的一個具有競爭力的梯隊正在形成。盡管與頂級模型之間仍存在明顯的性能差距,這些模型代表了開源社區(qū)的重大進展。HiDream-I1-Full 和 FLUX.1-Krea-dev 也取得了優(yōu)異成績,表明該領域正在迅速發(fā)展。模型系列內部的演進同樣明顯,例如 SDXL 相較于 SD1.5 顯著提升,而更新的 SD3.5-Large 進一步縮小了與頂級模型之間的差距。上表 2 中的 Qwen-VL 評估結果在很大程度上印證了這些排名。

想象力 

Gemini2.5-Flash-Image 以高分88.6  遙遙領先,GPT-Image-1 緊隨其后,得分為8604 。這表明領先的閉源模型具備更高級的創(chuàng)意解讀能力。Qwen-Image 的表現(xiàn)也令人印象深刻,而像 SD1.5 這樣的舊模型表現(xiàn)不佳,常常生成普通或失真圖像,未能捕捉提示中的想象力本質。

實體 

GPT-Image-1 在該任務中表現(xiàn)出色,得分最高為88.2 ,展示了其強大的內部知識庫和高保真渲染能力。Gemini2.5-Flash-Image 和 SEEDream 3.0 也有良好表現(xiàn)。該子任務對世界知識基礎較弱的模型構成挑戰(zhàn),凸顯了大規(guī)模高質量訓練數(shù)據(jù)對于真實世界描繪的重要性。

文字渲染 

文字渲染仍是幾乎所有 T2I 模型面臨的一大挑戰(zhàn)。本文的基準測試驗證了這一點,該類別在所有子任務中得分最低。值得注意的是,Bagel 和 JanusPro 等自回歸模型在此任務中表現(xiàn)較差,突顯了自回歸架構在文字渲染任務中的固有局限性。

風格 

GPT-Image-1 在該任務中表現(xiàn)出色,得分為93.1 。大多數(shù)現(xiàn)代模型在該任務中表現(xiàn)相對較好,能夠高度還原所請求的風格。這些模型的高分表明,相較于文字渲染等任務,捕捉風格本質的能力更加成熟。

情感表達 

頂級模型在捕捉情緒與氛圍方面展現(xiàn)出卓越能力。Gemini2.5-Flash-Image 以令人印象深刻的 92.1 分領先,GPT-Image-1 和 Qwen-Image 緊隨其后。值得注意的是,F(xiàn)LUX.1-dev 在該類別中取得了最高的美學評分,表明其生成的圖像在視覺上傳達情感方面特別有效,即使在提示一致性方面略低。

構圖 

GPT-Image-1 以高分92.8  遙遙領先,充分展示了其解析并執(zhí)行復雜空間指令的能力。Gemini2.5-Flash-Image 緊隨其后,得分為90.5 。頂級開源模型在該領域具有很強的競爭力。Qwen-Image 的得分幾乎與 Gemini2.5-Flash-Image 相同,表明在復雜構圖理解方面的差距正在縮小。HiDream-I1-Full 和 FLUX.1-dev 等模型也展現(xiàn)出強大的構圖能力。頂級模型之間的微小差異表明,構圖控制正在成為現(xiàn)代圖像生成系統(tǒng)中的一項成熟能力。

長文本 

評估結果清晰地區(qū)分了頂級模型。Gemini2.5-Flash-Image 以 81.1 的最高得分領先,GPT-Image-1 和 SEEDream 3.0 也表現(xiàn)相對較好。然而,與其他子任務相比,所有模型在該任務中的整體得分顯著偏低,表明在根據(jù)復雜、多層次提示生成高質量圖像方面仍有巨大提升空間。下圖 6 展示了一個典型示例。這突顯了 FLUX-Reason-6M 所要解決的推理能力缺口問題。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

PRISM-Bench-ZH 的結果與分析

PRISM-Bench-ZH 的評估結果揭示了一個明確的性能層級,GPT-Image-1 以總分87.5 建立了其領先地位。它在大多數(shù)子任務中均處于領先地位,包括想象力、實體、風格、情感表達和構圖,展現(xiàn)了其在應對中文提示時的卓越創(chuàng)意解讀、知識基礎和空間布局能力。同時,SEEDream 3.0 和 Qwen-Image 在所有子任務中表現(xiàn)出強勁的競爭力,常常接近或接近領先者的水平。尤其值得注意的是 SEEDream 3.0 和 Qwen-Image 在文字渲染方面的表現(xiàn),這與英文文本生成中普遍存在的弱點形成鮮明對比。

在這些模型中,SEEDream 3.0 與 GPT-Image-1 擁有最高的平均得分,其中 SEEDream 3.0 獲得了最高的美學評分,表明其具備渲染高質量中文字符的能力。這些模型的強勁表現(xiàn)驗證了基準測試在中文文化適應性提示設計上的合理性,并突顯了在中文排版處理方面的顯著進步。下圖 7 展示了不同模型在中文文字渲染方面的示例。

T2I進入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構建完成!-AI.x社區(qū)

盡管如此,與 PRISM-Bench 的測試結果一致,長文本子任務仍然是所有模型面臨的最大挑戰(zhàn)。雖然 GPT-Image-1 再次在該類別中領先,但整體得分偏低,凸顯了理解和合成冗長、復雜中文指令的巨大障礙。這進一步強調了像 FLUX-Reason-6M 這樣的推理導向數(shù)據(jù)集的迫切需求,以解決現(xiàn)有能力缺口,訓練新一代真正智能的文本生成圖像模型。

結論

本研究通過兩個關鍵貢獻解決了文本生成圖像模型中的核心問題:FLUX-Reason-6M 數(shù)據(jù)集與 PRISM 基準測試。FLUX-Reason-6M 是一個包含 600 萬張圖像、2000 萬條高質量提示的大規(guī)模數(shù)據(jù)集,專為推理任務設計,具備創(chuàng)新的“生成-思維鏈”結構,賦予模型跨越六大特征的圖像合成邏輯。為衡量進展,本文開發(fā)了 PRISM-Bench,一個涵蓋七個子任務的全面基準測試,利用先進的多模態(tài)大模型(VLM)實現(xiàn)細粒度、貼近人類偏好的評估。

在 19 個模型上的廣泛實驗表明,盡管領先的閉源系統(tǒng)展現(xiàn)出令人印象深刻的性能,所有模型在諸如文字渲染和長指令遵循等復雜任務上仍然存在困難,這進一步凸顯了本文工作的必要性。通過公開發(fā)布該數(shù)據(jù)集、基準測試和評估代碼,為社區(qū)提供了訓練和評估下一代更智能、更強大文本生成圖像模型的關鍵工具。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/mJuZ7vgPYzIX-Dvs16ZI8Q??

已于2025-9-15 10:07:02修改
收藏
回復
舉報
回復
相關推薦