偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?

發(fā)布于 2025-6-6 06:14
瀏覽
0收藏

背景

隨著 GPT-4o 在圖像生成任務(wù)上的橫空出世,以及越來(lái)越多采用 自回歸架構(gòu)(auto-regressive architecture) 的文本到圖像(T2I)模型迅速發(fā)展,當(dāng)前一代的生成模型在理解與執(zhí)行用戶復(fù)雜指令(prompts)方面,已經(jīng)實(shí)現(xiàn)了飛躍式突破?。

如今的 T2I 模型不僅能識(shí)別多個(gè)屬性(如顏色、材質(zhì)、風(fēng)格等),還能處理帶有 邏輯推理結(jié)構(gòu)甚至復(fù)雜修辭的超長(zhǎng)自然語(yǔ)言指令。

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:

1.a blue star;2.red triangle;3. green square;4.pink circle;5.orange hourglass;6.purple infinity sign;7.black and white polka dot bowtie;8.tiedye "42";9. an orange cat wearing a black baseball cap;10.a map with a treasure chest;11. a pair of googly eyes;12.a thumbs up emoji;13. a pair of scissors;14.a blue and white giraffe;15.the word "OpenAI" written in cursive;16.a rainbow-colored lightning bolt

例如:GPT-4o生圖的官方例子,prompt涉及數(shù)百個(gè)單詞,以及非常復(fù)雜的屬性與位置關(guān)系組合

?? 然而問(wèn)題也隨之暴露:現(xiàn)有主流的 T2I Benchmark 明顯滯后,無(wú)法有效衡量這些強(qiáng)模型的真實(shí)能力。

?? 我們總結(jié)出當(dāng)前 T2I 評(píng)測(cè)基準(zhǔn)面臨的四大問(wèn)題:

1?? Prompt 設(shè)計(jì)簡(jiǎn)化、結(jié)構(gòu)單一:許多 benchmark 中的大多數(shù)prompt 長(zhǎng)度極短,而且大多為模板化句式(如“a photo of a [object] with [attribute]”),難以反映真實(shí)使用場(chǎng)景中復(fù)雜需求的處理能力。

2?? 語(yǔ)義多樣性嚴(yán)重不足:以 GenAI Bench 為例,其 prompt 集中度極高,只有不到 30% 的 prompts 是語(yǔ)義獨(dú)立的(semantic unique),導(dǎo)致模型評(píng)測(cè)分?jǐn)?shù)逐漸“內(nèi)卷收斂”,難以區(qū)分強(qiáng)模型和弱模型的能力差異。

3?? 缺乏真實(shí)場(chǎng)景長(zhǎng)指令:現(xiàn)實(shí)中,用戶往往會(huì)輸入多屬性、帶有條件關(guān)系和上下文邏輯的自然語(yǔ)言描述。而現(xiàn)有 benchmark 極少覆蓋這類“設(shè)計(jì)師風(fēng)格”或“專業(yè)用戶需求”指令,導(dǎo)致模型訓(xùn)練和評(píng)測(cè)脫節(jié)。

4?? 評(píng)測(cè)方法粗糙且與人類直覺不符:目前大多數(shù) benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)進(jìn)行自動(dòng)評(píng)測(cè)。這類評(píng)測(cè)手段僅能判斷“是否與文本概念大致對(duì)齊”,卻無(wú)法評(píng)估圖像中每個(gè)細(xì)節(jié)是否精準(zhǔn)反映用戶意圖(例如無(wú)法區(qū)分“a boy under a bee”和“a bee under a boy”),也無(wú)法體現(xiàn)人類真實(shí)偏好??。

現(xiàn)有Bench的不足之處

Prompt 設(shè)計(jì)的不足:簡(jiǎn)化、結(jié)構(gòu)單一,語(yǔ)義多樣性與文法多樣性不足,且缺乏真實(shí)場(chǎng)景長(zhǎng)指令:

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

長(zhǎng)度偏短且固定(右圖):常見bench中的絕大多數(shù)prompt都不大于30個(gè)單詞,這和現(xiàn)實(shí)場(chǎng)景中T2I模型所面對(duì)的prompt長(zhǎng)度gap很大;

缺乏真實(shí)使用場(chǎng)景下的長(zhǎng)指令(左下圖):常見Bench的最長(zhǎng)prompt也是較為簡(jiǎn)單的句子,TIIF-Bench包含了許多從AIGC論壇上手工收集的復(fù)雜、真實(shí)用戶prompt;

語(yǔ)義重復(fù)性高(左上圖):我們使用CLIP提取了不同Bench中所有prompts的文本語(yǔ)義特征并計(jì)算了consine相似度,以0.85為threshold,發(fā)現(xiàn)GenAI Bench中只有不到30%的prompt是semantic unique的,Compbench++中只有不到60%,而TIIF-Bench中semantic unique prompts大于90%;

文法復(fù)雜度低(中間圖):我們將不同Bench的所有prompts的CLIP文本語(yǔ)義特征進(jìn)行了t-SNE降維,TIIF-Bench的range范圍最大;


然而實(shí)驗(yàn)表明:即使核心語(yǔ)義相同,不同長(zhǎng)度的prompt對(duì)T2I model有很大影響:

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

 現(xiàn)有的bench完全缺乏這一維度的考量!

評(píng)測(cè)方法的不足:粗糙且與人類直覺不符

目前大多數(shù) benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)和其它一些專家模型進(jìn)行自動(dòng)評(píng)測(cè):

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

然而CLIP無(wú)法評(píng)估圖像中每個(gè)細(xì)節(jié)是否精準(zhǔn)反映用戶意圖(例如無(wú)法區(qū)分“a boy under a bee”和“a bee under a boy”),也無(wú)法體現(xiàn)人類真實(shí)偏好??。UNIDet等開集檢測(cè)模型則無(wú)法對(duì)現(xiàn)代T2I model生成的復(fù)雜圖像進(jìn)行有效檢測(cè)。

TIIF-Bench的構(gòu)建

我們?cè)O(shè)計(jì)了一個(gè) 多階段的 prompt 生成流程:

1?? 概念池構(gòu)建(Concept Pool Construction)

?首先對(duì)現(xiàn)有 benchmark 的 prompt 進(jìn)行語(yǔ)義分組,借助 GPT-4o 自動(dòng)提取核心的“物體–屬性/關(guān)系”結(jié)構(gòu)。

?最終我們構(gòu)建了 10 個(gè)概念維度,并將其劃分為三大類:屬性類(Attribute)、關(guān)系類(Relation) 和 推理類(Reasoning),詳見:

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)圖片

2?? 屬性組合(Attribute Composition)

?從上述概念池中采樣屬性組合,使用 GPT-4o 自動(dòng)生成自然語(yǔ)言指令。我們?cè)O(shè)計(jì)了 36 個(gè)不同的組合模式,并為每種組合搭配了專屬的 meta-prompt 引導(dǎo)生成。

?組合策略分為:

?Basic Following:只涉及同一類屬性的組合;

?Advanced Following:跨類別組合,內(nèi)容更復(fù)雜;

3?? 新評(píng)測(cè)維度

?Text Rendering:衡量T2I模型生成復(fù)雜非自然紋理的能力!我們專門設(shè)計(jì)了新指標(biāo)GNED來(lái)對(duì)其進(jìn)行評(píng)測(cè),難度歸類為Advanced Following;

?Style Control:衡量T2I模型整體的內(nèi)容理解與控制能力!我們從手動(dòng)AIGC社區(qū)挑選了10個(gè)最常用的風(fēng)格,難度歸類為Advanced Following;

?Real World:衡量T2I模型的綜合能力!我們手動(dòng)從AIGC社區(qū)篩選了100個(gè)受歡迎、內(nèi)容復(fù)雜、有趣的設(shè)計(jì)師級(jí)別prompt,難度單獨(dú)歸類為Designer Level Following;

4?? 長(zhǎng)度擴(kuò)展(Length Augmentation)

?為每條 prompt 自動(dòng)生成一個(gè) 長(zhǎng)文本版本,通過(guò) GPT-4o 進(jìn)行語(yǔ)言豐富化和風(fēng)格潤(rùn)色,測(cè)試模型對(duì)不同語(yǔ)言復(fù)雜度指令的適應(yīng)能力。

TIIF-Bench的評(píng)測(cè)流程

我們提出了一種基于 屬性級(jí)問(wèn)答匹配(Attribute-Specific QA Matching) 的評(píng)測(cè)框架:

? 核心步驟:

1.概念抽?。?         
   從生成指令中提取出 N 個(gè)核心語(yǔ)義概念(如物體屬性、物體間關(guān)系、邏輯關(guān)系等);?

2.問(wèn)題生成:          
   由 GPT-4o 為每個(gè)概念自動(dòng)生成一個(gè)二選一問(wèn)句(Yes/No Question),如“這張圖中有紅色汽車嗎?”、“人是在汽車的左邊嗎?”;?

3.答案匹配:          
   將生成圖像和所有問(wèn)題一起輸入到多模態(tài)大模型(如 GPT-4o 或 QwenVL),獲取預(yù)測(cè)答案,并與標(biāo)準(zhǔn)答案進(jìn)行比較;?

4.評(píng)分計(jì)算:          
   通過(guò)平均匹配準(zhǔn)確率得出最終分?jǐn)?shù),避免了使用全 prompt 的語(yǔ)言偏見與幻覺。?

?? 特殊維度評(píng)測(cè):

?Designer-Level Prompt:每條指令搭配人工制定的專屬問(wèn)句,確保高可靠性。

?Text Rendering:使用OCR Recall和全新提出的指標(biāo) GNED(Global Normalized Edit Distance):

?用于衡量圖中文字與目標(biāo)文本在字符層面的匹配度;

?同時(shí)懲罰遺漏、冗余、錯(cuò)誤字形等問(wèn)題;

?相比 PNED 更穩(wěn)定、魯棒,適用于任意文本長(zhǎng)度與格式。

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

一些有趣的insights

我們將模型分為三類進(jìn)行分析:

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

1?? Diffusion 架構(gòu)的開源模型

代表模型包括:SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。

?整體表現(xiàn):SD 3.5 在短指令上得分最高;而 FLUX.1 Dev 在長(zhǎng)指令場(chǎng)景中表現(xiàn)最強(qiáng),得益于其 MMDiT 架構(gòu)和更大模型規(guī)模。

?文字生成(Text Rendering):僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支持文本生成。其中 FLUX.1 Dev 在短長(zhǎng)指令下均表現(xiàn)穩(wěn)定。

?風(fēng)格控制(Style Control):部分模型(如 Playground)在長(zhǎng) prompt 下風(fēng)格生成質(zhì)量反而更好,因?yàn)殚L(zhǎng)指令提供了更多語(yǔ)義上下文;而 SD 3.5、PixArt-Sigma 等模型更依賴短標(biāo)簽提示,長(zhǎng) prompt 會(huì)稀釋風(fēng)格信號(hào)。

?設(shè)計(jì)師級(jí)指令:這類 prompts 是最具挑戰(zhàn)性的維度,模型在該維度的排名通常也代表其綜合實(shí)力。

?對(duì) prompt 長(zhǎng)度的魯棒性:如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現(xiàn)穩(wěn)定;而弱模型(如 SDXL、PixArt-Alpha)在長(zhǎng)指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關(guān)!

2?? 自回歸(AR)架構(gòu)的開源模型

代表模型包括:Janus-Pro、Infinity、Show-o 等

?整體表現(xiàn):Janus-Pro 表現(xiàn)最佳,得益于其融合生成與理解的訓(xùn)練策略。

?文字生成能力較弱,但 Janus-Pro 和 Show-o 可生成基本文字。

?風(fēng)格控制能力強(qiáng),對(duì)復(fù)雜風(fēng)格語(yǔ)義理解更到位。

?視覺保真度略遜一籌,但在復(fù)雜邏輯理解、長(zhǎng) prompt 指令跟隨方面表現(xiàn)亮眼。

全新的 TIIF-Bench基準(zhǔn)帶你測(cè)試你的T2I模型是否真的看懂了你的prompt?-AI.x社區(qū)

自回歸T2I模型雖然在生成圖像畫質(zhì)方面表現(xiàn)一般,但是在理解指令方面表現(xiàn)優(yōu)異

3?? 閉源模型

包括:GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等

?GPT-4o 在所有維度遙遙領(lǐng)先,不僅圖像質(zhì)量極高,指令理解也最強(qiáng),是唯一在復(fù)雜邏輯推理(如否定、比較等)任務(wù)上始終保持穩(wěn)定的模型。

?文字渲染上,GPT-4o 成功率遠(yuǎn)高于其他模型。

?風(fēng)格控制與設(shè)計(jì)師指令執(zhí)行能力方面也顯著優(yōu)于所有閉源/開源對(duì)手。

?值得注意的是,F(xiàn)lux.1 Pro 的表現(xiàn)竟不如開源的 Flux.1 Dev,尤其是在長(zhǎng) prompt 情境下,閉源不一定優(yōu)于開源!

?? 與其他 Benchmark 對(duì)比

我們選取了四個(gè)開源模型(SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro)和四個(gè)閉源模型(GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro),在三個(gè) Benchmark 上進(jìn)行橫向評(píng)測(cè):TIIF-Bench、CompBench++、GenAI Bench。

?? 對(duì)比發(fā)現(xiàn)

?GenAI Bench 和 CompBench++ 中存在評(píng)分收斂、模型難以區(qū)分的問(wèn)題,例如多個(gè)模型得分完全一樣。

?CompBench++ 中,專家模型打分與 GPT 打分存在顯著偏差。

?TIIF-Bench 在評(píng)測(cè)維度細(xì)致度、模型區(qū)分能力方面更強(qiáng),能夠穩(wěn)定給出符合模型能力的排序。

本文轉(zhuǎn)載自??AI-PaperDaily??,作者:AI-PaperDaily


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦