偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

文生圖進(jìn)入R1時代:港中文MMLab發(fā)布T2I-R1,讓AI繪畫“先推理再下筆”

人工智能
T2I-R1的出現(xiàn)證明了CoT在圖像生成中的有效性,實現(xiàn)了高效可拓展的生成架構(gòu),為多模態(tài)生成任務(wù)提供了新的推理增強(qiáng)范式。

“先推理、再作答”,語言大模型的Thinking模式,現(xiàn)在已經(jīng)被拓展到了圖片領(lǐng)域。

近日,港中文MMLab團(tuán)隊發(fā)布了第一個基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)文生圖模型:T2I-R1。

大家都知道,OpenAI o1和DeepSeek-R1這類的大語言模型(LLMs),已經(jīng)在解數(shù)學(xué)題和寫代碼這些需要“動腦筋”的事情上面展現(xiàn)出了較高的水平。

這些模型通過強(qiáng)化學(xué)習(xí)(RL),先使用全面的思維鏈(CoT)逐步分析問題,推理后再提供答案。

這種方法大大提高了答案的準(zhǔn)確性,很適合用于處理一些復(fù)雜問題。

同理,如果能把強(qiáng)化學(xué)習(xí)應(yīng)用在圖片理解的多模態(tài)大模型中(LMMs),像是圖片理解或者文生圖這樣的任務(wù)就能解決得更加出色。

想法是好的,但在實際操作中總會碰到一些問題:

比如,該如何將語義和生成結(jié)合起來,讓語義理解服務(wù)于圖像生成?

又比如,如何對圖像生成的結(jié)果進(jìn)行質(zhì)量評估,讓模型在生成中學(xué)習(xí)?

目前CoT推理策略如何應(yīng)用于自回歸的圖片生成領(lǐng)域仍然處于探索階段,港中文MMLab之前的工作Image Generation with CoT(鏈接見文末)對這一領(lǐng)域就有過首次初步的嘗試:通過關(guān)注多種推理技術(shù),找到了有效適應(yīng)圖像生成的推理方法,并提出了專門用于自回歸圖像生成的評估獎勵模型。

而T2I-R1在此基礎(chǔ)上首次提出了雙層級的CoT推理框架和BiCoT-GRPO強(qiáng)化學(xué)習(xí)方法。

無需額外模型,即可實現(xiàn)文本到圖像生成的推理應(yīng)用。

圖片生成的雙層推理解法

與圖片理解不同,圖片生成任務(wù)需要跨模態(tài)的文本與圖片的對齊以及細(xì)粒度的視覺細(xì)節(jié)的生成。

傳統(tǒng)的推理方法很難同時兼顧兩種能力,而現(xiàn)有的自回歸生成模型(如VAR)缺乏顯式的語義級推理能力。

為此,港中文團(tuán)隊提出了適用于圖片生成的兩個不同層次的CoT推理:

圖片圖片

Semantic-level CoT

  • Semantic-level CoT 是對于要生成的圖像的文本推理,在圖像生成之前進(jìn)行。
  • 負(fù)責(zé)設(shè)計圖像的全局結(jié)構(gòu),例如每個對象的外觀和位置。
  • 優(yōu)化Semantic-level CoT可以在圖片Token的生成之前顯式地對于Prompt進(jìn)行規(guī)劃和推理,使生成更容易。

Token-level CoT

  • Token-level CoT是圖片Token的逐塊的生成過程。這個過程可以被視為一種CoT形式,因為它同樣是在離散空間中基于所有先前的Token輸出后續(xù)的Token,與文本CoT類似。
  • Token-level CoT更專注于底層的細(xì)節(jié),比如像素的生成和維持相鄰Patch之間的視覺連貫性。
  • 優(yōu)化Token-level CoT可以提高生成圖片的質(zhì)量以及Prompt與生成圖片之間的對齊。

圖片圖片

統(tǒng)一的雙層級CoT框架

然而,盡管認(rèn)識到這兩個層次的CoT,一個關(guān)鍵問題仍然存在:我們怎么協(xié)調(diào)與融合它們?

當(dāng)前主流的自回歸圖片生成模型,如VAR,完全基于生成目標(biāo)進(jìn)行訓(xùn)練,缺乏Semantic-level CoT推理所需的顯式文本理解。

雖然引入一個專門用于提示解釋的獨立模型(例如LLM)在技術(shù)上是可行的,但這種方法會顯著增加計算成本、復(fù)雜性和部署的困難。

最近也出現(xiàn)了一種將視覺理解和生成合并到單一模型中的趨勢:在LMMs的基礎(chǔ)上,這些結(jié)合了視覺理解和生成的統(tǒng)一LMMs(ULMs)不僅可以理解視覺輸入,還可以根據(jù)文本提示生成圖像。

可是,它們的兩種能力仍然是分開的,通常在兩個獨立階段進(jìn)行預(yù)訓(xùn)練。還沒有明確的證據(jù)表明,理解能力可以使生成受益。

鑒于這些潛力和問題,團(tuán)隊從一個ULM(Janus-Pro)開始,增強(qiáng)它以將Semantic-level CoT以及Token-level CoT統(tǒng)一到一個框架中用于文本生成圖像:

圖片圖片

BiCoT-GRPO實現(xiàn)協(xié)同優(yōu)化

在雙層級CoT框架的理論基礎(chǔ)上,團(tuán)隊提出了BiCoT-GRPO,一種使用強(qiáng)化學(xué)習(xí)的方法來聯(lián)合優(yōu)化ULM的兩個層次的CoT:

首先,指示ULM基于Image Prompt來想象和規(guī)劃圖像,獲得Semantic-level CoT。

然后,將Image Prompt和Semantic-level CoT重新輸入ULM來生成圖片以獲得Token-level CoT。

這樣便能對一個Image Prompt生成多組Semantic-level CoT和Token-level CoT,又對得到的圖像計算組內(nèi)的相對獎勵,從而更新GRPO,在一個訓(xùn)練迭代內(nèi)同時優(yōu)化兩個層次的CoT。

BiCoT-GRPO方法首次在單一RL步驟中協(xié)同優(yōu)化語義規(guī)劃與像素生成,相比起分階段訓(xùn)練效率更高、計算成本更低。

T2I-R1:破解生成評估難題

與圖片的理解任務(wù)不同,理解任務(wù)有明確定義的獎勵規(guī)則,而圖像生成中不存在這樣的標(biāo)準(zhǔn)化的規(guī)則。

為此,港中文團(tuán)隊提出使用多個不同的視覺專家模型的集成來作為獎勵模型。這種獎勵設(shè)計有兩個關(guān)鍵的目的:

  1. 它從多個維度評估生成的圖像以確??煽康馁|(zhì)量評估。
  2. 它作為一種正則化方法來防止ULM過擬合到某個單一的獎勵模型。

圖片圖片

根據(jù)上述方法,該團(tuán)隊獲得了T2I-R1——這是第一個基于強(qiáng)化學(xué)習(xí)的推理增強(qiáng)的文生圖模型。

圖片圖片

根據(jù)T2I-R1生成的圖片,團(tuán)隊發(fā)現(xiàn)模型能夠通過推理Image Prompt背后的真實意圖來生成更符合人類期望的結(jié)果,并在處理不尋常場景時展現(xiàn)出增強(qiáng)的魯棒性。

同時,下面的可視化結(jié)果表明,Semantic-level CoT明顯有助于猜測出用戶的真實想法。

比如右上角的例子,加入了Semantic-level CoT的模型猜到了prompt指的是故宮;而Token-level CoT則負(fù)責(zé)得到更美觀的圖像。

圖片圖片

定量的實驗結(jié)果也表明了該方法的有效性:

T2I-R1在T2I-CompBench和WISE在Benchmark上分別比baseline模型提高了13%和19%的性能,在多個子任務(wù)上甚至超越了之前最先進(jìn)的模型FLUX.1。

圖片圖片

圖片圖片

綜上所述,T2I-R1的出現(xiàn)證明了CoT在圖像生成中的有效性,實現(xiàn)了高效可拓展的生成架構(gòu),為多模態(tài)生成任務(wù)提供了新的推理增強(qiáng)范式。

在未來,T2I-R1的框架或能進(jìn)一步拓展至視頻生成、3D內(nèi)容合成等復(fù)雜序列生成任務(wù),推動生成式AI向”能思考、會創(chuàng)作”的通用智能體演進(jìn)。

前序工作(Image Generation with CoT):https://github.com/ZiyuGuo99/Image-Generation-CoT

論文:https://arxiv.org/pdf/2505.00703

代碼:https://github.com/CaraJ7/T2I-R1

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-06-25 09:02:05

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-01-27 12:30:07

2025-01-21 11:53:53

2025-03-19 08:30:00

AI模型數(shù)據(jù)

2025-02-12 12:12:59

2018-09-30 11:53:39

開源 操作系統(tǒng)功能

2025-02-20 15:32:28

2025-01-26 08:40:00

AI模型預(yù)測

2025-04-21 08:42:00

模型開源AI

2025-03-06 10:14:39

2025-03-06 09:55:49

2025-02-17 09:33:00

AI算法模型

2025-02-17 07:35:00

DeepSeek模型數(shù)據(jù)

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-07-04 09:08:00

AI模型架構(gòu)

2025-02-17 00:00:10

DeepSeek

2025-02-08 11:31:17

DeepseekR1模型

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-11 08:35:30

點贊
收藏

51CTO技術(shù)棧公眾號