偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

讓多模態(tài)大模型「想明白再畫」!港大等開源GoT-R1:強(qiáng)化學(xué)習(xí)解鎖視覺生成推理新范式

人工智能 新聞
來自香港大學(xué) MMLab、香港中文大學(xué) MMLab 和商湯科技的研究團(tuán)隊(duì),繼其先前發(fā)布的 Generation Chain-of-Thought (GoT) 框架之后,現(xiàn)推出重要進(jìn)展 ——GoT-R1。

當(dāng)前,多模態(tài)大模型在根據(jù)復(fù)雜文本提示生成高保真、語義一致的圖像方面取得了顯著進(jìn)展,但在處理包含精確空間關(guān)系、多對象屬性及復(fù)雜組合的指令時(shí),仍面臨挑戰(zhàn)。

針對此,來自香港大學(xué) MMLab、香港中文大學(xué) MMLab 和商湯科技的研究團(tuán)隊(duì),繼其先前發(fā)布的 Generation Chain-of-Thought (GoT) 框架之后,現(xiàn)推出重要進(jìn)展 ——GoT-R1。

該新框架通過引入強(qiáng)化學(xué)習(xí),顯著增強(qiáng)了多模態(tài)大模型在視覺生成任務(wù)中的語義 - 空間推理能力,使其能夠超越預(yù)定義模板,自主探索和學(xué)習(xí)更優(yōu)的推理策略。GoT 和 GoT-R1 已全面開源。

  • GoT arxiv:https://arxiv.org/pdf/2503.10639
  • GoT github:https://github.com/rongyaofang/GoT
  • GoT-R1 arxiv: https://arxiv.org/pdf/2505.17022
  • GoT-R1 github:https://github.com/gogoduan/GoT-R1

GoT 框架首先通過引入顯式的語言推理過程,在生成圖像前對語義內(nèi)容和空間布局進(jìn)行規(guī)劃,從而提升了生成圖像的準(zhǔn)確性和可控性 。然而,GoT 的推理能力主要源于基于人工定義模板的監(jiān)督微調(diào)數(shù)據(jù),這在一定程度上限制了模型自主發(fā)現(xiàn)更優(yōu)推理策略的潛力,有時(shí)可能導(dǎo)致生成的推理鏈條未能完全忠實(shí)于用戶復(fù)雜的文本提示 。

GoT-R1 的提出,旨在克服上述局限。它將強(qiáng)化學(xué)習(xí)(RL)創(chuàng)新性地應(yīng)用于視覺生成的語義 - 空間推理過程,賦予模型自主學(xué)習(xí)和優(yōu)化推理路徑的能力。

圖片

強(qiáng)化學(xué)習(xí)訓(xùn)練前后GoT預(yù)定義推理鏈與GoT-R1自由探索推理過程對比

GoT:奠定 “先思考后生成” 的基礎(chǔ)

理解 GoT-R1 之前,有必要回顧其基礎(chǔ)框架 GoT 。傳統(tǒng)的文本到圖像模型,如 Stable Diffusion,F(xiàn)LUX 等,通常采用直接特征映射的方式,從文本嵌入到視覺特征,缺乏對場景內(nèi)對象間復(fù)雜關(guān)系和空間布局的顯式推理過程 。這使得它們在面對包含多個(gè)實(shí)體、精確空間指令和細(xì)致屬性描述的復(fù)雜文本時(shí),生成效果往往未達(dá)預(yù)期。

GoT 框架旨在應(yīng)對這一挑戰(zhàn),其核心思想是將 “直接生成” 模式轉(zhuǎn)變?yōu)?“先推理規(guī)劃,后引導(dǎo)生成” 的兩階段過程 。具體而言,GoT 首先將用戶輸入的文本提示(Prompt)解析并擴(kuò)展為一個(gè)詳盡的 “生成思維鏈”(Generation Chain-of-Thought)。此思維鏈不僅包含對場景中各個(gè)構(gòu)成元素的語義描述(例如,“一個(gè)現(xiàn)代風(fēng)格的客廳,帶有 shabby chic 風(fēng)格的觸感”)和具體物體(例如,“一個(gè)華麗的枝形吊燈”,“一個(gè)帶框的鏡子”),還附帶了這些物體在圖像中的精確空間坐標(biāo)信息(例如,吊燈位于 (372,0), (613,254),鏡子位于 (157,251), (285,519)) 。隨后,這條融合了語義規(guī)劃與空間布局的思維鏈將作為精細(xì)化指令,指導(dǎo)后續(xù)的圖像擴(kuò)散模型進(jìn)行圖像生成,確保最終輸出與預(yù)先規(guī)劃高度吻合 。

GoT 框架的實(shí)現(xiàn),依賴于構(gòu)建的大規(guī)模推理鏈圖文對數(shù)據(jù)集(超過 900 萬樣本,包括 840 萬圖像生成樣本和 92 萬圖像編輯樣本 )以及先進(jìn)的多模態(tài)大模型(如 Qwen2.5-VL )進(jìn)行推理鏈的生成。此外,其獨(dú)創(chuàng)的語義 - 空間指導(dǎo)模塊(Semantic-Spatial Guidance Module, SSGM)進(jìn)一步增強(qiáng)了擴(kuò)散模型遵循推理鏈進(jìn)行精確生成的能力 。

圖片

GoT模型:基于MLLM+Diffusion的圖片生成與編輯

GoT-R1:通過強(qiáng)化學(xué)習(xí)精進(jìn)推理

盡管 GoT 在提升復(fù)雜場景生成方面取得了顯著成效,但其主要依賴監(jiān)督學(xué)習(xí)范式,模型推理能力的提升受限于標(biāo)注數(shù)據(jù)的模板和質(zhì)量 。GoT-R1 則引入了強(qiáng)化學(xué)習(xí),旨在突破這一瓶頸,賦予模型更強(qiáng)的自主學(xué)習(xí)和泛化能力。

GoT-R1 面臨的關(guān)鍵挑戰(zhàn)之一是為視覺生成任務(wù)設(shè)計(jì)一個(gè)全面且有效的獎勵(lì)(Reward)機(jī)制。該機(jī)制需要能夠準(zhǔn)確評估生成結(jié)果的多個(gè)維度:不僅包括最終圖像與文本提示的語義一致性、空間布局的準(zhǔn)確性、對象屬性的正確綁定以及圖像的整體美學(xué)質(zhì)量 ,更重要的是,還需要對中間生成的 “思維鏈” 本身的質(zhì)量進(jìn)行監(jiān)督,避免出現(xiàn)推理過程存在謬誤或與最終圖像不一致的情況 。

針對此,GoT-R1 構(gòu)建了一個(gè)基于 MLLM 的雙階段、多維度獎勵(lì)框架,具體包含:

1. 推理過程評估獎勵(lì) (RPR): 

  • 語義對齊獎勵(lì) (Rsem):利用 MLLM 評估所生成的 GoT 推理鏈在語義層面是否完整、是否忠實(shí)于原始輸入文本,以及是否存在內(nèi)在邏輯矛盾或表述不清晰等問題 。
  •  空間對齊獎勵(lì) (Rspa):此為 GoT-R1 的核心創(chuàng)新點(diǎn)。鑒于多數(shù) LLM 或 MLLM 對于直接處理文本形式的坐標(biāo)數(shù)據(jù)并判斷其空間關(guān)系的能力有限 ,GoT-R1 提出將 GoT 推理鏈中規(guī)劃的對象坐標(biāo)信息,在虛擬的空白畫布上渲染為包含具體邊界框的可視化圖像。隨后,將此圖像輸入 MLLM 進(jìn)行判斷,評估其所展現(xiàn)的空間布局是否與原始文本提示中的空間關(guān)系描述(例如 “A 在 B 的左側(cè)”)相符 。這種 “文本坐標(biāo) -> 可視化布局 -> MLLM 評估” 的轉(zhuǎn)換,顯著提升了空間關(guān)系獎勵(lì)信號的準(zhǔn)確性和魯棒性 。

2. 推理至圖像對齊獎勵(lì) (RRI):

旨在確保最終生成的圖像能夠忠實(shí)地執(zhí)行 GoT 推理鏈中的規(guī)劃。具體實(shí)現(xiàn)方式是,利用 MLLM 在生成的圖像中定位出推理鏈中規(guī)劃的每一個(gè)對象,并獲取其在圖像中的實(shí)際邊界框。然后,通過計(jì)算規(guī)劃邊界框與圖像中實(shí)際邊界框之間的交并比(Intersection over Union, IoU),來量化圖像對推理鏈的遵循程度 。

3. 文本提示至圖像對齊獎勵(lì) (RPI):

作為最終結(jié)果的評估,由 MLLM 從對象、屬性、布局等多個(gè)維度,綜合評價(jià)生成的圖像與原始輸入文本提示的整體一致性與符合度 。

這些精心設(shè)計(jì)的多維度獎勵(lì)信號,與高效的組相對策略優(yōu)化(Group Relative Policy Optimization, GRPO)強(qiáng)化學(xué)習(xí)算法相結(jié)合 ,使得 GoT-R1 模型(例如,基于 Janus-Pro 模型 )在訓(xùn)練過程中能夠主動探索并學(xué)習(xí)到更優(yōu)質(zhì)、更符合復(fù)雜指令的推理策略,而不僅僅是重復(fù)訓(xùn)練數(shù)據(jù)中的固定模式。

圖片

GoT-R1模型:AR MLLM的強(qiáng)化學(xué)習(xí)訓(xùn)練示意

驚艷效果:復(fù)雜場景生成新 SOTA

GoT-R1 的效果如何?研究團(tuán)隊(duì)在極具挑戰(zhàn)性的 T2I-CompBench 上進(jìn)行了全面評估。

圖片

GoT-R1在T2I-Compbench下的量化評估

研究團(tuán)隊(duì)將其與當(dāng)前主流的三類模型進(jìn)行了對比,包括:1) 擴(kuò)散模型(如 Stable Diffusion 系列、DALLE-3、FLUX.1 等);2) 布局引導(dǎo)的兩階段模型(如 Ranni、LayoutGPT);以及 3) 其他先進(jìn)的自回歸模型(如 Emu3、Janus-Pro 等)。

評估結(jié)果顯示,GoT-R1-7B 模型在該基準(zhǔn)測試上確立了新的 SOTA 性能 。其強(qiáng)大之處體現(xiàn)在多個(gè)方面:首先,它在 T2I-CompBench 的六個(gè)評估類別中的五個(gè)(色彩、形狀、紋理、非空間屬性、復(fù)雜組合)取得了最高分 。尤其是在由混合自然語言組合提示構(gòu)成的 “Complex” 基準(zhǔn)測試中,GoT-R1 展現(xiàn)出顯著優(yōu)勢,證明了其在處理復(fù)雜、多層次指令上的卓越能力 。

更重要的是,該成果清晰地展示了強(qiáng)化學(xué)習(xí)帶來的提升。與僅使用 GoT 數(shù)據(jù)集進(jìn)行監(jiān)督微調(diào)的基線模型(Janus-Pro-7B-GoT)相比,經(jīng)過強(qiáng)化學(xué)習(xí)優(yōu)化的 GoT-R1-7B 模型在評估指標(biāo)上實(shí)現(xiàn)了高達(dá) 15% 的提升 。例如,在紋理(Texture)和形狀(Shape)等類別的保真度上,GoT-R1-7B 相較于 GoT 微調(diào)模型取得了大幅度的進(jìn)步 。這些顯著的性能增益,有力地證明了 GoT-R1 通過強(qiáng)化學(xué)習(xí)引導(dǎo)模型自主優(yōu)化推理路徑的策略,對于解決復(fù)雜的組合式圖像生成任務(wù)是切實(shí)有效的。

為了驗(yàn)證強(qiáng)化學(xué)習(xí)是否真正提升了模型內(nèi)在的推理能力,而非僅僅優(yōu)化了最終的圖像輸出,研究團(tuán)隊(duì)還對模型核心的 “思考過程”—— 即 “生成思維鏈”(Generation Chain-of-Thought)的質(zhì)量本身進(jìn)行了深入分析 。為此,團(tuán)隊(duì)采用 GPT-4o 作為第三方評估者 ,對 GoT-R1-7B 自主探索生成的推理鏈與僅經(jīng) GoT 監(jiān)督微調(diào)的基線模型(Janus-Pro-7B-GoT)生成的推理鏈進(jìn)行了一對一的比較。

評估結(jié)果具有壓倒性的說服力。GPT-4o 在所有評估類別中均明確地偏好由 GoT-R1 生成的推理鏈。例如,在對空間關(guān)系理解要求極高的 “Spatial” 類別提示中,GoT-R1 獲得了 84 票,而基線模型僅獲得 16 票 。這一結(jié)果強(qiáng)有力地證明,GoT-R1 框架通過強(qiáng)化學(xué)習(xí),不僅提升了最終圖像的生成質(zhì)量,更從根本上優(yōu)化了模型自身的推理能力,使其能夠生成更準(zhǔn)確、更忠實(shí)于用戶意圖、邏輯更清晰的 “思維鏈”,而這正是其在復(fù)雜組合任務(wù)中取得成功的關(guān)鍵所在。

圖片

GPT-4o對強(qiáng)化學(xué)習(xí)前后推理鏈的一對一比較結(jié)果

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-09 09:32:35

2025-06-26 09:06:59

2025-10-21 09:06:00

2023-08-28 06:52:29

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-09-15 14:42:55

o3視覺推理開源

2024-09-13 06:32:25

2025-06-03 08:49:00

2025-04-30 16:48:07

2025-08-07 09:16:41

2025-03-21 13:00:54

2023-03-14 14:06:52

訓(xùn)練模型

2025-07-22 09:05:00

強(qiáng)化學(xué)習(xí)AI模型

2025-08-11 08:00:00

2025-07-04 08:53:00

大模型AI訓(xùn)練

2024-11-13 09:39:13

2025-01-21 09:00:00

2025-08-27 09:08:00

AI視覺模型

2025-03-04 17:27:05

2025-05-06 08:40:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號