偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

UniReal登場(chǎng):用視頻架構(gòu)統(tǒng)一圖像生成與編輯,還學(xué)到真實(shí)世界動(dòng)態(tài)變化規(guī)律

人工智能 新聞
本文中,香港大學(xué)與 Adobe 聯(lián)合提出名為 UniReal 的全新圖像編輯與生成范式。

論文一作陳汐,現(xiàn)為香港大學(xué)三年級(jí)博士生,在此之前本科碩士畢業(yè)于浙江大學(xué),同時(shí)獲得法國(guó)馬賽中央理工雙碩士學(xué)位。主要研究方向?yàn)閳D像視頻生成與理解,在領(lǐng)域內(nèi)頂級(jí)期刊會(huì)議上發(fā)表論文十余篇,并且 GitHub 開(kāi)源項(xiàng)目獲得超過(guò) 5K star.

本文中,香港大學(xué)與 Adobe 聯(lián)合提出名為 UniReal 的全新圖像編輯與生成范式。該方法將多種圖像任務(wù)統(tǒng)一到視頻生成框架中,通過(guò)將不同類(lèi)別和數(shù)量的輸入/輸出圖像建模為視頻幀,從大規(guī)模真實(shí)視頻數(shù)據(jù)中學(xué)習(xí)屬性、姿態(tài)、光照等多種變化規(guī)律,從而實(shí)現(xiàn)高保真的生成效果。

  • 論文標(biāo)題:UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics
  • 項(xiàng)目主頁(yè):https://xavierchen34.github.io/UniReal-Page/
  • 論文鏈接:https://arxiv.org/abs/2412.07774

圖片

效果展示 

我們重點(diǎn)展示了圖像生成與編輯中最具挑戰(zhàn)性的三個(gè)任務(wù)的效果:圖像定制化生成、指令編輯和物體插入。

此外,UniReal 還支持多種圖像生成、編輯及感知任務(wù),例如文本生成圖像、可控圖像生成、圖像修復(fù)、深度估計(jì)和目標(biāo)分割等。

圖片

在單目標(biāo)定制化生成任務(wù)中,UniReal 能夠在準(zhǔn)確保留目標(biāo)細(xì)節(jié)(如 logo)的同時(shí),生成具有較大姿態(tài)和場(chǎng)景變化的圖像,并自然地模擬物體在不同環(huán)境下的狀態(tài),從而實(shí)現(xiàn)高質(zhì)量的生成效果。

圖片

與此同時(shí),UniReal 展現(xiàn)了強(qiáng)大的多目標(biāo)組合能力,能夠精確建模不同物體之間的交互關(guān)系,生成高度協(xié)調(diào)且逼真的圖像效果。

圖片

值得注意的是,我們并未專(zhuān)門(mén)收集人像數(shù)據(jù)進(jìn)行訓(xùn)練,UniReal 仍能夠生成自然且真實(shí)的全身像定制化效果,展現(xiàn)了其出色的泛化能力。

圖片

在指令編輯方面,UniReal 支持用戶通過(guò)自由輸入文本對(duì)圖像進(jìn)行靈活編輯,例如添加或刪除物體、修改屬性等。實(shí)驗(yàn)結(jié)果表明,UniReal 展現(xiàn)出了卓越的場(chǎng)景理解能力,能夠真實(shí)地模擬物體的陰影、反射以及前后遮擋關(guān)系,生成高度逼真的編輯效果。

圖片

UniReal 支持從圖像中提取特定目標(biāo)作為前景,插入到背景圖像中,天然適用于虛擬試衣、Logo 遷移、物體傳送等任務(wù)。實(shí)驗(yàn)表明,UniReal 插入的目標(biāo)能夠非常自然地融入背景圖像,呈現(xiàn)出與背景一致的和諧角度、倒影效果及環(huán)境匹配度,顯著提升了任務(wù)的生成質(zhì)量。

圖片

除了上述任務(wù)外,UniReal 還支持文本生成圖像、可控圖像生成、參考式圖像補(bǔ)全、目標(biāo)分割、深度估計(jì)等多種任務(wù),并能夠同時(shí)生成多張圖像。此外,UniReal 支持各類(lèi)任務(wù)的相互組合,從而展現(xiàn)出許多未經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的強(qiáng)大能力,進(jìn)一步證明其通用性和擴(kuò)展性。

方法介紹

UniReal 的目標(biāo)是為圖像生成與編輯任務(wù)構(gòu)建一個(gè)統(tǒng)一框架。我們觀察到,不同任務(wù)通常存在多樣化的輸入輸出圖像種類(lèi)與數(shù)量,以及各自獨(dú)特的具體要求。然而,這些任務(wù)之間共享一個(gè)核心需求:在保持輸入輸出圖像一致性的同時(shí),根據(jù)控制信號(hào)建模圖像的變化。

這一需求與視頻生成任務(wù)有天然的契合性。視頻生成需要同時(shí)滿足幀間內(nèi)容的一致性與運(yùn)動(dòng)變化,并能夠支持不同的幀數(shù)輸出。受到近期類(lèi)似 Sora 的視頻生成模型所取得優(yōu)異效果的啟發(fā),我們提出將不同的圖像生成與編輯任務(wù)統(tǒng)一到視頻生成架構(gòu)中。

此外,考慮到視頻中自然包含真實(shí)世界中多樣化的動(dòng)態(tài)變化,我們直接從原始視頻出發(fā),構(gòu)建大規(guī)模訓(xùn)練數(shù)據(jù),使模型能夠?qū)W習(xí)和模擬真實(shí)世界的變化規(guī)律,從而實(shí)現(xiàn)高保真的生成與編輯效果。

圖片

模型結(jié)構(gòu):我們借鑒了與 Sora 類(lèi)似的視頻生成架構(gòu),將不同的輸入輸出圖像統(tǒng)一視作視頻幀處理。具體來(lái)說(shuō),圖像通過(guò) VAE 編碼后被轉(zhuǎn)換為視覺(jué) token,接著輸入 Transformer 進(jìn)行處理。與此同時(shí),我們引入了 T5 text encoder 對(duì)輸入指令進(jìn)行編碼,將生成的文本 token 與視覺(jué) token 一同輸入 Transformer。通過(guò)使用 full attention 機(jī)制,模型能夠充分建模視覺(jué)和文本之間的關(guān)系,實(shí)現(xiàn)跨模態(tài)信息的高效融合和綜合理解。這種設(shè)計(jì)確保了模型在處理多樣化任務(wù)時(shí)的靈活性和生成效果的一致性。

層級(jí)化提示:為了解決不同任務(wù)和數(shù)據(jù)之間的沖突問(wèn)題,同時(shí)支持多樣化的任務(wù)與數(shù)據(jù),我們提出了一種 Hierarchical Prompt(層級(jí)化提示)設(shè)計(jì)。在傳統(tǒng)提示詞(Prompt)的基礎(chǔ)上,引入了 Context Prompt 和 Image Prompt 兩個(gè)新組件。

  • Context Prompt:用于補(bǔ)充描述不同任務(wù)和數(shù)據(jù)集的特性,包括任務(wù)目標(biāo)、數(shù)據(jù)分特點(diǎn)等背景信息,從而為模型提供更豐富的上下文理解。
  • Image Prompt:對(duì)輸入圖像進(jìn)行層次化劃分,將其分為三類(lèi):
  • Asset(前景):需要重點(diǎn)操作或變更的目標(biāo)區(qū)域;
  • Canvas(畫(huà)布):作為生成或編輯的背景場(chǎng)景;
  • Control(控制):提供約束或引導(dǎo)的輸入信號(hào),如參考圖像或控制參數(shù)。

為每種類(lèi)別的輸入圖像單獨(dú)訓(xùn)練不同的 embedding,從而幫助模型在聯(lián)合訓(xùn)練中區(qū)分輸入圖像的作用和語(yǔ)義,避免不同任務(wù)和數(shù)據(jù)引發(fā)的沖突與歧義。

通過(guò)這種層級(jí)化提示設(shè)計(jì),模型能夠更高效地整合多樣化的任務(wù)和數(shù)據(jù),顯著提升聯(lián)合訓(xùn)練的效果,進(jìn)一步增強(qiáng)其生成和編輯能力。

圖片

數(shù)據(jù)構(gòu)造:我們基于原始視頻數(shù)據(jù)構(gòu)建了大規(guī)模訓(xùn)練數(shù)據(jù)集,以支持多樣化的任務(wù)需求。具體步驟如下:

1. 編輯數(shù)據(jù)生成

從視頻中隨機(jī)抽取前后兩幀,分別作為編輯前和編輯后的圖像結(jié)果,并借助視覺(jué)語(yǔ)言模型(VLM)生成對(duì)應(yīng)的編輯指令,以模擬多樣化的圖像編輯任務(wù)。

2. 多目標(biāo)定制化生成

我們結(jié)合 VLM 與 SAM2,在視頻首幀中分割出不同的目標(biāo)區(qū)域,并利用這些目標(biāo)區(qū)域重建后續(xù)幀,構(gòu)造多目標(biāo)定制化生成的數(shù)據(jù)。這種方式能夠模擬目標(biāo)在復(fù)雜場(chǎng)景中的動(dòng)態(tài)變化,并為多目標(biāo)生成任務(wù)提供高質(zhì)量的數(shù)據(jù)支持。

3. 可控生成與圖像理解標(biāo)注

利用一系列圖像理解模型(如深度估計(jì)模型)對(duì)視頻和圖像進(jìn)行自動(dòng)打標(biāo)。這些標(biāo)簽不僅為可控生成任務(wù)(如深度控制生成)提供了豐富的條件信息,還為圖像理解任務(wù)(如深度估計(jì)、目標(biāo)分割)提供了標(biāo)準(zhǔn)參考。

通過(guò)這種基于原始視頻的多層次數(shù)據(jù)構(gòu)造策略,我們的模型能夠?qū)W習(xí)真實(shí)世界中的動(dòng)態(tài)變化規(guī)律,同時(shí)支持多種復(fù)雜的圖像生成與理解任務(wù),顯著提升了數(shù)據(jù)集的多樣性和模型的泛化能力。

效果對(duì)比

指令編輯任務(wù)中,UniReal 能夠更好地保持背景像素的一致性,同時(shí)完成更具挑戰(zhàn)性的編輯任務(wù)。例如,它可以根據(jù)用戶指令生成 “螞蟻抬起轎車(chē)” 的畫(huà)面,并在轎車(chē)被抬起后動(dòng)態(tài)調(diào)整冰面上的反射,使其與場(chǎng)景的物理變化相一致。這種能力充分展現(xiàn)了 UniReal 在場(chǎng)景理解和細(xì)節(jié)生成上的強(qiáng)大性能。

圖片

定制化生成任務(wù)中,無(wú)論是細(xì)節(jié)的精確保留還是對(duì)指令的準(zhǔn)確執(zhí)行,UniReal 都展現(xiàn)出了顯著的優(yōu)勢(shì)。其生成結(jié)果不僅能夠忠實(shí)還原目標(biāo)細(xì)節(jié),還能靈活響應(yīng)多樣化的指令需求,體現(xiàn)出卓越的生成能力和任務(wù)適應(yīng)性。

圖片

物體插入任務(wù)中,我們與此前的代表性方法 AnyDoor 進(jìn)行了對(duì)比,UniReal 展現(xiàn)出了更強(qiáng)的環(huán)境理解能力。例如,它能夠正確模擬狗在水中的姿態(tài),自動(dòng)調(diào)整易拉罐在桌子上的視角,以及精確建模衣服在模特身上的狀態(tài),同時(shí)保留模特的頭發(fā)細(xì)節(jié)。這種對(duì)場(chǎng)景和物體關(guān)系的高度理解,使 UniReal 在生成真實(shí)感和一致性上遠(yuǎn)超現(xiàn)有方法。

圖片

未來(lái)展望 

UniReal 在多個(gè)任務(wù)中展現(xiàn)了強(qiáng)大的潛力。然而,隨著輸入和輸出圖像數(shù)量的進(jìn)一步擴(kuò)大,訓(xùn)練與推理效率問(wèn)題成為需要解決的關(guān)鍵挑戰(zhàn)。為此,我們計(jì)劃探索設(shè)計(jì)更高效的注意力結(jié)構(gòu),以降低計(jì)算成本并提高處理速度。同時(shí),我們還將這一方案進(jìn)一步擴(kuò)展到視頻生成與編輯任務(wù)中,利用高效的結(jié)構(gòu)應(yīng)對(duì)更復(fù)雜的數(shù)據(jù)規(guī)模和動(dòng)態(tài)場(chǎng)景需求,推動(dòng)模型性能與實(shí)用性的全面提升。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-01-03 10:30:00

2025-03-31 08:46:00

圖像AI生成

2020-10-14 14:18:33

機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)架構(gòu)人工智能

2025-07-03 15:01:26

模型圖像生成AI

2024-12-20 14:10:00

AI模型訓(xùn)練

2018-02-25 17:09:30

視頻AI圖像

2025-03-04 09:50:00

2025-04-10 09:10:00

模型AI評(píng)測(cè)

2024-01-29 07:50:00

AI視頻

2025-06-16 08:51:00

2022-08-29 08:58:49

項(xiàng)目開(kāi)源組件

2023-05-11 13:55:00

LinuxKdenlive編輯視頻

2024-10-30 14:10:00

圖像生成模型

2009-10-09 23:03:45

2024-05-30 00:00:01

GPT-3.5SOTASDXL

2023-06-19 09:36:16

AI矩陣

2013-07-05 15:04:40

華為統(tǒng)一通信華為

2022-06-10 07:42:37

搜索推薦架構(gòu)

2025-05-12 14:24:56

生成AI圖像

2019-10-31 14:10:35

大數(shù)據(jù)人工智能工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)