偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌痛失王座?港科大賈佳亞團隊DreamOmni2開源,超強P圖暴擊Nano Banana

人工智能 新聞
你永遠無法精確描述出梵高的筆觸或王家衛(wèi)的光影。AI創(chuàng)作的未來,是讓AI直接「看懂」你的靈感,而不是去揣摩你的指令。

AI圖像模型殺瘋了!

年初,GPT-4o引爆了一股「吉卜力」熱潮。

最近,全網(wǎng)更是玩瘋了Nano Banana生成的3D手辦。

雖然但是,不知道你有沒有發(fā)現(xiàn)一個「華點」:

這些統(tǒng)一生成與編輯,更多都是在卷指令編輯與實體概念的組合生成;如果想作為智能創(chuàng)作工具,實際上還差著不少。

  • 當語言變得蒼白無力。

想象一下,你希望將一張照片中人物的背包,換成另一張照片里裙子的那種圖案。你該如何用語言,向AI精確描述那種復雜而不規(guī)則的波西米亞風格圖案呢?

答案是:幾乎不可能。

  • 當靈感并非實體物體。

更進一步,當你想借鑒的不是物體,而是一種抽象的「感覺」——

例如,一張老照片獨特的「復古膠片感光影」,或者一種特定畫家的「筆觸風格」時,那些只擅長提取和復制一個具體的「物體」的模型便會束手無策。

要是AI既能聽懂人話,又能精準Get這些抽象的風格,那該多好!

最近,這個瓶頸被港科大賈佳亞帶領的AI研究團隊給捅破了,Github 兩周攬星1.6K,被很多國外創(chuàng)作者分享在YouTube和論壇上,引發(fā)大量討論。

在這一篇名為「DreamOmni2: Multimodal Instruction-based Editing and Generation」的論文中,AI掌握了針對「抽象概念」的多模態(tài)編輯與生成能力。

· 論文地址:

https://arxiv.org/html/2510.06679v1

· 項目主頁:

https://pbihao.github.io/projects/DreamOmni2/index.html

· 代碼倉庫:

https://github.com/dvlab-research/DreamOmni2

基于強大的FLUX Kontext模型,DreamOmni2在保留頂尖文生圖與指令編輯能力的基礎上,被賦予了處理多個參考圖像的全新能力,使其成為更加智能的創(chuàng)作工具。

它不僅在傳統(tǒng)任務上顯著優(yōu)于現(xiàn)有的開源模型,更在全新的抽象概念處理任務上,展現(xiàn)出超越谷歌最強Nano Banana的實力。

開源版Nano Banana,但更強

光說不練假把式,我們直接上實測。

首先來個經(jīng)典的:輸入一個產(chǎn)品,然后讓角色來「帶貨」。

Prompt:

The character from the first image is holding the item from the second picture. 

讓圖1里的角色,拿著圖2里的物品。

這表情、這頭發(fā)、這手指的細節(jié),以及衣服的質(zhì)感,簡直完美有沒有。

而且,產(chǎn)品本身也得到了很好的融入。

接下來,我們再試試三次元里的效果——讓模型把圖1中的男子,替換成圖2中的女子。

結(jié)果出爐!

可以看到,在生成的圖片中,背景的山巒和賽博感的光線效果幾乎完美繼承,人物身前的文字更是毫無影響。

人物方面,衣服和發(fā)型基本和原圖2一致,面部的光線則模仿了圖1中的效果。

可以說是十分驚艷了。

說到光線渲染,我們加大難度,讓模型把圖2中的紅藍風格,遷移到圖1上。

Prompt:

Make the first image has the same light condition as the second image.

讓圖1的光照和圖2保持一致。

沒想到,DreamOmni2不僅保持了圖1原有的像格柵一樣的光照,融合之后的紅藍對比也十分強烈。

相比之下,GPT-4o(下圖左)只遷移了色調(diào),光影效果沒有保留。Nano Banana(下圖右)只能說稍稍變了點色,但不多。

風格遷移更是手拿把掐。

Prompt:

Replace the first image have the same image style as the second image.

將圖1處理成與圖2相同的風格

像素風的雞——搞定。

二次元風的小姐姐——搞定。(太美了)

圖案、文字,也通通不在話下。

Prompt:

On the cup, "Story" is displayed in the same font style as the reference image.

在杯子上用參考圖里的同款字體顯示“Story”字樣

不僅如此,DreamOmni2也十分擅長對動作進行模仿。

Prompt:

Make the person from the first image has the same pose as person from the second image.

讓圖1里的人,模仿圖2中的姿勢

在DreamOmni2生成的結(jié)果中,胳膊和腿的動作基本完美復刻了圖2。

但有些遺憾的是,人物的方向和手部的細節(jié)略有不同。

不過,相比起在語義理解上出了大問題的開源模型FLUX Kontext,那強了可不是一星半點。

如下圖所示,顯然,Kontext完全沒有搞懂什么「第一張圖」、「第二張圖」,以及還要調(diào)整姿勢什么的,于是干脆復制了一遍圖2完事。

閉源模型這邊,GPT-4o(下圖左)的動作模仿比較到位,但面部的一致性不太好。

而Nano Banana(下圖右)就有點抽象了,生生造出了個「三體人」:)

除了身體上的動作,DreamOmni2在面部微表情,以及發(fā)型這塊編輯,也是又準又穩(wěn)。

Prompt:

Make the person in the first image have the same expression as the person in the second image.

讓圖1里的人,做出和圖2相同的表情。

嘴巴張開的大小、眼睛瞇成的縫,簡直一模一樣,可以說是非常燦爛了。

這種效果如果像要靠語言去形容,恐怕是很難做到的。

Prompt:

Make the person in the first image have the same hairstyle as the person in the second image.

給圖1里的人換上和圖2中一樣的發(fā)型

不管是背景的沙發(fā),還是人物的動作、衣服,都一點沒變;只有頭發(fā)從黑色短發(fā)變成了長長的金色卷發(fā)。

注意看脖子,因頭發(fā)遮擋而帶來的陰影,也一并呈現(xiàn)了出來。

值得一提的是,DreamOmni2的多圖編輯能力非常強。

比如,讓圖1的鸚鵡戴上圖2的帽子,模仿圖3中的氛圍與色調(diào)。

可以看到,從鸚鵡的羽毛、帽子顏色,到整個背景的氛圍都很好的復刻了上圖中的火箭圖片。

再上點難度:一下子輸入4張圖,然后讓模型把前3張圖組合起來,并改成圖4的風格。

不管是女生衣服上的條紋、男生臉上的絡腮胡,還是小狗的品種,都完美地遷移了過去。

同時,畫中的筆觸和色彩運用,也得到了比較忠實的呈現(xiàn)。

國外的網(wǎng)友們在體驗之后,紛紛表示驚艷。

甚至還有人出了一期教程,直言「別再用Nano Banana了,DreamOmni2 ComfyUI才是最強的免費工作流!」

更多實測可見:

· Huggingface Editing Demo: 

https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit 

· Huggingface Generation Demo: 

https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen 

· Video Demo: 

https://www.youtube.com/watch?v=8xpoiRK57uU

實驗驗證

當AI學會了「照樣子改」

為了真實展現(xiàn)DreamOmni2性能,研究團隊專門打造了一個全新的DreamOmni2基準測試集,包括205個多模態(tài)指令式編輯測試用例和114個指令式生成測試用例。

考察的重點便是多模態(tài)指令生成以及「抽象屬性」和「具體物體」的混合編輯。

DreamOmni2基準測試中多模態(tài)指令生成及編輯示例

在多模態(tài)指令編輯測試中,相比于業(yè)界頂流GPT-4o和Nano Banana,DreamOmni2顯示出了更精確的編輯結(jié)果和更好的一致性。

除了編輯指令的執(zhí)行率之外,GPT-4o和Nano Banana在編輯時還會存在一些小問題,例如,經(jīng)常引入意料之外的改動或不一致。比如,你讓它換個姿勢,它連衣服都給你換了。

在縱橫比方面,GPT-4o只支持三種輸出,而Nano Banana的則難以控制。

更有趣的是,GPT-4o處理過的圖片還會「蜜汁發(fā)黃」。

相比之下,這些問題在DreamOmni2上都是不存在的。

多模態(tài)指令編輯的視覺比較

在定量分析的表格里,也反映出了這些問題。

DreamOmni2在「具體物體」和「抽象屬性」上的得分都是最高的,一些方面超過了GPT-4o和Nano Banana。

在多模態(tài)指令生成方面,DreamOmni2表現(xiàn)同樣驚艷。

實測結(jié)果表明,此前的開源模型在生成抽象屬性方面十分困難。

例如下圖第四行,將照片中的狗抽象成右邊的素描風格,幾個開源模型幾乎是「無動于衷」。

相比之下,DreamOmni2不僅顯著領先開源模型,而且還達到了與GPT-4o和Nano Banana相當甚至更好的水平。

多模態(tài)指令生成可視化對比

定量評估中,DreamOmni2也在人工評估和AI模型評估中均優(yōu)于商業(yè)模型Nano Banana,取得了與GPT-4o相當?shù)慕Y(jié)果。

在生成準確性和對象一致性方面也要優(yōu)于一眾開源模型,即使在這些開源模型的專業(yè)領域內(nèi)也是如此。

數(shù)據(jù)構(gòu)建

從零開始,融合視覺靈感

要實現(xiàn)如此強大的功能,最大的挑戰(zhàn)在于訓練數(shù)據(jù)。

顯然,這個世界上并不存在海量的「(源圖像+參考圖像+指令)-> 目標圖像」這樣的現(xiàn)成數(shù)據(jù)對。

為了解決這一問題,研究團隊設計了一套的三階段數(shù)據(jù)構(gòu)建范式,為DreamOmni2「量身定制」了高質(zhì)量的教材。

第一階段:創(chuàng)造高質(zhì)量的概念對

團隊利用基礎模型的文生圖能力,提出了一種新穎的特征混合方案。

它可以在生成圖像的過程中,交換兩個生成分支之間的注意力特征,從而創(chuàng)造出包含相同具體物體或相同抽象屬性的高質(zhì)量圖像對。

相比于過去將兩張圖拼接在一起的方法,這種方案生成的圖像分辨率更高,質(zhì)量更好,且完全避免了邊緣內(nèi)容混淆的問題。

第二階段:生成多模態(tài)「編輯」數(shù)據(jù)

利用第一階段的數(shù)據(jù),團隊首先訓練了一個「提取模型」。這個模型能從一張圖像中精準「提取」出某個物體或某種抽象屬性,并根據(jù)指令生成一張新的參考圖。

隨后,他們利用一個基于指令的編輯模型,對目標圖像中提取出的物體或?qū)傩赃M行修改,從而創(chuàng)造出「源圖像」。

這樣一來,一個完整的編輯訓練數(shù)據(jù)對就誕生了:(源圖像 + 編輯指令 + 參考圖像)-> 目標圖像。

第三階段:創(chuàng)建多模態(tài)「生成」教材

在第二階段的基礎上,團隊再次使用「提取模型」,從源圖像中提取出更多物體或?qū)傩?,生成更多的參考圖像。

這樣,就構(gòu)成了用于多模態(tài)生成的訓練數(shù)據(jù):(多張參考圖像 + 生成指令)-> 目標圖像。

通過這個三階段流水線,團隊成功構(gòu)建了一個多樣化、高質(zhì)量的綜合數(shù)據(jù)集,涵蓋了對具體物體和抽象屬性(如局部和全局屬性)的生成和編輯,并且支持多個參考圖像輸入。

多模態(tài)指令編輯和生成訓練數(shù)據(jù)的分布和樣本

框架革新

讓模型真正理解多圖像輸入

有了數(shù)據(jù),還需要一個能「消化」這些數(shù)據(jù)的模型框架。

然而,當前SOTA的統(tǒng)一生成和編輯模型(如FLUX Kontext),并不支持多圖像輸入。

為此,團隊對框架進行了兩項關鍵創(chuàng)新,以及相應的訓練機制:

1. 索引編碼與位置編碼移位

為了讓模型能夠準確區(qū)分多個參考圖像并理解指令中對它們的引用(例如,圖像1、圖像2),引入了索引編碼(Index Encoding)和位置編碼偏移方案(Position Encoding Shift Scheme)。

其中,索引編碼可以幫助模型識別輸入圖像的索引,而位置編碼則會根據(jù)先前輸入的大小進行偏移,從而防止像素混淆生成結(jié)果中出現(xiàn)復制粘貼的偽影。

這兩者結(jié)合,讓模型能夠清晰、準確地處理多圖像輸入。

2. 視覺語言模型(VLM)與生成模型的聯(lián)合訓練

現(xiàn)實世界中,用戶的指令往往是不規(guī)范、甚至邏輯混亂的;而模型訓練時用的指令卻是結(jié)構(gòu)化的。

為了彌合這一鴻溝,團隊創(chuàng)新性地提出了一種聯(lián)合訓練方案,顯著提升了模型理解用戶意圖的能力,增強了在真實應用場景中的性能。

具體來說,他們讓一個強大的VLM(Qwen2.5-VL)先來理解用戶的復雜指令,并將其「翻譯」成模型能理解的結(jié)構(gòu)化格式,最后再交由生成/編輯模型去執(zhí)行。

3. LoRA微調(diào)

在訓練策略上,團隊采用了LoRA微調(diào)方法。這樣做的好處是,可以在不影響模型原有強大能力的基礎上,使其多模態(tài)能力(多圖輸入和編輯/生成)能夠在檢測到參考圖像時無縫激活,同時保留了基礎模型的原始指令編輯能力。

AI創(chuàng)作的下一個前沿

DreamOmni2的出現(xiàn),代表了AI創(chuàng)作工具發(fā)展的一個重要方向:從單一的語言模態(tài),走向真正的多模態(tài)、多概念融合。

研究團隊則通過提出兩項全新的、高度實用的任務,并為此構(gòu)建了完整的數(shù)據(jù)流水線和創(chuàng)新的模型框架,成功地推動了生成式AI的技術(shù)邊界。

對于設計師、藝術(shù)家和每一個熱愛創(chuàng)作的普通人來說,一個更加智能、更加全能的創(chuàng)作時代,正加速到來。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-10-23 16:49:23

2025-10-28 09:25:04

2025-01-24 14:14:35

模型框架視頻

2025-10-17 17:47:02

AI生圖谷歌NanoBanaAdobeFiref

2024-04-15 12:28:00

AI模型

2023-10-09 14:17:00

AI模型

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2024-07-08 08:38:00

模型推理

2023-08-09 17:38:47

模型AI

2025-04-03 11:16:10

2025-09-24 13:04:01

2025-04-29 08:14:14

2023-10-04 10:38:38

模型方法

2025-08-27 09:25:00

2024-04-15 12:54:39

2025-10-11 08:00:00

2025-08-28 09:17:50

2024-02-22 17:19:26

谷歌模型PC

2024-07-18 12:56:29

2025-09-12 07:13:19

點贊
收藏

51CTO技術(shù)棧公眾號