谷歌痛失王座?港科大賈佳亞團隊DreamOmni2開源,超強P圖暴擊Nano Banana
AI圖像模型殺瘋了!
年初,GPT-4o引爆了一股「吉卜力」熱潮。
最近,全網(wǎng)更是玩瘋了Nano Banana生成的3D手辦。

雖然但是,不知道你有沒有發(fā)現(xiàn)一個「華點」:
這些統(tǒng)一生成與編輯,更多都是在卷指令編輯與實體概念的組合生成;如果想作為智能創(chuàng)作工具,實際上還差著不少。
- 當語言變得蒼白無力。
想象一下,你希望將一張照片中人物的背包,換成另一張照片里裙子的那種圖案。你該如何用語言,向AI精確描述那種復雜而不規(guī)則的波西米亞風格圖案呢?
答案是:幾乎不可能。
- 當靈感并非實體物體。
更進一步,當你想借鑒的不是物體,而是一種抽象的「感覺」——
例如,一張老照片獨特的「復古膠片感光影」,或者一種特定畫家的「筆觸風格」時,那些只擅長提取和復制一個具體的「物體」的模型便會束手無策。
要是AI既能聽懂人話,又能精準Get這些抽象的風格,那該多好!
最近,這個瓶頸被港科大賈佳亞帶領的AI研究團隊給捅破了,Github 兩周攬星1.6K,被很多國外創(chuàng)作者分享在YouTube和論壇上,引發(fā)大量討論。
在這一篇名為「DreamOmni2: Multimodal Instruction-based Editing and Generation」的論文中,AI掌握了針對「抽象概念」的多模態(tài)編輯與生成能力。

· 論文地址:
https://arxiv.org/html/2510.06679v1
· 項目主頁:
https://pbihao.github.io/projects/DreamOmni2/index.html
· 代碼倉庫:
https://github.com/dvlab-research/DreamOmni2
基于強大的FLUX Kontext模型,DreamOmni2在保留頂尖文生圖與指令編輯能力的基礎上,被賦予了處理多個參考圖像的全新能力,使其成為更加智能的創(chuàng)作工具。
它不僅在傳統(tǒng)任務上顯著優(yōu)于現(xiàn)有的開源模型,更在全新的抽象概念處理任務上,展現(xiàn)出超越谷歌最強Nano Banana的實力。
開源版Nano Banana,但更強
光說不練假把式,我們直接上實測。
首先來個經(jīng)典的:輸入一個產(chǎn)品,然后讓角色來「帶貨」。
Prompt:
The character from the first image is holding the item from the second picture.
讓圖1里的角色,拿著圖2里的物品。
這表情、這頭發(fā)、這手指的細節(jié),以及衣服的質(zhì)感,簡直完美有沒有。
而且,產(chǎn)品本身也得到了很好的融入。

接下來,我們再試試三次元里的效果——讓模型把圖1中的男子,替換成圖2中的女子。

結(jié)果出爐!
可以看到,在生成的圖片中,背景的山巒和賽博感的光線效果幾乎完美繼承,人物身前的文字更是毫無影響。
人物方面,衣服和發(fā)型基本和原圖2一致,面部的光線則模仿了圖1中的效果。
可以說是十分驚艷了。

說到光線渲染,我們加大難度,讓模型把圖2中的紅藍風格,遷移到圖1上。
Prompt:
Make the first image has the same light condition as the second image.
讓圖1的光照和圖2保持一致。

沒想到,DreamOmni2不僅保持了圖1原有的像格柵一樣的光照,融合之后的紅藍對比也十分強烈。

相比之下,GPT-4o(下圖左)只遷移了色調(diào),光影效果沒有保留。Nano Banana(下圖右)只能說稍稍變了點色,但不多。

風格遷移更是手拿把掐。
Prompt:
Replace the first image have the same image style as the second image.
將圖1處理成與圖2相同的風格
像素風的雞——搞定。

二次元風的小姐姐——搞定。(太美了)

圖案、文字,也通通不在話下。


Prompt:
On the cup, "Story" is displayed in the same font style as the reference image.
在杯子上用參考圖里的同款字體顯示“Story”字樣

不僅如此,DreamOmni2也十分擅長對動作進行模仿。
Prompt:
Make the person from the first image has the same pose as person from the second image.
讓圖1里的人,模仿圖2中的姿勢

在DreamOmni2生成的結(jié)果中,胳膊和腿的動作基本完美復刻了圖2。
但有些遺憾的是,人物的方向和手部的細節(jié)略有不同。

不過,相比起在語義理解上出了大問題的開源模型FLUX Kontext,那強了可不是一星半點。
如下圖所示,顯然,Kontext完全沒有搞懂什么「第一張圖」、「第二張圖」,以及還要調(diào)整姿勢什么的,于是干脆復制了一遍圖2完事。

閉源模型這邊,GPT-4o(下圖左)的動作模仿比較到位,但面部的一致性不太好。
而Nano Banana(下圖右)就有點抽象了,生生造出了個「三體人」:)

除了身體上的動作,DreamOmni2在面部微表情,以及發(fā)型這塊編輯,也是又準又穩(wěn)。
Prompt:
Make the person in the first image have the same expression as the person in the second image.
讓圖1里的人,做出和圖2相同的表情。
嘴巴張開的大小、眼睛瞇成的縫,簡直一模一樣,可以說是非常燦爛了。
這種效果如果像要靠語言去形容,恐怕是很難做到的。

Prompt:
Make the person in the first image have the same hairstyle as the person in the second image.
給圖1里的人換上和圖2中一樣的發(fā)型
不管是背景的沙發(fā),還是人物的動作、衣服,都一點沒變;只有頭發(fā)從黑色短發(fā)變成了長長的金色卷發(fā)。
注意看脖子,因頭發(fā)遮擋而帶來的陰影,也一并呈現(xiàn)了出來。

值得一提的是,DreamOmni2的多圖編輯能力非常強。
比如,讓圖1的鸚鵡戴上圖2的帽子,模仿圖3中的氛圍與色調(diào)。

可以看到,從鸚鵡的羽毛、帽子顏色,到整個背景的氛圍都很好的復刻了上圖中的火箭圖片。

再上點難度:一下子輸入4張圖,然后讓模型把前3張圖組合起來,并改成圖4的風格。

不管是女生衣服上的條紋、男生臉上的絡腮胡,還是小狗的品種,都完美地遷移了過去。
同時,畫中的筆觸和色彩運用,也得到了比較忠實的呈現(xiàn)。

國外的網(wǎng)友們在體驗之后,紛紛表示驚艷。
甚至還有人出了一期教程,直言「別再用Nano Banana了,DreamOmni2 ComfyUI才是最強的免費工作流!」

更多實測可見:
· Huggingface Editing Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
· Huggingface Generation Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
· Video Demo:
https://www.youtube.com/watch?v=8xpoiRK57uU
實驗驗證
當AI學會了「照樣子改」
為了真實展現(xiàn)DreamOmni2性能,研究團隊專門打造了一個全新的DreamOmni2基準測試集,包括205個多模態(tài)指令式編輯測試用例和114個指令式生成測試用例。
考察的重點便是多模態(tài)指令生成以及「抽象屬性」和「具體物體」的混合編輯。

DreamOmni2基準測試中多模態(tài)指令生成及編輯示例
在多模態(tài)指令編輯測試中,相比于業(yè)界頂流GPT-4o和Nano Banana,DreamOmni2顯示出了更精確的編輯結(jié)果和更好的一致性。
除了編輯指令的執(zhí)行率之外,GPT-4o和Nano Banana在編輯時還會存在一些小問題,例如,經(jīng)常引入意料之外的改動或不一致。比如,你讓它換個姿勢,它連衣服都給你換了。
在縱橫比方面,GPT-4o只支持三種輸出,而Nano Banana的則難以控制。
更有趣的是,GPT-4o處理過的圖片還會「蜜汁發(fā)黃」。
相比之下,這些問題在DreamOmni2上都是不存在的。

多模態(tài)指令編輯的視覺比較
在定量分析的表格里,也反映出了這些問題。
DreamOmni2在「具體物體」和「抽象屬性」上的得分都是最高的,一些方面超過了GPT-4o和Nano Banana。

在多模態(tài)指令生成方面,DreamOmni2表現(xiàn)同樣驚艷。
實測結(jié)果表明,此前的開源模型在生成抽象屬性方面十分困難。
例如下圖第四行,將照片中的狗抽象成右邊的素描風格,幾個開源模型幾乎是「無動于衷」。
相比之下,DreamOmni2不僅顯著領先開源模型,而且還達到了與GPT-4o和Nano Banana相當甚至更好的水平。

多模態(tài)指令生成可視化對比
定量評估中,DreamOmni2也在人工評估和AI模型評估中均優(yōu)于商業(yè)模型Nano Banana,取得了與GPT-4o相當?shù)慕Y(jié)果。
在生成準確性和對象一致性方面也要優(yōu)于一眾開源模型,即使在這些開源模型的專業(yè)領域內(nèi)也是如此。

數(shù)據(jù)構(gòu)建
從零開始,融合視覺靈感
要實現(xiàn)如此強大的功能,最大的挑戰(zhàn)在于訓練數(shù)據(jù)。
顯然,這個世界上并不存在海量的「(源圖像+參考圖像+指令)-> 目標圖像」這樣的現(xiàn)成數(shù)據(jù)對。
為了解決這一問題,研究團隊設計了一套的三階段數(shù)據(jù)構(gòu)建范式,為DreamOmni2「量身定制」了高質(zhì)量的教材。
第一階段:創(chuàng)造高質(zhì)量的概念對
團隊利用基礎模型的文生圖能力,提出了一種新穎的特征混合方案。
它可以在生成圖像的過程中,交換兩個生成分支之間的注意力特征,從而創(chuàng)造出包含相同具體物體或相同抽象屬性的高質(zhì)量圖像對。
相比于過去將兩張圖拼接在一起的方法,這種方案生成的圖像分辨率更高,質(zhì)量更好,且完全避免了邊緣內(nèi)容混淆的問題。
第二階段:生成多模態(tài)「編輯」數(shù)據(jù)
利用第一階段的數(shù)據(jù),團隊首先訓練了一個「提取模型」。這個模型能從一張圖像中精準「提取」出某個物體或某種抽象屬性,并根據(jù)指令生成一張新的參考圖。
隨后,他們利用一個基于指令的編輯模型,對目標圖像中提取出的物體或?qū)傩赃M行修改,從而創(chuàng)造出「源圖像」。
這樣一來,一個完整的編輯訓練數(shù)據(jù)對就誕生了:(源圖像 + 編輯指令 + 參考圖像)-> 目標圖像。
第三階段:創(chuàng)建多模態(tài)「生成」教材
在第二階段的基礎上,團隊再次使用「提取模型」,從源圖像中提取出更多物體或?qū)傩?,生成更多的參考圖像。
這樣,就構(gòu)成了用于多模態(tài)生成的訓練數(shù)據(jù):(多張參考圖像 + 生成指令)-> 目標圖像。

通過這個三階段流水線,團隊成功構(gòu)建了一個多樣化、高質(zhì)量的綜合數(shù)據(jù)集,涵蓋了對具體物體和抽象屬性(如局部和全局屬性)的生成和編輯,并且支持多個參考圖像輸入。

多模態(tài)指令編輯和生成訓練數(shù)據(jù)的分布和樣本
框架革新
讓模型真正理解多圖像輸入
有了數(shù)據(jù),還需要一個能「消化」這些數(shù)據(jù)的模型框架。
然而,當前SOTA的統(tǒng)一生成和編輯模型(如FLUX Kontext),并不支持多圖像輸入。
為此,團隊對框架進行了兩項關鍵創(chuàng)新,以及相應的訓練機制:
1. 索引編碼與位置編碼移位
為了讓模型能夠準確區(qū)分多個參考圖像并理解指令中對它們的引用(例如,圖像1、圖像2),引入了索引編碼(Index Encoding)和位置編碼偏移方案(Position Encoding Shift Scheme)。
其中,索引編碼可以幫助模型識別輸入圖像的索引,而位置編碼則會根據(jù)先前輸入的大小進行偏移,從而防止像素混淆和生成結(jié)果中出現(xiàn)復制粘貼的偽影。
這兩者結(jié)合,讓模型能夠清晰、準確地處理多圖像輸入。
2. 視覺語言模型(VLM)與生成模型的聯(lián)合訓練
現(xiàn)實世界中,用戶的指令往往是不規(guī)范、甚至邏輯混亂的;而模型訓練時用的指令卻是結(jié)構(gòu)化的。
為了彌合這一鴻溝,團隊創(chuàng)新性地提出了一種聯(lián)合訓練方案,顯著提升了模型理解用戶意圖的能力,增強了在真實應用場景中的性能。
具體來說,他們讓一個強大的VLM(Qwen2.5-VL)先來理解用戶的復雜指令,并將其「翻譯」成模型能理解的結(jié)構(gòu)化格式,最后再交由生成/編輯模型去執(zhí)行。
3. LoRA微調(diào)
在訓練策略上,團隊采用了LoRA微調(diào)方法。這樣做的好處是,可以在不影響模型原有強大能力的基礎上,使其多模態(tài)能力(多圖輸入和編輯/生成)能夠在檢測到參考圖像時無縫激活,同時保留了基礎模型的原始指令編輯能力。
AI創(chuàng)作的下一個前沿
DreamOmni2的出現(xiàn),代表了AI創(chuàng)作工具發(fā)展的一個重要方向:從單一的語言模態(tài),走向真正的多模態(tài)、多概念融合。
研究團隊則通過提出兩項全新的、高度實用的任務,并為此構(gòu)建了完整的數(shù)據(jù)流水線和創(chuàng)新的模型框架,成功地推動了生成式AI的技術(shù)邊界。
對于設計師、藝術(shù)家和每一個熱愛創(chuàng)作的普通人來說,一個更加智能、更加全能的創(chuàng)作時代,正加速到來。





































