谷歌最強(qiáng)AI,被港科大開(kāi)源超了?讓海外創(chuàng)作者喊出「King Bomb」的P圖大殺器來(lái)了
「Photoshop is dead」,已經(jīng)成為最近 AI 創(chuàng)作者圈中討論最熱的話題之一。
隨著圖像編輯與生成模型進(jìn)入到了又一個(gè)集中爆發(fā)期,這個(gè)專業(yè)創(chuàng)意軟件長(zhǎng)久以來(lái)的王座地位受到了前所未有的沖擊。
尤其是引領(lǐng)這波多模態(tài)生圖技術(shù)升級(jí)潮流的谷歌 Nano Banana 以及字節(jié) Seedream4.0、阿里 Qwen-Image-Edit-2509,它們涌現(xiàn)出了更多新的能力與玩法,比如 OOTD 穿搭、文字渲染、生成電影分鏡。在無(wú)需掌握深度修圖技能的前提下,這些模型使得創(chuàng)作者開(kāi)始更多地關(guān)注「如何讓生圖結(jié)果更可控、更有創(chuàng)意、更具產(chǎn)品化價(jià)值?!?/span>


從技術(shù)路線來(lái)看,以 Nano Banana 為代表的模型通過(guò)多模態(tài)指令,將語(yǔ)言理解、視覺(jué)識(shí)別與生成控制等不同的能力融合在一起,實(shí)現(xiàn)更自然的創(chuàng)作體驗(yàn)。不過(guò),隨著使用場(chǎng)景的不斷拓展,這類指令驅(qū)動(dòng)的編輯與生成在實(shí)際操作中也逐漸暴露出了一些不容忽視的局限。
比如編輯任務(wù)中通常依賴的語(yǔ)言指令有時(shí)會(huì)描述不清,需要結(jié)合參考圖像以及額外的文本說(shuō)明;生成任務(wù)對(duì)于具體物體表現(xiàn)良好,但處理起抽象概念(發(fā)型、妝容、紋理、打光、風(fēng)格等)來(lái)往往力不從心。這些問(wèn)題需要更優(yōu)的技術(shù)解決方案。
兩周前,港科大講座教授、馮諾依曼研究院院長(zhǎng)賈佳亞團(tuán)隊(duì)開(kāi)源了他們的最新成果 DreamOmni2,專門針對(duì)當(dāng)前多模態(tài)指令編輯與生成兩大方向的短板進(jìn)行了系統(tǒng)性優(yōu)化與升級(jí)。該系統(tǒng)基于 FLUX-Kontext 訓(xùn)練,保留原有的指令編輯與文生圖能力,并拓展出多參考圖的生成編輯能力,給予了創(chuàng)作者更高的靈活性與可玩性。
根據(jù)團(tuán)隊(duì)的說(shuō)法,不論是具體物體還是抽象概念的編輯與生成,DreamOmni2 都可以取得顯著優(yōu)于當(dāng)前 SOTA 開(kāi)源模型的表現(xiàn),在一些方面甚至比 Nano Banana 效果都要好。我們來(lái)一睹效果:

基于指令的多模態(tài)編輯:讓第一張圖像(源圖像)中女子的帽子擁有與第二張圖像(參考圖像)中毛衣相同的配色方案。

基于指令的圖像生成:圖 1 被掛在臥室的墻上,圖 3 中的杯子變成與圖 2 中盤子相同的材質(zhì),并被放置在桌子上。
DreamOmni2 引起了海外創(chuàng)作者的關(guān)注與熱議。有人給予了高度評(píng)價(jià),認(rèn)為它將顛覆人們對(duì)圖像生成與編輯的認(rèn)知;還有人給它冠上了「King Bomb」的稱號(hào),并特別稱贊了其抽象概念理解能力。Youtube 還出現(xiàn)了大量的介紹以及使用經(jīng)驗(yàn)分享視頻。


開(kāi)源兩周以來(lái),DreamOmni2 收獲了開(kāi)源社區(qū)的大量認(rèn)可,在 GitHub 上已經(jīng)積累了 1.6k 的 Star 量。

代碼地址:https://github.com/dvlab-research/DreamOmni2
如果說(shuō) Nano Banana 開(kāi)啟了多模態(tài) AI 圖像編輯生成的新紀(jì)元,那么 DreamOmni2 有助于整個(gè)行業(yè)將這種改圖與生圖的能力推向深水區(qū),為創(chuàng)作者提供了一個(gè)語(yǔ)義理解更全面、創(chuàng)意延展性更強(qiáng)的智能引擎。
接下來(lái),機(jī)器之心進(jìn)行了一手實(shí)測(cè),一起來(lái)看看效果如何。
一手實(shí)測(cè),看看強(qiáng)在哪里?
我們首先測(cè)試了 DreamOmni2 的基于指令的多模態(tài)編輯能力。

體驗(yàn)地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
在這一任務(wù)中,我們給模型輸入了兩張圖片和一條提示,提示詞為「將圖 1 中熊貓的背景替換為圖 2,生成證件照(Replace the background of the panda in picture 1 with picture 2 to generate an ID photo)」。

只見(jiàn) DreamOmni2 思考了很短的時(shí)間,一張熊貓證件照就 P 好了。生成的圖片背景符合要求,連毛發(fā)細(xì)節(jié)都被保留得恰到好處。以前修一張證件照,得花上好幾分鐘精調(diào)細(xì)節(jié);現(xiàn)在只需一句話,DreamOmni2 就能自動(dòng)完成,而且效果絲毫不輸專業(yè)修圖。

看起來(lái),這類換背景的任務(wù)已經(jīng)難不倒 DreamOmni2 了。既然如此,我們上難度,嘗試讓模型將一張照片的風(fēng)格轉(zhuǎn)換為另一種風(fēng)格。這類任務(wù)對(duì)模型的理解力與生成控制力要求更高:它不僅需要識(shí)別畫(huà)面內(nèi)容,還要掌握風(fēng)格的語(yǔ)義特征,如色彩氛圍、筆觸質(zhì)感等。
同樣地,我們輸入兩張圖片,外加一句提示「使第一張圖片與第二張圖片具有相同的圖片風(fēng)格(Make the first image have the same image style as the second image)」。

DreamOmni2 的表現(xiàn)同樣令人驚喜,它不僅精準(zhǔn)地還原了參考圖的色調(diào)與氛圍,還將那種風(fēng)格感無(wú)縫融入原圖。

既然 DreamOmni2 的效果如此能打,不禁讓人好奇,它與當(dāng)前主流的生圖模型(比如 GPT-4o 和 Nano Banana)相比,究竟誰(shuí)更勝一籌?要知道,DreamOmni2 可是開(kāi)源的,這一點(diǎn)本身就讓它在多模態(tài)生圖領(lǐng)域顯得格外特別。
輸入如下兩張圖,提示為「將第一幅圖中的夾克替換為第二幅圖中的衣服(Replace the jacket in the first image with the clothes in the second image)」。

DreamOmni2 準(zhǔn)確識(shí)別出了主體與衣服的層級(jí)關(guān)系,不僅成功替換了衣服,還自然地保留了人物臉部特征與姿態(tài),只有衣領(lǐng)略有出入。

我們?cè)賮?lái)看看 GPT-4o 的結(jié)果,輸入同樣的圖片和提示。GPT-4o 很容易看出是 AI 合成的,尤其是人物的臉部,看起來(lái)很不自然,像是被后期磨皮過(guò)度。不僅如此,原本插兜的動(dòng)作也被改動(dòng)了,人物整體比例顯得很不協(xié)調(diào)。

隨后,我們又測(cè)試了谷歌 Nano Banana,人物的姿態(tài)與五官保持完好,衣物替換后的整體視覺(jué)效果自然協(xié)調(diào),但衣物顏色和形態(tài)發(fā)生了變化,logo 也消失了。

對(duì)比下來(lái),我們發(fā)現(xiàn) GPT-4o 表現(xiàn)最差,而 DreamOmni2 和 Nano Banana 整體效果明顯更勝一籌。
接著,我們又測(cè)試了 DreamOmni2 基于指令的多模態(tài)生成能力。

測(cè)試地址:https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
輸入如下圖片,然后要求 DreamOmni2「將第一張圖片中的徽標(biāo)印在第二張圖片中的物體上并放置在桌子上(The logo from the first image isprinted on the object from the second image and placed in the desk)」。

DreamOmni2 準(zhǔn)確理解了語(yǔ)義,不僅正確提取出第一張圖片中的徽標(biāo)元素,還將其自然地貼合到第二張圖片中的物體表面,光影效果非常好。此外,模型自動(dòng)識(shí)別了「桌面」這一場(chǎng)景語(yǔ)境,甚至桌面上出現(xiàn)了杯子倒影。

我們又測(cè)試了一個(gè)更具挑戰(zhàn)性的任務(wù),根據(jù)手繪草圖,讓模型生成一張姿態(tài)相同的圖片。這類任務(wù)考驗(yàn)的不只是模型的圖像生成能力,更是對(duì)動(dòng)作識(shí)別、空間理解與語(yǔ)義映射的綜合考驗(yàn)。

提示:Anime image 1 adopts the pose of image 2
DreamOmni2 在這一測(cè)試中依然表現(xiàn)不錯(cuò),它能夠準(zhǔn)確捕捉草圖中的姿態(tài),將線條信息轉(zhuǎn)化為自然的人物動(dòng)作。

最后,我們同樣對(duì) DreamOmni2 與 GPT-4o、Nano Banana 的生成效果進(jìn)行對(duì)比。輸入兩張圖片,要求是「將圖 2 的項(xiàng)鏈戴在圖 1 中的貓的脖子上」。

DreamOmni2 生成的結(jié)果如下:

下圖左為 GPT-4o 結(jié)果,右為 Nano Banana 結(jié)果:

三者比較下來(lái),GPT-4o 的生成結(jié)果依然帶有較強(qiáng)的 AI 痕跡;DreamOmni2 和 Nano Banana 各有其優(yōu)勢(shì),比如 DreamOmni2 色彩氛圍表現(xiàn)力更強(qiáng),Nano Banana 畫(huà)面呈現(xiàn)更柔和。
這樣的表現(xiàn)直接驗(yàn)證了賈佳亞團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果:DreamOmni2 在基于指令的多模態(tài)編輯與生成任務(wù)中均實(shí)現(xiàn)了新的 SOTA。

基于指令的多模態(tài)編輯定量與定性結(jié)果。

基于指令的多模態(tài)生成的定量與定性結(jié)果。
數(shù)據(jù)、框架與訓(xùn)練三位一體,
打通多模態(tài)生成全鏈路
從前文多場(chǎng)景實(shí)測(cè)來(lái)看,DreamOmni2 在多模態(tài)指令編輯與生成任務(wù)中展現(xiàn)出了更強(qiáng)的適應(yīng)性、可控性與可玩性。實(shí)現(xiàn)這樣的躍升,意味著賈佳亞團(tuán)隊(duì)要在數(shù)據(jù)構(gòu)建、框架設(shè)計(jì)與訓(xùn)練策略上做出一些不同于行業(yè)其他玩家的東西來(lái)。
事實(shí)上,賈佳亞團(tuán)隊(duì)確實(shí)做到了這一點(diǎn),祭出了三階段式數(shù)據(jù)構(gòu)建范式、多參考圖索引編碼優(yōu)化以及 VLM 與生成模型聯(lián)合訓(xùn)練等在內(nèi)的一整套技術(shù)創(chuàng)新方案。
由于多模態(tài)指令編輯與生成算是比較新的 AI 任務(wù),其主要挑戰(zhàn)就在于缺乏足夠的訓(xùn)練數(shù)據(jù)。對(duì)于編輯,早期(如 Omniedit)的數(shù)據(jù)構(gòu)建流程往往通過(guò)生成包含指令、源圖像與目標(biāo)圖像的三元組來(lái)實(shí)現(xiàn),而無(wú)法生成以參考圖像為編輯條件的數(shù)據(jù);對(duì)于生成,現(xiàn)有(如 UNO)的數(shù)據(jù)構(gòu)建流程依賴分割檢測(cè)模型來(lái)生成參考圖像,難以合成涉及抽象屬性或被遮擋物體的參考數(shù)據(jù)。
DreamOmni2 獨(dú)創(chuàng)了三階段式數(shù)據(jù)構(gòu)建范式,力圖突破以往工作的數(shù)據(jù)桎梏。
第一階段采用特征混合方案,通過(guò)雙分支結(jié)構(gòu)同時(shí)生成源圖像與目標(biāo)圖像。并且利用基礎(chǔ)模型的 T2I(文本到圖像)能力,創(chuàng)建包含具體物體與抽象屬性的高質(zhì)量數(shù)據(jù)對(duì)。與 UNO 采用的 diptych 數(shù)據(jù)生成方法相比,特征混合方案表現(xiàn)出了三大優(yōu)勢(shì):不降圖像分辨率、不會(huì)出現(xiàn)因分割線偏移而導(dǎo)致的內(nèi)容混疊、數(shù)據(jù)質(zhì)量與準(zhǔn)確性更高。

第二階段聚焦于構(gòu)建基于指令的多模態(tài)編輯數(shù)據(jù)。首先利用 T2I 模型生成的圖像和真實(shí)圖像來(lái)創(chuàng)建目標(biāo)圖像;隨后利用第一階段訓(xùn)練得到的特征提取模型來(lái)模擬目標(biāo)圖像中的物體或?qū)傩裕⒒谥噶钌蓞⒖紙D像;接著使用基于指令的編輯模型修改目標(biāo)圖像中提取的物體或?qū)傩裕瑥亩鴦?chuàng)建源圖像;最終形成了從參考圖像、源圖像到目標(biāo)圖像的訓(xùn)練對(duì)。

到了第三階段,則要構(gòu)建基于指令的多模態(tài)生成數(shù)據(jù)。首先利用第二階段中訓(xùn)練的特征提取模型,從源圖像中提取物體,創(chuàng)建新的參考圖像;隨后將這些參考圖像與第二階段已有的參考圖像結(jié)合起來(lái),最終形成由多張參考圖像、指令和目標(biāo)圖像組成的訓(xùn)練數(shù)據(jù)集。

這一范式打通了從具體物體到抽象概念、從編輯到生成的全流程數(shù)據(jù)構(gòu)建鏈路,通過(guò)特征混合、真實(shí)數(shù)據(jù)與模型自生數(shù)據(jù)的結(jié)合,彌補(bǔ)了以往多模態(tài)訓(xùn)練中抽象概念稀缺以及缺乏參考圖像條件的結(jié)構(gòu)性缺陷,降低了數(shù)據(jù)獲取成本。
如此一來(lái),賈佳亞團(tuán)隊(duì)從數(shù)據(jù)層面保證了模型的語(yǔ)義理解與跨模態(tài)對(duì)齊能力,也為行業(yè)帶來(lái)了一套更高效的數(shù)據(jù)閉環(huán)標(biāo)準(zhǔn)。
DreamOmni2 的框架設(shè)計(jì)要適應(yīng)多參考圖輸入的需求。由于基礎(chǔ)模型 FLUX Kontext 無(wú)法實(shí)現(xiàn)這一點(diǎn),因此需要進(jìn)行針對(duì)性修改。
在多模態(tài)指令任務(wù)中,為方便起見(jiàn),通常會(huì)將參考圖像標(biāo)記為「image 1」、「image 2」等。但是,僅依靠位置編碼無(wú)法準(zhǔn)確區(qū)分不同參考圖像的索引。
為了解決這個(gè)問(wèn)題,賈佳亞團(tuán)隊(duì)選擇將索引編碼添加到位置通道。索引編碼雖有助于區(qū)分參考圖像,但位置編碼仍然需要根據(jù)先前輸入的參考圖像的大小進(jìn)行偏移。因此這個(gè)偏移又被添加到了位置編碼中,使得復(fù)制粘貼現(xiàn)象和參考圖像之間的像素混淆現(xiàn)象得到有效緩解。
最后是進(jìn)一步的訓(xùn)練優(yōu)化。當(dāng)前編輯和生成模型的訓(xùn)練指令通常結(jié)構(gòu)化良好,具有固定格式。然而,現(xiàn)實(shí)世界中的用戶指令往往不規(guī)則或邏輯上不一致,這會(huì)造成一種鴻溝,影響到模型的理解并降低性能。
針對(duì)這一點(diǎn),賈佳亞團(tuán)隊(duì)提出了 VLM 和生成模型聯(lián)合訓(xùn)練的機(jī)制,讓 VLM 理解復(fù)雜的用戶指令,并將其輸出為訓(xùn)練中使用的結(jié)構(gòu)化格式,幫助編輯和生成模型更好地理解用戶意圖。
與此同時(shí),賈佳亞團(tuán)隊(duì)使用 LoRA 方法分別訓(xùn)練了編輯與生成模塊,使模型按照標(biāo)準(zhǔn)化指令格式執(zhí)行多模態(tài)指令編輯與生成任務(wù)。當(dāng)系統(tǒng)檢測(cè)到參考圖像輸入時(shí),LoRA 模塊會(huì)自動(dòng)激活,從而在統(tǒng)一模型中無(wú)縫融合編輯與生成功能。
更多技術(shù)細(xì)節(jié)請(qǐng)?jiān)L問(wèn)原論文。

論文地址:https://arxiv.org/pdf/2510.06679v1
作為一次底層架構(gòu)的技術(shù)升級(jí),DreamOmni2 以系統(tǒng)化的思路貫通了數(shù)據(jù)、框架與訓(xùn)練三個(gè)關(guān)鍵環(huán)節(jié),構(gòu)建起多模態(tài)生成的統(tǒng)一體系。
結(jié)語(yǔ)
去年 12 月,賈佳亞團(tuán)隊(duì)發(fā)布 DreamOmni,邁出了探索圖像生成與編輯任務(wù)大一統(tǒng)的第一步。如今 DreamOmni2 的開(kāi)源,則是這一方向的深化與延展。
最開(kāi)始,基于指令的編輯還只能處理簡(jiǎn)單的添加、刪除與替換任務(wù),而現(xiàn)在已經(jīng)能夠理解復(fù)雜的語(yǔ)義指令,并利用參考圖像實(shí)現(xiàn)風(fēng)格遷移、結(jié)構(gòu)重組、抽象屬性編輯等高級(jí)任務(wù)。
基于指令的生成也不再局限于單一物體的場(chǎng)景構(gòu)建,而能更靈活地處理多物體與抽象概念的協(xié)同組合,實(shí)現(xiàn)更高層次的語(yǔ)義協(xié)調(diào)與創(chuàng)意控制,拓寬了 AI 視覺(jué)創(chuàng)作的表現(xiàn)空間。
對(duì)于整個(gè)行業(yè)而言,DreamOmni2 的系統(tǒng)性創(chuàng)新,讓模型的多模態(tài)理解、編輯與生成能力做到自然銜接與切換,為下一代 AI 視覺(jué)創(chuàng)作工具的智能進(jìn)化提供了參考。
此外,DreamOmni2 是賈佳亞團(tuán)隊(duì)過(guò)去兩年深耕多模態(tài)領(lǐng)域的一個(gè)縮影與延續(xù)。團(tuán)隊(duì)在圖像、視頻與語(yǔ)音等多個(gè)方向發(fā)力,僅在去年就陸續(xù)推出多模態(tài)視覺(jué)語(yǔ)言模型 Mini-Gemini、AI 圖像與視頻生成控制工具ControlNeXt 以及 DreamOmni 等多項(xiàng)代表性研究;在語(yǔ)音方向則推出了富有表現(xiàn)力、長(zhǎng)時(shí)程的語(yǔ)音生成模型 MGM-Omni。
通過(guò)這些工作,賈佳亞團(tuán)隊(duì)已逐步構(gòu)建起覆蓋感知、理解與生成全鏈路的多模態(tài)技術(shù)棧。加之很多模型選擇向社區(qū)開(kāi)放,進(jìn)一步增強(qiáng)了其自身多模態(tài)技術(shù)的影響力。
隨著以 Nano Banana、DreamOmni2 以及 Sora 2 為代表的視覺(jué)生成模型持續(xù)引爆社區(qū),AI 創(chuàng)作范式正在發(fā)生翻天覆地的變化,創(chuàng)作者可以進(jìn)行更加深入的人模共創(chuàng)。連同 DreamOmni2 在內(nèi),賈佳亞團(tuán)隊(duì)的一系列開(kāi)源工作將成為推動(dòng)全球多模態(tài)創(chuàng)作生態(tài)演進(jìn)的重要力量。






























