偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

超越谷歌Banana,字節(jié)聯(lián)合香港中文大學(xué)等高校開(kāi)源最強(qiáng)圖像編輯生成系統(tǒng)DreamOmni2

人工智能 新聞
香港中文大學(xué),香港科技大學(xué),香港大學(xué)和字節(jié)跳動(dòng)共同研發(fā)的系統(tǒng)DreamOmni2,實(shí)現(xiàn)圖像編輯與生成領(lǐng)域最新SOTA。

AI圖像編輯與生成,正迎來(lái)一場(chǎng)體驗(yàn)革命。

香港中文大學(xué),香港科技大學(xué),香港大學(xué)和字節(jié)跳動(dòng)共同研發(fā)的系統(tǒng)DreamOmni2,實(shí)現(xiàn)圖像編輯與生成領(lǐng)域最新SOTA。

指令遵循能力全面領(lǐng)先,真正做到指哪打哪。

他們推出的DreamOmni2系統(tǒng),讓AI真正學(xué)會(huì)了同時(shí)理解語(yǔ)言指令和參考圖像。

文本+圖片的多模態(tài)指令,精準(zhǔn)解決了過(guò)去模型處理抽象概念(如風(fēng)格,材質(zhì),光照)時(shí)的無(wú)力感,讓創(chuàng)作變得像和一位心領(lǐng)神會(huì)的搭檔對(duì)話一樣自然。

DreamOmni2用三步造出高質(zhì)量數(shù)據(jù)

要教會(huì)AI理解文本+圖片的復(fù)雜指令,最大的難題是缺乏合適的訓(xùn)練數(shù)據(jù)。

對(duì)于圖像編輯任務(wù),過(guò)去的數(shù)據(jù)集通常只包含指令,輸入圖,輸出圖這樣的三元組。它們無(wú)法告訴模型如何從一張獨(dú)立的參考圖中提取某個(gè)元素或風(fēng)格,并應(yīng)用到另一張圖上。

對(duì)于圖像生成任務(wù),現(xiàn)有的數(shù)據(jù)構(gòu)建方法,比如UNO,依賴分割模型來(lái)?yè)笀D,以生成參考圖像。這種方法處理一個(gè)具體的物體還行,但一旦遇到抽象的屬性,比如一種光影風(fēng)格,或者被遮擋的物體,就無(wú)能為力了。

沒(méi)有好的教材,AI自然學(xué)不會(huì)高階的創(chuàng)作技巧。

DreamOmni2的第一個(gè)核心突破,就是創(chuàng)造了一套全新的三階段流程,專門(mén)用來(lái)生產(chǎn)這種高質(zhì)量的多模態(tài)指令訓(xùn)練數(shù)據(jù)。

第一階段,是訓(xùn)練一個(gè)提取模型。

這個(gè)階段的目標(biāo),是教會(huì)AI從一張復(fù)雜的圖像中,精準(zhǔn)地提取出某個(gè)具體的物體,或某種抽象的屬性。

研究團(tuán)隊(duì)設(shè)計(jì)了一種特征混合方案。簡(jiǎn)單來(lái)說(shuō),它通過(guò)一個(gè)雙分支結(jié)構(gòu),一邊生成源圖像,一邊生成目標(biāo)圖像,并在過(guò)程中巧妙地混合兩者的特征。

這種方法相比傳統(tǒng)的數(shù)據(jù)生成方式,有三個(gè)明顯的好處:它不降低圖像的分辨率;不會(huì)因?yàn)閳D像拼接產(chǎn)生內(nèi)容混疊;生成的數(shù)據(jù)質(zhì)量和準(zhǔn)確性都更高。

第二階段,是創(chuàng)造多模態(tài)指令編輯數(shù)據(jù)。

有了第一階段訓(xùn)練好的提取模型,事情就變得簡(jiǎn)單了。

研究團(tuán)隊(duì)先用文本到圖像(T2I)模型和真實(shí)圖像,創(chuàng)建一批高質(zhì)量的目標(biāo)圖像。

然后,讓提取模型從這些目標(biāo)圖像中,根據(jù)關(guān)鍵詞(比如一只貓或復(fù)古風(fēng)格)提取出物體或?qū)傩?,生成一張參考圖像。

接著,再用一個(gè)基于指令的編輯模型,對(duì)目標(biāo)圖像進(jìn)行修改,比如把貓去掉,或者改變風(fēng)格,從而生成一張?jiān)磮D像。

最后,用大型語(yǔ)言模型(LLM)根據(jù)這個(gè)過(guò)程,自動(dòng)生成一句編輯指令,比如把參考圖里的貓加到源圖像中。

這樣,一個(gè)包含源圖像,指令,參考圖像,目標(biāo)圖像的完整訓(xùn)練樣本就誕生了。

第三階段,是創(chuàng)造多模態(tài)指令生成數(shù)據(jù)。

這個(gè)階段在第二階段的基礎(chǔ)上更進(jìn)一步。

研究團(tuán)隊(duì)再次使用第一階段的提取模型,從第二階段生成的源圖像中,再提取出一些物體,創(chuàng)造出更多的參考圖像。

然后把這些新參考圖和已有的參考圖組合起來(lái)。

最終,就形成了一個(gè)包含多張參考圖,一條指令和一張目標(biāo)圖的訓(xùn)練數(shù)據(jù)集。這個(gè)數(shù)據(jù)集讓模型能夠?qū)W習(xí)處理更復(fù)雜的,涉及1~5個(gè)參考圖像的生成任務(wù)。

通過(guò)這三個(gè)步驟,DreamOmni2為自己量身打造了一套高質(zhì)量的數(shù)據(jù)集,解決了多模態(tài)指令訓(xùn)練的根本難題。

模型學(xué)會(huì)了看圖說(shuō)話再動(dòng)手

有了數(shù)據(jù),還需要一個(gè)能理解這些數(shù)據(jù)的模型框架。

傳統(tǒng)的圖像生成模型,比如FLUX-Kontext,一次只能處理一張輸入圖。要讓它理解多張參考圖,就需要一些巧妙的設(shè)計(jì)。

DreamOmni2提出了索引編碼和位置編碼偏移方案。

當(dāng)我們?cè)谥噶钪姓f(shuō)圖1,圖2時(shí),模型需要準(zhǔn)確知道哪張是圖1,哪張是圖2。研究團(tuán)隊(duì)通過(guò)引入索引編碼,給每張輸入的參考圖貼上一個(gè)獨(dú)一無(wú)二的標(biāo)簽,解決了這個(gè)問(wèn)題。

同時(shí),他們發(fā)現(xiàn),多張圖片輸入時(shí),不能讓它們的位置信息混在一起。就像排隊(duì)一樣,后一張圖片的位置信息,需要根據(jù)前面圖片的大小進(jìn)行偏移,留出足夠的空間。這個(gè)小小的調(diào)整,有效避免了生成結(jié)果中出現(xiàn)內(nèi)容復(fù)制粘貼或者像素混淆的現(xiàn)象。

另一個(gè)關(guān)鍵創(chuàng)新,是視覺(jué)語(yǔ)言模型(VLM)和生成模型的聯(lián)合訓(xùn)練。

現(xiàn)實(shí)世界中,用戶輸入的指令往往是隨意的,甚至不合邏輯的。而模型訓(xùn)練時(shí)用的指令卻是格式規(guī)整的。這種鴻溝會(huì)影響模型的理解能力。

DreamOmni2的解法是,引入一個(gè)VLM(視覺(jué)語(yǔ)言模型),比如Qwen2.5-VL 7B模型,讓它充當(dāng)翻譯官。

這個(gè)翻譯官會(huì)先把用戶亂七八糟的指令,轉(zhuǎn)換成模型能理解的,結(jié)構(gòu)化的標(biāo)準(zhǔn)格式,然后再交給后面的生成模型去執(zhí)行。

對(duì)于編輯任務(wù),這個(gè)標(biāo)準(zhǔn)格式會(huì)結(jié)合用戶指令和對(duì)圖像的精細(xì)化描述。對(duì)于生成任務(wù),則直接輸出精細(xì)化的圖像描述。

通過(guò)這種聯(lián)合訓(xùn)練,生成模型能更好地領(lǐng)會(huì)用戶的真實(shí)意圖。

值得一提的是,研究團(tuán)隊(duì)使用LoRA的輕量化微調(diào)技術(shù)。這意味著DreamOmni2在學(xué)會(huì)新本領(lǐng)(處理多模態(tài)指令)的同時(shí),完整保留了基礎(chǔ)模型原有的指令編輯和文生圖能力。

當(dāng)系統(tǒng)檢測(cè)到有參考圖輸入時(shí),新的LoRA模塊會(huì)自動(dòng)激活;沒(méi)有參考圖時(shí),它就和原來(lái)的模型一樣工作,實(shí)現(xiàn)了無(wú)縫集成。

為了解決評(píng)測(cè)問(wèn)題,研究團(tuán)隊(duì)還專門(mén)構(gòu)建了一個(gè)全新的基準(zhǔn)測(cè)試集,DreamOmni2基準(zhǔn)。它由真實(shí)圖像組成,全面覆蓋了抽象屬性和具體物體的生成與編輯場(chǎng)景,為該領(lǐng)域的研究提供了統(tǒng)一的評(píng)判標(biāo)準(zhǔn)。

實(shí)際效果超越了商業(yè)模型

在多模態(tài)指令編輯任務(wù)上,無(wú)論是人工評(píng)估,還是由Gemini 2.5和Doubao 1.6這樣的大模型進(jìn)行評(píng)估,DreamOmni2的性能都超越了所有參與比較的開(kāi)源模型,并且非常接近頂尖的商業(yè)模型。

事實(shí)上,即便是GPT-4o和谷歌的Nano Banana,在編輯屬性時(shí)也常常會(huì)引入一些意想不到的變化,或者出現(xiàn)與參考圖不一致的地方。GPT-4o的編輯結(jié)果甚至還有些泛黃。這些細(xì)微的瑕疵,VLM有時(shí)都難以察覺(jué)。

從上圖的視覺(jué)對(duì)比中可以直觀地看到,DreamOmni2生成的編輯結(jié)果更準(zhǔn)確,與參考圖的一致性也更好。

其他開(kāi)源模型在處理抽象屬性時(shí)顯得力不從心。即使是在它們擅長(zhǎng)的具體物體生成上,DreamOmni2在指令遵循和物體一致性方面也更勝一籌。

在更復(fù)雜的多模態(tài)指令生成任務(wù)上,DreamOmni2的表現(xiàn)同樣出色。

數(shù)據(jù)顯示,它在人工評(píng)估和模型評(píng)估中,優(yōu)于商業(yè)模型Nano Banana,并取得了與GPT-4o相當(dāng)?shù)某煽?jī)。相比其他專注于組合具體物體的開(kāi)源模型,DreamOmni2在準(zhǔn)確性和一致性上優(yōu)勢(shì)明顯。

DreamOmni2通過(guò)一系列技術(shù)創(chuàng)新,真正實(shí)現(xiàn)了在多模態(tài)指令編輯與生成任務(wù)上的突破,為AI創(chuàng)作提供了全新的可能性。

責(zé)任編輯:張燕妮 來(lái)源: AIGC開(kāi)放社區(qū)
相關(guān)推薦

2025-10-23 12:41:13

2025-08-18 08:55:00

AI模型自動(dòng)化

2024-02-01 13:03:00

AI模型

2025-03-12 09:40:28

模型訓(xùn)練數(shù)據(jù)

2025-08-28 09:17:50

2024-12-20 13:50:00

訓(xùn)練模型AI

2025-02-21 09:35:00

3DAI生成

2025-03-31 08:46:00

圖像AI生成

2025-08-01 09:25:00

模型AI腦機(jī)接口

2012-06-21 22:15:34

思科

2023-10-16 12:43:00

模型評(píng)測(cè)

2025-10-23 09:23:18

2024-04-08 12:18:57

訓(xùn)練AI

2020-08-22 07:46:58

Photoflare開(kāi)源圖像編輯器

2025-10-23 16:49:23

2025-01-17 10:30:00

2025-06-23 08:47:00

2025-07-14 08:47:00

AI視覺(jué)模型

2025-02-05 10:15:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)