偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

港大阿里「視覺(jué)AI任意門(mén)」,一鍵向場(chǎng)景中無(wú)縫傳送物體

人工智能 新聞
相對(duì)于已有的類似模型,AnyDoor具有零樣本操作能力,無(wú)需針對(duì)具體物品調(diào)整模型。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

點(diǎn)兩下鼠標(biāo),就能把物體無(wú)縫「?jìng)魉汀沟秸掌瑘?chǎng)景中,光線角度和透視也能自動(dòng)適應(yīng)。

阿里和港大的這個(gè)AI版「任意門(mén)」,實(shí)現(xiàn)了零樣本的圖像嵌入。

有了它,網(wǎng)購(gòu)衣服也可以直接看上身效果了。

圖片

因?yàn)楣δ芎腿我忾T(mén)十分相似,所以研發(fā)團(tuán)隊(duì)給它起的名字就叫AnyDoor。

AnyDoor一次能夠傳送多個(gè)物體。

圖片圖片

不僅如此,它還能移動(dòng)圖像里的已有物品。

圖片圖片

有網(wǎng)友看了之后贊嘆到,或許接下來(lái)就會(huì)進(jìn)化到(把物體傳入到)視頻了。

圖片

零樣本生成逼真效果

相對(duì)于已有的類似模型,AnyDoor具有零樣本操作能力,無(wú)需針對(duì)具體物品調(diào)整模型。

圖片

除了這些需要進(jìn)行參數(shù)調(diào)節(jié)的模型之外,AnyDoor相對(duì)于其他Reference類模型也更為準(zhǔn)確。

實(shí)際上,其他的Reference類模型只能做到保持語(yǔ)義一致性。

通俗地說(shuō),如果要傳送的物體是一只貓,其他模型只能保證結(jié)果中也有一只貓,但相似度無(wú)法保證。

圖片

我們不妨把AnyDoor的效果放大看看,是不是看不出什么破綻?

圖片

圖片

用戶評(píng)價(jià)的結(jié)果也證實(shí),AnyDoor在質(zhì)量和準(zhǔn)確度方面表現(xiàn)均優(yōu)于現(xiàn)有模型(滿分4分)。

而對(duì)于已有圖像中物體的移動(dòng)、換位,甚至改變姿態(tài),AnyDoor也能出色完成。

圖片

那么,AnyDoor是如何實(shí)現(xiàn)這些功能的呢?

工作原理

圖片圖片

要想實(shí)現(xiàn)物體的傳送,首先就要對(duì)其進(jìn)行提取。

不過(guò)在將包含目標(biāo)物體的圖像送入提取器之前,AnyDoor首先會(huì)對(duì)其進(jìn)行背景消除。

然后,AnyDoor會(huì)進(jìn)行自監(jiān)督式的物體提取并轉(zhuǎn)換成token。

這一步使用的編碼器是以目前最好的自監(jiān)督模型DINO-V2為基礎(chǔ)設(shè)計(jì)的。

為了適應(yīng)角度和光線的變化,除了提取物品的整體特征,還需要額外提取細(xì)節(jié)信息。

這一步中,為了避免過(guò)度約束,團(tuán)隊(duì)設(shè)計(jì)了一種用高頻圖表示特征信息的方式。

圖片

將目標(biāo)圖像與Sobel算子等高通濾波器進(jìn)行卷積,可以得到含高頻詳情的圖像。

同時(shí),AnyDoor利用Hadamard對(duì)圖像中的RGB色彩信息進(jìn)行提取。

結(jié)合這些信息和過(guò)濾邊緣信息的遮罩,得到了只含高頻細(xì)節(jié)的HF-Map。

圖片

最后一步就是將這些信息進(jìn)行注入。

利用獲取到的token,AnyDoor通過(guò)文生圖模型對(duì)圖像進(jìn)行合成。

具體來(lái)說(shuō),AnyDoor使用的是帶有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是這樣。而在訓(xùn)練方面,也有一些特殊的策略。

△AnyDoor使用的訓(xùn)練數(shù)據(jù)集

盡管AnyDoor針對(duì)的是靜態(tài)圖像,但有一部分用于訓(xùn)練的數(shù)據(jù)是從視頻當(dāng)中提取出來(lái)的。

圖片

對(duì)于同一物體,視頻當(dāng)中可以提取出包含不同背景的圖像。

將物體與背景分離后標(biāo)注配對(duì),就形成了AnyDoor的訓(xùn)練數(shù)據(jù)。

不過(guò)雖然視頻數(shù)據(jù)有利于學(xué)習(xí),但還存在質(zhì)量問(wèn)題需要解決。

于是團(tuán)隊(duì)設(shè)計(jì)了自適應(yīng)時(shí)間步采樣策略,在不同時(shí)刻分別采集變化和細(xì)節(jié)信息。

通過(guò)消融實(shí)驗(yàn)結(jié)果可以看出,隨著這些策略的加入,CLIP和DINO評(píng)分均逐漸升高。

圖片

團(tuán)隊(duì)簡(jiǎn)介

論文的第一作者是香港大學(xué)博士生陳汐(Xi Chen),他曾經(jīng)是阿里巴巴集團(tuán)算法工程師。

陳汐的導(dǎo)師Hengshuang Zhao是本文的通訊作者,研究領(lǐng)域包括機(jī)器視覺(jué)、機(jī)器學(xué)習(xí)等。

此外,阿里方面還有來(lái)自達(dá)摩院、菜鳥(niǎo)集團(tuán)的研究人員也參與了這一項(xiàng)目。

論文地址:https://arxiv.org/abs/2307.09481

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2023-08-28 00:24:59

圖像場(chǎng)景

2024-10-17 11:09:46

2024-08-02 14:50:00

數(shù)據(jù)AI

2024-04-08 13:59:03

大模型Replicate

2015-02-09 15:25:52

換膚

2025-08-14 09:15:00

2025-09-12 14:39:00

AI數(shù)字人視頻

2022-08-10 10:00:58

AR傳送門(mén)

2024-11-25 14:30:00

2018-12-18 17:25:15

程序員

2021-07-15 16:58:45

數(shù)據(jù)庫(kù)RDS Postgre阿里云

2025-09-08 09:00:00

AI大模型人工智能

2025-06-09 08:40:00

2012-03-11 15:20:36

Android

2015-11-03 15:29:49

ONOS開(kāi)放網(wǎng)絡(luò)操作系統(tǒng)SDN

2025-01-17 10:30:00

Adobe生成式AI工具
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)