偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

港大阿里「視覺(jué)AI任意門(mén)」，一鍵向場(chǎng)景中無(wú)縫傳送物體

作者：克雷西 2023-07-23 19:24:30

人工智能新聞

相對(duì)于已有的類似模型，AnyDoor具有零樣本操作能力，無(wú)需針對(duì)具體物品調(diào)整模型。

本文經(jīng)AI新媒體量子位（公眾號(hào)ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

點(diǎn)兩下鼠標(biāo)，就能把物體無(wú)縫「?jìng)魉汀沟秸掌瑘?chǎng)景中，光線角度和透視也能自動(dòng)適應(yīng)。

阿里和港大的這個(gè)AI版「任意門(mén)」，實(shí)現(xiàn)了零樣本的圖像嵌入。

有了它，網(wǎng)購(gòu)衣服也可以直接看上身效果了。

因?yàn)楣δ芎腿我忾T(mén)十分相似，所以研發(fā)團(tuán)隊(duì)給它起的名字就叫AnyDoor。

AnyDoor一次能夠傳送多個(gè)物體。

圖片

不僅如此，它還能移動(dòng)圖像里的已有物品。

圖片

有網(wǎng)友看了之后贊嘆到，或許接下來(lái)就會(huì)進(jìn)化到（把物體傳入到）視頻了。

零樣本生成逼真效果

相對(duì)于已有的類似模型，AnyDoor具有零樣本操作能力，無(wú)需針對(duì)具體物品調(diào)整模型。

除了這些需要進(jìn)行參數(shù)調(diào)節(jié)的模型之外，AnyDoor相對(duì)于其他Reference類模型也更為準(zhǔn)確。

實(shí)際上，其他的Reference類模型只能做到保持語(yǔ)義一致性。

通俗地說(shuō)，如果要傳送的物體是一只貓，其他模型只能保證結(jié)果中也有一只貓，但相似度無(wú)法保證。

我們不妨把AnyDoor的效果放大看看，是不是看不出什么破綻？

用戶評(píng)價(jià)的結(jié)果也證實(shí)，AnyDoor在質(zhì)量和準(zhǔn)確度方面表現(xiàn)均優(yōu)于現(xiàn)有模型（滿分4分）。

而對(duì)于已有圖像中物體的移動(dòng)、換位，甚至改變姿態(tài)，AnyDoor也能出色完成。

那么，AnyDoor是如何實(shí)現(xiàn)這些功能的呢？

工作原理

圖片

要想實(shí)現(xiàn)物體的傳送，首先就要對(duì)其進(jìn)行提取。

不過(guò)在將包含目標(biāo)物體的圖像送入提取器之前，AnyDoor首先會(huì)對(duì)其進(jìn)行背景消除。

然后，AnyDoor會(huì)進(jìn)行自監(jiān)督式的物體提取并轉(zhuǎn)換成token。

這一步使用的編碼器是以目前最好的自監(jiān)督模型DINO-V2為基礎(chǔ)設(shè)計(jì)的。

為了適應(yīng)角度和光線的變化，除了提取物品的整體特征，還需要額外提取細(xì)節(jié)信息。

這一步中，為了避免過(guò)度約束，團(tuán)隊(duì)設(shè)計(jì)了一種用高頻圖表示特征信息的方式。

將目標(biāo)圖像與Sobel算子等高通濾波器進(jìn)行卷積，可以得到含高頻詳情的圖像。

同時(shí)，AnyDoor利用Hadamard對(duì)圖像中的RGB色彩信息進(jìn)行提取。

結(jié)合這些信息和過(guò)濾邊緣信息的遮罩，得到了只含高頻細(xì)節(jié)的HF-Map。

最后一步就是將這些信息進(jìn)行注入。

利用獲取到的token，AnyDoor通過(guò)文生圖模型對(duì)圖像進(jìn)行合成。

具體來(lái)說(shuō)，AnyDoor使用的是帶有ControlNet的Stable Diffusion。

AnyDoor的工作流程大致就是這樣。而在訓(xùn)練方面，也有一些特殊的策略。

△AnyDoor使用的訓(xùn)練數(shù)據(jù)集

盡管AnyDoor針對(duì)的是靜態(tài)圖像，但有一部分用于訓(xùn)練的數(shù)據(jù)是從視頻當(dāng)中提取出來(lái)的。

對(duì)于同一物體，視頻當(dāng)中可以提取出包含不同背景的圖像。

將物體與背景分離后標(biāo)注配對(duì)，就形成了AnyDoor的訓(xùn)練數(shù)據(jù)。

不過(guò)雖然視頻數(shù)據(jù)有利于學(xué)習(xí)，但還存在質(zhì)量問(wèn)題需要解決。

于是團(tuán)隊(duì)設(shè)計(jì)了自適應(yīng)時(shí)間步采樣策略，在不同時(shí)刻分別采集變化和細(xì)節(jié)信息。

通過(guò)消融實(shí)驗(yàn)結(jié)果可以看出，隨著這些策略的加入，CLIP和DINO評(píng)分均逐漸升高。

團(tuán)隊(duì)簡(jiǎn)介

論文的第一作者是香港大學(xué)博士生陳汐（Xi Chen），他曾經(jīng)是阿里巴巴集團(tuán)算法工程師。

陳汐的導(dǎo)師Hengshuang Zhao是本文的通訊作者，研究領(lǐng)域包括機(jī)器視覺(jué)、機(jī)器學(xué)習(xí)等。

此外，阿里方面還有來(lái)自達(dá)摩院、菜鳥(niǎo)集團(tuán)的研究人員也參與了這一項(xiàng)目。

論文地址：https://arxiv.org/abs/2307.09481

責(zé)任編輯：張燕妮來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="env5k"><th id="env5k"><pre id="env5k"></pre></th></pre>

<u id="env5k"></u>