偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="jx1j0"></cite>

<blockquote id="jx1j0"><p id="jx1j0"></p></blockquote>

<p id="jx1j0"><li id="jx1j0"><pre id="jx1j0"></pre></li></p><blockquote id="jx1j0"></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一句話(huà)生成視頻AI爆火！Meta最新SOTA模型讓網(wǎng)友大受震撼

作者：新智元 2022-09-30 15:35:43

人工智能新聞

Meta新模型Make-A-Video，可以從文本一鍵生成視頻了！AI的進(jìn)展太神了……

給你一段話(huà)，讓你做個(gè)視頻，你能行嗎？

Meta表示，我可以啊。

你沒(méi)聽(tīng)錯(cuò)：使用AI，你也可以變成電影人了！

近日，Meta推出了新的AI模型，名字起得也是非常直接：做個(gè)視頻（Make-A-Video）。

這個(gè)模型強(qiáng)大到什么程度？

一句話(huà)，就能實(shí)現(xiàn)「三馬奔騰」的場(chǎng)景。

就連LeCun都說(shuō)，該來(lái)的總是會(huì)來(lái)的。

視覺(jué)效果超炫

話(huà)不多說(shuō)，咱們直接看效果。

倆袋鼠在廚房忙著做飯（做出來(lái)能不能吃另說(shuō)）

近景：畫(huà)師在畫(huà)布上作畫(huà)

大雨中漫步的二人世界（步伐整齊劃一）

馬在喝水

芭蕾舞女孩在摩天大樓跳舞

美麗的夏日熱帶海灘上，一只金毛在吃冰激凌（爪子已進(jìn)化）

貓主子拿著遙控器在看電視（爪子已進(jìn)化）

一只泰迪熊給自己畫(huà)自畫(huà)像

意料之外但情理之中的是，狗拿冰淇淋、貓拿遙控器以及泰迪熊畫(huà)畫(huà)的「手」，果然都「進(jìn)化」得和人一樣?。。☉?zhàn)術(shù)后仰）

當(dāng)然，Make-A-Video除了可以把文本變成視頻之外，也可以把靜態(tài)圖變成Gif。

輸入：

輸出：

輸入：

輸出：（亮的似乎有點(diǎn)不是地方）

2張靜圖變GIF，輸入隕石圖

輸出：

以及，把視頻，變成視頻？

輸入：

輸出：

輸入：

輸出：

技術(shù)原理

今天，Meta放出了自己的最新研究MAKE-A-VIDEO: TEXT-TO-VIDEO GENERATION WITHOUT TEXT-VIDEO DATA。

論文地址：https://makeavideo.studio/Make-A-Video.pdf

在這個(gè)模型出現(xiàn)之前，我們已經(jīng)有了Stable Diffusion。

聰明的科學(xué)家已經(jīng)讓AI用一句話(huà)生成圖像了，下一步他們會(huì)做什么呢？

很顯然，是生成視頻。

一只穿著紅色斗篷的超級(jí)英雄狗在天空中飛翔

比起生成圖像來(lái)，生成視頻可難多了。我們不僅需要生成相同主題和場(chǎng)景的多個(gè)幀，還必須讓它們及時(shí)、連貫。

這就增加了圖像生成任務(wù)的復(fù)雜性——我們不可能就簡(jiǎn)單地使用DALLE生成60張圖像，然后把它們拼成一個(gè)視頻。它的效果會(huì)很差，很不真實(shí)。

因此，我們需要一個(gè)能夠以更強(qiáng)大的方式理解世界的模型，并且讓它按照這種理解水平來(lái)生成一系列連貫的圖像。只有這樣，這些圖像才可以天衣無(wú)縫地融合在一起。

也就是說(shuō)，我們的訴求是模擬一個(gè)世界，然后再模擬它的記錄。該怎么做到呢？

按照以前的思路，研究人員會(huì)用大量的文本-視頻對(duì)來(lái)訓(xùn)練模型，但在現(xiàn)在的這種情況下，這種處理方法并不現(xiàn)實(shí)。因?yàn)檫@些數(shù)據(jù)很難獲得，并且訓(xùn)練成本非常昂貴。

因此，研究人員開(kāi)了腦洞，采用了一種全新的方式。

他們選擇開(kāi)發(fā)一個(gè)文本到圖像的模型，然后把它應(yīng)用于視頻。

巧了，前段時(shí)間，Meta就曾開(kāi)發(fā)過(guò)這么一個(gè)從文本到圖像的模型Make-A-Scene。

Make-A-Scene的方法概述

這個(gè)模型產(chǎn)生的契機(jī)是，Meta希望推動(dòng)創(chuàng)意表達(dá)，將這種文本到圖像的趨勢(shì)與以前的草圖到圖像模型相結(jié)合，從而產(chǎn)生文本和以草圖為條件的圖像生成之間的奇妙融合。

這意味著我們可以快速勾勒出一只貓，寫(xiě)出自己想要什么樣的圖像。遵循草圖和文本的指導(dǎo)，這個(gè)模型會(huì)在幾秒鐘內(nèi)，生成我們想要的完美插圖。

你可以把這種多模態(tài)生成AI方法看作是一個(gè)對(duì)生成有更多控制的Dall-E模型，因?yàn)樗€可以將快速草圖作為輸入。

之所以稱(chēng)它為多模態(tài)，是因?yàn)樗梢詫⒍喾N模態(tài)作為輸入，比如文本和圖像。相比之下，Dall-E只能從文本生成圖像。

為了生成視頻，就需要加入時(shí)間的維度，因此研究人員在Make-A-Scene模型中添加了時(shí)空管道。

加入時(shí)間維度后，這個(gè)模型就不是只生成一張圖片，而是生成16張低分辨率的圖片，以創(chuàng)建一個(gè)連貫的短視頻。

這個(gè)方法其實(shí)與文本到圖像模型類(lèi)似，但不同之處在于：在常規(guī)的二維卷積的基礎(chǔ)上，它增加一維卷積。

只是簡(jiǎn)單地增加了一維卷積，研究人員就能保持預(yù)先訓(xùn)練的二維卷積不變的同時(shí)，增加一個(gè)時(shí)間維度。然后，研究人員就可以從頭開(kāi)始訓(xùn)練，重新使用Make-A-Scene圖像模型的大部分代碼和參數(shù)。

同時(shí)，研究人員還想用文本輸入來(lái)指導(dǎo)這個(gè)模型，這將與使用CLIP嵌入的圖像模型非常相似。

在這種情況下，研究人員是在將文本特征與圖像特征混合時(shí)，增加空間維度，方法同上：保留Make-A-Scene模型中的注意力模塊，并為時(shí)間增加一個(gè)一維注意力模塊——復(fù)制粘貼圖像生成器模型，為多一個(gè)維度重復(fù)生成模塊，來(lái)獲得16個(gè)初始幀。

但是只靠這16個(gè)初始幀，還不能生成視頻。

研究人員需要從這16個(gè)主幀中，制作一個(gè)高清晰度的視頻。他們采用的方法是：訪(fǎng)問(wèn)之前和未來(lái)的幀，并同時(shí)在時(shí)間和空間維度上對(duì)它們進(jìn)行迭代插值。

就這樣，他們?cè)谶@16個(gè)初始幀之間，根據(jù)前后的幀生成了新的、更大的幀，這樣就使運(yùn)動(dòng)變得連貫，整體視頻變得流暢了。

這是通過(guò)一個(gè)幀插值網(wǎng)絡(luò)完成的，它可以采取已有的圖像來(lái)填補(bǔ)空白，生成中間的信息。在空間維度上，它會(huì)做同樣的事情：放大圖像，填補(bǔ)像素的空白，使圖像更加高清。

總而言之，為了生成視頻，研究人員微調(diào)了一個(gè)文本到圖像的模型。他們采用了一個(gè)已經(jīng)訓(xùn)練好的強(qiáng)大模型，對(duì)它進(jìn)行調(diào)整和訓(xùn)練，讓它適應(yīng)視頻。

因?yàn)樘砑恿丝臻g和時(shí)間模塊，只要簡(jiǎn)單地讓模型適應(yīng)這些新數(shù)據(jù)就可以了，而不必重新訓(xùn)練它，這就節(jié)省了大量的成本。

這種重新訓(xùn)練使用的是未標(biāo)記的視頻，只需要教模型理解視頻和視頻幀的一致性就可以了，這就可以更簡(jiǎn)單地建立數(shù)據(jù)集。

最后，研究人員再次使用了圖像優(yōu)化模型，提高了空間分辨率，并使用了幀插值組件增加了更多的幀，使視頻變得流暢。

當(dāng)然，目前Make-A-Video的結(jié)果還存在缺點(diǎn)，就如同文本到圖像的模型一樣。但我們都知道，AI領(lǐng)域的進(jìn)展是多么神速。

如果你想進(jìn)一步了解，可以參考鏈接中Meta AI的論文。社區(qū)也正在開(kāi)發(fā)一個(gè)PyTorch的實(shí)現(xiàn)，如果你想自己實(shí)現(xiàn)它，請(qǐng)繼續(xù)關(guān)注。

作者介紹

這篇論文中有多位華人研究人員參與：殷希、安捷、張宋揚(yáng)、Qiyuan Hu。

殷希，F(xiàn)AIR研究科學(xué)家。此前曾供職微軟，任Microsoft Cloud and AI 的高級(jí)應(yīng)用科學(xué)家。在密歇根州立大學(xué)計(jì)算機(jī)科學(xué)與工程系獲博士學(xué)位，2013年畢業(yè)于武漢大學(xué)電氣工程專(zhuān)業(yè)，獲學(xué)士學(xué)位。主要研究領(lǐng)域?yàn)槎嗄B(tài)理解、大規(guī)模目標(biāo)檢測(cè)、人臉推理等。

安捷，羅切斯特大學(xué)計(jì)算機(jī)科學(xué)系博士生。師從羅杰波教授。此前于 2016 年和 2019 年在北京大學(xué)獲得學(xué)士和碩士學(xué)位。研究興趣包括計(jì)算機(jī)視覺(jué)、深度生成模型和AI+藝術(shù)。作為實(shí)習(xí)生參與了Make-A-Video研究。

張宋揚(yáng)，羅切斯特大學(xué)計(jì)算機(jī)科學(xué)系博士生，師從羅杰波教授。在東南大學(xué)獲得學(xué)士學(xué)位，在浙江大學(xué)獲得碩士學(xué)位。研究興趣包括自然語(yǔ)言矩定位、無(wú)監(jiān)督語(yǔ)法歸納、基于骨架的動(dòng)作識(shí)別等。作為實(shí)習(xí)生參與了Make-A-Video研究。

Qiyuan Hu，時(shí)任FAIR的AI Resident，從事提高人類(lèi)創(chuàng)造力的多模態(tài)生成模型的研究。她在芝加哥大學(xué)獲得醫(yī)學(xué)物理學(xué)博士學(xué)位，曾從事AI輔助的醫(yī)學(xué)圖像分析工作。現(xiàn)已供職Tempus Labs，任機(jī)器學(xué)習(xí)科學(xué)家。

網(wǎng)友大受震撼

前段時(shí)間，谷歌等大廠(chǎng)紛紛放出自家的文本到圖像模型，如Parti，等等。

有人甚至認(rèn)為文本到視頻生成模型還有一段時(shí)間才能到來(lái)。

沒(méi)想到，Meta這次投了一顆重磅炸彈。

其實(shí)，同在今天，還有一個(gè)文本到視頻生成模型Phenaki，目前已提交到ICLR 2023，由于還處于盲審階段，作者機(jī)構(gòu)還是未知。

網(wǎng)友稱(chēng)，從DALLE到Stable Diffuson再到Make-A-Video，一切來(lái)得太快。

責(zé)任編輯：張燕妮來(lái)源：新智元

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="vy9mr"><p id="vy9mr"></p></blockquote>

<sub id="vy9mr"></sub>