都給我開(kāi)口說(shuō)話!MakeItTalk的神奇魔法讓你和蒙娜麗莎對(duì)話
最近,麻省大學(xué)Amherst分校的Yang Zhou博士和他的團(tuán)隊(duì)提出了一種具有深度結(jié)構(gòu)的新方法「MakeItTalk」。給定一個(gè)音頻語(yǔ)音信號(hào)和一個(gè)人像圖像作為輸入,模型便會(huì)生成說(shuō)話人感知的有聲動(dòng)畫(huà)圖。
富有表現(xiàn)力的動(dòng)畫(huà)誰(shuí)都想要!
面部動(dòng)畫(huà)在很多領(lǐng)域都是一項(xiàng)關(guān)鍵技術(shù),比如制作電影、視頻流、電腦游戲、虛擬化身等等。
盡管在技術(shù)上取得了無(wú)數(shù)的成就,但是創(chuàng)造逼真的面部動(dòng)畫(huà)仍然是計(jì)算機(jī)圖形學(xué)的挑戰(zhàn)。
一是整個(gè)面部表情包含了完整面部各部分之間的相互關(guān)系,面部運(yùn)動(dòng)和語(yǔ)音之間的協(xié)同是一項(xiàng)艱巨的任務(wù),因?yàn)槊娌縿?dòng)態(tài)在高維多重影像中占主導(dǎo)地位,其中頭部姿勢(shì)最為關(guān)鍵。
二是多個(gè)說(shuō)話人會(huì)有不同的說(shuō)話方式,控制嘴唇一致,不足以了解說(shuō)話的人的性格,還要表達(dá)不同的個(gè)性。
針對(duì)上述問(wèn)題,Yang Zhou博士和他的團(tuán)隊(duì)提出了一種具有深度結(jié)構(gòu)的新方法「 MakeItTalk」。
這是一種具有深度架構(gòu)的新方法,只需要一個(gè)音頻和一個(gè)面部圖像作為輸入,程序就會(huì)輸出一個(gè)逼真的「說(shuō)話的頭部動(dòng)畫(huà)」。
下面,我們就來(lái)看看,MakeItTalk的是如何讓圖片「說(shuō)話」的。
都給我開(kāi)口說(shuō)話!神奇的 MakeItTalk 是什么?
MakeItTalk是一個(gè)新的深度學(xué)習(xí)為基礎(chǔ)的架構(gòu),能夠識(shí)別面部標(biāo)志、下巴、頭部姿勢(shì)、眉毛、鼻子,并切能夠通過(guò)聲音的刺激使嘴唇發(fā)生變化。
模型以LSTM 和 CNN 為基礎(chǔ),可以根據(jù)說(shuō)話人的音調(diào)和內(nèi)容,讓面部表情和頭部產(chǎn)生隨動(dòng)。
本質(zhì)上, MakeItTalk將輸入音頻信號(hào)中的內(nèi)容和說(shuō)話人分離出來(lái),從產(chǎn)生的抽象表示中提取出對(duì)應(yīng)的動(dòng)畫(huà)。
而嘴唇和相鄰面部的協(xié)同也尤為重要。說(shuō)話者的信息被用來(lái)獲取其他面部表情和頭部動(dòng)作,而這些對(duì)于生成富有表現(xiàn)力的頭部動(dòng)畫(huà)是必需的。
MakeItTalk模型既可以生成逼真的人臉說(shuō)話圖像,也可以生成非逼真的卡通說(shuō)話圖像。
聲音+圖像=「開(kāi)口說(shuō)話」?MakeItTalk是如何做到的?
下面的圖表顯示了生成逼真的說(shuō)話頭像的完整方法和途徑:
(1)一個(gè)音頻剪輯和一個(gè)單一的面部圖像可以制作一個(gè)與音頻協(xié)調(diào)的,能感知說(shuō)話者的頭部動(dòng)畫(huà)。
(2)在訓(xùn)練階段,使用現(xiàn)成的人臉檢測(cè)器對(duì)輸入的視頻進(jìn)行預(yù)處理,提取標(biāo)記,從輸入的音頻中訓(xùn)練基礎(chǔ)模型,實(shí)現(xiàn)語(yǔ)音內(nèi)容轉(zhuǎn)動(dòng)畫(huà)和標(biāo)記的精確提取。
(3)為了獲得高精度的運(yùn)動(dòng),通過(guò)對(duì)輸入音頻信號(hào)的分離內(nèi)容和說(shuō)話人嵌入來(lái)檢測(cè)標(biāo)記點(diǎn)的估計(jì)。為此,采用語(yǔ)音轉(zhuǎn)換神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音內(nèi)容進(jìn)行提取,發(fā)現(xiàn)語(yǔ)音內(nèi)容。
(4)內(nèi)容與說(shuō)話者無(wú)關(guān),并且捕獲了嘴唇和相鄰部位的常見(jiàn)運(yùn)動(dòng),其中說(shuō)話內(nèi)容調(diào)節(jié)了動(dòng)作的特征和說(shuō)話者頭部動(dòng)作的剩余部分。
(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運(yùn)動(dòng)而擴(kuò)大,這取決于誰(shuí)說(shuō)了這個(gè)詞,也就是說(shuō)話人身份。
(6)最后,為了生成轉(zhuǎn)換后的圖像,MakeItTalk采用了兩種算法進(jìn)行標(biāo)記到圖像的合成:
對(duì)于非真實(shí)感的圖像,如畫(huà)布藝術(shù)或矢量藝術(shù),一個(gè)特定的畸變方法是在 Delaunay triangulation 的基礎(chǔ)上部署;
對(duì)于真實(shí)感圖像,構(gòu)建一個(gè)圖像到圖像的轉(zhuǎn)換網(wǎng)絡(luò)(與 pix2pix 相同) ,直接轉(zhuǎn)換自然人臉。
最后,混合所有的圖像幀和音頻共同生成頭部動(dòng)畫(huà)。
作者簡(jiǎn)介
該項(xiàng)目的作者本科畢業(yè)于上海交通大學(xué)電子工程系,然后在喬治亞理工學(xué)院獲得了碩士學(xué)位,現(xiàn)在是馬薩諸塞大學(xué)阿默斯特分校計(jì)算機(jī)圖形學(xué)科學(xué)研究小組的一名計(jì)算機(jī)科學(xué)博士生。
作者主頁(yè)上的頭像也被風(fēng)格化了
Yang Zhou在計(jì)算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域工作。主要致力于用深度學(xué)習(xí)技術(shù)來(lái)幫助藝術(shù)家、造型師和動(dòng)畫(huà)師做出更好的設(shè)計(jì)。
如果也想給你的設(shè)計(jì)加點(diǎn)AI的基因,Yang Zhou的論文列表絕對(duì)是個(gè)不錯(cuò)的選擇,有很多關(guān)于動(dòng)畫(huà)生成和多模態(tài)深度學(xué)習(xí)的研究。