撰稿 | 伊風(fēng)
整個(gè)2月,Sora 可謂是當(dāng)之無愧的 AI 明星,公布的兩波 AI 視頻吸睛無數(shù)。沒想到在2月末尾,還能有另一位視頻生成“選手”讓我們感到驚喜!
那就是阿里新推出的視頻生成框架——EMO (Emote Portrait Alive) 。EMO 基于擴(kuò)散模型,只需要提供圖像和音頻就可以生成富有表現(xiàn)力的肖像視頻。從公布的視頻來看,EMO 在生成肖像的動作、口型及表情等方面均表現(xiàn)不俗,展現(xiàn)了與 Sora 一樣豐富的“可玩性”,能完成許多具有想象力和創(chuàng)造性的各類視頻。
EMO 驅(qū)動的肖像不僅可以唱歌、口語對白,甚至還能為你秀一段快嘴說唱。示例視頻中展現(xiàn)了 EMO 多樣的生成能力和優(yōu)越的實(shí)現(xiàn)效果,含有阿里團(tuán)隊(duì)的大量“官方整活”。
通過 EMO,你可以讓蒙娜麗莎不再只是神秘微笑,轉(zhuǎn)而縱情高歌一首時(shí)下的熱曲《flowers》;讓蔡徐坤去秀一段快嘴,成為比肩姆爺?shù)摹皉ap god”;或者讓反派高啟強(qiáng)改邪歸正加入普法隊(duì)伍……不得不說,每一支視頻都腦洞大開。
1.歌聲驅(qū)動,人人都能當(dāng)歌星
畫面中 AI 生成的蒙娜麗莎,正站在她那神秘、幽靜的山巒之間,遠(yuǎn)處是無際的綠植與道路。置身于這樣的美景之間,蒙娜麗莎情不自禁地唱起麥莉·賽勒的《flowers》。唱到陶醉之時(shí)的蒙娜麗莎不僅會流露自信的笑容,還間或閉上眼睛,完全沉醉在歌唱之中,給人非常真實(shí)的視聽體驗(yàn)。
Sora 視頻中那位走在巴黎街頭的皮衣女士也來體驗(yàn)了一把 EMO 的生成效果。在該視頻中“Sora 女士”不僅頭部運(yùn)動自然,發(fā)力時(shí)眉毛的運(yùn)動及換氣的感覺也都讓人十分驚喜。此外, EMO 對于耳環(huán)的擺動、甚至墨鏡中反光的倒影也進(jìn)行了較為逼真的還原。
2.二次元到三次元,多個(gè)語種都能唱
視頻中銀發(fā)綠瞳的精致女孩正面朝陽光,唱著寧藝卓翻唱版本的《Melody》,中英文切換時(shí)自然流暢。值得一提的是,驅(qū)動這支視頻的圖像也由 AI 生成,但整體呈現(xiàn)的效果猶如一位真實(shí)的美女主播。
畫面中的“哥哥”張國榮正唱著 Eason 的那首《無條件》。有網(wǎng)友認(rèn)為,這支視頻暴露了EMO 在跟隨粵語時(shí)生成的口型不夠自然。不知道大家欣賞這支視頻時(shí),是否會有“音畫不同步”的感覺。當(dāng)然,這支視頻中哥哥愉悅的積極情緒與《無條件》歌詞的情感基調(diào)有斷裂,這可能也是讓我們感到“哪里不對”的原因之一。
3.語速快如rap god,也不留破綻
視頻中還沒成為中年大叔的貌美版“小李子”,正唱著阿姆的《GODZILLA》。從驅(qū)動視頻來看,肖像人物的表情與說唱的節(jié)奏配合自然,中間停頓時(shí)的神情也極具感染力。
以下視頻來源于
往事如歌
沒有比讓坤坤唱《rap god》更抽象的整活了。不知道為何,兩個(gè)說唱的示例都選擇了“姆爺”的歌曲,這可能也是阿里團(tuán)隊(duì)的一種炫技。
4.對白也能 hold 住,反派普法不是夢
視頻采用了《The Dark Knight》 2008 Jocker 的經(jīng)典臺詞,“Why so serious? Let's put a smile on that face ” 驅(qū)動了 2019 版 Jocker 。小丑臉上的油彩隨著肌肉的運(yùn)動而自然運(yùn)動著。
這支視頻讓強(qiáng)哥和“法外狂徒張三”聯(lián)動了一把。視頻中的高啟強(qiáng)為大家解讀“緊急避險(xiǎn)”的概念,看來強(qiáng)哥不僅可以吃魚,餓到快死的時(shí)候吃點(diǎn)熊貓、金絲猴也是可以的。
視頻來源:https://humanaigc.github.io/emote-portrait-alive/