6秒造一個(gè)「視頻博主」,Pika讓一切圖片開(kāi)口說(shuō)話
制作一個(gè)視頻需要幾步?可以簡(jiǎn)單概括為:拍攝 + 配音 + 剪輯。
還記得 veo3 發(fā)布時(shí)引起的轟動(dòng)嗎?「音畫(huà)同步」功能的革命性直接把其他視頻生成模型按在地上摩擦,拍攝 + 配音 + 粗剪一鍵搞定。
那如果我就是想用自己迷人的聲音呢?或者我自帶精妙絕倫的配音?有沒(méi)有其他解決方案?
有的朋友,有的!
8 月 11 日,Pika 推出了一個(gè)名為「音頻驅(qū)動(dòng)表演模型」(Audio-Driven Performance Model)的新模型。

Pika 允許用戶上傳音頻文件(如語(yǔ)音、音樂(lè)、說(shuō)唱或任何聲音片段),并結(jié)合靜態(tài)圖像(如自拍或任意圖片)生成高度同步的視頻。視頻中的角色會(huì)自動(dòng)匹配音頻,實(shí)現(xiàn)精確的口型同步(lip sync)、自然的表情變化和流暢的身體動(dòng)作。

更通俗一點(diǎn)說(shuō)就是,讓任何一張靜態(tài)圖片,跟著你給的音頻動(dòng)起來(lái),而且是活靈活現(xiàn)的那種。
你隨便扔給它一張自拍,再配上一段馬保國(guó)的「年輕人不講武德」,你照片里那張帥氣的臉,馬上就能口型神同步,連眉毛挑動(dòng)的時(shí)機(jī)都分毫不差,主打一個(gè)「本人親授」。
這事兒要是放以前,你起碼得是個(gè)頂級(jí)特效師,搗鼓個(gè)十天半個(gè)月才能弄出來(lái)?,F(xiàn)在,Pika 告訴你,平均只要 6 秒。
你沒(méi)看錯(cuò),就是 6 秒。你上個(gè)廁所的功夫,那邊視頻都生成好了,而且還是 720p 高清,長(zhǎng)度不限,想讓蒙娜麗莎給你唱一整首《忐忑》都行。
不過(guò)目前功能僅限 iOS 端,且需要邀請(qǐng)碼,期待功能盡快開(kāi)放。

話不多說(shuō),我們來(lái)看看網(wǎng)友測(cè)評(píng)。
首先來(lái)看看我們前面提到的自拍 + 音頻,效果可以說(shuō)是相當(dāng)驚艷了。


- 地址:https://x.com/WilliamLamkin/status/1954940047624372508
不論是說(shuō)唱部分還是歌曲部分,唇同步準(zhǔn)確性非常高,避免了以往 AI 視頻中常見(jiàn)的「假唱」問(wèn)題。
你如果仔細(xì)觀察會(huì)發(fā)現(xiàn)說(shuō)唱部分中間有一段停頓,人物的表情神態(tài)也很自然,活人感十足。不過(guò)也不是完美無(wú)缺,男歌手的手看起來(lái)就怪怪的。
Pika 官方也分享了幾個(gè)用戶制作的精彩視頻。

- 地址:https://x.com/pika_labs/status/1955007656302924192
對(duì)于不同語(yǔ)言,Pika 生成的效果看起來(lái)也非常不錯(cuò)。

還可以生成一段不是吉米的吉米秀,AI 演員的表現(xiàn)力非常不錯(cuò)。

用來(lái)拍電影怎么樣?讓亞洲面孔的大叔一口印式英語(yǔ),吐槽露營(yíng)的糟糕體驗(yàn)。

還可以直接來(lái)一場(chǎng) live 秀!

我們可以預(yù)見(jiàn),它將很快成為社交媒體上的新寵,誕生無(wú)數(shù)有趣的 Meme 和創(chuàng)意短片。
但它的潛力遠(yuǎn)不止于此:獨(dú)立游戲開(kāi)發(fā)者可以用它快速生成 NPC 對(duì)話動(dòng)畫(huà),教育工作者可以制作更生動(dòng)的講解視頻,甚至在不遠(yuǎn)的將來(lái),我們每個(gè)人都能擁有一個(gè)專屬的、能言善辯的 AI 數(shù)字分身。
當(dāng)然,技術(shù)總是一把雙刃劍。當(dāng)任何圖片都能被賦予任何聲音時(shí),如何辨別信息的真?zhèn)我渤闪宋覀儽仨毭鎸?duì)的新課題。
但無(wú)論如何,一個(gè)全民參與、創(chuàng)意迸發(fā)的視頻新時(shí)代,似乎已經(jīng)敲響了大門(mén)。下一個(gè)引爆全網(wǎng)的病毒視頻,或許就將出自你我之手。






























