Pika放大招:今天起,視頻和音效可以“一鍋出”了!
就在剛剛,Pika發(fā)布了一項(xiàng)新功能:
很抱歉我們之前一直處于靜音狀態(tài)。
今天起,大家可以給視頻無(wú)縫生成音效了——Sound Effects!
生成的方式有兩種:
- 要么給一句Prompt,描述你想要的聲音;
- 要么直接讓Pika根據(jù)視頻內(nèi)容自動(dòng)生成。
并且Pika非常自信地說(shuō)到:“如果你覺得音效聽起來(lái)很棒,那是因?yàn)樗_實(shí)如此”。
車?guó)Q聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息,并且從效果上來(lái)看,也是高度與視頻畫面匹配。
不僅是發(fā)布的宣傳片,Pika官網(wǎng)現(xiàn)在也放出了多個(gè)demo。
例如無(wú)需任何prompt,AI只是看了眼烤培根的視頻,便可以配出毫無(wú)違和感的音效。
再如給一句prompt:
Super saturated color, fireworks over a field at sunset.
超飽和色彩,日落時(shí)田野上的煙火。
Pika便可以在生成視頻的同時(shí)配上聲音,從效果中不難看出,煙花綻放的瞬間,聲音卡點(diǎn)也是相當(dāng)?shù)木珳?zhǔn)。
大周末的發(fā)布這樣一個(gè)新功能,網(wǎng)友們?cè)诟吆鬚ika“夠卷、夠Awesome”的同時(shí),也有人認(rèn)為:
它正在為多模態(tài)AI創(chuàng)作收集所有的“無(wú)限寶石”。
那么Pika的Sound Effects具體要如何操作,我們繼續(xù)往下看。
給視頻“make some noise”
Pika給視頻生成音效的操作也是極!其!簡(jiǎn)!單!
例如只需一句prompt,視頻和音效就能“一鍋出”:
Mdieval trumpet player.
中世紀(jì)小號(hào)手。
相比于此前生成視頻的操作,現(xiàn)在只需開啟下方“Sound effects”按鈕即可。
第二種操作方式,就是在生成了視頻過(guò)后,可以單獨(dú)給它配音。
例如在下面這個(gè)視頻,點(diǎn)擊下方的“Edit”,再選擇“Sound Effects”:
然后可以描述一下自己想要的聲音,例如:
Race car revving its engine.
賽車正在發(fā)動(dòng)引擎。
然后短短幾秒后,Pika就可以根據(jù)描述和視頻生成音效,而且還是6種聲音可選的那種!
值得一提的是,Sound Effects功能目前只對(duì)超級(jí)合作者(Super Collaborator)和Pro用戶開放測(cè)試。
不過(guò)Pika也表示:“我們很快就會(huì)向所有用戶推出該功能!”
然后現(xiàn)在已經(jīng)有一批網(wǎng)友在開始測(cè)試這個(gè)Beta版本了,并且表示:
音效聽起來(lái)和視頻很相配,而且增加了很多氣氛。
什么原理?
至于Sound Effects背后的原理,雖然Pika此次并沒有公開,但在此前Sora大火之后,語(yǔ)音初創(chuàng)公司ElevenLabs就出過(guò)類似的配音功能。
當(dāng)時(shí),英偉達(dá)高級(jí)科學(xué)家Jim Fan就對(duì)此做過(guò)較為深入的分析。
他認(rèn)為,AI學(xué)習(xí)準(zhǔn)確的視頻到音頻映射還需要對(duì)潛在空間中的一些“隱式”物理進(jìn)行建模。
他詳細(xì)說(shuō)明了端到端Transformer在模擬聲波時(shí)需要解決的問題:
- 識(shí)別每個(gè)物體的類別、材料和空間位置。
- 識(shí)別物體間的高階互動(dòng):例如,是木棍、金屬或是鼓面?以什么速度擊打?
- 識(shí)別環(huán)境:是餐廳、空間站、還是黃石公園?
- 從模型的內(nèi)部記憶中檢索物體和環(huán)境的典型聲音模式。
- 使用“軟性”的、通過(guò)學(xué)習(xí)得到的物理規(guī)則來(lái)組合和調(diào)整聲音模式的參數(shù),甚至即時(shí)創(chuàng)造全新的聲音。這有點(diǎn)像游戲引擎中的“程序化音頻”。
- 如果場(chǎng)景很復(fù)雜,模型需要根據(jù)物體的空間位置疊加多個(gè)聲音軌道。
所有這些都不是顯式的模塊,而是通過(guò)大量的(視頻,音頻)對(duì)的梯度下降學(xué)習(xí)來(lái)實(shí)現(xiàn)的,這些視頻和音頻對(duì)在大多數(shù)互聯(lián)網(wǎng)視頻中自然地時(shí)間對(duì)齊。注意力層將在它們的權(quán)重中實(shí)現(xiàn)這些算法,以滿足擴(kuò)散目標(biāo)。
除此之外,Jim Fan當(dāng)時(shí)表示英偉達(dá)的相關(guān)工作并沒有這樣高質(zhì)量的AI音頻引擎,不過(guò)他推薦了一篇MIT五年前的論文The Sound of Pixels:
感興趣的小伙伴可以戳文末鏈接詳細(xì)了解一下。
One More Thing
在多模態(tài)這件事上,LeCun在最新訪談中的觀點(diǎn)也很火爆,他認(rèn)為:
語(yǔ)言(文本)是低寬帶的:小于12字節(jié)/秒?,F(xiàn)代LLM通常使用1x10^13個(gè)雙字節(jié)標(biāo)記(即 2x10^13 字節(jié))進(jìn)行訓(xùn)練。一個(gè)人閱讀大約需要 100000 年(每天 12 小時(shí))。
視覺的帶寬要高得多:約20MB/s。兩條視神經(jīng)中的每一條都有 100 萬(wàn)根神經(jīng)纖維,每根神經(jīng)纖維每秒攜帶約10個(gè)字節(jié)。一個(gè)4歲的孩子在清醒狀態(tài)下大約是16000小時(shí),換算成字節(jié)大約是1x10^15。
視覺感知的數(shù)據(jù)帶寬大約是文本語(yǔ)言數(shù)據(jù)帶寬的1600萬(wàn)倍。
一個(gè)4歲孩子看到的數(shù)據(jù),是互聯(lián)網(wǎng)上公開的所有文本訓(xùn)練的最大LLM數(shù)據(jù)的50倍。
因此,LeCun總結(jié)到:
如果不讓機(jī)器從高帶寬的感官輸入(如視覺)中學(xué)習(xí),我們絕對(duì)不可能達(dá)到人類水平的人工智能。
那么,你贊成這種觀點(diǎn)嗎?