生成式視頻的下一步是什么
上個(gè)月,當(dāng)OpenAI公布其新的生成式視頻模型Sora時(shí),邀請(qǐng)了一些電影制作人來(lái)試用。本周,該公司發(fā)布了結(jié)果:七部超現(xiàn)實(shí)的短片,毫無(wú)疑問(wèn)地表明了生成式視頻的未來(lái)即將迅速到來(lái)。
首批能將文本轉(zhuǎn)化為視頻的模型出現(xiàn)在2022年末,來(lái)自Meta、谷歌和視頻技術(shù)初創(chuàng)公司Runway等公司。這是一個(gè)很棒的技巧,但結(jié)果是顆粒狀、出現(xiàn)故障,并且只有幾秒鐘長(zhǎng)。
快進(jìn)18個(gè)月,Sora的高清、逼真的最佳輸出令人震撼,一些激動(dòng)的觀察者甚至預(yù)言好萊塢的死亡。Runway的最新模型可以生成與大片動(dòng)畫(huà)工作室相媲美的短片。Midjourney和Stability AI,兩家最受歡迎的文本轉(zhuǎn)圖像模型背后的公司,現(xiàn)在也在致力于視頻領(lǐng)域的研發(fā)。
許多公司正在競(jìng)相利用這些突破來(lái)開(kāi)展業(yè)務(wù)。大多數(shù)公司在探索過(guò)程中才逐漸明確這種業(yè)務(wù)是什么?!爱?dāng)使用這些工具時(shí),我經(jīng)常會(huì)興奮地尖叫‘哇,這太酷了’,”Vyond的首席執(zhí)行官Gary Lipkowitz說(shuō)道,Vyond是一家提供點(diǎn)對(duì)點(diǎn),點(diǎn)擊平臺(tái)來(lái)制作短動(dòng)畫(huà)視頻的公司?!暗悄闳绾卧诠ぷ髦惺褂盟??”
無(wú)論對(duì)這個(gè)問(wèn)題的答案是什么,它都可能徹底改變各種業(yè)務(wù),并改變從動(dòng)畫(huà)制作人到廣告商等許多專(zhuān)業(yè)人士的角色。對(duì)于濫用的擔(dān)憂(yōu)也在增長(zhǎng)。廣泛使用生成虛假視頻將使網(wǎng)絡(luò)充斥著宣傳和非自愿色情,這比以往任何時(shí)候都更容易。我們可以看到這種情況正在發(fā)生。問(wèn)題是,沒(méi)有人有一個(gè)好的解決方案。
當(dāng)我們繼續(xù)探索未來(lái)的前景——無(wú)論是好是壞——以下是四個(gè)需要考慮的事情。我們還精選了一些制作人使用這項(xiàng)技術(shù)制作的最佳視頻,其中包括洛杉磯制作公司Myles的實(shí)驗(yàn)性短片《Somme Requiem》的獨(dú)家展示。繼續(xù)閱讀,了解人工智能電影制作的發(fā)展方向。
1. Sora 只是一個(gè)開(kāi)始
目前,OpenAI 的 Sora 在視頻生成領(lǐng)域遙遙領(lǐng)先于競(jìng)爭(zhēng)對(duì)手。但其他公司也在努力趕上。隨著更多公司完善其技術(shù)并開(kāi)始推出 Sora 的競(jìng)爭(zhēng)對(duì)手,未來(lái)幾個(gè)月市場(chǎng)將變得極其擁擠。
總部位于英國(guó)的初創(chuàng)公司 Haiper 本月剛剛走出隱身狀態(tài)。它由前谷歌 DeepMind 和 TikTok 的研究人員在 2021 年創(chuàng)立,他們想要研究稱(chēng)為神經(jīng)輻射場(chǎng)或 NeRF 的技術(shù),該技術(shù)可以將 2D 圖像轉(zhuǎn)化為 3D 虛擬環(huán)境。他們認(rèn)為,將快照轉(zhuǎn)化為用戶(hù)可以進(jìn)入的場(chǎng)景的工具對(duì)于制作視頻游戲?qū)?huì)非常有用。
但是,六個(gè)月前,Haiper 將重心從虛擬環(huán)境轉(zhuǎn)移到了視頻剪輯上,調(diào)整其技術(shù)以適應(yīng)首席執(zhí)行官 Yishu Miao 認(rèn)為將比游戲市場(chǎng)更大的市場(chǎng)。“我們意識(shí)到視頻生成是最佳方向,”Miao 表示?!皩?duì)此將會(huì)有超高的需求。”

,時(shí)長(zhǎng)01:21
“Air Head” is a short film made by Shy Kids, a pop band and filmmaking collective based in Toronto, using Sora.
與 OpenAI 的 Sora 類(lèi)似,Haiper的生成式視頻技術(shù)使用擴(kuò)散模型來(lái)管理視覺(jué)效果,并使用transformer(類(lèi)似于 GPT-4 這樣的大型語(yǔ)言模型中的組件,使它們?cè)陬A(yù)測(cè)接下來(lái)會(huì)發(fā)生什么方面表現(xiàn)出色)來(lái)管理幀之間的一致性。“視頻是數(shù)據(jù)序列,而transformer 是學(xué)習(xí)序列的最佳模型,”Miao 表示。
一致性是生成式視頻的一個(gè)巨大挑戰(zhàn),也是現(xiàn)有工具一次僅生成少量視頻的主要原因。用于視頻生成的transformer 可以提高剪輯的質(zhì)量和長(zhǎng)度。不利之處在于,transformer 會(huì)編造東西,或者產(chǎn)生幻覺(jué)。在文本中,這并不總是明顯的。在視頻中,這可能導(dǎo)致,比如一個(gè)具有多個(gè)頭的人。保持transformer 在正確軌道上需要大量的訓(xùn)練數(shù)據(jù)和成堆的計(jì)算機(jī)。
這就是為什么由前微軟研究人員創(chuàng)立的 Irreverent Labs 采取了一種不同的方法。與 Haiper 類(lèi)似,Irreverent Labs 最初是為游戲生成環(huán)境,然后轉(zhuǎn)向全面的視頻生成。但該公司不想通過(guò)復(fù)制 OpenAI 和其他公司的做法來(lái)隨波逐流?!耙?yàn)槟菢拥脑挘@就是一場(chǎng)計(jì)算機(jī)的戰(zhàn)爭(zhēng),一個(gè)完全的 GPU 戰(zhàn)爭(zhēng),”Irreverent 的聯(lián)合創(chuàng)始人兼首席技術(shù)官 David Raskino 表示。“在這種情況下,只有一個(gè)贏家,他穿著皮夾克?!保ㄋ傅氖莾r(jià)值萬(wàn)億美元的芯片巨頭 Nvidia 的 CEO Jensen Huang。)
與使用transformer 不同,Irreverent 的技術(shù)將擴(kuò)散模型與根據(jù)常識(shí)物理學(xué)(例如球如何彈跳或水如何濺在地板上)來(lái)預(yù)測(cè)下一幀內(nèi)容的模型相結(jié)合。Raskino 表示,這種方法既降低了訓(xùn)練成本,又減少了幻覺(jué)的數(shù)量。他說(shuō),該模型仍然會(huì)產(chǎn)生故障,但它們是物理學(xué)的扭曲(比如彈跳的球不遵循平滑曲線),這些問(wèn)題有已知的數(shù)學(xué)修復(fù)方法可以應(yīng)用到生成的視頻中。
哪種方法會(huì)持久還有待觀察。Miao將今天的技術(shù)與 GPT-2 時(shí)代的大型語(yǔ)言模型進(jìn)行了比較。五年前,OpenAI 的突破性早期模型讓人們驚嘆,因?yàn)樗故玖丝赡苄浴5?,該技術(shù)需要幾年時(shí)間才能成為一個(gè)改變游戲規(guī)則的技術(shù)。
Miao表示,視頻也是如此:“我們都處于山腳下?!?/p>
2. 人們會(huì)如何利用生成式視頻
視頻是互聯(lián)網(wǎng)的主要媒介。YouTube、TikTok、新聞片、廣告:在已有視頻的地方,預(yù)計(jì)會(huì)看到合成視頻的出現(xiàn)。
營(yíng)銷(xiāo)行業(yè)是最熱衷于采用生成技術(shù)的行業(yè)之一。根據(jù) Adobe 最近在美國(guó)進(jìn)行的一項(xiàng)調(diào)查,三分之二的營(yíng)銷(xiāo)專(zhuān)業(yè)人士在工作中嘗試過(guò)生成式人工智能,其中超過(guò)一半的人表示已經(jīng)使用該技術(shù)制作過(guò)圖像。
生成式視頻是下一個(gè)目標(biāo)。一些營(yíng)銷(xiāo)公司已經(jīng)發(fā)布了短片,以展示技術(shù)的潛力。最新的例子是由 Myles 制作的時(shí)長(zhǎng) 2.5 分鐘的《Somme Requiem》。您可以在 MIT Technology Review 的獨(dú)家報(bào)道中觀看該影片。

“Somme Requiem” is a short film made by Los Angeles production company Myles. Every shot was generated using Runway's Gen 2 model. The clips were then edited together by a team of video editors at Myles.
《Somme Requiem》描述了1914年第一次世界大戰(zhàn)期間的圣誕節(jié)停戰(zhàn)期間被困在雪中的士兵。這部電影由數(shù)十個(gè)不同的鏡頭組成,這些鏡頭是使用Runway的生成式視頻模型制作的,然后由Myles的人類(lèi)視頻編輯人員進(jìn)行拼接、色彩校正,并配以音樂(lè)?!拔磥?lái)的敘事方式將是混合工作流程,”創(chuàng)始人兼首席執(zhí)行官Josh Kahn說(shuō)道。
Kahn選擇戰(zhàn)時(shí)背景是為了表明自己的觀點(diǎn)。他指出,蘋(píng)果電視+系列電影《Masters of the Air》耗資2.5億美元,講述的是一群二戰(zhàn)飛行員的故事。彼得·杰克遜的第一次世界大戰(zhàn)紀(jì)錄片《They Shall Not Grow Old》的團(tuán)隊(duì)花了四年時(shí)間策劃和修復(fù)了100多小時(shí)的檔案影片?!按蠖鄶?shù)電影制作人只能夢(mèng)想有機(jī)會(huì)在這個(gè)類(lèi)型中講述一個(gè)故事,” Kahn說(shuō)。
“獨(dú)立電影制作有點(diǎn)兒式微,”他補(bǔ)充道?!拔艺J(rèn)為這將會(huì)引發(fā)令人難以置信的復(fù)蘇。”
Raskino也希望如此?!翱植离娪邦?lèi)型是人們測(cè)試新事物的地方,嘗試新事物直到它們被打破,”他說(shuō)?!拔艺J(rèn)為我們將會(huì)看到由四個(gè)人在某個(gè)地下室里使用人工智能創(chuàng)作的一部轟動(dòng)的恐怖電影?!?/p>
那么,生成式視頻會(huì)摧毀好萊塢嗎?還沒(méi)有?!禨omme Requiem》中的背景鏡頭——空無(wú)一人的樹(shù)林,荒涼的軍營(yíng)——看起來(lái)很棒。但其中的人物仍然受到了殘缺不全的手指和扭曲的面容的困擾,這是技術(shù)的標(biāo)志。生成式視頻最擅長(zhǎng)的是廣角全景或延時(shí)特寫(xiě),這創(chuàng)造了一種怪異的氛圍,但幾乎沒(méi)有行動(dòng)。如果《Somme Requiem》再長(zhǎng)一點(diǎn),它就會(huì)變得乏味。
但是,電影中經(jīng)常出現(xiàn)場(chǎng)景設(shè)定鏡頭。大多數(shù)鏡頭只有幾秒鐘長(zhǎng),但拍攝起來(lái)可能需要幾小時(shí)。Raskino建議,生成式視頻模型很快就可以用于以極低的成本制作這些中間鏡頭。這也可以在制作的后期階段實(shí)時(shí)完成,而不需要重新拍攝。
Gen Digital 的首席技術(shù)官M(fèi)ichal Pechoucek,該公司是一家網(wǎng)絡(luò)安全巨頭,旗下?lián)碛邪∟orton和Avast在內(nèi)的一系列殺毒軟件品牌,表示同意?!拔艺J(rèn)為技術(shù)的發(fā)展方向就是這樣,”他說(shuō)。“我們將看到許多不同的模型,每個(gè)模型專(zhuān)門(mén)針對(duì)電影制作的某個(gè)領(lǐng)域進(jìn)行訓(xùn)練。這些只是由有才華的視頻制作團(tuán)隊(duì)使用的工具。”
我們還沒(méi)有完全達(dá)到這一點(diǎn)。生成式視頻的一個(gè)重大問(wèn)題是用戶(hù)對(duì)輸出的控制能力有限。生成靜態(tài)圖像可能會(huì)命中或失誤;生成幾秒鐘的視頻甚至更加風(fēng)險(xiǎn)。
“現(xiàn)在還很有趣,你會(huì)有恍然大悟的時(shí)刻,”Miao說(shuō)道?!暗赏耆夏阋蟮囊曨l是一個(gè)非常困難的技術(shù)問(wèn)題。從一個(gè)單一提示生成長(zhǎng)而一致的視頻還有一段路要走。”
這就是為什么Vyond的Lipkowitz認(rèn)為,這項(xiàng)技術(shù)對(duì)大多數(shù)企業(yè)客戶(hù)來(lái)說(shuō)尚未準(zhǔn)備好。他說(shuō),這些用戶(hù)對(duì)視頻外觀的控制想要比當(dāng)前工具給予的更多。
全球數(shù)千家公司,包括約65%的《財(cái)富》500強(qiáng)企業(yè),使用Vyond的平臺(tái)為內(nèi)部溝通、培訓(xùn)、營(yíng)銷(xiāo)等創(chuàng)建動(dòng)畫(huà)視頻。Vyond利用了一系列生成模型,包括文本到圖像和文本到語(yǔ)音,但提供了一個(gè)簡(jiǎn)單的拖放界面,讓用戶(hù)一步一步手動(dòng)組合視頻,而不是一鍵生成完整的剪輯。
運(yùn)行生成模型就像擲骰子一樣,Lipkowitz說(shuō)?!皩?duì)于大多數(shù)視頻制作團(tuán)隊(duì)來(lái)說(shuō),這是一個(gè)明確的拒絕,特別是在企業(yè)部門(mén),其中一切都必須完美無(wú)瑕并符合品牌標(biāo)準(zhǔn),”他說(shuō)?!叭绻曨l出現(xiàn)問(wèn)題——也許人物有太多手指,或者可能有一個(gè)顏色錯(cuò)誤的公司Logo——那就不幸了,這就是生成AI的工作原理?!?/p>
解決方案?更多的數(shù)據(jù),更多的訓(xùn)練,不斷重復(fù)。“我希望我能指向一些復(fù)雜的算法,”Miao說(shuō)道?!暗?,這只是更多的學(xué)習(xí)。”
3. 雖然誤導(dǎo)信息并不是新鮮事,但深度偽造視頻會(huì)使情況變得更糟
多年來(lái),網(wǎng)絡(luò)誤導(dǎo)信息一直在破壞我們對(duì)媒體、制度和彼此的信任。一些人擔(dān)心,將虛假視頻加入混合中會(huì)摧毀我們留下的任何共同現(xiàn)實(shí)的支柱。
“我們正在用不信任、困惑、恐懼和仇恨取代信任,”P(pán)echoucek說(shuō)?!皼](méi)有基本事實(shí)的社會(huì)將會(huì)墮落?!?/p>
Pechoucek特別擔(dān)心深度偽造視頻在選舉中的惡意使用。例如,在去年的斯洛伐克選舉中,攻擊者分享了一個(gè)虛假視頻,顯示領(lǐng)先的候選人討論了操縱選民的計(jì)劃。這段視頻質(zhì)量低,很容易識(shí)別為深度偽造。但Pechoucek認(rèn)為這已足以扭轉(zhuǎn)結(jié)果,使其有利于另一位候選人。

“Adventurous Puppies” is a short clip made by OpenAI using with Sora.
Blackbird AI是一家跟蹤和管理網(wǎng)絡(luò)誤導(dǎo)信息傳播的公司,該公司的戰(zhàn)略和創(chuàng)新團(tuán)隊(duì)負(fù)責(zé)領(lǐng)導(dǎo)。該公司的約翰·維辛格認(rèn)為,當(dāng)假視頻融合真實(shí)和虛假鏡頭時(shí),假視頻會(huì)最具說(shuō)服力。拿總統(tǒng)喬·拜登走過(guò)舞臺(tái)的兩段視頻為例。一段視頻中他摔倒了,而另一段沒(méi)有。誰(shuí)能說(shuō)哪個(gè)是真實(shí)的?
“假設(shè)某個(gè)事件確實(shí)發(fā)生了,但呈現(xiàn)給我的方式略有不同,”維辛格說(shuō)?!斑@可能會(huì)影響我的情感反應(yīng)。”正如Pechoucek所指出的那樣,一個(gè)假視頻甚至不需要很好,就足以產(chǎn)生影響。維辛格說(shuō),一個(gè)符合現(xiàn)有偏見(jiàn)的糟糕偽造視頻將比一個(gè)精心制作但與現(xiàn)實(shí)不符的偽造視頻造成更大的傷害。
這就是為什么Blackbird專(zhuān)注于誰(shuí)與誰(shuí)分享什么。在某種意義上,某事物是真是假并不像它來(lái)自何處以及它如何傳播那樣重要,維辛格說(shuō)。他的公司已經(jīng)追蹤低技術(shù)誤導(dǎo)信息,例如在社交媒體上展示真實(shí)圖像但上下文不明確的帖子。生成技術(shù)使情況變得更糟,但是人們以誤導(dǎo)的方式呈現(xiàn)媒體的問(wèn)題,無(wú)論是有意還是無(wú)意,都不是新問(wèn)題,他說(shuō)。
如果將機(jī)器人混入其中,在社交網(wǎng)絡(luò)上分享和推廣誤導(dǎo)信息,情況會(huì)變得混亂。只要知道有假媒體存在,就會(huì)在惡意討論中播下懷疑的種子。維辛格說(shuō):“你可以看到,很快就可能變得不可能再分辨出什么是合成的,什么是真實(shí)的了?!?/p>
4、我們正面臨著一個(gè)新的網(wǎng)絡(luò)現(xiàn)實(shí)
偽造品很快將無(wú)處不在,從虛假信息宣傳活動(dòng),到廣告片,再到好萊塢大片。那么,我們?cè)撊绾螀^(qū)分現(xiàn)實(shí)和幻想呢?有一系列解決方案,但單獨(dú)任何一個(gè)都不足以解決問(wèn)題。
科技行業(yè)正在研究這個(gè)問(wèn)題。大多數(shù)生成工具嘗試強(qiáng)制執(zhí)行某些使用條款,比如防止人們創(chuàng)建公眾人物的視頻。但是有方法可以繞過(guò)這些過(guò)濾器,而開(kāi)源版本的工具可能帶有更寬松的政策。
公司還在制定AI生成媒體的水印標(biāo)準(zhǔn)和檢測(cè)工具。但并非所有工具都會(huì)添加水印,而且水印可以從視頻的元數(shù)據(jù)中去除。也不存在可靠的檢測(cè)工具。即使這樣的工具有效,它們也將成為一場(chǎng)追趕模型進(jìn)步的貓鼠游戲的一部分,這些模型旨在監(jiān)管這些工具。

像X和Facebook這樣的在線平臺(tái)在內(nèi)容管理方面的記錄很差。一旦問(wèn)題變得更加棘手,我們不應(yīng)指望它們能夠做得更好。Miao曾在TikTok工作,在那里他幫助構(gòu)建了一個(gè)內(nèi)容管理工具,用于檢測(cè)違反TikTok使用條款的視頻上傳。即使是他也對(duì)即將發(fā)生的事情感到擔(dān)憂(yōu):“真的存在著危險(xiǎn),”他說(shuō)?!安灰嘈拍阍诠P記本電腦上看到的東西?!?/p>
Blackbird開(kāi)發(fā)了一個(gè)名為Compass的工具,它可以用來(lái)對(duì)文章和社交媒體帖子進(jìn)行事實(shí)核查。將鏈接粘貼到該工具中,一個(gè)大型語(yǔ)言模型將從可信的在線來(lái)源(維辛格說(shuō)這些始終可以審查)中生成一個(gè)簡(jiǎn)短摘要,為鏈接的材料提供一些背景信息。其結(jié)果與X、Facebook和Instagram等網(wǎng)站上有時(shí)會(huì)附加到有爭(zhēng)議的帖子上的社區(qū)注釋非常相似。該公司設(shè)想Compass為任何內(nèi)容生成社區(qū)注釋?!拔覀冋谂?shí)現(xiàn)這一目標(biāo),”維辛格說(shuō)。
但是,將鏈接放入事實(shí)核查網(wǎng)站的人已經(jīng)相當(dāng)精明了,而許多其他人可能不知道這樣的工具存在,或者可能不愿相信它們。誤導(dǎo)信息往往也比任何隨后的更正傳播得更廣泛。
與此同時(shí),人們對(duì)這究竟是誰(shuí)的問(wèn)題存在分歧。Pechoucek表示,科技公司需要開(kāi)放其軟件,以促進(jìn)圍繞安全和信任的競(jìng)爭(zhēng)。這也將使他這樣的網(wǎng)絡(luò)安全公司能夠開(kāi)發(fā)第三方軟件來(lái)監(jiān)管這項(xiàng)技術(shù)。他說(shuō),這就是30年前Windows出現(xiàn)惡意軟件問(wèn)題時(shí)發(fā)生的事情:“微軟允許殺毒軟件公司進(jìn)入幫助保護(hù)Windows。結(jié)果,網(wǎng)絡(luò)世界變得更安全了?!?/p>
但是Pechoucek并不太樂(lè)觀。“技術(shù)開(kāi)發(fā)者需要以安全為首要目標(biāo)來(lái)構(gòu)建他們的工具,”他說(shuō)?!暗嗟娜丝紤]如何使技術(shù)更強(qiáng)大,而不是擔(dān)心如何使其更安全?!?/p>

Made by OpenAI using Sora.
在科技行業(yè)有一個(gè)常見(jiàn)的宿命論的說(shuō)法:變革已經(jīng)到來(lái),我們必須應(yīng)對(duì)?!吧墒饺斯ぶ悄懿粫?huì)被取消,”Raskino說(shuō)?!斑@可能不太受歡迎,但我認(rèn)為這是真的:我認(rèn)為科技公司無(wú)法承擔(dān)全部責(zé)任。歸根結(jié)底,對(duì)任何技術(shù)的最佳防御是一個(gè)受過(guò)良好教育的公眾。沒(méi)有捷徑?!?/p>
Miao也同意?!按笠?guī)模采用生成技術(shù)是不可避免的,”他說(shuō)。“但這也是整個(gè)社會(huì)的責(zé)任。我們需要教育人們?!?/p>
“技術(shù)會(huì)不斷發(fā)展,我們需要為這種變化做好準(zhǔn)備,”他補(bǔ)充道?!拔覀冃枰嵝盐覀兊母改浮⑴笥?,他們?cè)谄聊簧峡吹降臇|西可能并不真實(shí)?!彼f(shuō),這對(duì)于老一輩人尤其重要:“我們的父母需要意識(shí)到這種危險(xiǎn)。我認(rèn)為每個(gè)人都應(yīng)該共同努力?!?/p>
我們需要迅速共同努力。一個(gè)月前,Sora問(wèn)世時(shí),科技界對(duì)生成式視頻的迅速發(fā)展感到震驚。但絕大多數(shù)人甚至不知道這種技術(shù)的存在,維辛格說(shuō):“他們肯定不了解我們所處的趨勢(shì)線。我認(rèn)為這將會(huì)令世界大為震驚?!?/p>


















