潞晨尤洋:視頻生成的GPT-4時(shí)刻,3年后可以見(jiàn)證 | MEET 2025
奧特曼說(shuō),Sora代表了視頻生成大模型的GPT-1時(shí)刻。
從開(kāi)年到現(xiàn)在,國(guó)內(nèi)外、初創(chuàng)獨(dú)角獸到互聯(lián)網(wǎng)大廠,都紛紛投入視頻生成領(lǐng)域,帶來(lái)一個(gè)個(gè)新鮮模型的同時(shí),視頻、影視行業(yè)也隨之發(fā)生巨變。
不可否認(rèn),當(dāng)下的視頻生成模型還遇到諸多問(wèn)題,比如對(duì)空間、對(duì)物理規(guī)律的理解,我們都期待著視頻生成的GPT-3.5/4時(shí)刻到來(lái)。
在國(guó)內(nèi),有這樣一家從加速訓(xùn)練出發(fā)的初創(chuàng)公司,正在為此努力。
它就是潞晨科技,創(chuàng)始人尤洋博士畢業(yè)于UC伯克利,后赴新加坡國(guó)立大學(xué)擔(dān)任校長(zhǎng)青年教授。
今年潞晨科技在加速計(jì)算領(lǐng)域之外,開(kāi)發(fā)視頻生成模型VideoOcean,為行業(yè)帶來(lái)更具性價(jià)比的選擇。
在MEET 2025現(xiàn)場(chǎng),尤洋博士也向我們分享這一年對(duì)于視頻生成領(lǐng)域的理解與認(rèn)知。
MEET 2025智能未來(lái)大會(huì)是由量子位主辦的行業(yè)峰會(huì),20余位產(chǎn)業(yè)代表與會(huì)討論。線下參會(huì)觀眾1000+,線上直播觀眾320萬(wàn)+,獲得了主流媒體的廣泛關(guān)注與報(bào)道。
核心觀點(diǎn)梳理
- 視頻生成模型應(yīng)該實(shí)現(xiàn)精細(xì)化文本控制、任意機(jī)位/任意角度、角色一致性、風(fēng)格定制化
- 3年后或許就能迎來(lái)視頻生成的GPT-3.5/GPT-4時(shí)刻
- 視頻生成大模型的一個(gè)直接應(yīng)用價(jià)值就是突破現(xiàn)實(shí)的限制,極大降低真實(shí)場(chǎng)景復(fù)現(xiàn)難度。
(為更好呈現(xiàn)尤洋的觀點(diǎn),量子位在不改變?cè)獾幕A(chǔ)上做了如下梳理)
3年后或是視頻大模型的GPT-3.5時(shí)刻
今天非常開(kāi)心來(lái)到量子位大會(huì),非常開(kāi)心和大家交流,今天講一下我們?cè)谝曨l大模型領(lǐng)域做的一些工作。
首先是我和我的創(chuàng)業(yè)公司潞晨科技的介紹。我從UC伯克利畢業(yè)到新加坡國(guó)立大學(xué)任教,很榮幸創(chuàng)辦了潞晨科技。
我們之前是做算力優(yōu)化的。2018年谷歌打造了世界上第一個(gè)千卡集群TPU Pod,當(dāng)時(shí)世界上最大的模型還是BERT。我們幫助谷歌,將(當(dāng)時(shí))世界上最大模型的訓(xùn)練時(shí)間從3天壓縮到76分鐘。
也很榮幸,去年華為盤(pán)古大模型的一個(gè)工作也是我們一起來(lái)做的,并獲得了ACL最佳論文。我們的技術(shù)幫助華為盤(pán)古大模型在訓(xùn)練中更高效。微軟、英偉達(dá)等公司團(tuán)隊(duì)也使用了我們的技術(shù)做一些分布式訓(xùn)練,我們希望讓大模型訓(xùn)練更快、成本更低。
步入今天的話題,來(lái)重點(diǎn)介紹一下視頻生成大模型。
我們打造了一個(gè)產(chǎn)品叫Video Ocean,現(xiàn)在正處在測(cè)試階段。先來(lái)介紹一下產(chǎn)品,后面再探討我覺(jué)得視頻大模型將會(huì)如何發(fā)展。
首先,我覺(jué)得視頻大模型第一個(gè)重要的方面是,它應(yīng)該能夠?qū)崿F(xiàn)精細(xì)化的文本控制。
其實(shí)我們今天都在用AI去生成大模型了,我們肯定希望它能夠精準(zhǔn)反映出想要的東西。但很遺憾,比如現(xiàn)在用文生圖APP去生成圖片時(shí),還是會(huì)發(fā)現(xiàn)很多圖片內(nèi)容無(wú)法做到精準(zhǔn)控制,所以我認(rèn)為這方面還有很大的發(fā)展空間。
在Video Ocean模型訓(xùn)練過(guò)程中,我們做了一些初步探索。一個(gè)比較好的例子,我們能夠精準(zhǔn)地提供一些描述,戴著墨鏡,長(zhǎng)的胡茬的歐洲男人。顯而易見(jiàn)這個(gè)視頻里面確實(shí)是我們想要的那個(gè)感覺(jué),藍(lán)天、海岸、沙灘、背光、單手持相機(jī)、黑色T恤,也有對(duì)著鏡頭說(shuō)話。
我認(rèn)為AI視頻大模型未來(lái)3年可能最重要的還是實(shí)現(xiàn)視頻大模型的Scaling Law。
這個(gè)過(guò)程不需要非常炫酷的產(chǎn)品能力,最重要的是把它的模型與現(xiàn)實(shí)世界的連接能力做到極致。我覺(jué)得最終形態(tài)就是人們說(shuō)一段話、給一段描述,它能精準(zhǔn)地把描述以視頻的方式展示出來(lái)。
所以我覺(jué)得未來(lái)3年,AI視頻大模型就像山姆·奧特曼說(shuō)的那樣,今天是Video的GPT-1時(shí)刻,可能3年后到視頻大模型的GPT-3.5、GPT-4時(shí)刻。
這里展示一下Video Ocean的Demo,目前我們做到了這樣的水平。
第二點(diǎn)是未來(lái)視頻大模型怎樣能夠?qū)崿F(xiàn)任意機(jī)位、任意角度。
現(xiàn)在拍電影、拍紀(jì)錄片可以拿著手機(jī)、攝像機(jī)不斷地晃,想怎么晃就怎么晃,這樣是對(duì)鏡頭有真實(shí)控制的。未來(lái)AI視頻大模型,首先應(yīng)該做到這一點(diǎn),同樣的描述,換一下角度、換一個(gè)鏡頭,它的形象是不應(yīng)該改變的,它就是同樣一個(gè)物體。
更進(jìn)一步講,未來(lái)AI視頻大模型還能顛覆很多行業(yè)。比如現(xiàn)在看足球、看籃球賽,我們看到的鏡頭是現(xiàn)場(chǎng)編導(dǎo)給我們看的鏡頭。他給我們看遠(yuǎn)景、近景。
未來(lái)能不能依靠AI視頻大模型,人來(lái)控制鏡頭,決定想要看哪,相當(dāng)于在體育場(chǎng)里可以瞬間移動(dòng),移動(dòng)到教練席、最后一排、第一排。任意機(jī)位、任意角度的控制。我覺(jué)得未來(lái)AI視頻大模型在這方面也是非常關(guān)鍵的,當(dāng)然當(dāng)然Video Ocean現(xiàn)在做了一些嘗試,初步效果還是不錯(cuò)的。
我覺(jué)得第三點(diǎn)重要的是角色一致性。
因?yàn)樽龀鯝I視頻大模型,最終肯定是需要產(chǎn)生營(yíng)收、實(shí)現(xiàn)變現(xiàn)的。誰(shuí)會(huì)愿意為這個(gè)付費(fèi),比如廣告工作室、廣告商、電商博主、影視行業(yè)。如果深入這些行業(yè)的話,一個(gè)關(guān)鍵點(diǎn)是角色一致性。
比如一個(gè)產(chǎn)品的廣告,肯定從頭到尾這個(gè)視頻中的衣服、鞋、車,樣貌不能有太大變化,物體角色保持一致性。
拍一部電影,從開(kāi)頭到結(jié)尾,主演的樣貌、關(guān)鍵配角的樣貌肯定也不能變化,在這方面Video Ocean也做一些很好的探索。
再一個(gè)是風(fēng)格的定制化。我們知道現(xiàn)在演員人工成本是非常貴的,道具成本也很高。
未來(lái)3年之內(nèi),如果AI視頻大模型正常發(fā)展,我感覺(jué)會(huì)有一種需求,比如一個(gè)導(dǎo)演可以讓一個(gè)演員在游泳池里拍一段戲,然后拿到素材通過(guò)AI將它轉(zhuǎn)成泰坦尼克場(chǎng)景下的游泳,轉(zhuǎn)成阿凡達(dá)場(chǎng)景下的游泳,這種能力反而是AI最擅長(zhǎng)的。賦予電影感、藝術(shù)感的畫(huà)面。
總之大模型一個(gè)直接的應(yīng)用價(jià)值就是突破現(xiàn)實(shí)的限制,能夠極大降低真實(shí)場(chǎng)景復(fù)現(xiàn)的難度。
可能之前大家聽(tīng)過(guò)一個(gè)段子,好萊塢導(dǎo)演想制造一個(gè)爆炸鏡頭,他算了一下預(yù)算,第一種方案是蓋一個(gè)城堡把它炸掉,第二個(gè)方案是用計(jì)算機(jī)模擬這個(gè)畫(huà)面。成本算下來(lái)之后,發(fā)現(xiàn)這兩種方案的成本都很高,當(dāng)時(shí)用計(jì)算機(jī)模擬的成本更高,現(xiàn)在AI就是要大幅降低大模型對(duì)于生成電影的成本。
如果這一點(diǎn)實(shí)現(xiàn)后,我們可以不受場(chǎng)地、天氣等外部因素的限制,并減少對(duì)真實(shí)演員的依賴。這倒不是搶演員的飯碗,因?yàn)橐恍╆P(guān)鍵鏡頭是非常危險(xiǎn)的,比如演員跳飛機(jī)、跳樓,演員去解救即將引爆的炸彈之類,這種鏡頭未來(lái)只需要演員的身份和肖像權(quán),AI可以把這樣的鏡頭做好,所以對(duì)電影行業(yè)能夠極大做到降本增效。
正如昆侖萬(wàn)維方漢老師剛才說(shuō)的,雖然我們的計(jì)算資源有限,但是我們發(fā)現(xiàn)通過(guò)更好的算法優(yōu)化確實(shí)能夠訓(xùn)出更好的效果,比如Meta使用6000多個(gè)GPU訓(xùn)練30B的模型,最近我們會(huì)在一個(gè)月內(nèi)發(fā)一個(gè)10B版的模型,我們僅用了256卡。
Video Ocean前身是我們團(tuán)隊(duì)先打造了一個(gè)Open-Sora的開(kāi)源產(chǎn)品,這個(gè)開(kāi)源產(chǎn)品是完全免費(fèi)的,在Github上,效果非常不錯(cuò),比如美國(guó)獨(dú)角獸Lambda labs做了一個(gè)火爆的應(yīng)用數(shù)字樂(lè)高,其實(shí)這個(gè)數(shù)字樂(lè)高就是基于Open-Sora做的。
今年年初Sora出來(lái)之后,各種短視頻巨頭都對(duì)視頻大模型這一塊比較重視,比如中國(guó)的快手、抖音,美國(guó)就是Instagram、TikTok、SnapChat,這可以看到SnapChat的視頻模型也在早些時(shí)候發(fā)布了,叫Snap Video,這是它的官方論文,他們就引用了我們訓(xùn)練視頻大模型的技術(shù),所以說(shuō)這些技術(shù)也幫助一些巨頭真正把視頻大模型訓(xùn)得更快,精度更高,智能程度更高。
謝謝大家!
點(diǎn)擊[閱讀原文]或https://video.luchentech.com可體驗(yàn)Video Ocean更多詳細(xì)能力