OpenAI 發(fā)布的視頻生成模型 Sora,到底有什么魔法?
大家好,我是木川
繼 OpenAI 推出文生文的模型 GPT、文生圖的模型 DALL-E 之后,OpenAI 發(fā)布了文生視頻模型 Sora ,可以生成長(zhǎng)達(dá)分鐘級(jí)別的高質(zhì)量視頻。
從官方示例上看,生成的視頻效果確實(shí)驚艷。Sora 可以生成寬屏 1920x1080 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻。
Sora 技術(shù)報(bào)告:https://openai.com/research/video-generation-models-as-world-simulators
Sora 的主要特點(diǎn)如下:
60s 超長(zhǎng)長(zhǎng)度
在一眾 AI 視頻,還掙扎在4s連貫性的邊緣,OpenAI 直接說(shuō):勞資支持 60s,都 TM 跪下。
Runway 是 18s,Pika 最開(kāi)始是 3 秒,Sora 抬手就是 60s,見(jiàn)面就貼臉?lè)糯笳?/p>
圖片
單視頻多角度鏡頭
想象一下,以前的電影或視頻制作就像是用一個(gè)相機(jī)拍攝一整個(gè)故事,你只能看到一個(gè)角度。
木川AI編程
但是現(xiàn)在,就像是有一堆不同的相機(jī),可以從不同的角度來(lái)拍攝同一個(gè)場(chǎng)景。
而且厲害的地方在于,主角或物體在不同的角度切換時(shí),看起來(lái)還是一樣的,不會(huì)感覺(jué)怪怪的。
,時(shí)長(zhǎng)00:59
Sora 就好像是一個(gè)超級(jí)聰明的導(dǎo)演,只需要給他一個(gè)簡(jiǎn)短的提示,他就能在一分鐘內(nèi)制作出一個(gè)有很多不同角度的視頻,而且每個(gè)角度看起來(lái)都很自然。
這對(duì)于以前來(lái)說(shuō)簡(jiǎn)直是不可思議的,就好像魔法一樣!
世界模型
“先記憶,再預(yù)測(cè)” 這種理解世界的方式,是人類(lèi)理解世界的方式。這種方式有個(gè)名字,叫世界模型。
最最最可怕的一點(diǎn)來(lái)了,Sora身上,竟已經(jīng)有了世界模型的雛形?
通過(guò)觀察大量數(shù)據(jù),它竟然學(xué)會(huì)了許多關(guān)于世界的物理規(guī)律。
世界模型就像是你的大腦里有一張地圖,上面標(biāo)著你家、學(xué)校、公園等地方。這張地圖幫助你知道周?chē)沫h(huán)境,讓你知道該去哪里,怎么走。
對(duì)于電腦或機(jī)器來(lái)說(shuō),它們也可以有一種類(lèi)似的東西,叫做世界模型。這就是它們對(duì)周?chē)澜绲囊环N想象和理解方式,讓它們能夠知道周?chē)惺裁礀|西,發(fā)生了什么事情。這有助于它們更聰明地處理任務(wù),就像你用地圖找到正確的路一樣。
舉個(gè)例子:當(dāng)你拿起一杯咖啡時(shí),大腦先通過(guò)以前的經(jīng)驗(yàn)和記憶知道咖啡杯的典型重量。這個(gè)經(jīng)驗(yàn)就是世界模型的一部分。你的大腦會(huì)根據(jù)這個(gè)模型,預(yù)測(cè)需要用多大的力去抓住杯子。這種預(yù)測(cè)是在潛意識(shí)中進(jìn)行的,你不需要刻意去思考。
OpenAI 最終想做的,其實(shí)不是一個(gè)“文生視頻”的工具,而是一個(gè)通用的“物理世界模擬器”。也就是世界模型,為真實(shí)世界建模。






































