偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文帶你了解OpenAI Sora

發(fā)布于 2024-3-28 10:28
瀏覽
0收藏

最近AI圈最火的無(wú)疑是OpenAI在2月15日發(fā)布的Sora。Sora可以根據(jù)文本生成一分鐘的高清視頻,生成的視頻畫(huà)質(zhì)、連續(xù)性、光影等都令人嘆為觀止,Sora無(wú)疑將視覺(jué)生成推到新的高度。本文將重點(diǎn)回答三個(gè)問(wèn)題:

  • Sora的原理是什么?
  • Sora到底是不是世界模型?
  • Sora會(huì)影響哪些行業(yè)?

一、背景

在國(guó)內(nèi)外大多數(shù)AI廠商還在卷大語(yǔ)言模型之際,OpenAI悄無(wú)聲息地發(fā)布了文生視頻(text-to-video,簡(jiǎn)稱t2v)模型Sora [1],僅僅幾個(gè)視頻demo,就讓整個(gè)AI圈子從驚訝到恐懼,驚訝于Sora生成的視頻已經(jīng)到達(dá)工業(yè)應(yīng)用級(jí)別,恐懼于現(xiàn)有的t2v模型與Sora的差距竟然如此之大。先看個(gè)Sora官方博客展示的demo,當(dāng)你向Sora輸入:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”,Sora則根據(jù)該文本生成了長(zhǎng)達(dá)1分鐘的高清視頻。

這個(gè)demo展現(xiàn)了Sora至少有以下突破:

  • 畫(huà)質(zhì)突破:視頻非常高清,細(xì)節(jié)極其豐富;
  • 幀率和連續(xù)性突破:視頻幀率高、連續(xù)性好(無(wú)閃爍或明顯的時(shí)序不一致);
  • 時(shí)長(zhǎng)突破:相比之前t2v模型僅能生成幾秒的時(shí)長(zhǎng),Sora可以生成長(zhǎng)達(dá)1分鐘的視頻,這是之前t2v模型不敢想象的;
  • 物理規(guī)則理解突破:視頻中物體的運(yùn)動(dòng)、光影等似乎都非常符合自然世界的物理規(guī)則,整個(gè)視頻看上去都非常自然和逼真。

那么OpenAI到底用了什么魔法能讓Sora如此驚艷?接下來(lái)我們通過(guò)OpenAI給出的??Sora技術(shù)報(bào)告??來(lái)解答。PS:該技術(shù)報(bào)告非常簡(jiǎn)陋,技術(shù)細(xì)節(jié)幾乎沒(méi)有,只給了大致的建模方法。

二、Sora原理解讀

1. Sora要解決的任務(wù)

Sora要解決的任務(wù)其實(shí)非常好理解,就是給定一段文本,模型需要根據(jù)該文本生成相應(yīng)的視頻,簡(jiǎn)單說(shuō)就是text-to-video(t2v)。t2v本身并不是一個(gè)新問(wèn)題,很多廠商都在研究t2v模型,只是當(dāng)前的t2v模型生成的視頻普遍質(zhì)量較差,很難到達(dá)工業(yè)應(yīng)用級(jí)別。在Sora出現(xiàn)前大家的普遍認(rèn)知是:t2v是一個(gè)很難的任務(wù),工業(yè)級(jí)別t2v模型(或者說(shuō)能真正實(shí)用的t2v模型)短時(shí)間內(nèi)應(yīng)該很難實(shí)現(xiàn)。然而,OpenAI又又又一次打了所有人的臉,Sora的發(fā)布意味著,這一天已經(jīng)來(lái)了。

2. Sora原理

如果用一句話來(lái)描述Sora訓(xùn)練建模過(guò)程,可以是:將原始視頻通過(guò)一個(gè)視覺(jué)編碼器(visual encoder)編碼到隱空間(latent space)形成隱時(shí)空塊(spacetime latent patches),這些隱時(shí)空塊(結(jié)合text信息)通過(guò)transformer做diffusion [2, 3, 4]的訓(xùn)練和生成,將生成的隱時(shí)空塊再通過(guò)視覺(jué)解碼器(visual decoder)解碼到像素空間(pixel space)。所以整個(gè)過(guò)程就是:visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

(1) Visual Encoding

一文帶你了解OpenAI Sora-AI.x社區(qū)

這一步其實(shí)很好理解,就是通過(guò)一個(gè)變分自編碼器(VAE)[5]的encoder將高維的原始視頻映射(壓縮)到較為低維的隱空間(注意:不僅僅是空間上壓縮了,時(shí)間上也進(jìn)行了壓縮),即得到該視頻的低維隱空間特征(可以看成一個(gè)大的3D tensor),為了后續(xù)transformer計(jì)算方便,將這個(gè)特征切成不重疊的3D patches,再將這些patches拉平成一個(gè)token序列,這個(gè)token序列其實(shí)就是原始視頻的表征了(即visual token序列)。

(2) Latent Diffusion with DiT

在得到視覺(jué)表征(上述visual token序列)后,Sora借鑒了DiT [4],使用transformer來(lái)做diffusion model的訓(xùn)練,使用transformer的好處在于可以輸入任意長(zhǎng)度的token序列,這樣就不再限制輸入視頻的尺寸和時(shí)長(zhǎng),并且模型很容易scale up(OpenAI表示這個(gè)我熟)。同時(shí),因?yàn)镾ora想解決t2v的問(wèn)題,所以Sora會(huì)將text的表征以某種形式condition到visual tokens上(Sora技術(shù)報(bào)告中未披露,但后文我會(huì)分析最可能的實(shí)現(xiàn)方法)來(lái)約束生成。

在diffusion transformer的訓(xùn)練中,給定噪聲輸入(e.g., 噪聲patches)并conditioned on text特征,模型被訓(xùn)練去預(yù)測(cè)原始視頻的patches(預(yù)測(cè)過(guò)程又叫denoising過(guò)程,具體可以參考DDPM [2]中的訓(xùn)練算法),示意圖如下:

一文帶你了解OpenAI Sora-AI.x社區(qū)

(3) Visual Decoding

第(2)步中,diffusion transformer可以生成的其實(shí)不是像素空間的視頻,而是隱空間的視頻表征(denoised patches),這些patches reshape成視頻3D特征再經(jīng)過(guò)第(1)步中的VAE的decoder,就可以映射回像素空間,得到最后生成的視頻。

3. Sora的重要性質(zhì)

(1) Sora可以靈活地采用不同時(shí)長(zhǎng)、分辨率和長(zhǎng)寬比的視頻

OpenAI發(fā)現(xiàn)之前的方法大多采用固定尺寸的視頻(比如4s的256x256視頻)去訓(xùn)練模型,和現(xiàn)實(shí)中任意長(zhǎng)度、長(zhǎng)寬比有較大gap,而采用原始尺寸的視頻訓(xùn)練模型效果更好。得益于Sora采用的transformer結(jié)構(gòu),Sora可以輸入任意多個(gè)visual patches(初始為noise patches),即可生成任意尺寸的視頻。

(2) Sora有很強(qiáng)的語(yǔ)言理解能力

訓(xùn)練t2v模型需要大量帶有文本標(biāo)注的視頻,OpenAI采用DALL·E 3 [6] 中的re-captioning技術(shù)來(lái)解決。首先訓(xùn)練一個(gè)高質(zhì)量的視頻標(biāo)注模型(captioner model),然后它為訓(xùn)練集中的所有視頻生成文本字幕。另外,進(jìn)一步利用GPT將視頻標(biāo)注模型生成的簡(jiǎn)短文本擴(kuò)展成更長(zhǎng)的文本有利于還利用Sora準(zhǔn)確遵循用戶文本提示生成高質(zhì)量視頻。

4.重要細(xì)節(jié)推測(cè)

Sora的技術(shù)報(bào)告沒(méi)有任何細(xì)節(jié),僅僅告知大家大致的建模方法,但有一些細(xì)節(jié)的實(shí)現(xiàn)是可以推測(cè)or猜測(cè)的。

(1) visual encoder可能的結(jié)構(gòu):因?yàn)镾ora在visual encoding時(shí)也壓縮了時(shí)間維度,所以Sora可能采用從零開(kāi)始訓(xùn)練的3D conv版的VAE。Sora這里沒(méi)有像之前工作那樣,簡(jiǎn)單地采用Stable Diffusion(SD) [3]預(yù)訓(xùn)練好的2D conv版的VAE?,F(xiàn)成的SD的VAE encoder用來(lái)壓縮視頻最大的問(wèn)題在于時(shí)間維度沒(méi)有下采樣,SD的VAE承擔(dān)了將原本sparse的數(shù)據(jù)壓縮到compact的latent domain再進(jìn)行diffusion過(guò)程,從而大幅度提高training和inference的效率。然而,直接運(yùn)用2D VAE缺乏了在時(shí)間維度的壓縮,使得其對(duì)應(yīng)的latent domain不夠緊湊。實(shí)際上,這是一個(gè)歷史遺留問(wèn)題,大部分研究工作受算力等因素影響選擇直接利用SD的預(yù)訓(xùn)練權(quán)重(Unet部分)、保留了2D VAE。

(2) visual encoding中視頻的patches如何flatten成token序列?大概率借鑒DiT,先f(wàn)latten這些patches,然后過(guò)一個(gè)linear層,將patches embed成tokens。

(3) diffusion中如何將text信息引入?大概率還是借鑒DiT和SD,在每個(gè)transformer block中,將visual tokens視為query,將text tokens作為key和value,進(jìn)行cross attention,不斷地conditioned on text tokens。

5. 尚未披露關(guān)鍵信息

(1)模型:模型的具體結(jié)構(gòu)、模型的參數(shù)量、關(guān)鍵參數(shù)(patch size、token數(shù)目等)如何?

(2)數(shù)據(jù):用了哪些數(shù)據(jù)?規(guī)模如何?

(3)資源:用了多少算力?訓(xùn)練了多久?

(4)如何處理高幀率、時(shí)間長(zhǎng)、高分辨率的視頻?目前主流的視頻生成模型都是cascade結(jié)構(gòu),也就是先生成低分辨率、低幀率的視頻,再不斷地在時(shí)間和空間維度上upsample。不知道Sora是否是直接一次性輸出其展示的結(jié)果,如果是那樣,那又會(huì)有多少token呢?(5)如何解決motion的問(wèn)題?目前的視頻生成模型普遍生成的motion都不太好,最簡(jiǎn)單的例子就是“人走路”,大部分模型無(wú)法生成連貫的、長(zhǎng)時(shí)間的、合理的人行走的過(guò)程。而Sora生成的結(jié)果在連貫性、合理性上相比之前的模型都有著斷代的領(lǐng)先。那到底是什么促使了這樣的結(jié)果呢?是模型尺寸的scale up嗎?需要scale up到什么size?還是數(shù)據(jù)的收集和清洗呢?以及要做到什么程度呢?

6. Sora的應(yīng)用

  • 視頻創(chuàng)作:用戶可以根據(jù)文本生成高質(zhì)量視頻;
  • 擴(kuò)展視頻:可以在給定的視頻或圖片基礎(chǔ)上,繼續(xù)向前或向后延申視頻;
  • Video-to-video editing:例如將SDEdit [7]應(yīng)用于Sora,可以很容易改變?cè)曨l的風(fēng)格;
  • 視頻連結(jié)/過(guò)渡/轉(zhuǎn)場(chǎng):可以將兩個(gè)視頻巧妙地融合到一起,使用Sora在兩個(gè)輸入視頻之間逐漸進(jìn)行插值,從而在具有完全不同主題和場(chǎng)景構(gòu)成的視頻之間創(chuàng)建無(wú)縫過(guò)渡;
  • 文生圖:圖像可以視為單幀的視頻,故Sora也能實(shí)現(xiàn)文生圖。

7. Sora的局限性

原本中提到:“Sora 目前作為模擬器(simulator)表現(xiàn)出許多局限性。例如,它不能準(zhǔn)確地模擬許多基本相互作用的物理過(guò)程,例如玻璃破碎。其他交互過(guò)程(例如吃食物)也不總是能正確預(yù)測(cè)。我們?cè)诘顷戫?yè)面中列舉了模型的其他常見(jiàn)故障模式,例如長(zhǎng)時(shí)間樣本中出現(xiàn)的不連貫性或?qū)ο蟮膽{空出現(xiàn)?!?/p>

總結(jié)一下主要是:

  • 對(duì)世界的物理規(guī)則的理解還不完美;
  • 長(zhǎng)視頻生成時(shí)容易出現(xiàn)不連貫或者物體憑空出現(xiàn)的現(xiàn)象。

三、Sora到底算不算世界模型?

最近,圍繞“Sora是不是世界模型”以及“Sora懂不懂物理世界”等相關(guān)話題引起了圈內(nèi)熱議。

英偉達(dá)高級(jí)研究科學(xué)家Jim Fan在X平臺(tái)上稱:“Sora is a learnable simulator, or "world model".”。而圖靈獎(jiǎng)得主Yann LeCun則表示:“The generation of mostly realistic-looking videos from prompts "does not" indicate that a system understands the physical world.”。

這里談?wù)勎业目捶?,僅供參考。

1.什么是世界模型(world model)[8]?

“The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system.” --Jay Wright Forrester, the father of system dynamics

上述引自系統(tǒng)動(dòng)力學(xué)之父Jay Wright Forrester。我的理解是人類其實(shí)無(wú)法記下整個(gè)世界的所有內(nèi)容,我們的大腦僅僅是在有選擇記憶一些概念和相互關(guān)系,利用這些,我們可以表征和理解這個(gè)世界。這里,我們的大腦其實(shí)在充當(dāng)world model,即一個(gè)理解世界(物理)規(guī)律的模型。比如,當(dāng)你看到玻璃杯從桌上掉下水泥地上,你知道接下來(lái)發(fā)生的事自然就是杯子碎了。

那么世界模型到底是啥?

(以下是我個(gè)人對(duì)世界模型的理解,可能不夠嚴(yán)謹(jǐn),僅供參考)

我將世界模型分為廣義的和狹義的進(jìn)行討論。

【廣義世界模型】廣義的世界模型,其實(shí)就是任何能理解世界潛在物理規(guī)律的模型,比如可以預(yù)見(jiàn)未來(lái)結(jié)果的模型,繼續(xù)以前面那個(gè)例子為例,如果一個(gè)模型能預(yù)測(cè)玻璃杯掉下后的狀態(tài),說(shuō)明該模型具備這樣的能力;再比如知道世界中實(shí)體或抽象概念之間相互聯(lián)系的模型,比如一個(gè)模型知道玻璃杯的硬度低于水泥地會(huì)導(dǎo)致玻璃破碎。這些其實(shí)在我看來(lái)都是廣義上的世界模型。

【狹義世界模型】狹義的世界模型更強(qiáng)調(diào)理解物理世界的動(dòng)力(dynamics)或者運(yùn)動(dòng)等物理規(guī)律的模型,了解過(guò)RL的朋友們一定特別熟悉這些。在RL中,一大分支便是model-based RL,這里的model,其實(shí)就是典型的狹義世界模型。在此模型中,給定某一時(shí)刻的狀態(tài)s_t和該時(shí)刻做的動(dòng)作a_t,模型可以預(yù)測(cè)出下一個(gè)時(shí)刻的狀態(tài)s_t+1。所以說(shuō),狹義的世界模型其實(shí)是因果的?;氐缴厦娴睦?,s_t可以是剛下落的杯子和干凈的水泥地,a_t則是自由落體這個(gè)動(dòng)作,s_t+1則是水泥地上碎掉的杯子這樣一個(gè)狀態(tài)。

2.Sora算不算世界模型?

先給結(jié)論,我覺(jué)得Sora算廣義世界模型,同時(shí)也是隱式的狹義世界模型。

Sora的diffusion過(guò)程其實(shí)是在從噪聲狀態(tài)在text prompts的約束下,預(yù)測(cè)可能的結(jié)果(視頻)。這個(gè)過(guò)程看似跟狹義世界模型沒(méi)有關(guān)系,但其實(shí)可以這么理解:

標(biāo)準(zhǔn)的狹義世界模型的狀態(tài)轉(zhuǎn)移過(guò)程為:s_0 -> a_0 -> s_1 -> a_1 -> s_2 -> ... -> a_T-1 -> s_T。對(duì)于一個(gè)視頻來(lái)說(shuō),每一幀都可以看做一個(gè)狀態(tài)s,但是某一時(shí)刻動(dòng)作其實(shí)很難描述,我們很難用自然語(yǔ)言或者其他形式來(lái)描述相鄰兩幀之間發(fā)生了什么。但是我們可以用自然語(yǔ)言描述視頻在做什么,也就是s_0到s_T發(fā)生了什么,也就是將動(dòng)作序列A={a_0, a_1, ..., a_T-1}一起打包表示成一句話或者一段話。在Sora中,text prompts可以看做成這樣的動(dòng)作序列A。而Sora理解世界的過(guò)程也和一般的狹義世界模型不太一樣,s_0不再是第一幀,而是“混沌”狀態(tài)(噪聲),于是乎diffusion的過(guò)程可以理解為:s_0(噪聲) -> A -> s_1 -> ... -> A -> s_T(清晰視頻)。這其中,雖然Sora并沒(méi)有顯式建模世界的dynamics,但其實(shí)在理解自然語(yǔ)言和視頻內(nèi)容之間的關(guān)系,算是一種廣義上的世界模型。

同時(shí),回看Sora的應(yīng)用可以發(fā)現(xiàn),Sora其實(shí)可以拓展視頻的!也就是說(shuō),換一個(gè)角度,給定一張起始圖像(第一幀)和一個(gè)文本描述(描述包含生成視頻內(nèi)容),Sora就能生成出整個(gè)視頻,那這個(gè)過(guò)程其實(shí)可以看做是在隱式的狹義世界模型建模:s_0(第一幀)-> A -> s_{1:T} (整個(gè)視頻)。相當(dāng)于是,給定了初始狀態(tài)和接下來(lái)的所有動(dòng)作A,Sora能預(yù)測(cè)出接下來(lái)的所有狀態(tài)s_{1:T},所以Sora在我看來(lái)也是一個(gè)非典型的、隱式的狹義世界模型。

值得一提的是,OpenAI官方信息從未表示Sora是world model,而是強(qiáng)調(diào)它是world simulator,我也覺(jué)得world simulator描述比較貼切。

四、Sora對(duì)行業(yè)的影響

  • 短視頻內(nèi)容創(chuàng)作可能進(jìn)入新的時(shí)代:Sora可以提供豐富的視頻素材;
  • 視頻剪輯和編輯:Sora具備相關(guān)應(yīng)用能力;
  • 更逼真的數(shù)字人:用戶可以得到自己的“理想型”;
  • 娛樂(lè)化:從圖像一鍵生成視頻;
  • 游戲行業(yè):游戲引擎受到Sora挑戰(zhàn);
  • 圖形學(xué):未來(lái)可能不復(fù)存在。

五、Sora成功的關(guān)鍵(粗淺理解,歡迎指正和補(bǔ)充)

  • 大規(guī)模訓(xùn)練:這點(diǎn)毋庸置疑。大模型、大數(shù)據(jù)量、使用大規(guī)模算力,OpenAI基本操作。
  • 敢于突破常規(guī)、不屑于刷點(diǎn):之前工作基本都采用SD預(yù)訓(xùn)練的visual encoder,也知道該encoder多少有點(diǎn)不合理(比如只能處理固定size的輸入),但沒(méi)有人真的去重新訓(xùn)練一個(gè)更合理的encoder(當(dāng)然,更可能是算力不支持)。而OpenAI發(fā)現(xiàn)問(wèn)題,就用算力來(lái)解決問(wèn)題(大概率重新訓(xùn)練visual encoder)。
  • 實(shí)事求是+絕對(duì)領(lǐng)先的sense:自回歸的建模方式在LLM中大獲成功,GPT系列也出自O(shè)penAI,但這不代表“Autoregressive is everything”,Sora告訴大家,生成視頻無(wú)需采用自回歸,直接3D建模+transformer encoder結(jié)構(gòu)就ok。
  • AGI理念從上至下傳播:Sam Altman絕對(duì)是一個(gè)有大格局的人物,其最終目標(biāo)是實(shí)現(xiàn)AGI,我想整個(gè)OpenAI應(yīng)該都會(huì)貫徹這樣的理念,不管是ChatGPT還是Sora,都能看到AGI的影子。

本篇僅僅為個(gè)人的思考和總結(jié),如有不妥之處,歡迎指正與交流。

【參考文獻(xiàn)】

[1] OpenAI. "??Video generation models as world simulators.??" OpenAI Blog. 2024.

[2] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models." Advances in neural informaion processing systems 33 (2020): 6840-6851.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[4] Peebles, William, and Saining Xie. "Scalable diffusion models with transformers." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).

[6] Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8.

[7] Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations." arXiv preprint arXiv:2108.01073 (2021).

[8] Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).

本文轉(zhuǎn)載自騰訊技術(shù)工程,作者:torresyu

原文鏈接:??https://mp.weixin.qq.com/s/Efk-gP8iuau3crWB2wWizg??

標(biāo)簽
已于2024-3-28 10:30:03修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦