偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Sora的狂歡、世界模型和AGI

發(fā)布于 2024-4-28 15:48
瀏覽
0收藏
Sora是OpenAI發(fā)布的一款視頻生成模型,采用了Diffusion Transformer架構(gòu),旨在實(shí)現(xiàn)高保真度和視頻圖像的前后一致性。其突出之處在于能夠生成逼真流暢的視頻內(nèi)容,令人驚嘆不已。Sora 一經(jīng)推出便在極短的時(shí)間內(nèi)迅速引起了科技界和社會(huì)各界的關(guān)注,同時(shí)也引發(fā)了關(guān)于AI技術(shù)發(fā)展和產(chǎn)業(yè)變革的激烈討論,日前,MoPaaS 魔泊云創(chuàng)始人和CEO魯為民博士參與騰訊科技舉辦的:與硅谷專家和創(chuàng)業(yè)者共同探討:Sora的商業(yè)邏輯與技術(shù)創(chuàng)新分析直播活動(dòng),同硅谷專家和創(chuàng)業(yè)者共同深入探討了Sora模型的技術(shù)特點(diǎn)、可能的應(yīng)用場(chǎng)景以及對(duì)人工智能領(lǐng)域的影響,本文整理了魯為民博士的發(fā)言部分 (文字有補(bǔ)充),為讀者提供了了解Sora及人工智能發(fā)展趨勢(shì)的視角。

01Sora的出現(xiàn),到底有哪些驚艷之處?


騰訊科技:第一次了解到Sora,最讓你驚訝或驚艷的地方在哪里??

魯為民:這次OpenAI 發(fā)布Sora生成的每一個(gè)視頻都很讓我驚嘆,特別是其高保真的效果以及視頻圖像的前后一致性。但是有一個(gè)視頻讓我印象最深刻,就是裝著果汁的玻璃杯在桌子上破碎的視頻,“果汁灑在桌面上,杯子橫在桌面上,杯子有一部分變扁,但是沒有玻璃碎片。” 這個(gè)事件發(fā)生的次序在物理世界是不可能的,但是視頻中各個(gè)事件的連貫表現(xiàn)得十分絲滑。Sora 模型生成的視頻讓人驚艷,但也展現(xiàn)出大模型一直存在違背規(guī)律和事實(shí)的“悖謬”和“幻覺”;這個(gè)也是對(duì)我們的一個(gè)提醒:Sora的實(shí)際應(yīng)用還存在一些待解決的問題,更不用說 Sora 離世界模擬器還有相當(dāng)?shù)木嚯x。

Sora的狂歡、世界模型和AGI-AI.x社區(qū)

,時(shí)長(zhǎng)00:08

騰訊科技:Sora生成的視頻中還是有不穩(wěn)定的情況產(chǎn)生,你可以看到一些邏輯明顯錯(cuò)誤的視頻出來,而OpenAI也并不避諱放出這些視頻,為什么會(huì)有這些不穩(wěn)定的情況出現(xiàn)?

魯為民:基于Transformer的生成式模型是一種計(jì)算Token生成概率的預(yù)測(cè)模型。我認(rèn)為只要牽涉到概率的模型,就會(huì)有一定的近似和不確定性,使得視頻的生成呈現(xiàn)不穩(wěn)定性,甚至出現(xiàn)明顯的邏輯錯(cuò)誤。另一方面,訓(xùn)練數(shù)據(jù)也很重要。訓(xùn)練數(shù)據(jù)中包含一些場(chǎng)景,但這些場(chǎng)景是否能完全覆蓋生成的應(yīng)用場(chǎng)景是一個(gè)問題。例如,前面提到的玻璃杯破碎的場(chǎng)景,可能在之前的訓(xùn)練數(shù)據(jù)中,這種場(chǎng)景可能并不存在;在這種情況下,模型可能會(huì)對(duì)生成視頻做出最可能出現(xiàn)的預(yù)測(cè),即模型依賴概率來估計(jì)圖像出現(xiàn)的時(shí)間序列,但后來我們發(fā)現(xiàn),這種估計(jì)在時(shí)間次序上并不符合物理規(guī)律或邏輯。

此外,對(duì)于一般正常的場(chǎng)景,視頻的呈現(xiàn)通常是平滑且連續(xù)的。然而,對(duì)于突然變化的場(chǎng)景,比如玻璃杯突然碎裂,以及不常發(fā)生的邊角事件在近似的模型中很難被準(zhǔn)確模擬。盡管一般認(rèn)為神經(jīng)網(wǎng)絡(luò)可以近似任何類型的線性或非線性關(guān)系,無論是連續(xù)還是非連續(xù)的,但它們?nèi)匀皇墙撇⒋嬖谡`差。在某些場(chǎng)景中,這些誤差的結(jié)果可能導(dǎo)致模型在表達(dá)世界時(shí)呈現(xiàn)物理原理、因果關(guān)系和時(shí)空細(xì)節(jié)等方面的錯(cuò)誤。

這種問題不僅僅是在當(dāng)前的Sora模型中存在,Gemini 和GPT系列的大模型也有類似的情況。這從經(jīng)驗(yàn)上也證實(shí)幻覺問題是這類模型架構(gòu)存在的一個(gè)先天性問題。當(dāng)然,我們可以不斷地對(duì)模型進(jìn)行細(xì)致的優(yōu)化,不斷去逼近這個(gè)模型系統(tǒng)真實(shí)的解,但很難完全消除這樣的問題。然而,這并不妨礙這類模型在許多合適場(chǎng)景中的廣泛應(yīng)用。

另外對(duì)于這類模型,包括將視覺元素整合進(jìn)去的環(huán)境建?;蛭锢硎澜缃?,我們基本上有兩種不同的方法。一種方法是數(shù)據(jù)驅(qū)動(dòng)的,比如Sora,使用擴(kuò)散Transformer架構(gòu),延續(xù)了語言大模型的思路,通過大量的互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)來訓(xùn)練模型。另一種方法,應(yīng)用第一性原則來建模,比如Unreal Engine主要基于物理規(guī)律和其它數(shù)學(xué)模型生成圖像和視頻;所以如果使用用依賴基于第一性原則的Unreal Engine來建模,那么能夠覆蓋的場(chǎng)景范圍與可以這樣建模的場(chǎng)景數(shù)量和其普遍性有關(guān)。

這兩種方法代表了不同的思路。前者可能使得模型學(xué)習(xí)更廣泛的知識(shí),可能涌現(xiàn)非設(shè)計(jì)的能力。后者可以建立更精確的模型。當(dāng)然,如果能夠?qū)⑦@兩種方法結(jié)合起來,比如通過大模型來調(diào)用基于第一原則的生成視頻的工具,可能可以呈現(xiàn)兩者最好的一面。但是也可能被某一方法的局限,比如有可能你想要生成的視頻內(nèi)容是像Unreal Engine這樣的視頻生成引擎無法覆蓋的場(chǎng)景。所以通過基礎(chǔ)模型調(diào)用專有工具可能是一把雙刃劍,既有其優(yōu)勢(shì),也可能帶來一些問題。

Sora的狂歡、世界模型和AGI-AI.x社區(qū)

02Sora接近世界模型嗎


騰訊科技:這個(gè)話題直接讓人聯(lián)想到最近討論的物理世界引擎。OpenAI在Sora的技術(shù)報(bào)告中也刻意避免了世界模型這種詞匯,只是說這可能是AI通向物理世界的一個(gè)有希望的道路,各位怎么看呢?

魯為民:圖靈獎(jiǎng)獲得者Yann LeCun提出了世界模型的概念,現(xiàn)在對(duì)世界模型概念都存在著支持和排斥兩種迥然不同的觀點(diǎn),它們各自都有其合理性。

我個(gè)人對(duì)圖靈獎(jiǎng)獲得者Yann LeCun的世界模型的觀點(diǎn)有一定程度的認(rèn)可,尤其是在當(dāng)前條件下,從第一性原理出發(fā)來對(duì)世界進(jìn)行建模,可能更方便其應(yīng)用在特定的場(chǎng)景。另外,他的世界模型架構(gòu)通過對(duì)環(huán)境的感知以及與環(huán)境的互動(dòng)來生成行為,形成反饋閉環(huán),從而進(jìn)一步學(xué)習(xí)影響環(huán)境。雖然這種世界模型的思路有其合理性,但目前還沒有特別突出的實(shí)際應(yīng)用。雖然最近 Meta 發(fā)布了 V-JEPA 視頻模型,聲稱是一個(gè)早期的LeCun物理世界模型,并在檢測(cè)和理解物體之間的高度詳細(xì)的交互方面表現(xiàn)出色,在推動(dòng)機(jī)器智能邁向了更加深入理解世界的重要一步。但其鋒芒被風(fēng)頭正勁的OpenAI Sora 模型所掩蓋。

因?yàn)楝F(xiàn)在已經(jīng)有了足夠的條件,比如大算力和互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù),可以大規(guī)模地訓(xùn)練數(shù)據(jù)驅(qū)動(dòng)的模型,使得像Sora這樣的數(shù)據(jù)驅(qū)動(dòng)的生成模型的性能和效果、靈活性和涌現(xiàn)能力表現(xiàn)出色,在很多場(chǎng)景其生成的內(nèi)容令人驚艷。雖然目前來看(高質(zhì)量的)訓(xùn)練數(shù)據(jù)可能還不夠,但我們一方面在不斷努力增加數(shù)據(jù)量,另一方面通過人工或合成的方式提高數(shù)據(jù)的多樣性和質(zhì)量,確保數(shù)據(jù)的多樣性和質(zhì)量。

在這兩個(gè)條件的基礎(chǔ)上,再加上新的模型架構(gòu),比如這次Sora采用以Diffusion Transformer為主的架構(gòu),確實(shí)能夠通過大力出奇跡的方式學(xué)習(xí)到一些關(guān)于環(huán)境或世界的知識(shí),特別是它能夠利用足夠大的容量在某種程度上學(xué)會(huì)對(duì)世界的理解。

從這個(gè)角度來看,效果是顯而易見的,它在視頻長(zhǎng)程一致性、3D一致性以及與現(xiàn)實(shí)世界的交互能力等方面的表現(xiàn)讓人印象深刻,例如吃了一個(gè)漢堡包后能留下缺口,或者狗被遮擋后再出現(xiàn)的場(chǎng)景。這些都是模型從現(xiàn)有數(shù)據(jù)學(xué)到的關(guān)于世界的知識(shí)。雖然Sora還可能不能完全理解世界,還存在違背規(guī)律和事實(shí)的“悖謬”和“幻覺”,但我相信通過OpenAI和其它機(jī)構(gòu)的持續(xù)努力,像 Sora 這類模型將會(huì)不斷地改進(jìn)。希望在沒有其它更好的替代方法之前,能夠在應(yīng)用中能夠充分利用這樣的進(jìn)展,在合適的應(yīng)用場(chǎng)景中產(chǎn)生一些正面的結(jié)果。

(除了世界模型,AGI也是人們常談到的一個(gè)相關(guān)概念。) 實(shí)際上AGI的沒有一個(gè)大家公認(rèn)的定義。按照Wikipedia,AGI 可以學(xué)習(xí)完成人類能夠執(zhí)行的任何智力任務(wù),即在大多數(shù)經(jīng)濟(jì)上有價(jià)值的任務(wù)中超越人類智能;AGI 是一個(gè)假設(shè)性的概念,所以其目標(biāo)目前也不太可能定義得非常明確。建立世界模型是實(shí)現(xiàn) AGI的一條合理可信的路徑?,F(xiàn)在有關(guān)世界模型和AGI的各種實(shí)踐應(yīng)該是沒有問題的;雖然各自發(fā)展的具體路徑會(huì)因?yàn)槟繕?biāo)的不同而有所不同,但我們相信在目前這個(gè)階段這種百花齊放的多樣性是有益的。

我們之前討論過,對(duì)于AI系統(tǒng)的發(fā)展與其設(shè)定一個(gè)像 AGI 一樣遙遠(yuǎn)的目標(biāo)去試圖一步到位實(shí)現(xiàn),現(xiàn)在AI技術(shù)的推動(dòng)實(shí)際上是沿著一種更為現(xiàn)實(shí)靈活的途徑。實(shí)際上,最近這些年AI的發(fā)展,我們首先看到的是語言模型的突破,語言模型已經(jīng)在語言理解、生成和處理方面取得了驚人的進(jìn)展,盡管還有很多問題需要解決,但至少我們看到了語言模型已經(jīng)在跨越應(yīng)用的門檻?,F(xiàn)在輪到視頻視覺了,像今天的 Sora 已經(jīng)初步顯示視頻模態(tài)理解、處理和生成的巨大應(yīng)用潛力。

接下來,我們可能會(huì)看到更多的模態(tài)融合,不僅僅是語言和視頻,還包括語音、視覺、味覺甚至嗅覺等不同的模態(tài)。這些模態(tài)的加入可能會(huì)讓模型對(duì)現(xiàn)實(shí)世界和環(huán)境有更深的理解。具備了這樣的條件之后,我們?cè)偃ビ懻搶?duì)物理世界的理解、對(duì)人類環(huán)境的理解以及世界模型等概念,可能會(huì)更加水到渠成。

當(dāng)然,要建立世界模型和達(dá)到 AGI,像Gemini、GPT-x和Sora 這樣的(語言或多模態(tài))大模型可能遠(yuǎn)遠(yuǎn)不夠,因?yàn)檫@類基于 Transformer 的大模型存在的一些包括對(duì)物理規(guī)律、邏輯、和實(shí)事上的悖謬和幻覺根本問題。需要在大模型本身能力的基礎(chǔ)上,系統(tǒng)需要加強(qiáng)或增加推理、規(guī)劃、搜索和行動(dòng)等能力,以及具備自我改進(jìn)和持續(xù)學(xué)習(xí)能力,讓系統(tǒng)逼近人類可接受的世界模型。而智能體 (Agents) 是實(shí)現(xiàn)這樣的整合能力的一個(gè)合理的框架。

Sora的狂歡、世界模型和AGI-AI.x社區(qū)

03Sora的出現(xiàn),會(huì)帶來哪些創(chuàng)業(yè)生態(tài)的改變


騰訊科技:回到Sora,目前OpenAI只是開放了一小部分試用,未來還會(huì)有什么更廣闊的應(yīng)用場(chǎng)景?

魯為民:目前,盡管Sora一亮像就很驚艷,但存在一些問題。例如,這些模型并不總是能夠生成令人滿意的圖片和視頻,有時(shí)甚至?xí)霈F(xiàn)在物理規(guī)律和邏輯上的嚴(yán)重錯(cuò)誤。我們之前使用 ChatGPT時(shí),可能也經(jīng)常遇到類似的問題。

一方面,我相信隨著時(shí)間的推移,這些模型的優(yōu)化使得其應(yīng)用會(huì)變得更加成熟,成本會(huì)降低,也會(huì)有更多人使用。但具體來說,這些模型適合于哪些用戶群體目前還不太明確。比如,相比于語言模型,視頻生成模型可能更加小眾。AI從業(yè)者還需要不斷地應(yīng)對(duì)各種各樣的挑戰(zhàn)。然而,我更關(guān)注這些模型對(duì)于更長(zhǎng)遠(yuǎn)目標(biāo)實(shí)現(xiàn)的影響,比如我們需要它們對(duì)其環(huán)境有更好的理解和對(duì)世界有更強(qiáng)的認(rèn)知能力。因?yàn)閺拈L(zhǎng)遠(yuǎn)來看,我看好這些模型的應(yīng)用能力可以擴(kuò)展到能為機(jī)器人等真正地提供“大腦”,通過這些模型來增強(qiáng)它們的理解、推理和規(guī)劃能力。我相信這樣的應(yīng)用方向可能會(huì)帶來更高的價(jià)值,并且更廣泛地惠及大眾。

另外,Sora 的能力很大程度上依賴 “暴力出奇跡”,使得Sora在很多方面表現(xiàn)出色,有潛在的廣泛應(yīng)用前景。但是像其它大模型一樣,其計(jì)算算力成本也是需要考慮的問題,尤其是視頻生成模型的推理成本往往遠(yuǎn)高于類似能力的語言模型。如何降低模型的應(yīng)用成本,提高相適應(yīng)的性能和能力的回報(bào),這需要在模型架構(gòu)的設(shè)計(jì)時(shí)平衡考慮。

騰訊科技:“暴力出奇跡”的方法是不是也有瓶頸?目前模型已經(jīng)出現(xiàn)“涌現(xiàn)能力”當(dāng)你再加大數(shù)據(jù)量的時(shí)候,是不是也不會(huì)再讓模型更優(yōu)化?

魯為民:Sora 在實(shí)踐上也呈現(xiàn)規(guī)模優(yōu)勢(shì)和涌現(xiàn)特性,即通過(高質(zhì)量的)數(shù)據(jù)、模型參數(shù)和算力的擴(kuò)展,性能和能力的顯著提升。但數(shù)據(jù)和計(jì)算資源往往不是唾手可得的。模型的發(fā)展還有必要從其它方面突破。我覺得接下來的模型發(fā)展可以從兩方面來考慮,一個(gè)是模型繼續(xù)改進(jìn),另外一個(gè)是有沒有新的模型架構(gòu)的出現(xiàn)?

剛剛提到數(shù)據(jù)的挑戰(zhàn),數(shù)據(jù)對(duì)模型的改進(jìn)非常重要。特別是在物理世界和機(jī)器人等領(lǐng)域,相關(guān)的經(jīng)驗(yàn)數(shù)據(jù)的獲取因?yàn)槭芟尥笔Щ虿煌暾?,這些數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)有很大不同。我們需要考慮如何在這些特定環(huán)境中利用有限的數(shù)據(jù)建立更好的模型,同時(shí)考慮必要時(shí)如何生成相關(guān)的數(shù)據(jù),例如機(jī)器人系統(tǒng)通過與環(huán)境的交互學(xué)習(xí)并影響環(huán)境,這涉及到強(qiáng)化學(xué)習(xí),是一個(gè)有挑戰(zhàn)性的問題。

另外,世界的模型并非完全開放,它們?nèi)匀皇艿皆S多約束,比如我們需要模型避免與人類價(jià)值觀的不一致。目前,通過人類反饋進(jìn)行強(qiáng)化學(xué)習(xí)等技術(shù)來微調(diào)模型是目前一個(gè)很好的實(shí)踐方向,但還有很多發(fā)展空間。此外這類生成式 AI大模型在理解生成上都有局限性,特別是在一些邊角場(chǎng)景中,模型可能不可靠。這些和其它的問題使得大模型在理解和模擬物理世界可能存在違背規(guī)律、邏輯和事實(shí)的“悖謬”和“幻覺”。

像Gemini、GPT-x和Sora 這樣的生成式 AI 模型的先天性局限,光靠模型本身的改進(jìn)是不可能完全解決的。在這種情況下,我們需要充分利用模型之外的能力來補(bǔ)充、改進(jìn)和強(qiáng)化這些大模型的能力。像智能體 (Agents) 這樣機(jī)制提供這樣的一種可行性。

特別是建立在語言或多模態(tài)的生成式 AI模型提供的上下文提示學(xué)習(xí)模式以及理解、推理和規(guī)劃能力基礎(chǔ)上,智能體的加持可以為應(yīng)用系統(tǒng)提供的天然反饋閉環(huán)來實(shí)現(xiàn)持續(xù)學(xué)習(xí)和自我改進(jìn)的能力,使得基于生成式AI大模型的智能體可以解決復(fù)雜問題、對(duì)環(huán)境交互行動(dòng),糾正可能的錯(cuò)誤、并從經(jīng)驗(yàn)中持續(xù)學(xué)習(xí)。

本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者:魯為民

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦