偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<u id="5ot4s"><menu id="5ot4s"></menu></u>

<bdo id="5ot4s"><source id="5ot4s"></source></bdo>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Sora不懂物理世界，翻車神圖全網(wǎng)爆笑！LeCun馬斯克DeepMind大佬激辯世界模型

作者：新智元 2024-02-19 14:07:00

人工智能新聞

現(xiàn)實不存在了？這么說還為時尚早。最近，Sora各種不符合現(xiàn)實的圖出圈了，惹網(wǎng)友爆笑。LeCun、DeepMind大佬、馬斯克都紛紛下場了，而一位動畫師表示，自己完全不擔心被Sora淘汰。

大火的Sora，讓許多動畫、影視行業(yè)的人大為恐慌。

不過，今天網(wǎng)上廣為流傳的這張圖，讓大家倒是放心了不少。

可以看到，在這個視頻中，玻璃杯碎裂的方式十分詭異——

它被抬到半空中時，桌子上就忽然出現(xiàn)了一灘平整的紅色玻璃，隨后玻璃杯被摔到桌子上，和這灘玻璃融為一體。

為什么Sora做出的視頻是這樣的呢？

很顯然，Sora混淆了玻璃破碎和液體溢出的順序，也并不能推理時間和因果關系。

而這也說明，Sora目前還無法理解物理世界！

再比如，Sora團隊Aditya Ramesh自豪地放出的這個視頻，「螞蟻巢穴內(nèi)爬行的POV鏡頭」，粗看似乎很驚艷，仔細一看，卻令人啼笑皆非——

螞蟻怎么只有四條腿？！

Sora這「人工智障」的表現(xiàn)，也讓大家著實松了一口氣。

雖說確實生成一些足夠驚艷的視頻，但Sora離「扔進一部小說，生成一部電影」，應該還差得遠呢。

跑步方向完全相反

椅子未被建模為剛性物體，居然能飄浮

「一只大鴨子走過波士頓的街道」，在第9秒，鴨子把人踩沒了

Sora不懂人類的物理世界？AI專家混戰(zhàn)

LeCun和馬庫斯這對「宿敵」，這次卻站在了統(tǒng)一戰(zhàn)線上，齊噴Sora所謂的「物理引擎」。

LeCun留言表示：嗨，Aditya，螞蟻有6條腿，不是嗎？

馬庫斯也表示，Sora會造成可怕的后果——

「我們即將有整整一代兒童接受虛假視頻的教育，這些視頻對于天真的觀眾是完全合理的，然而在生物學上卻錯誤百出?！?/span>

今天它弄錯的可能是一只螞蟻，明天就是月球的軌道。詐騙犯會做出許多虛假視頻，普通用戶會被蒙蔽，再也不知道什么是真實，什么是虛假。

對于玻璃杯錯誤摔碎的視頻，馬庫斯表示這是一個絕妙的例子。

我們需要認識到，并非Sora生成的所有視頻都來自其訓練集。Sora也并不總是遵循物理學、生物學和文化的規(guī)律。

我最近討論的7*7棋盤、4條腿的螞蟻，和碎裂的杯子一樣，都證明了Sora是一個魯莽的野獸，而非迭代的、基于定律的物理引擎。

OpenAI所引以為傲的對象的一致性，在這些demo中都沒有成功。因為模型在訓練數(shù)據(jù)中從未見過，從未被物理引擎產(chǎn)生過。

其實，Sora只是泛化了像素的模式，而并非世界上物體的模式。

對此，英偉達高級研究科學家Jim Fan表示，我們可以從兩個角度來解釋這個問題：

（1）可能是因為這個模型根本沒有掌握物理知識，它僅僅是在無序地拼湊圖像像素；

（2）模型確實嘗試構建了一個內(nèi)部的物理引擎，但這個引擎的表現(xiàn)還不盡人意。就像是第一代虛幻引擎在處理流體動力學和物體變形等問題上，與V5相比有著明顯的不足。同樣地，V1的渲染效果也遠不如V5，并且缺乏物理上的準確性。

至于為什么更傾向于是第二種解釋，來自谷歌DeepMind的Nando de Freitas給出了更詳細的說明。

生命，以其驚人的復雜結(jié)構為例，其實質(zhì)是在日益增加的宇宙混沌中創(chuàng)造出秩序。類似地，在訓練過程中，神經(jīng)網(wǎng)絡通過消耗能量來減少混亂，從而更有效地進行預測和泛化。我們甚至將這種能量損失稱為「負熵」。

就像生命一樣，網(wǎng)絡也是更廣闊環(huán)境的一部分，這個環(huán)境為它提供數(shù)據(jù)和反饋。同時，這一過程也會為宇宙帶來更多的混亂（例如TPU和GPU產(chǎn)生的熱量）?？偟膩碚f，我們已經(jīng)具備了智能（生命的一種衍生屬性）的所有要素，包括對物理學的理解。

一個規(guī)模有限的神經(jīng)網(wǎng)絡能夠預測任何情況發(fā)生的唯一方式，是通過學習能夠促進這種預測的內(nèi)部模型，包括對物理定律的直觀理解。

基于這種直覺，我找不到任何反對Jim Fan觀點的理由。

隨著我們獲得更多高質(zhì)量的數(shù)據(jù)、電力、反饋（也就是微調(diào)和基礎化），以及能夠高效吸收數(shù)據(jù)以降低熵的并行神經(jīng)網(wǎng)絡模型，我們很可能會擁有比人類更擅長推理物理的機器，并且希望它們能教會我們新知。

順帶一提，我們也構成了神經(jīng)網(wǎng)絡的環(huán)境，通過消耗能量來創(chuàng)造秩序（比如提升神經(jīng)網(wǎng)絡訓練數(shù)據(jù)集的質(zhì)量）。

關于生命和「熵」：https://newscientist.com/article/2323820-is-life-the-result-of-the-laws-of-entropy/

Sora「世界模型雛形」陷入重重爭議

其實，Sora初一面世，OpenAI聲稱「擴展視頻生成模型是構建物理世界通用模擬器的一條可行之路」的說法，就得到了諸多專家的質(zhì)疑。

前谷歌、Facebook技術主管Hongcheng表示——

「模型不大可能通過被動看訓練數(shù)據(jù)視頻，就能掌握物理定律?！?/span>

再聰明的智能體，也不大可能通過看太陽東升西落的視頻，就能悟出地球圍著太陽轉(zhuǎn)。人類看了幾千年蘋果掉到地上，也是直到牛頓的時代才發(fā)現(xiàn)了引力。

多位業(yè)內(nèi)人士表示，說Sora是數(shù)據(jù)驅(qū)動的物理引擎的說法很愚蠢。

它的荒謬性，就好比我們收集了行星運動的數(shù)據(jù)，輸入到模型中，模型預測出行星位置，就說這個模型在內(nèi)部復現(xiàn)了廣義相對論一樣。

像Sora這樣的Diffusion Transformer，底層是基于機器學習的隨機梯度下降加上反向傳播。

這就意味著：Sora并沒有邏輯推理能力！

本質(zhì)上，它只是在將訓練的數(shù)據(jù)壓縮成模型的權重罷了。只是按照某種規(guī)則更新參數(shù)，以達到最小誤差的配置，并不進行邏輯推理。

梯度下降加上反向傳播，往往會找到似乎有效但實際上脆弱的解決方案，因此它很容易崩潰。

就像蒼蠅尋找氣味源頭一樣，它總是朝著氣味最濃的方向去尋找，就像梯度下降算法根據(jù)梯度的方向更新參數(shù)，以逐步接近損失函數(shù)的最小值。

基于這種模式，是無法學會物理規(guī)律的。

而對于Sora「沒有在學習物理，只是在二維空間中處理像素」的說法，英偉達高級科學家Jim Fan表示自己不能茍同。

這種觀點，就好像說「GPT-4不學習編碼，只是采樣字符串」一樣。要是這么說的話，我們還可以說「Transformer所做的只是處理一系列整數(shù)（token ID）」，「神經(jīng)網(wǎng)絡所做的只是對浮點數(shù)進行處理」。

Sora的軟物理模擬，是大規(guī)模擴展文本到視頻訓練時的一項「涌現(xiàn)特性」。

- 為了能夠生成可執(zhí)行的Python代碼，GPT-4必須掌握特定形式的語法、語義和數(shù)據(jù)結(jié)構。不過，GPT-4并不直接保存Python語法樹。

- 同樣地，Sora需要掌握將文字描述轉(zhuǎn)化為3D圖像、進行3D轉(zhuǎn)換、光線追蹤渲染以及應用物理規(guī)律的技巧，從而盡可能準確地對視頻像素建模。它需要像學習游戲引擎開發(fā)那樣，掌握這些技能。

- 如果我們暫時不考慮交互性，那么UE5可以被看作是一個復雜的視頻像素生成過程。Sora也是用于生成視頻像素的，但它是基于端到端處理的Transformer技術。它們在概念上是處于同一層面的。

- 不同之處在于，UE5是通過人工精心設計且精確的，而Sora則完全依靠數(shù)據(jù)學習得到，更加依賴直觀的理解。

谷歌深度學習專家、Keras創(chuàng)始人Fran?ois Chollet表示，這個話題其實是老生常談了。

從2016年以來，關于視頻生成模型和神經(jīng)輻射場是否融入了對物理規(guī)律的理解，就有不少討論。

的確，這些系統(tǒng)具備根據(jù)給定物理場景預測未來發(fā)展的能力，它們實際上是基于一套物理模型工作的。

問題在于，這套模型的準確度如何？能否應用于未曾訓練的新情境中？

這些問題，標著著兩個世界的分水嶺，這兩個世界之間，有著截然不同的可能性。

在一個世界里，生成的圖像僅用于媒體制作，看上去似乎真實，實際上卻并非真實世界的反映。

而在另一個世界中，這些圖像能作為現(xiàn)實世界的模擬，幫我們對未來作出可靠預測，這對科學研究意義重大。

不過，當前模型存在一些基本限制，無法捕捉到物體恒存性這樣的視覺現(xiàn)實基本原理，這個概念即使兩歲孩童也能理解。

當然，人類研究者是有辦法對之改進的。

如果能通過增加模型訓練數(shù)據(jù)的采樣密度，在更廣泛、更深入的數(shù)據(jù)上進行訓練，就能提高模型性能。

到那一天，我們就能來預測天氣、創(chuàng)建風洞模擬器、預測太陽活動了！

但如果我們想將模型應用于游戲引擎和視頻上，是想構建廣泛泛化的現(xiàn)實世界模型，就行不通了，模型不是這么用的。

Sora的技術并不新

此外，還有很多大佬表示，Sora的技術其實并不新。

LeCun轉(zhuǎn)發(fā)了華人學者謝賽寧的推文，認為Sora基本上是基于謝賽寧等人在去年被ICCV 2023收錄的論文提出的框架設計而成的。

而和謝賽寧一起合著這篇論文的William Peebles之后也加入了OpenAI，領導了開發(fā)Sora的技術團隊。

時空patch，是Sora創(chuàng)新的核心。

它建立在Google DeepMind早期對NaViT和ViT（視覺Transformer）的研究之上。而這項研究，又是基于一篇2021年的論文「An Image is Worth 16x16 Words」。

這其中Sora所做的，就是把Diffusion和Transformer架構結(jié)合在一起，創(chuàng)建了diffusion transformer模型。

馬毅教授也表示，Sora與之前不同的地方，就是用Transformer實現(xiàn)了diffusion和denosing。

而這其實就是馬毅團隊去年在NeurIPS White-box Transformer論文所預示和證明了的——

假設數(shù)據(jù)分布是mixed Gaussians，那Transformer blocks就是在實現(xiàn)diffusion/擴散和denoising/壓縮。

不過，當時團隊苦于沒有足夠的數(shù)據(jù)和算力，無法在diffusion model上驗證，只能在Masked VAE，DINO，BERT，以及GPT-2上做了驗證。

而這次Sora的發(fā)布更加證明了，在相同條件下，白盒的Transformer CRATE構架在性能上已經(jīng)能超越傳統(tǒng)的Transformer，而且完全可解釋和更加可控，因此會提升視頻和文本的生成技術。

有趣的是，連馬斯克也跳出來說，特斯拉早在一年前就掌握了類似OpenAI的視頻生成技術，它的真實世界模擬和視頻生成是是全世界最好的。

并且，特斯拉視頻生成超越OpenAI的地方就在于，他預測了極其精確的物理場景，這對自動駕駛至關重要。

那么，特斯拉怎么讓OpenAI搶了先呢？

馬斯克表示，自己早就想用特斯拉做視頻游戲了，但不幸的是，他們必須在發(fā)布無監(jiān)督的FSD后才能制作游戲。

動畫師：Sora距離替代人類，還早呢

無獨有偶，一位動畫師也表示，自己完全沒有對Sora感到害怕。

他的理由是，因為動畫制作需要反復修改，尤其是面對客戶的需求時。

面對反復的修改要求，人類動畫師是能輕松應對的，而AI則很可能選擇重新出一幅作品。

哪位客戶會喜歡這種方式呢？

因此，目前AI無法給客戶又完整又高質(zhì)量的作品。

可能很多人覺得，過于關注細節(jié)是吹毛求疵，但客戶要的就是吹毛求疵。

對于他們珍愛的IP或作品，他們可不希望每次修改都伴隨著角色、設計、構圖、背景的大改動。

所以，目前Sora還端不了誰的飯碗，除了展現(xiàn)一下AI的潛能外，實際的應用價值并不大。

責任編輯：張燕妮來源：新智元

數(shù)據(jù)模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tt id="asblj"></tt>