LeCun怒斥Sora是世界模型，自回歸LLM太簡(jiǎn)化了

作者：機(jī)器之心 2024-02-27 09:43:48

在 LeCun 看來(lái)，僅僅根據(jù) prompt 生成逼真視頻并不能代表一個(gè)模型理解了物理世界，生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。

最近幾天，Sora 成為了全世界關(guān)注的焦點(diǎn)。與之相關(guān)的一切，都被放大到極致。

Sora 如此出圈，不僅在于它能輸出高質(zhì)量的視頻，更在于 OpenAI 將其定義為一個(gè)「世界模擬器」（world simulators）。

英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 甚至斷言：「Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎」，「是一個(gè)可學(xué)習(xí)的模擬器，或『世界模型』」。

「Sora 是世界模型」這種觀點(diǎn)，讓一直將「世界模型」作為研究重心的圖靈獎(jiǎng)得主 Yann LeCun 有些坐不住了。在 LeCun 看來(lái)，僅僅根據(jù) prompt 生成逼真視頻并不能代表一個(gè)模型理解了物理世界，生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同。

圖源：https://twitter.com/ylecun/status/1758740106955952191

雖然 Sora 的發(fā)布讓整個(gè) AI 界為之瘋狂，但 LeCun 并不看好。他不止一次的公開(kāi)表達(dá)過(guò)對(duì)自回歸和 LLM 的批評(píng)，而自回歸模型是包括 Sora 等在內(nèi)的 GPT 系列 LLM 模型所依賴的學(xué)習(xí)范式，也就是說(shuō)，從 ChatGPT 到 Sora，OpenAI 都是采用的自回歸生成式路線。

然而 LeCun 多次唱衰這種技術(shù)路線，他曾表達(dá)過(guò)一些不滿，比如「從現(xiàn)在起 5 年內(nèi)，沒(méi)有哪個(gè)頭腦正常的人會(huì)使用自回歸模型?！埂缸曰貧w生成模型弱爆了?。ˋuto-Regressive Generative Models suck!）」「LLM 對(duì)世界的理解非常膚淺?！沟妊哉摗?/span>

世界模型和自回歸 LLM 到底該如何定義？身為全球知名的 AI 研究學(xué)者，LeCun 自然不是一位全然的批評(píng)家，最近，他給出了世界模型的新定義。在他看來(lái)，自回歸生成模型僅僅是世界模型的一種簡(jiǎn)化的特殊情況。與大家在互聯(lián)網(wǎng)上看到的動(dòng)不動(dòng)就是長(zhǎng)篇大論的科普不同，LeCun 以一種簡(jiǎn)單直白的方式給出了世界模型的定義。

圖源：https://twitter.com/ylecun/status/1759933365241921817

對(duì)于給定的：

觀察值 x (t)；
對(duì)世界狀態(tài)的先前估計(jì) s (t)；
動(dòng)作建議 a (t)；
潛在變量建議 z (t)。

世界模型需要計(jì)算出：

表征：h (t) = Enc (x (t))；
給出預(yù)測(cè)：s (t+1) = Pred ( h (t), s (t), z (t), a (t) )。

其中，

Enc () 是一個(gè)編碼器（我們可以理解為一個(gè)可訓(xùn)練的確定性函數(shù)，例如神經(jīng)網(wǎng)絡(luò)）；
Pred () 是一個(gè)隱藏狀態(tài)預(yù)測(cè)器（也是一個(gè)可訓(xùn)練的確定性函數(shù)）；
潛在變量 z (t) 代表未知信息，可以準(zhǔn)確預(yù)測(cè)將來(lái)會(huì)發(fā)生什么。z (t) 變量必須從一個(gè)分布中進(jìn)行采樣，或者在一組中變化。它參數(shù)化了（或分布）一系列可能的預(yù)測(cè)。換句話說(shuō)，變量 z (t) 定義了一個(gè)可能性空間，我們根據(jù)這個(gè)空間來(lái)預(yù)測(cè)未來(lái)可能發(fā)生的情況。

訣竅是通過(guò)觀察三元組 (x (t),a (t),x (t+1)) 來(lái)訓(xùn)練整個(gè)模型，同時(shí)防止 Encoder 坍縮。

自回歸生成模型（例如 LLM，Sora 就是這種路線）是一種簡(jiǎn)化的特殊情況，原因在于：

1. Encoder 是恒等函數(shù)：h (t) = x (t)；

2. 狀態(tài)是過(guò)去輸入的窗口；

3. 沒(méi)有動(dòng)作變量 a (t)；

4. x (t) 是離散的；

5. 預(yù)測(cè)器計(jì)算 x (t+1) 結(jié)果的分布，并使用潛在 z (t) 從該分布中選擇一個(gè)值。

方程簡(jiǎn)化為：

s (t) = [x (t),x (t-1),...x (t-k)]

x (t+1) = Pred ( s (t), z (t), a (t) )

在這種情況下不存在坍縮問(wèn)題。

這可能就是 LeCun 極力反對(duì) Sora 是世界模型這種說(shuō)法的一個(gè)重要原因 —— 它只是世界模型中一種簡(jiǎn)化的特殊情況。

不過(guò)話說(shuō)回來(lái)，Jim Fan 又在 LeCun 的這條推文下方留言，他堅(jiān)持道：「Sora 本質(zhì)上是一種無(wú)操作（no-op）的世界模型。你可以設(shè)置世界的初始狀態(tài)，在潛在空間中運(yùn)行模擬，并被動(dòng)地觀察會(huì)發(fā)生什么?，F(xiàn)在沒(méi)有辦法進(jìn)行積極干預(yù)。」

至于 Sora 到底是不是世界模型我們暫且不議，混淆大家多時(shí)的「世界模型」的定義，現(xiàn)在終于被 LeCun 講明白了。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

視頻模型

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

LeCun怒斥Sora是世界模型，自回歸LLM太簡(jiǎn)化了

LeCun怒斥Sora是世界模型，自回歸LLM太簡(jiǎn)化了