偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Meta、谷歌、特斯拉,競爭對手聯(lián)合起來吐槽OpenAI!Sora不懂物理世界,它只是GPT3!

原創(chuàng) 精選
人工智能
昨天,Meta與Open AI的Sora一起發(fā)布了一個新的人工智能模型,名為視頻聯(lián)合嵌入預(yù)測架構(gòu)(V-JEPA)。V-JEPA通過分析視頻中對象之間的交互,提高了機器對世界的理解。該模型延續(xù)了Meta副總裁兼首席人工智能科學(xué)家Yann LeCun的愿景,即創(chuàng)造與人類學(xué)習(xí)相似的機器智能。

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

上周,OpenAI的第一個視頻生成模型Sora在互聯(lián)網(wǎng)上瘋傳。然而,與此同時,來自競爭對手公司的一批人工智能專家和研究人員迅速剖析和批評了Sora的Transformer模型,引發(fā)了一場物理辯論。 

人工智能科學(xué)家Gary Marcus也位列其中,他不僅批評Sora生成視頻的準確性,而且更是直接把矛頭指向用于視頻合成的生成式AI模型。

圖片圖片

1、OpenAI的競爭對手聯(lián)合起來了!

Sora的擴散模型結(jié)構(gòu)引來了Meta和谷歌相關(guān)研究人員的懷疑,他們認為這個模型并未真正理解物理世界。

LeCun認為,僅從提示生成看起來逼真的視頻并不意味著系統(tǒng)理解物理世界。他指出,生成與從世界模型中進行的因果預(yù)測非常不同??此坪侠淼囊曨l空間非常大,視頻生成系統(tǒng)只需要成功生成一個樣本即可。

LeCun也有自己的方案——Meta的最新AI模型V-JEPA(視頻聯(lián)合嵌入預(yù)測架構(gòu)),與Sora不同,JEPA不是生成性的,而是在表示空間中做出預(yù)測。這是為了讓V-JEPA的自監(jiān)督模型看起來比Sora的擴散Transformer模型更優(yōu)越。

研究員同時也是企業(yè)家的Eric Xing支持LeCun的觀點,他說:“一個能夠基于理解進行推理的代理模型必須超越LLM或DM?!?/p>

Gemini Pro 1.5發(fā)布的時機再好不過了。Sora制作的視頻是在Gemini 1.5 Pro上運行的,模特批評視頻中的不一致之處,認為“這不是真實的場景”。馬斯克緊隨其后。他稱特斯拉的視頻生成能力在預(yù)測精確物理方面優(yōu)于OpenAI。

圖片圖片

雖然專家們很快就否定了生成模型的能力,但對模型背后“物理”的理解卻被忽視了。

2、Transformer真懂物理?

Sora使用了類似于GPT模型的Transformer架構(gòu),OpenAI相信該基礎(chǔ)將“理解和模擬真實世界”,這將有助于實現(xiàn)AGI。雖然不被稱為物理引擎,但虛幻引擎5生成的數(shù)據(jù)可能被用于訓(xùn)練Sora的底層模型。

NVIDIA的高級研究科學(xué)家Jim Fan通過解釋數(shù)據(jù)驅(qū)動的物理引擎,澄清了OpenAI的Sora模型。他說:“Sora通過大量視頻的梯度下降,在神經(jīng)參數(shù)中隱含地學(xué)習(xí)物理引擎?!彼麑ora稱為可學(xué)習(xí)的模擬器或世界模型。范還表達了他對Sora簡化論觀點的反對。“我看到一些聲音反對:‘Sora不是在學(xué)習(xí)物理,它只是在操縱2D中的像素’。我恭敬地不同意這種簡化主義的觀點。這類似于說,‘GPT-4不是在學(xué)習(xí)編碼,它只是對字符串進行采樣’。好吧,transformer所做的只是操縱整數(shù)序列(令牌ID).神經(jīng)網(wǎng)絡(luò)所做的只是操縱浮點數(shù)。這不是正確的論點,”他說。

3、Sora仍處于GPT-3時刻

Perplexity創(chuàng)始人Aravind Srinivas最近一直在社交媒體上發(fā)聲,他也發(fā)言支持LeCun。他說:“現(xiàn)實是Sora雖然令人驚嘆,但還沒有準備好準確地模擬物理?!?/p>

有趣的是,OpenAI自己在任何人指出之前就已經(jīng)指出了模型的局限性。該公司博客稱,Sora可能很難準確模擬復(fù)雜場景的物理特性,因為它可能無法理解因果關(guān)系的具體實例。它也可能與提示的空間細節(jié)混淆,例如遵循特定的相機軌跡等。

Fan還將Sora比作2020年的“GPT-3時刻”,當時該模特需要“大量的提示和標注”。然而,這是“第一次令人信服地證明了上下文學(xué)習(xí)是一種新興的特性”。

當前的限制不會影響生成的輸出質(zhì)量。去年8月,當OpenAI收購了數(shù)字產(chǎn)品公司Global Illumination,該公司創(chuàng)建了開源游戲Biomes(類似于《我的世界》)時,視頻生成和通過自動代理構(gòu)建模擬模型平臺的范圍是一些猜測。

現(xiàn)在,隨著Sora的發(fā)布,顛覆電子游戲行業(yè)的可能性只會升級。如果Sora處于GPT-3時刻,那么它的GPT-4時刻又該如何理解?在那之前,懷疑論者將繼續(xù)辯論,并可能相互給彼此上一兩堂課。

圖片圖片

4、Meta LeCun力挺的答案

昨天,Meta與Open AI的Sora一起發(fā)布了一個新的人工智能模型,名為視頻聯(lián)合嵌入預(yù)測架構(gòu)(V-JEPA)。V-JEPA通過分析視頻中對象之間的交互,提高了機器對世界的理解。該模型延續(xù)了Meta副總裁兼首席人工智能科學(xué)家Yann LeCun的愿景,即創(chuàng)造與人類學(xué)習(xí)相似的機器智能。 

去年發(fā)布的I-JEPA的第五次迭代已經(jīng)從比較圖像的抽象表示而不是像素本身,并將其擴展到視頻。它通過從圖像到視頻的學(xué)習(xí)來推進預(yù)測方法,除了空間信息外,還引入了時間(基于時間)動力學(xué)的復(fù)雜性。

V-JEPA預(yù)測視頻中缺失的部分,而無需重新創(chuàng)建每個細節(jié)。它從未標記的視頻中學(xué)習(xí),這意味著它不需要經(jīng)過人類分類的數(shù)據(jù)就可以開始學(xué)習(xí)。 

這種方法使V-JEPA更高效,需要更少的資源進行訓(xùn)練。該模型特別善于從少量信息中學(xué)習(xí),與舊模型相比,速度更快,資源密集度更低。

該模型的開發(fā)包括屏蔽大部分視頻。這種方法是讓V-JEPA根據(jù)有限的上下文進行猜測,幫助其理解復(fù)雜的場景,而不需要詳細的數(shù)據(jù)。V-JEPA關(guān)注的是視頻中發(fā)生的事情的總體概念,而不是具體的細節(jié),比如樹上單個樹葉的運動。

V-JEPA在測試中顯示出了有希望的結(jié)果,在測試中,它使用了通常需要的一小部分數(shù)據(jù),優(yōu)于其他視頻分析模型。這種效率被視為人工智能向前邁出的一步,使其可以在不進行廣泛再培訓(xùn)的情況下將模型用于各種任務(wù)。 

未來,Meta計劃將擴展V-JEPA的功能,包括添加聲音分析和提高其理解較長視頻的能力。 

這項工作支持Meta更廣泛的目標,即推進機器智能,使其更像人類一樣執(zhí)行復(fù)雜任務(wù)。V-JEPA是根據(jù)知識共享非商業(yè)許可證提供的,允許世界各地的研究人員探索和建立這項技術(shù)。

責任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-11-23 08:53:50

OpenAI人工智能

2012-09-18 13:30:21

2023-10-28 09:59:30

2012-12-25 10:45:12

InstagramPokeFlickr

2011-09-19 13:28:00

思科Juniper華為

2012-08-22 10:18:05

2011-06-24 08:13:31

SEO

2023-02-06 18:10:01

谷歌ChatGPT人工智能

2009-06-11 10:18:15

谷歌美國政府競爭對手

2020-09-28 15:30:29

AI 數(shù)據(jù)人工智能

2011-05-05 13:14:33

地產(chǎn)行業(yè)企業(yè)轉(zhuǎn)型

2010-01-07 09:49:53

Google競爭對手

2011-06-30 15:27:17

SEO

2010-09-26 09:35:58

2024-01-26 10:09:01

2009-05-07 09:07:40

FacebookFirefox瀏覽器

2010-04-13 10:44:17

AMD Opteron

2023-06-30 08:12:46

2023-07-07 12:50:01

OpenAIAI

2011-06-01 10:25:32

施密特谷歌蘋果
點贊
收藏

51CTO技術(shù)棧公眾號