AI世界模型全面綜述:理解世界還是預(yù)測未來? 精華
當(dāng)AI不僅能生成逼真視頻,還能“理解”物理規(guī)則、“預(yù)測”社會互動時,世界模型正在重塑人工智能的邊界。從自動駕駛中實時路況模擬,到機(jī)器人通過“認(rèn)知地圖”規(guī)劃路徑,再到虛擬社會中智能體的策略博弈——這項技術(shù)如何讓機(jī)器像人類一樣“思考世界”?本文將揭開世界模型的核心原理與未來圖景,帶你看看AI如何從“數(shù)據(jù)驅(qū)動”走向“世界理解”。
隨著GPT-4、Sora等多模態(tài)模型的興起,人工智能正從單一任務(wù)向“理解和模擬真實世界”邁進(jìn)。世界模型作為連接感知與決策的核心框架,既能通過大語言模型捕捉常識知識(如空間、社會規(guī)則),又能利用視頻生成技術(shù)預(yù)測物理動態(tài)(如自動駕駛中的路況變化)。本文通過系統(tǒng)梳理其技術(shù)脈絡(luò)和應(yīng)用場景,為通用人工智能(AGI)的發(fā)展提供了關(guān)鍵理論支撐,對提升機(jī)器人適應(yīng)性、自動駕駛安全性和社會系統(tǒng)模擬能力具有重要指導(dǎo)意義。
摘要&解讀
由于多模態(tài)大型語言模型(如GPT-4)和視頻生成模型(如Sora)的發(fā)展,世界模型的概念受到了廣泛關(guān)注,這些模型是實現(xiàn)通用人工智能的核心。本綜述對世界模型的相關(guān)文獻(xiàn)進(jìn)行了全面回顧。一般來說,世界模型被視為理解世界當(dāng)前狀態(tài)或預(yù)測其未來動態(tài)的工具。本文對世界模型進(jìn)行了系統(tǒng)分類,重點介紹了兩個主要功能:(1)構(gòu)建內(nèi)部表示以理解世界機(jī)制,(2)預(yù)測未來狀態(tài)以模擬和指導(dǎo)決策。首先,我們考察了這兩類的當(dāng)前進(jìn)展。然后,我們探討了世界模型在關(guān)鍵領(lǐng)域的應(yīng)用,包括自動駕駛、機(jī)器人技術(shù)和社會模擬,重點關(guān)注每個領(lǐng)域如何利用這些方面。最后,我們概述了關(guān)鍵挑戰(zhàn),并對潛在的未來研究方向提供了見解。
研究背景:
- 學(xué)科交叉需求:通用人工智能(AGI)需要機(jī)器具備類似人類的世界理解能力,融合心理學(xué)(心理模型)、計算機(jī)科學(xué)(生成模型)、物理學(xué)(動態(tài)模擬)等多領(lǐng)域知識。
- 數(shù)據(jù)與計算驅(qū)動:多模態(tài)大模型(GPT-4、Sora)的爆發(fā)式發(fā)展,為世界模型提供了海量訓(xùn)練數(shù)據(jù)和強(qiáng)大表征能力,但也暴露了因果推理不足、模擬與現(xiàn)實脫節(jié)等問題。
- 應(yīng)用場景倒逼:自動駕駛需處理長尾場景(如極端天氣)、機(jī)器人需適應(yīng)未知環(huán)境、社會科學(xué)需模擬復(fù)雜人類行為,傳統(tǒng)模型難以滿足泛化需求。
研究貢獻(xiàn):
- 雙維度分類框架:首次將世界模型明確分為“隱式表示”(如LLM常識建模)和“未來預(yù)測”(如視頻擴(kuò)散模擬),理清技術(shù)脈絡(luò)。
- 多領(lǐng)域應(yīng)用全景:系統(tǒng)性梳理自動駕駛(如BEVFormer感知+DriveDreamer模擬)、機(jī)器人(如GR-2視頻-動作關(guān)聯(lián))、社會模擬(如AI Town智能體涌現(xiàn)行為)的差異化需求與技術(shù)適配。
- 挑戰(zhàn)與方向界定:提出物理規(guī)則建模、社會行為模擬、模擬效率優(yōu)化、倫理安全等四大挑戰(zhàn),并建議生成模型與物理模擬器融合、具身智能自我強(qiáng)化循環(huán)等解決方案。
實現(xiàn)設(shè)計:
隱式表示技術(shù):
- 決策支持:基于Transformer的MDP建模,將強(qiáng)化學(xué)習(xí)任務(wù)轉(zhuǎn)化為“下一標(biāo)記預(yù)測”問題,實現(xiàn)跨任務(wù)泛化。
- 語言賦能:LLM通過“認(rèn)知地圖”神經(jīng)元編碼空間關(guān)系(如LLama2的“空間神經(jīng)元”),結(jié)合多專家協(xié)作框架(如多LLM智能體討論決策)提升復(fù)雜場景推理。
未來預(yù)測技術(shù):
- 視頻生成:擴(kuò)散模型(如NUWA-XL)結(jié)合“粗到細(xì)”架構(gòu)生成分鐘級長視頻,Sora通過3D場景一致性建模實現(xiàn)物理動態(tài)模擬。
- 具身環(huán)境:從視覺模擬(如AI2-THOR)升級到多模態(tài)具身環(huán)境(如AVLEN融合視覺+語言+音頻),動態(tài)環(huán)境模型(如UniSim)支持動作條件生成。
跨領(lǐng)域應(yīng)用:
- 自動駕駛:BEVFormer融合多攝像頭視覺生成鳥瞰圖,OccSora通過4D占據(jù)網(wǎng)格預(yù)測交通動態(tài)。
- 社會模擬:EconAgent基于LLM智能體模擬勞動力市場與消費(fèi)行為,復(fù)現(xiàn)宏觀經(jīng)濟(jì)波動規(guī)律。
實驗結(jié)果:
模型能力驗證:
- Sora生成的視頻符合物理規(guī)則(如物體運(yùn)動軌跡、光影變化),但在流體動力學(xué)等復(fù)雜物理模擬中仍有誤差。
- LLM在心理理論任務(wù)(如識別諷刺、錯誤信念)中接近人類水平,但高階社會推理(如復(fù)雜協(xié)作)仍有限。
應(yīng)用效果:
- 自動駕駛模擬模型(如GAIA-1)可生成逼真交通場景,減少90%以上的真實路測數(shù)據(jù)需求。
- 機(jī)器人模型(如DayDreamer)在現(xiàn)實環(huán)境中僅需數(shù)小時互動即可學(xué)會行走,樣本效率提升千倍。
局限性:
- 現(xiàn)有世界模型對反事實場景(如“假設(shè)性物理干預(yù)”)的模擬能力不足,依賴數(shù)據(jù)驅(qū)動導(dǎo)致泛化受限。
- 社會模擬中智能體的行為多樣性仍低于真實人類,缺乏動態(tài)社會規(guī)范演化機(jī)制。
1.引言
長期以來,科學(xué)界一直渴望開發(fā)一個統(tǒng)一的模型,能夠復(fù)制世界的基本動態(tài),以追求通用人工智能(AGI)[98]。2024年,多模態(tài)大型語言模型(LLMs)和Sora[130]的出現(xiàn)加劇了關(guān)于此類世界模型的討論。盡管這些模型顯示出捕捉世界知識的新興能力——例如Sora生成的視頻似乎完全符合物理定律——但關(guān)于它們是否真正稱得上是全面的世界模型的問題仍然存在。因此,隨著我們期待人工智能時代的新突破,對世界模型研究的最新進(jìn)展、應(yīng)用和未來方向進(jìn)行系統(tǒng)回顧既及時又必要。
世界模型的定義仍然是一個持續(xù)爭論的話題,大致分為兩種主要觀點:理解世界和預(yù)測未來。如圖1所示,Ha和Schmidhuber[59]的早期工作側(cè)重于對外部世界進(jìn)行抽象,以深入理解其潛在機(jī)制。相比之下,LeCun[98]認(rèn)為,世界模型不僅應(yīng)該感知和建模現(xiàn)實世界,還應(yīng)該具備設(shè)想可能的未來狀態(tài)以指導(dǎo)決策的能力。像Sora這樣的視頻生成模型代表了一種專注于模擬未來世界演變的方法,因此更符合世界模型的預(yù)測方面。這就提出了一個問題:世界模型應(yīng)該優(yōu)先考慮理解現(xiàn)在還是預(yù)測未來狀態(tài)。在本文中,我們從這兩個角度對文獻(xiàn)進(jìn)行了全面回顧,重點介紹了關(guān)鍵方法和挑戰(zhàn)。
世界模型的潛在應(yīng)用跨越了廣泛的領(lǐng)域,每個領(lǐng)域?qū)斫夂皖A(yù)測能力都有不同的要求。例如,在自動駕駛中,世界模型需要實時感知路況[195,177]并準(zhǔn)確預(yù)測其演變[127,167,241],特別關(guān)注即時的環(huán)境感知和復(fù)雜趨勢的預(yù)測。對于機(jī)器人技術(shù),世界模型對于導(dǎo)航[160]、物體檢測[183]和任務(wù)規(guī)劃[62]等任務(wù)至關(guān)重要,需要對外部動態(tài)有精確的理解[47],并能夠生成交互式的具身環(huán)境[132]。在虛擬社會系統(tǒng)的模擬領(lǐng)域,世界模型必須捕捉和預(yù)測更抽象的行為動態(tài),如社會互動和人類決策過程。因此,全面回顧這些能力的進(jìn)展,同時探索未來的研究方向和趨勢,既及時又必要。
現(xiàn)有的關(guān)于世界模型的綜述通??梢苑譃閮深?,如表1所示。第一類主要側(cè)重于描述世界模型在特定領(lǐng)域的應(yīng)用,如視頻處理和生成[23,242]、自動駕駛[54,100,209]和基于智能體的應(yīng)用[242]。第二類[116]側(cè)重于從能夠處理各種模態(tài)數(shù)據(jù)的多模態(tài)模型到世界模型的技術(shù)過渡。然而,這些論文往往缺乏對世界模型究竟是什么以及不同的實際應(yīng)用需要這些模型什么的系統(tǒng)考察。在本文中,我們旨在正式定義和分類世界模型,回顧最新的技術(shù)進(jìn)展,并探索它們的廣泛應(yīng)用。
本綜述的主要貢獻(xiàn)可以總結(jié)如下:(1)我們提出了一個新的世界模型分類系統(tǒng),圍繞兩個主要功能:構(gòu)建隱式表示以理解外部世界的機(jī)制和預(yù)測外部世界的未來狀態(tài)。第一類側(cè)重于學(xué)習(xí)和內(nèi)化世界知識以支持后續(xù)決策的模型的開發(fā),而后者則側(cè)重于從視覺感知中增強(qiáng)物理世界的預(yù)測和模擬能力。(2)基于這種分類,我們對各種關(guān)鍵應(yīng)用領(lǐng)域,包括自動駕駛、機(jī)器人和社會模擬,如何強(qiáng)調(diào)世界模型的不同方面進(jìn)行了分類。(3)我們強(qiáng)調(diào)了世界模型的未來研究方向和趨勢,這些方向和趨勢可以適應(yīng)更廣泛的實際應(yīng)用。
本文的其余部分組織如下。在第2節(jié)中,我們介紹了世界模型的背景并提出了我們的分類系統(tǒng)。第3節(jié)和第4節(jié)分別詳細(xì)闡述了兩類世界模型的當(dāng)前研究進(jìn)展。第5節(jié)涵蓋了世界模型在三個關(guān)鍵研究領(lǐng)域的應(yīng)用。第6節(jié)概述了世界模型的開放性問題和未來方向。
2.背景和分類
在本節(jié)中,我們探討了文獻(xiàn)中世界模型的演變概念,并將構(gòu)建世界模型的工作分為兩個不同的分支:內(nèi)部表示和未來預(yù)測。
世界模型的概念最早由Ha等人[58,59]于2018年系統(tǒng)地引入人工智能社區(qū)。本文將世界模型概念的起源追溯到1971年建立的“心理模型”的心理學(xué)原理[43],該原理提出人類將外部世界抽象為簡單的元素及其相互關(guān)系來感知它。這一原理表明,從深層次的內(nèi)部視角來看,我們對世界的描述通常涉及構(gòu)建一個抽象的表示,無需詳細(xì)描繪即可滿足需求。在這個概念框架的基礎(chǔ)上,作者引入了一個受人類認(rèn)知系統(tǒng)啟發(fā)的智能體模型,如圖1所示。在這個開創(chuàng)性的模型中,智能體從現(xiàn)實世界環(huán)境中接收反饋,然后將其轉(zhuǎn)化為一系列輸入來訓(xùn)練模型。該模型擅長模擬在外部環(huán)境中采取特定行動后的潛在結(jié)果。從本質(zhì)上講,它創(chuàng)建了一個潛在未來世界演變的心理模擬,并根據(jù)這些狀態(tài)的預(yù)測結(jié)果做出決策。這種方法與基于模型的強(qiáng)化學(xué)習(xí)(MBRL)方法非常相似,這兩種策略都涉及模型生成外部世界的內(nèi)部表示。這些表示有助于在現(xiàn)實世界中導(dǎo)航和解決各種決策任務(wù)。
在2022年關(guān)于自主機(jī)器智能發(fā)展的前瞻性文章[98]中,Yann LeCun介紹了聯(lián)合嵌入預(yù)測架構(gòu)(JEPA),這是一個模仿人類大腦結(jié)構(gòu)的框架。如圖1所示,JEPA包括一個處理感官數(shù)據(jù)的感知模塊,然后是一個評估這些信息的認(rèn)知模塊,有效地體現(xiàn)了世界模型。該模型允許大腦評估行動并確定適合現(xiàn)實世界應(yīng)用的最佳響應(yīng)。LeCun的框架很有趣,因為它結(jié)合了雙系統(tǒng)概念,模仿了“快”和“慢”思維。系統(tǒng)1涉及直覺、本能的反應(yīng):無需世界模型的快速決策,如本能地躲避迎面而來的人。相比之下,系統(tǒng)2采用深思熟慮的、經(jīng)過計算的推理,考慮到世界的未來狀態(tài)。它超越了即時的感官輸入,模擬潛在的未來場景,例如預(yù)測房間在接下來十分鐘內(nèi)的事件并相應(yīng)地調(diào)整行動。這種遠(yuǎn)見水平需要構(gòu)建一個世界模型,以根據(jù)環(huán)境的預(yù)期動態(tài)和演變有效地指導(dǎo)決策。在這個框架中,世界模型對于理解和表示外部世界至關(guān)重要。它使用潛在變量對世界狀態(tài)進(jìn)行建模,這些潛在變量捕捉關(guān)鍵信息,同時過濾掉冗余信息。這種方法允許對世界進(jìn)行高效、簡約的表示,便于進(jìn)行最佳決策和未來場景規(guī)劃。
模型捕捉世界知識的能力對于它們在廣泛的現(xiàn)實世界任務(wù)中的有效性能至關(guān)重要。在2023年開始的大型語言模型的最新研究中,有幾項研究表明存在潛在的世界知識。換句話說,這些模型捕捉到了包括空間和時間理解在內(nèi)的直覺知識,這使它們能夠?qū)ΜF(xiàn)實世界的場景做出預(yù)測[57,119]。此外,最近的研究表明,大型語言模型通過認(rèn)知地圖對外部世界進(jìn)行建模[104],揭示了它們內(nèi)部嵌入的類似大腦的結(jié)構(gòu)。這些模型甚至可以學(xué)習(xí)根據(jù)先前的經(jīng)驗預(yù)測未來事件,從而提高了它們在現(xiàn)實世界中的實用性和適用性。
上述世界模型主要代表了對外部世界的隱性理解。然而,在2024年2月,OpenAI推出了Sora模型[130],這是一個被廣泛認(rèn)為是世界模擬器的視頻生成模型。Sora輸入真實世界的視覺數(shù)據(jù),并輸出預(yù)測未來世界演變的視頻幀。值得注意的是,它展示了卓越的建模能力,例如在相機(jī)移動和旋轉(zhuǎn)過程中保持3D視頻模擬的一致性。它還可以產(chǎn)生符合物理規(guī)律的結(jié)果,比如在漢堡上留下咬痕,并模擬數(shù)字環(huán)境,例如在《我的世界》游戲中渲染第一人稱視角。這些能力表明,Sora不僅模仿了外觀,還在模擬場景中對現(xiàn)實世界的動態(tài)進(jìn)行了建模,專注于對動態(tài)的世界變化進(jìn)行真實建模,而不僅僅是表示靜態(tài)的世界狀態(tài)。
無論是側(cè)重于學(xué)習(xí)外部世界的內(nèi)部表示,還是模擬其運(yùn)作原理,這些概念都達(dá)成了一個共同的共識:世界模型的本質(zhì)目的是理解世界的動態(tài)并預(yù)測未來場景。從這個角度出發(fā),我們對世界模型的最新進(jìn)展進(jìn)行了全面考察,通過以下視角進(jìn)行分析,如圖1所示。
外部世界的隱式表示(第3節(jié)):這一研究類別構(gòu)建環(huán)境變化模型,以實現(xiàn)更明智的決策,最終目標(biāo)是預(yù)測未來狀態(tài)的演變。它通過將外部現(xiàn)實轉(zhuǎn)化為將這些元素表示為潛在變量的模型來促進(jìn)隱性理解。此外,隨著大型語言模型(LLMs)的出現(xiàn),以前集中在傳統(tǒng)決策任務(wù)上的努力通過這些模型對世界知識的詳細(xì)描述能力得到了顯著增強(qiáng)。我們進(jìn)一步關(guān)注將世界知識整合到現(xiàn)有模型中。
外部世界的未來預(yù)測(第4節(jié)):我們首先探索模擬外部世界的生成模型,主要使用視覺視頻數(shù)據(jù)。這些工作強(qiáng)調(diào)生成反映物理世界未來狀態(tài)的真實視頻。隨著最近的進(jìn)展轉(zhuǎn)向開發(fā)真正的交互式物理世界,我們進(jìn)一步研究從視覺表示到空間表示以及從視頻到具身的過渡。這包括對與生成反映外部世界的具身環(huán)境相關(guān)的研究的全面覆蓋。
世界模型的應(yīng)用(第5節(jié)):世界模型在各個領(lǐng)域都有廣泛的應(yīng)用,包括自動駕駛、機(jī)器人技術(shù)和社會模擬。我們探索了這些領(lǐng)域中世界模型的集成如何推進(jìn)理論研究和實際應(yīng)用,重點關(guān)注它們在現(xiàn)實世界應(yīng)用中的變革潛力。
3.外部世界的隱式表示
3.1 決策中的世界模型
在決策任務(wù)中,了解環(huán)境是制定優(yōu)化策略的主要任務(wù)。因此,決策中的世界模型應(yīng)該包括對環(huán)境的全面理解。它使我們能夠采取假設(shè)的行動而不影響現(xiàn)實環(huán)境,從而降低試錯成本。在文獻(xiàn)中,關(guān)于如何學(xué)習(xí)和利用世界模型的研究最初是在基于模型的強(qiáng)化學(xué)習(xí)領(lǐng)域提出的。
此外,LLM和MLLM的最新進(jìn)展也為世界模型的構(gòu)建提供了全面的基礎(chǔ)。隨著語言作為一種更通用的表示方式,基于語言的世界模型可以適應(yīng)更通用的任務(wù)。圖2展示了在決策任務(wù)中利用世界模型的兩種方案。
3.1.1 基于模型的強(qiáng)化學(xué)習(xí)中的世界模型
3.1.2 具有語言主干的世界模型
語言模型的快速發(fā)展,尤其是LLM和MLLM,使許多相關(guān)應(yīng)用受益。隨著語言作為通用表示主干,基于語言的世界模型在許多決策任務(wù)中顯示出了潛力。
通過LLM世界模型直接生成動作:LLM已經(jīng)顯示出其顯著的推理能力,能夠根據(jù)相應(yīng)構(gòu)建的世界模型在決策任務(wù)中直接生成動作。例如,在導(dǎo)航場景中,Yang等人[212]將預(yù)訓(xùn)練的文本到視頻模型轉(zhuǎn)移到特定領(lǐng)域的機(jī)器人控制任務(wù)中,成功地用作為LLM輸出的文本指令對機(jī)器人操作進(jìn)行注釋。Zhou等人[240]進(jìn)一步通過分解視頻生成過程來學(xué)習(xí)組合世界模型。這種方法實現(xiàn)了對未見過的任務(wù)的強(qiáng)大的小樣本轉(zhuǎn)移能力。
除了訓(xùn)練或微調(diào)專門的基于語言的世界模型外,LLM和MLLM還可以直接部署用于理解決策任務(wù)中的世界環(huán)境。例如,Long等人[112]提出了一種多專家方案來處理視覺語言導(dǎo)航任務(wù)。他們構(gòu)建了一個標(biāo)準(zhǔn)化的討論過程,由八位基于LLM的專家參與,以生成最終的移動決策。從專家的討論和對未來狀態(tài)的想象中構(gòu)建一個抽象的世界模型,以支持動作生成。Zhao等人[232]進(jìn)一步將LLM和開放詞匯檢測相結(jié)合,構(gòu)建多模態(tài)信號與導(dǎo)航關(guān)鍵信息之間的關(guān)系。他們提出了一個全圖來捕捉局部空間的結(jié)構(gòu),作為導(dǎo)航任務(wù)的世界模型。同時,Yang等人[217]利用基于LLM的想象助手,根據(jù)環(huán)境感知推斷出作為世界模型的全局語義圖,以及另一個反思規(guī)劃器來直接生成動作。
LLM世界模型的模塊化使用:盡管將LLM輸出直接作為動作在應(yīng)用和部署中很直接,但這種方案中的決策質(zhì)量在很大程度上依賴于LLM本身的推理能力。通過將基于LLM的世界模型作為模塊與其他有效的規(guī)劃算法集成,可以進(jìn)一步提高決策質(zhì)量。
Xiang等人[203]在世界模型(VirtualHome[139]的模擬器)中部署了一個具身智能體,其中相應(yīng)的具身知識被注入到LLM中。為了更好地規(guī)劃和完成特定目標(biāo),他們提出了一種目標(biāo)條件規(guī)劃方案,其中利用蒙特卡羅樹搜索(MCTS)來搜索真正的具身任務(wù)目標(biāo)。Lin等人[106]介紹了一個智能體Dynalang,它學(xué)習(xí)多模態(tài)世界模型來預(yù)測未來的文本和圖像表示,并學(xué)習(xí)從想象的模型展開中采取行動。策略學(xué)習(xí)階段利用了純粹基于先前生成的多模態(tài)表示的演員-評論家算法。Liu等人[111]進(jìn)一步將LLM中的推理轉(zhuǎn)化為貝葉斯自適應(yīng)馬爾可夫決策過程(MDP)中的學(xué)習(xí)和規(guī)劃。LLM像世界模型一樣,在MDP的演員-評論家更新中以內(nèi)在的方式執(zhí)行。所提出的RAFA框架在多個復(fù)雜的推理任務(wù)和環(huán)境中表現(xiàn)出顯著的性能提升,例如ALFWorld[168]。
3.2 模型學(xué)習(xí)的世界知識
經(jīng)過大規(guī)模網(wǎng)絡(luò)文本和書籍的預(yù)訓(xùn)練[180,129],大型語言模型掌握了關(guān)于現(xiàn)實世界和日常生活常識的廣泛知識。這種嵌入的知識被認(rèn)為是其在現(xiàn)實世界任務(wù)中出色泛化能力和表現(xiàn)的關(guān)鍵。例如,研究人員利用大型語言模型的常識進(jìn)行任務(wù)規(guī)劃[234]、機(jī)器人控制[73]和圖像理解[110]。此外,Li等人[104]發(fā)現(xiàn),大型語言模型中表示概念的高維向量嵌入了類似大腦結(jié)構(gòu)的世界知識。
與常識和一般知識不同,我們從世界模型的角度關(guān)注大型語言模型中的世界知識。如圖3所示,根據(jù)對象和空間范圍,大型語言模型中的世界知識可分為三部分:1)全球物理世界的知識;2)局部物理世界的知識;3)人類社會的知識。
3.2.1 全球物理世界的知識
我們首先介紹專注于分析和理解全球物理世界知識的研究。Gurnee等人[57]首次證明,大型語言模型確實掌握了世界的空間和時間知識,而不僅僅是收集表面統(tǒng)計數(shù)據(jù)。他們在LLama2[180]中發(fā)現(xiàn)了不同的“空間神經(jīng)元”和“時間神經(jīng)元”,表明該模型學(xué)習(xí)了跨多個尺度的空間和時間的線性表示。與以往專注于嵌入空間的觀察不同,Manvi等人[119,118]開發(fā)了關(guān)于文本地址的有效提示,以提取關(guān)于真實世界地理空間的直覺知識,并成功提高了模型在各種下游地理空間預(yù)測任務(wù)中的性能。
盡管大型語言模型確實獲取了一些現(xiàn)實世界的隱性知識[57,104],但這些知識的質(zhì)量仍存在疑問[150,38]。例如,F(xiàn)eng等人[38]發(fā)現(xiàn),大型語言模型中嵌入的城市知識通常是粗略和不準(zhǔn)確的。為解決這一問題,他們提出了一個有效的框架來改善大型語言模型中特定城市的城市知識獲取。從這些工作中可以看出,盡管大型語言模型已經(jīng)展示了捕捉現(xiàn)實世界知識某些方面的能力[57,104,150],但顯然需要進(jìn)一步努力來增強(qiáng)這些知識,以實現(xiàn)更廣泛和更可靠的現(xiàn)實世界應(yīng)用。
3.2.2 局部物理世界的知識
與全球物理世界的知識不同,局部物理世界是人類日常生活和大多數(shù)現(xiàn)實世界任務(wù)的主要環(huán)境。因此,理解和建模局部物理世界是構(gòu)建全面世界模型的一個更關(guān)鍵的課題。我們首先介紹認(rèn)知地圖[179]的概念,它說明了人類大腦如何對外部世界進(jìn)行建模。盡管最初是為了解釋人類的學(xué)習(xí)過程而開發(fā)的,但研究人員已經(jīng)在大型語言模型中發(fā)現(xiàn)了類似的結(jié)構(gòu)[104],并利用這些見解來提高人工模型在學(xué)習(xí)和理解物理世界方面的效率和性能。
最近的研究探索了通過跨各種環(huán)境的類認(rèn)知地圖過程積極鼓勵模型學(xué)習(xí)抽象知識。例如,Cornet等人[52]展示了在簡化的《我的世界》環(huán)境中使用視覺預(yù)測編碼通過空間認(rèn)知地圖構(gòu)建進(jìn)行學(xué)習(xí)的有效性。學(xué)習(xí)后,該模型可以通過知道距離成功預(yù)測未來。Lin等人[106]研究了通過世界模型學(xué)習(xí)過程教模型理解游戲環(huán)境,特別是通過預(yù)測環(huán)境的后續(xù)幀。通過這種方式,模型可以在動態(tài)環(huán)境中生成更好的動作。此外,Jin等人[84]發(fā)現(xiàn),語言模型可以通過預(yù)測下一個標(biāo)記來學(xué)習(xí)程序語義的緊急表示。
3.2.3 人類社會的知識
除了物理世界,理解人類社會是世界模型的另一個重要方面。一個相關(guān)的理論是心理理論[138],它解釋了個體如何推斷周圍他人的心理狀態(tài)。最近的研究廣泛探索了大型語言模型如何發(fā)展和展示這種社會世界模型。一條研究路線[174,175]側(cè)重于評估大型語言模型在各種心理理論任務(wù)上的表現(xiàn),以確定它們類似人類的行為是否反映了對社會規(guī)則和隱性知識的真正理解。例如,Strachan等人[174]對人類和LLM在各種心理理論能力(如理解錯誤信念和識別諷刺)上的表現(xiàn)進(jìn)行了比較分析。盡管他們的發(fā)現(xiàn)展示了GPT-4在這些任務(wù)中的潛力,但也指出了其局限性,尤其是在檢測失禮行為方面。
為解決這些局限性,研究人員提出了創(chuàng)新方法來增強(qiáng)大型語言模型在心理理論方面的能力,以適用于復(fù)雜的現(xiàn)實世界應(yīng)用。Wu等人[198]引入了COKE,它構(gòu)建了一個知識圖,幫助大型語言模型通過認(rèn)知鏈明確使用心理理論。此外,Alex等人[194]開發(fā)了SimToM,這是一個兩階段提示框架,以提高大型語言模型在心理理論任務(wù)中的表現(xiàn)。
4.物理世界的未來預(yù)測
4.1 作為視頻生成的世界模型
將視頻生成集成到世界模型中標(biāo)志著環(huán)境建模領(lǐng)域的重大飛躍[130]。傳統(tǒng)的世界模型主要專注于預(yù)測離散或靜態(tài)的未來狀態(tài)[59,98]。然而,通過生成捕捉連續(xù)空間和時間動態(tài)的類視頻模擬,世界模型[130,211]已經(jīng)發(fā)展到能夠處理更復(fù)雜、動態(tài)的環(huán)境。視頻生成的這一突破將世界模型的能力推向了一個新的水平。
4.1.1 邁向視頻世界模型
視頻世界模型是一種計算框架,旨在通過處理視覺上下文中的過去觀察和潛在動作來模擬和預(yù)測世界的未來狀態(tài)[130]。這一概念建立在更廣泛的世界模型理念之上,力求捕捉環(huán)境的動態(tài),并使機(jī)器能夠預(yù)測世界隨時間的演變。就視頻世界模型而言,重點在于生成表示這些演變狀態(tài)的視覺幀序列。
作為世界模型的Sora:Sora[130]是一個大規(guī)模視頻生成模型,是視頻世界模型的一個突出例子。它旨在基于各種輸入模態(tài)(如文本、圖像和視頻)生成高質(zhì)量、時間一致的視頻序列,長達(dá)一分鐘。Sora利用強(qiáng)大的神經(jīng)網(wǎng)絡(luò)架構(gòu)(包括編碼器-解碼器框架和Transformer)的組合來處理多模態(tài)輸入并生成視覺連貫的模擬。Sora的核心能力在于其生成符合現(xiàn)實世界物理原理的視頻的能力,例如表面上的光反射或蠟燭的融化。這些特性表明,Sora有可能作為世界模擬器,根據(jù)其對初始條件和模擬參數(shù)的理解來預(yù)測世界的未來狀態(tài)。
Sora的局限性:然而,盡管Sora具有令人印象深刻的視頻生成能力,但它有幾個局限性,使其無法被視為一個功能齊全的世界模型。一個關(guān)鍵限制涉及因果推理[242,23],其中模型在模擬環(huán)境中的動態(tài)交互方面受到限制。因此,Sora只能基于觀察到的初始狀態(tài)被動生成視頻序列,而不能主動干預(yù)或預(yù)測動作的變化如何改變事件的進(jìn)程。另一個局限性是,它仍然無法始終如一地再現(xiàn)正確的物理定律[86]。雖然Sora可以生成視覺上逼真的場景,但它在準(zhǔn)確模擬現(xiàn)實世界的物理現(xiàn)象(如不同力作用下的物體行為、流體動力學(xué)或光和陰影相互作用的準(zhǔn)確描繪)方面存在困難。
其他視頻世界模型:Sora無疑推動了視頻世界模型的大量研究,激發(fā)了該領(lǐng)域的大量進(jìn)展。繼Sora在生成高質(zhì)量視頻序列方面取得成功后,許多后續(xù)模型被開發(fā)出來,每個模型都旨在突破視頻世界模型的極限。例如,一些方法已經(jīng)擴(kuò)展了視頻長度,以實現(xiàn)長視頻模擬[220,108,68]。除了傳統(tǒng)的語言引導(dǎo)視頻生成外,更多的模態(tài)正在被集成,如圖像和動作[235,202]。研究人員也在將重點從缺乏用戶控制的基本視頻生成轉(zhuǎn)向旨在復(fù)制現(xiàn)實世界決策空間并促進(jìn)決策的交互式模擬[213,215,197,227,78,202]。幾項研究致力于提高動作過渡的平滑度、物理定律的準(zhǔn)確性和時間一致性[211,16,148,207]。同時,世界模型的概念已經(jīng)超越了想象,并被應(yīng)用于各種特定場景的模擬,包括自然環(huán)境、游戲和自動駕駛[108,190,15,120,68,188,11,238,121]。表3總結(jié)了視頻世界模型在不同方面的改進(jìn)分類。
4.1.2 視頻世界模型的能力
盡管關(guān)于像Sora這樣的模型是否可以被視為成熟的世界模型的爭論仍在繼續(xù),但毫無疑問,視頻世界模型在推進(jìn)環(huán)境模擬和預(yù)測方面具有巨大潛力[242,23,86]。這些模型可以通過生成逼真的動態(tài)視頻序列,提供一種理解和與復(fù)雜環(huán)境互動的強(qiáng)大方法。為了達(dá)到這種復(fù)雜程度,本節(jié)概述了視頻世界模型必須具備的關(guān)鍵能力,以區(qū)別于傳統(tǒng)的視頻生成模型。
長期預(yù)測能力:一個強(qiáng)大的視頻世界模型應(yīng)該能夠進(jìn)行長期預(yù)測,在很長一段時間內(nèi)遵循環(huán)境的動態(tài)規(guī)則。這種能力使模型能夠模擬場景的演變,確保生成的視頻序列與現(xiàn)實世界的時間進(jìn)程一致。盡管Sora已經(jīng)實現(xiàn)了生成具有高質(zhì)量時間連貫性的一分鐘長的視頻序列,但它仍遠(yuǎn)不能模擬現(xiàn)實世界環(huán)境中發(fā)現(xiàn)的復(fù)雜長期動態(tài)。最近的努力已經(jīng)探索了擴(kuò)展視頻長度以捕捉長期依賴關(guān)系并提高時間一致性[220,108,68]。
多模態(tài)集成:除了語言引導(dǎo)的視頻生成外,視頻世界模型越來越多地集成其他模態(tài),如圖像和動作,以增強(qiáng)真實感和交互性[235,202]。多種模態(tài)的集成允許更豐富的模擬,更好地捕捉現(xiàn)實世界環(huán)境的復(fù)雜性,提高生成場景的準(zhǔn)確性和多樣性。
交互性:視頻世界模型的另一個關(guān)鍵能力是它們的可控性和交互性潛力。理想的模型不僅應(yīng)該生成逼真的模擬,還應(yīng)該允許與環(huán)境互動。這種交互性涉及模擬不同動作的后果并提供反饋,使模型能夠用于需要動態(tài)決策的應(yīng)用。最近的工作側(cè)重于增強(qiáng)對模擬的控制,允許更用戶引導(dǎo)的場景探索[215,197]。
多樣化環(huán)境:最后,視頻世界模型正在適應(yīng)各種特定場景的模擬,包括自然環(huán)境、自動駕駛和游戲。這些模型已經(jīng)超越了基本的視頻生成,以復(fù)制現(xiàn)實世界的動態(tài)并支持廣泛的應(yīng)用[108,190,15]。
4.2 作為具身環(huán)境的世界模型
具身環(huán)境的世界模型的開發(fā)對于模擬和預(yù)測智能體如何與外部世界互動和適應(yīng)至關(guān)重要。最初,生成模型專注于模擬世界的視覺方面,使用視頻數(shù)據(jù)捕捉環(huán)境的動態(tài)變化。最近,重點已經(jīng)轉(zhuǎn)向創(chuàng)建完全交互式的具身模擬。這些模型不僅表示世界的視覺元素,還納入了更準(zhǔn)確反映現(xiàn)實世界動態(tài)的空間和物理交互。通過整合空間表示并從基于視頻的模擬過渡到沉浸式具身環(huán)境,世界模型現(xiàn)在可以為開發(fā)能夠與復(fù)雜現(xiàn)實世界環(huán)境互動的智能體提供更全面的平臺。
作為具身環(huán)境的世界模型可以分為三類:室內(nèi)、室外和動態(tài)環(huán)境,如圖4所示,相關(guān)工作總結(jié)在表4中??梢钥偨Y(jié)出,目前大多數(shù)工作集中在開發(fā)靜態(tài)的現(xiàn)有室內(nèi)和室外具身環(huán)境。一個新興的趨勢是通過生成基于第一人稱動態(tài)視頻的模擬環(huán)境的生成模型來預(yù)測動態(tài)的未來世界。這樣的環(huán)境可以為訓(xùn)練具身智能體提供靈活和真實的反饋,使它們能夠與不斷變化的環(huán)境互動并提高其泛化能力。
4.2.1 室內(nèi)環(huán)境
室內(nèi)環(huán)境提供了受控的結(jié)構(gòu)化場景,智能體可以在其中執(zhí)行詳細(xì)的特定任務(wù),如物體操作、導(dǎo)航和與用戶的實時交互[48,134,91,164,17,139,155,201]。建立室內(nèi)環(huán)境的早期工作,如AI2-THOR[91]和Matterport 3D[17],只關(guān)注提供視覺信息。這些工作通過提供逼真的設(shè)置來構(gòu)建室內(nèi)環(huán)境,智能體可以在其中練習(xí)視覺導(dǎo)航并從事模仿現(xiàn)實生活家庭活動的交互式任務(wù)。這些環(huán)境強(qiáng)調(diào)使用基于視覺的強(qiáng)化學(xué)習(xí)技術(shù)的重要性,使智能體能夠根據(jù)環(huán)境線索優(yōu)化其決策。通過模擬烹飪或清潔等現(xiàn)實世界任務(wù),這些平臺評估智能體在不同類型的空間和物體之間泛化所學(xué)行為的能力。
進(jìn)一步的工作致力于擴(kuò)展所提供環(huán)境的數(shù)據(jù)模態(tài)。其中,iGibson[164]引入激光雷達(dá)觀測作為額外的信號反饋,有助于智能體更準(zhǔn)確地感知環(huán)境。AVLEN[134]進(jìn)一步補(bǔ)充了音頻信號,允許智能體在類似家庭的環(huán)境中執(zhí)行物體操作和導(dǎo)航等任務(wù)。這里的挑戰(zhàn)在于使智能體能夠在受限的空間內(nèi)理解和對包括視覺、語言和聲音的多模態(tài)輸入采取行動。
添加社會維度,像GRUtopia[184]這樣的環(huán)境將智能體引入必須與物體和NPC互動的空間。在這里,智能體需要了解社會動態(tài),如定位和任務(wù)共享,這需要更高級的交互建模形式。這些設(shè)置中社會交互模塊的納入表明,智能體可以被訓(xùn)練成在類似人類的社會行為和任務(wù)表現(xiàn)之間取得平衡。最近,隨著LLM的發(fā)展,一些工作[20,216,44]試圖提供一個靈活的環(huán)境生成管道,支持用語言指令生成任意室內(nèi)環(huán)境。
4.2.2 室外環(huán)境
與室內(nèi)環(huán)境相比,創(chuàng)建室外環(huán)境[184,45,200,161,37]由于其規(guī)模更大和可變性更高而面臨更大的挑戰(zhàn)。一些現(xiàn)有工作專注于城市環(huán)境,如MetaUrban[200],其中智能體被部署在大規(guī)模城市環(huán)境中導(dǎo)航,在那里它們遇到動態(tài)變化的交通、不同的建筑結(jié)構(gòu)和與其他實體的社會互動等挑戰(zhàn)。這些任務(wù)通常需要使用上下文感知導(dǎo)航算法,使智能體能夠根據(jù)環(huán)境的布局和條件調(diào)整其軌跡和行為。然而,MetaUrban中的環(huán)境是通過從現(xiàn)有庫中檢索和組織3D資產(chǎn)創(chuàng)建的。
最近,利用先進(jìn)的生成技術(shù),UrbanWorld[161]使用3D生成模型顯著擴(kuò)展了室外環(huán)境的范圍,創(chuàng)建了復(fù)雜的、可定制的城市空間,允許更多樣化的城市場景。從基于靜態(tài)資產(chǎn)的環(huán)境到生成環(huán)境的轉(zhuǎn)變確保了智能體面臨更廣泛的任務(wù),從在不熟悉的街道布局中導(dǎo)航到與新類型的物體或結(jié)構(gòu)互動。除了上述真實開放世界生成工作外,還有一些虛擬開放世界平臺,如MineDOJO[37],通過模擬程序生成的沙盒式環(huán)境,進(jìn)一步擴(kuò)展了這些挑戰(zhàn)。這些平臺受到《我的世界》開放世界的啟發(fā),推動智能體從事資源收集、建造和生存等任務(wù),需要持續(xù)的探索和適應(yīng)性學(xué)習(xí)。在這樣的環(huán)境中訓(xùn)練可以幫助智能體學(xué)習(xí)廣泛的任務(wù)和地形知識,使它們能夠在各種室外環(huán)境中有效運(yùn)作。
4.2.3 動態(tài)環(huán)境
動態(tài)環(huán)境通過利用生成模型創(chuàng)建靈活的實時模擬,標(biāo)志著從傳統(tǒng)靜態(tài)模擬器的重大演進(jìn)。與需要手動調(diào)整的預(yù)定義環(huán)境不同,這些模型允許動態(tài)創(chuàng)建各種各樣的場景,使智能體能夠體驗多樣化的第一人稱視角。這種轉(zhuǎn)變?yōu)橹悄荏w提供了更豐富、更多樣化的訓(xùn)練體驗,提高了它們在復(fù)雜、不可預(yù)測的現(xiàn)實世界情況下的適應(yīng)性和泛化能力。
一個代表性的工作是UniSim[214],它根據(jù)空間運(yùn)動、文本命令和相機(jī)參數(shù)等輸入條件動態(tài)生成機(jī)器人操作視頻序列。利用來自3D模擬、現(xiàn)實世界機(jī)器人動作和互聯(lián)網(wǎng)媒體的多模態(tài)數(shù)據(jù),該系統(tǒng)生成多樣化的、現(xiàn)實的環(huán)境,智能體可以在其中練習(xí)物體操作和導(dǎo)航等任務(wù)。這種方法的關(guān)鍵優(yōu)勢在于其靈活性,允許智能體適應(yīng)各種場景,而不受靜態(tài)物理環(huán)境的限制。Pandora[202]將UniSim中的機(jī)器人動作動態(tài)環(huán)境生成擴(kuò)展到更廣泛的領(lǐng)域,包括室內(nèi)和室外場景中的人類和機(jī)器人動作。另一個后續(xù)工作AVID[149]建立在UniSim的基礎(chǔ)上,通過對動作進(jìn)行條件設(shè)定和修改預(yù)訓(xùn)練擴(kuò)散模型的噪聲預(yù)測,生成動作驅(qū)動的視覺序列用于動態(tài)環(huán)境生成。
除了UniSim的基于視頻擴(kuò)散的框架外,EVA[22]引入了額外的視覺語言模型用于具身視頻預(yù)測,產(chǎn)生更一致的具身視頻預(yù)測。至于開放世界動態(tài)環(huán)境的生成,Streetscapes[29]采用自回歸視頻擴(kuò)散模型來模擬城市環(huán)境,其中智能體必須應(yīng)對天氣和交通變化等動態(tài)挑戰(zhàn)。這些環(huán)境提供了一致連貫但靈活的城市設(shè)置,使智能體面臨類似現(xiàn)實世界的可變性。
動態(tài)環(huán)境的核心趨勢是使用生成世界模型,提供可擴(kuò)展的適應(yīng)性模擬。這種方法顯著減少了環(huán)境設(shè)置所需的手動工作,允許智能體快速在各種場景中訓(xùn)練。此外,對第一人稱訓(xùn)練的關(guān)注密切模仿了現(xiàn)實世界的決策,增強(qiáng)了智能體適應(yīng)不斷變化的情況的能力。這些進(jìn)展是開發(fā)支持復(fù)雜動態(tài)場景中智能體學(xué)習(xí)的具身環(huán)境的關(guān)鍵。
5.應(yīng)用
5.1 自動駕駛
近年來,隨著基于視覺的生成模型[66,173,13]和多模態(tài)大型語言模型[109,1]的快速發(fā)展,作為理解世界狀態(tài)和預(yù)測其未來趨勢的模塊的世界模型在自動駕駛領(lǐng)域受到了越來越多的關(guān)注。在這種情況下,世界模型被定義為將語言、圖像和軌跡等多模態(tài)數(shù)據(jù)作為輸入,并以車輛感知數(shù)據(jù)的形式連續(xù)輸出未來世界狀態(tài)的模型[55]。然而,自動駕駛中的世界模型概念早在基于生成的世界模擬器出現(xiàn)之前就已經(jīng)存在。現(xiàn)代自動駕駛流程可以分為四個主要部分:感知、預(yù)測、規(guī)劃和控制。整個過程可以看作是一個決策流程。正如我們在第3節(jié)中討論的,感知和預(yù)測階段也代表了車輛學(xué)習(xí)世界的隱式表示的過程。這也可以被視為一種世界模型。因此,在本節(jié)中,我們將從學(xué)習(xí)世界的隱式表示的模塊和輸出車輛感知數(shù)據(jù)的世界模擬器兩個角度,闡述世界模型在自動駕駛中的應(yīng)用和發(fā)展。
5.1.1 學(xué)習(xí)隱式表示
自動駕駛車輛通常利用相機(jī)、雷達(dá)和激光雷達(dá)感知真實世界,通過圖像、視頻數(shù)據(jù)和點云數(shù)據(jù)收集信息。在早期決策范式[19,156]中,模型通常將感知數(shù)據(jù)作為輸入,直接輸出自動駕駛車輛的運(yùn)動規(guī)劃結(jié)果。然而,人類駕駛時通常會觀察并預(yù)測其他交通參與者的當(dāng)前和未來狀態(tài),以確定自身駕駛策略[74]。因此,通過感知數(shù)據(jù)學(xué)習(xí)世界的隱式表示并預(yù)測周圍環(huán)境的未來狀態(tài),是提升自動駕駛車輛決策可靠性的關(guān)鍵步驟。我們將此過程視為自動駕駛車輛在潛在空間中學(xué)習(xí)世界模型的體現(xiàn)。
如圖5左側(cè)所示,在多模態(tài)大模型和端到端自動駕駛技術(shù)[71]出現(xiàn)之前,自動駕駛的感知和預(yù)測任務(wù)通常由不同模塊承擔(dān),每個模塊針對各自任務(wù)和數(shù)據(jù)集進(jìn)行訓(xùn)練。感知模塊處理圖像、點云等數(shù)據(jù),完成目標(biāo)檢測和地圖分割等任務(wù),將感知到的世界投射到抽象幾何空間。此外,預(yù)測模塊通常在這些幾何空間內(nèi)運(yùn)行,預(yù)測周圍環(huán)境的未來狀態(tài),包括交通參與者的軌跡和運(yùn)動。
感知數(shù)據(jù)的處理與深度學(xué)習(xí)技術(shù)的發(fā)展密切相關(guān),如表5所示。2017年提出的Pointnet[141]首次采用深度學(xué)習(xí)方法處理點云數(shù)據(jù)。隨著卷積神經(jīng)網(wǎng)絡(luò)的進(jìn)步,以YOLOP[195]和MultiNet[177]為代表的基于圖像數(shù)據(jù)的感知技術(shù)應(yīng)運(yùn)而生,并在駕駛場景理解任務(wù)中表現(xiàn)出色[65,182,96,239]。近年來,Transformer架構(gòu)在自然語言處理領(lǐng)域嶄露頭角,該技術(shù)也被應(yīng)用于圖像數(shù)據(jù)理解。BEVFormer[105]利用注意力機(jī)制融合多攝像頭視角的圖像,從鳥瞰視角構(gòu)建抽象幾何空間,并在包括目標(biāo)檢測在內(nèi)的各種任務(wù)中取得了最先進(jìn)的結(jié)果。此外,Transfusion[7]通過交叉注意力方法融合激光雷達(dá)和攝像頭數(shù)據(jù),提高了感知精度?;诟兄Y(jié)果,一系列技術(shù)(如RNN[6,243,88]、CNN[136,26,24]和Transformer[75,127,167,241])已被用于編碼歷史場景信息并預(yù)測交通參與者的未來行為。
隨著近年來多模態(tài)大型語言模型的出現(xiàn)和快速發(fā)展,許多研究致力于將這些模型的通用場景理解能力應(yīng)用于自動駕駛領(lǐng)域。TOKEN[178]將整個交通場景標(biāo)記為對象級知識,利用語言模型的推理能力處理長尾預(yù)測和規(guī)劃問題;OmniDrive[96]建立了基于LLM的智能體,通過視覺問答涵蓋場景描述、反事實推理和決策等多項任務(wù)。
5.1.2 世界模擬器
如表5所示,在多模態(tài)大模型和基于視覺的生成模型出現(xiàn)之前,交通場景模擬通常在幾何空間中進(jìn)行。這些模擬所依賴的場景數(shù)據(jù)通常由自動駕駛車輛的感知模塊收集或手動構(gòu)建。這些模擬以幾何軌跡的形式表示場景的未來狀態(tài)[113,103,56,230],需要進(jìn)一步建模和渲染以生成適合車輛感知的輸出。多個模塊的級聯(lián)往往導(dǎo)致信息丟失,并增加了模擬的復(fù)雜性,使場景控制更具挑戰(zhàn)性。此外,逼真的場景渲染通常需要大量計算資源,這限制了虛擬交通場景生成的效率。
使用基于擴(kuò)散的視頻生成模型作為世界模型部分解決了上述問題。通過在大規(guī)模交通場景數(shù)據(jù)集上訓(xùn)練,擴(kuò)散模型可以直接生成與現(xiàn)實高度相似的相機(jī)感知數(shù)據(jù)。此外,擴(kuò)散模型固有的可控性與CLIP[143]等文本-圖像對齊方法相結(jié)合,使用戶能夠以簡單的方式控制場景生成。GAIA-1[69]和DriveDreamer系列[189,233]是首批采用這種方法構(gòu)建世界模型的研究。在此基礎(chǔ)上,Drive-WM[192]引入了規(guī)劃任務(wù)的閉環(huán)控制,而Vista[49]則專注于提高生成結(jié)果的分辨率并延長預(yù)測持續(xù)時間。
除了在視頻空間中預(yù)測未來狀態(tài)的方法外,許多其他研究探索了不同形式的車輛感知數(shù)據(jù)。OccWorld[237]和OccSora[185]通過預(yù)測3D占據(jù)網(wǎng)格來預(yù)測世界的未來狀態(tài),而Copilot4D[226]則通過預(yù)測雷達(dá)點云數(shù)據(jù)的變化來構(gòu)建世界模型。與視頻數(shù)據(jù)相比,這些類型的特征更好地反映了交通場景的空間特征。
5.2 機(jī)器人技術(shù)
世界模型已成為機(jī)器人技術(shù)中的變革性范式,使機(jī)器人能夠在復(fù)雜環(huán)境中有效感知、預(yù)測和執(zhí)行任務(wù)。機(jī)器人技術(shù)的這一革命部分歸功于神經(jīng)網(wǎng)絡(luò)[181,66]和機(jī)器學(xué)習(xí)算法[159,144]的進(jìn)步,使機(jī)器人能夠構(gòu)建捕捉世界關(guān)鍵組成部分的隱式表示。另一方面,預(yù)測模型[41,42]能夠直接預(yù)測世界的未來狀態(tài),超越抽象表示,使機(jī)器人能夠預(yù)見可能的環(huán)境變化并主動做出反應(yīng)。借助上述強(qiáng)大技術(shù),機(jī)器人直接與現(xiàn)實世界環(huán)境互動并從中學(xué)習(xí)變得切實可行。如圖6所示,LLM[87,218]和世界模型[18,199,64]被視為通往通用人工智能(AGI)的可能路徑之一,因為它們可以成為機(jī)器理解世界基本規(guī)律的起點。我們在表6中總結(jié)了機(jī)器人領(lǐng)域世界模型的發(fā)展。
5.2.1 學(xué)習(xí)隱式表示
傳統(tǒng)的機(jī)器人任務(wù)(如物體抓?。┩ǔT诟叨冉Y(jié)構(gòu)化的環(huán)境中執(zhí)行,其中關(guān)鍵組件已被顯式建模[90,34],無需機(jī)器人獨(dú)立學(xué)習(xí)或調(diào)整其對世界的理解。然而,當(dāng)機(jī)器人部署在不熟悉的環(huán)境中,尤其是在關(guān)鍵特征或動態(tài)未被顯式建模的環(huán)境中時,先前成功的任務(wù)可能會失敗,因為機(jī)器人難以泛化到這些未知特征[122,85]。因此,使機(jī)器人能夠?qū)W習(xí)其環(huán)境的隱式表示是實現(xiàn)智能的關(guān)鍵第一步。
為了幫助機(jī)器人理解世界中的物體,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[99,93,51]和視覺Transformer(ViT)[31,183]等視覺模型將實體的視覺特征集成到表示中,使機(jī)器人能夠識別任務(wù)的關(guān)鍵物體。RoboCraft[165]將視覺觀察轉(zhuǎn)換為粒子,并通過圖神經(jīng)網(wǎng)絡(luò)捕捉底層系統(tǒng)的結(jié)構(gòu)。此外,還有一些嘗試用于物理空間的感知。PointNet[140,142]首先使用非對稱函數(shù)對非結(jié)構(gòu)化3D點云進(jìn)行編碼,捕捉環(huán)境的空間特征。最近的一項工作[52]將沿局部探索路徑獲取的觀測結(jié)果組裝成潛在空間中物理空間的全局表示,使機(jī)器人能夠跟蹤并接近特定目標(biāo)。隨著LLM[180,14,32]中語言理解能力的提升,一種使機(jī)器人捕捉任務(wù)意圖的新范式涉及以文本形式描述任務(wù),然后通過LLM獲得文本表示[124,50,72,186]。BC-Z[79]利用語言表示作為任務(wù)表示,提高了機(jī)器人的多任務(wù)性能。Text2Motion[107]通過LLM將自然語言指令分解為任務(wù)級和運(yùn)動級計劃,以處理復(fù)雜的順序操作任務(wù)。
5.2.2 預(yù)測環(huán)境的未來狀態(tài)
機(jī)器人任務(wù)始終是順序性和長期性的,當(dāng)前時刻做出的決策可能對未來任務(wù)的執(zhí)行產(chǎn)生深遠(yuǎn)影響[171]。因此,通過預(yù)測其動作將如何影響未來的環(huán)境狀態(tài),機(jī)器人可以避免潛在錯誤并隨著時間的推移提高任務(wù)性能。經(jīng)典的機(jī)器人技術(shù)使用閉環(huán)算法[9,89],利用當(dāng)前觀測來指導(dǎo)動作選擇,這導(dǎo)致機(jī)器人目光短淺,即使最終意識到采取了錯誤動作,也可能導(dǎo)致不可逆轉(zhuǎn)的錯誤。盡管有些方法聲稱在機(jī)器人技術(shù)中取得了突破性性能,但它們依賴于基于專家知識的顯式動態(tài)函數(shù),限制了預(yù)測的范圍和魯棒性。MORL[205]引入單調(diào)雙曲模型來預(yù)測更新策略的改進(jìn)。同時,Trajectron++[152]通過條件變分自動編碼器計算未來軌跡的概率分布來預(yù)測環(huán)境。
最近,使用擴(kuò)散[36,21,10,64]和Transformer[222,208]作為主干的視頻生成模型已成為未來狀態(tài)預(yù)測的流行選擇。例如,UniPi[33]將動作預(yù)測表述為視頻預(yù)測問題,并使用初始狀態(tài)作為顯式條件上下文訓(xùn)練受限擴(kuò)散模型,以實現(xiàn)對未來的準(zhǔn)確想象。類似地,VIPER[35]利用對專家視頻進(jìn)行預(yù)訓(xùn)練的自回歸Transformer,引導(dǎo)機(jī)器人正確執(zhí)行任務(wù),而Genie[15]包括一個動力學(xué)模型,該模型使用先前的視頻幀和動作預(yù)測環(huán)境的下一狀態(tài)。受益于互聯(lián)網(wǎng)上數(shù)百萬未標(biāo)記的視頻,GR-2[196,18]在機(jī)器人任務(wù)上進(jìn)行了微調(diào),實現(xiàn)了對未來圖像的準(zhǔn)確預(yù)測和機(jī)器人動作軌跡的生成。
5.2.3 從模擬到現(xiàn)實世界
深度強(qiáng)化學(xué)習(xí)在機(jī)器人策略學(xué)習(xí)中表現(xiàn)出色,使機(jī)器人能夠穩(wěn)定行走[172,95]、抓取物體[223,30],甚至系鞋帶[5](這是一項特別復(fù)雜的自主任務(wù))。然而,深度強(qiáng)化學(xué)習(xí)在樣本效率方面并不盡如人意。例如,機(jī)器人在現(xiàn)實世界中學(xué)習(xí)解決魔方需要數(shù)萬年時間[3],這極大地限制了其現(xiàn)實世界應(yīng)用。因此,大多數(shù)機(jī)器人工作基于模擬進(jìn)行,各種分布式訓(xùn)練技術(shù)[151,60]提高了樣本收集的效率。盡管模擬效率顯著,但在模擬環(huán)境中訓(xùn)練有素的機(jī)器人在現(xiàn)實世界中往往會失敗。這是因為模擬無法完全還原現(xiàn)實世界,訓(xùn)練有素的策略可能在那些分布外的場景中失敗。另一方面,對現(xiàn)實世界環(huán)境進(jìn)行準(zhǔn)確建模具有挑戰(zhàn)性,因為模擬環(huán)境通常與現(xiàn)實世界不同,這種差異在長距離決策中會累積,導(dǎo)致策略無法適應(yīng)世界的變化。
世界模型在幫助機(jī)器人處理現(xiàn)實世界中的通用任務(wù)方面顯示出巨大潛力。NeBula[2]構(gòu)建了一個信念空間,機(jī)器人在其中進(jìn)行推理和決策,并能適應(yīng)不同的機(jī)器人結(jié)構(gòu)和未知環(huán)境;而DayDreamer[199]從離線數(shù)據(jù)中泛化出世界模型,使機(jī)器人能夠在數(shù)小時內(nèi)直接在現(xiàn)實世界環(huán)境中學(xué)習(xí)行走。此外,SWIM[120]從人類視頻中學(xué)習(xí),并在沒有任何任務(wù)監(jiān)督的情況下從機(jī)器人設(shè)置中進(jìn)行微調(diào),只需不到30分鐘的現(xiàn)實世界交互數(shù)據(jù)。OpenEQA[117]進(jìn)一步提出了一個關(guān)于機(jī)器人對環(huán)境和任務(wù)理解的基準(zhǔn),為現(xiàn)實世界中的具身智能體提供了全面評估。
5.3 社會模擬
“社會模擬”的概念最初在[133]中作為一種原型設(shè)計技術(shù)引入,旨在幫助設(shè)計師創(chuàng)建包含許多不同智能體的虛擬社會計算系統(tǒng)?;趯<叶x規(guī)則[157,12]或強(qiáng)化學(xué)習(xí)[236]構(gòu)建智能體的傳統(tǒng)方法面臨行為過于簡單或缺乏可解釋性等問題。然而,LLM的出現(xiàn)為構(gòu)建更真實的社會模擬提供了變革性工具,實現(xiàn)了更具說服力的典型事實[101]或準(zhǔn)確預(yù)測。社會模擬可以被視為反映現(xiàn)實世界社會計算系統(tǒng)的一種世界模型。從另一個角度來看,社會模擬中的智能體也會發(fā)展出對外部系統(tǒng)的隱式表示,即它們構(gòu)建了支持其社會行為生成的隱式世界模型。世界模型與社會模擬之間的關(guān)系如圖7所示,代表性工作的總結(jié)見表7。
5.3.1 構(gòu)建反映現(xiàn)實社會的社會模擬
在LLM智能體迅速崛起的時代,構(gòu)建逼真的社會模擬系統(tǒng)變得更加可行。社會模擬最著名的例子之一是AI Town[132],這是一個由25個生成式智能體組成的世界模型,本質(zhì)上形成了一個沙盒社會環(huán)境。在這個虛擬社區(qū)中,智能體表現(xiàn)出可信的個體行為,在群體層面則出現(xiàn)了類似于現(xiàn)實世界的新興社會行為。沿著這條路線,越來越多的嘗試正在用LLM智能體取代各種社會場景中的人類,實際上形成了各自特定場景的社會模擬。這些工作已在社交網(wǎng)絡(luò)和合作或競爭游戲等場景中使用了模擬范式[46]。
S3[47]是一項開創(chuàng)性工作,它利用LLM智能體模擬社交網(wǎng)絡(luò)上的消息傳播動態(tài)。通過模擬人類情緒、態(tài)度和消息轉(zhuǎn)發(fā)等社會行為,S3成功地在構(gòu)建的虛擬社交網(wǎng)絡(luò)中重現(xiàn)了幾個現(xiàn)實世界公共事件的傳播動態(tài),結(jié)果在質(zhì)量上與現(xiàn)實無異。類似的研究[131]進(jìn)一步探索了由LLM智能體主導(dǎo)的社交網(wǎng)絡(luò)的形成機(jī)制,并將其與真實的人類社交網(wǎng)絡(luò)進(jìn)行了比較。同樣,Xu等人[206]使用LLM智能體玩經(jīng)典的社交互動游戲“狼人殺”。在模擬過程中,他們觀察到了欺騙和對抗等策略行為的出現(xiàn),揭示了LLM在不完全信息游戲中的潛力。
社會模擬的另一個熱門研究領(lǐng)域是經(jīng)濟(jì)系統(tǒng)的模擬。EconAgent[101]構(gòu)建了一個宏觀經(jīng)濟(jì)系統(tǒng),其中個體經(jīng)濟(jì)行為基于LLM智能體進(jìn)行模擬,納入了勞動力市場、消費(fèi)市場和金融市場等經(jīng)濟(jì)關(guān)鍵組成部分。模擬結(jié)果重現(xiàn)了典型事實,包括波動的宏觀經(jīng)濟(jì)指標(biāo)和與現(xiàn)實世界證據(jù)一致的宏觀經(jīng)濟(jì)規(guī)律。EconAgent展示了使用LLM智能體模擬經(jīng)濟(jì)決策和構(gòu)建經(jīng)濟(jì)系統(tǒng)的巨大潛力。經(jīng)濟(jì)領(lǐng)域社會模擬的其他模擬包括稀缺資源分配[82]和稅收系統(tǒng)形成[4]等。
5.3.2 社會模擬中智能體對外部世界的理解
LLM智能體通過存儲與外部環(huán)境互動獲得的觀測來建立記憶[229],從而形成對外部世界的隱式表示和基本認(rèn)知,尤其是在模擬社會場景的背景下。這種認(rèn)知以文本形式存儲在記憶庫中,供LLM智能體檢索和使用,使其在做出決策時能夠訪問有用信息并充分利用過去與環(huán)境互動的經(jīng)驗知識。
Agent-Pro[228]將其與外部環(huán)境(特別是互動任務(wù)中的其他智能體)互動的記憶轉(zhuǎn)化為所謂的“信念”?;谶@些信念,它做出下一個決策并更新其行為策略。這些信念代表了智能體對環(huán)境和其中其他智能體的社會理解,與第3.2節(jié)中提到的心理理論相關(guān)。其他關(guān)于LLM智能體的研究也采用了類似設(shè)計。例如,Zhang等人[225]從社會心理學(xué)的角度引入反思和辯論機(jī)制,用于建模多智能體協(xié)作任務(wù)。一項更先進(jìn)的研究GovSim[137]探討了在由LLM智能體組成的社會中,旨在可持續(xù)資源開發(fā)的合作行為是否會出現(xiàn)。在這種設(shè)置中,每個智能體通過多智能體對話收集關(guān)于外部世界和其他智能體行為策略的信息,隨后形成自己的高級見解,本質(zhì)上創(chuàng)建了世界模型的隱式表示。另一個類似的應(yīng)用場景是交互式群聊[53],其中在遺產(chǎn)糾紛、法庭辯論等四個敘事場景中出現(xiàn)了類似人類的行為和策略。
6.開放性問題和未來方向
超現(xiàn)實生成式AI的最新進(jìn)展引起了人們對世界模型開發(fā)的極大關(guān)注,特別是像Sora[130]這樣的多模態(tài)大模型。盡管創(chuàng)新迅速,但仍有許多重要的開放性問題有待解決。
6.1 物理規(guī)則和反事實模擬
世界模型的一個關(guān)鍵目標(biāo)是學(xué)習(xí)模擬世界的潛在因果關(guān)系,例如環(huán)境的物理規(guī)則。它們?yōu)橥茢喾词聦崍鼍暗奈从^察結(jié)果提供了重要能力[135],超越了假設(shè)數(shù)據(jù)分布相同的數(shù)據(jù)驅(qū)動預(yù)測方法。這些能力對于解決數(shù)據(jù)稀缺問題至關(guān)重要,這在關(guān)鍵任務(wù)應(yīng)用中模擬罕見事件時尤為重要。例如,模擬極端情況對提高自動駕駛AI的魯棒性至關(guān)重要[40]。此外,擁有準(zhǔn)確的物理規(guī)則模型還可以提高模擬環(huán)境的一致性,這對于解決許多應(yīng)用中的模擬到現(xiàn)實的差距至關(guān)重要。人們認(rèn)為,具有現(xiàn)實物理規(guī)則的世界模型是AI智能體發(fā)展對物理世界全面理解的必要訓(xùn)練環(huán)境。
大型生成模型的最新突破主要由Transformer和擴(kuò)散模型等深度學(xué)習(xí)模型驅(qū)動,這些模型本質(zhì)上是數(shù)據(jù)驅(qū)動的。模擬物理規(guī)則的能力是否可以通過訓(xùn)練數(shù)據(jù)的擴(kuò)展而涌現(xiàn),這是一個有爭議的問題。Sora展示了生成物理世界高度逼真視頻的驚人能力[130],包括運(yùn)動中的物體和形狀可變的物體,如行人、狗和帶有咬痕的漢堡。然而,它仍然難以準(zhǔn)確模擬重力和流體動力學(xué)等物理規(guī)則。此外,研究人員還發(fā)現(xiàn),LLM無法充分預(yù)測物理世界的狀態(tài)轉(zhuǎn)變[191],例如水的沸騰。這些觀察表明,大型生成模型盡管擁有海量數(shù)據(jù)集,但在學(xué)習(xí)世界的因果表示方面仍存在固有局限性。一個有前途的未來方向是探索大型生成模型與物理規(guī)則模擬器的集成。這種解決方案可能會降低生成內(nèi)容的分辨率和質(zhì)量,但應(yīng)提高對未見過的反事實場景的泛化能力。此外,擁有顯式物理規(guī)則還可以提高世界模型的可解釋性和透明度。
6.2 豐富社會維度
僅模擬物理元素對于高級世界模型是不夠的,因為人類行為和社會互動在許多重要場景中也起著關(guān)鍵作用[46]。例如,城市居民的行為對于構(gòu)建城市環(huán)境的世界模型尤為重要[8,204]。先前的工作表明,LLM的類人常識推理能力為使用生成式智能體模擬逼真的人類行為提供了獨(dú)特機(jī)會[132]。然而,設(shè)計能夠模擬逼真和全面的人類行為和社會互動的自主智能體仍然是一個開放性問題。最近的研究表明,人類行為模式和認(rèn)知過程的理論可以為智能體工作流程的設(shè)計提供信息,進(jìn)而增強(qiáng)LLM的人類行為模擬能力[163,132],這代表了未來研究的一個重要方向。此外,生成的人類行為的現(xiàn)實性評估仍然在很大程度上依賴于人類的主觀評估,這對于擴(kuò)展到大規(guī)模世界模型具有挑戰(zhàn)性。開發(fā)可靠且可擴(kuò)展的評估方案將是另一個未來研究方向,可豐富世界模型的社會維度。
6.3 通過具身智能彌合模擬與現(xiàn)實的差距
世界模型長期以來被視為發(fā)展具身智能的關(guān)鍵步驟[155]。它可以作為強(qiáng)大的模擬器,創(chuàng)建環(huán)境的綜合元素并對它們之間的現(xiàn)實關(guān)系進(jìn)行建模。這樣的環(huán)境可以促進(jìn)具身智能體通過與模擬環(huán)境的交互進(jìn)行學(xué)習(xí),減少對監(jiān)督數(shù)據(jù)的需求。為實現(xiàn)這一目標(biāo),提高生成式AI模型的多模態(tài)、多任務(wù)和3D能力已成為開發(fā)適用于具身智能體的通用世界模型的重要研究課題。此外,縮小模擬與現(xiàn)實之間的差距[67]一直是具身環(huán)境模擬器的長期研究問題,因此將訓(xùn)練后的具身智能從模擬環(huán)境遷移到物理世界至關(guān)重要。收集更細(xì)粒度的感官數(shù)據(jù)也是實現(xiàn)這一目標(biāo)的關(guān)鍵步驟,這可以通過具身智能體的接口來推動。因此,一個有趣的未來研究方向是創(chuàng)建自我強(qiáng)化循環(huán),以利用生成式世界模型和具身智能體的協(xié)同力量。
6.4 模擬效率
確保世界模型的高模擬效率對許多應(yīng)用至關(guān)重要。例如,每秒幀數(shù)是學(xué)習(xí)復(fù)雜無人機(jī)操作AI的高質(zhì)量關(guān)鍵指標(biāo)。大多數(shù)大型生成式AI流行的Transformer架構(gòu)對高速模擬構(gòu)成巨大挑戰(zhàn),因為其自回歸特性一次只能生成一個標(biāo)記。已提出幾種策略來加速大型生成模型的推理,例如結(jié)合大型和小型生成模型[162]和蒸餾大型模型[163]。更全面的解決方案包括構(gòu)建優(yōu)化調(diào)度LLM請求的模擬平臺[210]。當(dāng)經(jīng)典物理模擬器被要求模擬大型復(fù)雜系統(tǒng)時,高計算成本也是一個問題。先前研究發(fā)現(xiàn),圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)模型可用于高效近似物理系統(tǒng)[154]。因此,一個重要的研究方向?qū)⑹翘剿餍⌒蜕疃葘W(xué)習(xí)模型與大型生成式AI模型之間的協(xié)同作用。此外,從底層硬件到編程平臺和AI模型的整體改進(jìn)也需要實現(xiàn)實質(zhì)性的加速。
6.5 倫理和安全問題
數(shù)據(jù)隱私:使用大型生成式AI構(gòu)建世界模型的最新趨勢引發(fā)了對隱私風(fēng)險的重大擔(dān)憂,主要由于海量且通常不透明的訓(xùn)練數(shù)據(jù)[219]。大量研究工作致力于評估使用LLM等大型生成式AI推斷私人信息的風(fēng)險[102],這在視頻生成模型的背景下可能尤其敏感。為了符合GDPR[176]等隱私法規(guī),提高生成式AI生命周期的透明度至關(guān)重要,幫助公眾了解數(shù)據(jù)在這些AI模型中是如何收集、存儲和使用的。
模擬不安全場景:生成式AI的強(qiáng)大智能使其訪問安全成為首要任務(wù)。先前對LLM的研究發(fā)現(xiàn),它們可能被對抗性提示誤導(dǎo)生成不安全內(nèi)容[94,76]。世界模型的不安全使用風(fēng)險可能更大。對抗性用戶可能利用此類技術(shù)模擬有害場景,降低策劃非法和不道德活動的成本。因此,未來的一個重要研究方向是保障世界模型的使用安全。
責(zé)任歸屬:生成超現(xiàn)實文本、圖像和視頻的能力已導(dǎo)致傳播錯誤信息和虛假信息的嚴(yán)重社會問題。例如,深度偽造技術(shù)的出現(xiàn)引發(fā)了大規(guī)模濫用,對社會、經(jīng)濟(jì)和政治系統(tǒng)產(chǎn)生了廣泛的負(fù)面影響[193]。因此,檢測AI生成內(nèi)容已成為解決這些風(fēng)險的關(guān)鍵研究問題[146]。然而,由于生成式AI的進(jìn)步,這個問題變得越來越具有挑戰(zhàn)性,而能夠生成一致的多維輸出的世界模型的出現(xiàn)將使問題更加困難。水印等技術(shù)可以幫助提高世界模型使用的責(zé)任歸屬[27]。需要更多的研究關(guān)注以及法律解決方案來改善世界模型使用的責(zé)任歸屬。
7.結(jié)論
理解世界和預(yù)測未來一直是開發(fā)人工生成智能的科學(xué)家的長期目標(biāo),突顯了在各個領(lǐng)域構(gòu)建世界模型的重要性。本文首次對世界模型進(jìn)行了全面綜述,系統(tǒng)地探討了其兩個主要功能:外部世界的隱式表示和未來預(yù)測。我們對這些核心功能的現(xiàn)有研究進(jìn)行了廣泛總結(jié),特別關(guān)注決策中的世界模型、模型學(xué)習(xí)的世界知識、作為視頻生成的世界模型以及作為具身環(huán)境的世界模型。此外,我們回顧了世界模型在關(guān)鍵應(yīng)用領(lǐng)域的進(jìn)展,包括自動駕駛、機(jī)器人技術(shù)和社會模擬。最后,認(rèn)識到這個快速發(fā)展領(lǐng)域中未解決的挑戰(zhàn),我們強(qiáng)調(diào)了開放性問題并提出了有前途的研究方向,希望激發(fā)這個新興領(lǐng)域的進(jìn)一步研究。
參考資料
- 標(biāo)題:Understanding World or Predicting Future? A Comprehensive Survey of World Models
- 作者:Jingtao Ding, Yunke Zhang, Yuan Yuan, 等
- 單位:Tsinghua University, Beijing, China
- 標(biāo)簽:人工智能、世界模型、大語言模型、視頻生成、自動駕駛、機(jī)器人技術(shù)
- 概述:本文系統(tǒng)綜述了世界模型的核心技術(shù),圍繞“理解世界”和“預(yù)測未來”兩大功能,梳理了其在自動駕駛、機(jī)器人、社會模擬等領(lǐng)域的應(yīng)用及挑戰(zhàn),并展望了未來研究方向。
- 鏈接:https://arxiv.org/pdf/2411.14499
本文轉(zhuǎn)載自????旺知識??,作者:旺知識
