偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AGI真方向?谷歌證明:智能體在自研世界模型,世界模型is all You Need

人工智能 新聞
最近,Google DeepMind 的研究人員表明,學習世界模型不僅有益,而且對于一般智能體來說也是必要的。在這篇文章中,我們將討論該論文的主要發(fā)現(xiàn)及其對 AI 智能體未來的影響。

我們知道,大模型技術爆發(fā)的原點可能在谷歌一篇名為《Attention is All You Need》的論文上。

如今,在通用人工智能(AGI)初現(xiàn)曙光,Scaling Laws 卻疑似接近極限的當口,又是谷歌對未來方向進行了一番思考,想來想去還是只有五個詞:

圖片

  • 論文標題:General agents need world models
  • 論文鏈接:https://arxiv.org/abs/2506.01622

該論文已被機器學習頂會 ICML 收錄。他們發(fā)現(xiàn):如果一個 AI 智能體能夠處理復雜的、長期的任務,那么它一定學習過一個內(nèi)部世界模型——我們甚至可以通過觀察智能體的行為來提取它。

世界模型是實現(xiàn)靈活、目標導向行為的必要要素,還是無需模型的學習就已足夠?Google DeepMind 研究人員為這個問題提供了一個正式的答案——任何能夠泛化到多步驟目標導向任務的智能體都必須學習其環(huán)境的預測模型。

更進一步,實驗證明,這樣的模型可以從智能體的策略中提取出來,而提升智能體的性能或其可實現(xiàn)目標的復雜性需要學習越來越精確的世界模型。這將帶來一系列影響:從開發(fā)安全通用的智能體,到在復雜環(huán)境中限制智能體的能力,以及提供從智能體中獲取世界模型的新算法。

香港中文大學博士 Richard C. Suwandi 撰寫了一篇博客文章,詳細解讀了這篇開創(chuàng)性的論文及其對 AGI 未來的意義。

圖片

想象一下,如果我們能夠構建一個像人類一樣思考和計劃的人工智能,未來會是什么樣子。大語言模型(LLM)領域的最新突破使我們更接近這一目標。隨著這些模型規(guī)模不斷擴大,并接受更多數(shù)據(jù)的訓練,它們會發(fā)展出所謂的涌現(xiàn)。

這顯著提升了它們在各類下游任務上的表現(xiàn)。大模型的涌現(xiàn)引發(fā)了新一輪的研究,旨在創(chuàng)建能夠在現(xiàn)實世界環(huán)境中處理復雜、長期任務的通用 AI 智能體。但令人著迷的是:人類不僅對他們所見的事物做出反應,我們還建立了豐富的心智模型來建模世界的運作方式。這些世界模型可幫助我們設定雄心勃勃的目標,并制定周到的計劃。因此,基于這一觀察,我們很自然地會問:

世界模型對于實現(xiàn)人類水平的人工智能有用嗎?

最近,Google DeepMind 的研究人員表明,學習世界模型不僅有益,而且對于一般智能體來說也是必要的。在這篇文章中,我們將討論該論文的主要發(fā)現(xiàn)及其對 AI 智能體未來的影響。

我們需要世界模型嗎?

1991 年,Rodney Brooks 提出了一個著名觀點:「世界是其自身的最佳模型」。

圖片

他認為,智能行為可以自然地從無模型智能體中產(chǎn)生,只需通過一系列動作和感知與環(huán)境互動,無需構建世界運作方式的明確表征。無模型智能體的顯著成功有力地支持了 Brooks 的論點,這些智能體在不同任務和環(huán)境中展現(xiàn)出了出色的泛化能力。這種無模型方法為創(chuàng)建通用 AI 智能體提供了一種頗具吸引力的途徑,同時避免了學習顯式世界模型的復雜性。

然而,最近的研究提出了一個有趣的可能性:即使是這些所謂的無模型智能體也可能正在表面之下學習隱式的世界模型和規(guī)劃算法。

Ilya Sutskever 一直是對的?

這讓人們回想起 2023 年 3 月,OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 提出了一個深刻的論斷:大型神經(jīng)網(wǎng)絡的功能遠不止預測下一個單詞,它實際上是在學習「世界模型」。他是這樣說的:

他認為,神經(jīng)網(wǎng)絡學習的不僅僅是文本信息,而是我們這個世界的一種壓縮表征。因此,我們預測下一個詞的準確度越高,世界模型的保真度就越高。

智能體與世界模型

雖然 Ilya 的說法引人入勝,但當時尚不清楚如何將其形式化。但現(xiàn)在,谷歌 DeepMind 的研究人員已經(jīng)證明,Ilya 的說法并非僅僅是一個假設,而是一條支配所有通用智能體的基本定律。

在論文中作者指出,「任何能夠推廣到廣泛的簡單目標導向任務的智能體都必須學習能夠模擬其環(huán)境的預測模型,并且該模型始終可以從智能體中還原出來?!?/span>

圖片

任何滿足界限的智能體都必須學習環(huán)境轉(zhuǎn)換函數(shù),該函數(shù)可以從其目標條件策略中提取出來。對于能夠處理諸如到達特定狀態(tài)等基本任務的智能體來說也是如此。

注意,上述內(nèi)容僅適用于在多步驟范圍內(nèi)進行規(guī)劃的智能體,因為它們需要了解行動如何影響未來狀態(tài)。然而,只考慮即時獎勵的「短視」智能體可能會避免學習世界模型,因為它們不需要預測長期后果。

為了使上述主張更加精確,作者開發(fā)了一個基于四個關鍵組成部分的嚴格數(shù)學框架:環(huán)境、目標、智能體和世界模型。

環(huán)境

假設環(huán)境是一個受控馬爾可夫過程(cMP)本質(zhì)上是一個沒有指定獎勵函數(shù)的馬爾可夫決策過程。cMP 的構成包括狀態(tài)空間 S、動作空間 A 以及過渡函數(shù)

圖片

作者假設環(huán)境是不可簡化的和固定的。

目標

本文沒有定義復雜的目標結(jié)構,而是專注于用線性時間邏輯 (LTL) 表達的簡單、直觀的目標。一個目標 φ 形式為圖片,其中 g 是一組目標狀態(tài),圖片指定時間范圍(?= 下一步,?= 最終,?= 現(xiàn)在)。更復雜的復合目標 ψ 可以通過按順序組合連續(xù)目標來形成:ψ=?φ_1,φ_2,…,φ_n?其中,智能體必須按順序?qū)崿F(xiàn)每個子目標。目標的深度等于子目標的數(shù)量:depth (ψ)=n。

智能體

作者重點研究了目標條件智能體,定義為策略圖片,其可基于目標 ψ 將歷史 h_t 映射到一個動作 a_t。這就引出了針對給定環(huán)境和目標集 Ψ 的最優(yōu)目標條件智能體的一個自然定義,即一種策略,該策略能使對于所有 ψ∈Ψ,ψ 得以實現(xiàn)的概率最大化。

然而,真實的智能體很少是最優(yōu)的,尤其是在復雜環(huán)境中運行,以及執(zhí)行需要在長期內(nèi)協(xié)調(diào)多個子目標的任務時。作者并不要求完美最優(yōu),而是定義了一個有界智能體,它能夠?qū)崿F(xiàn)某個最大目標深度的目標,并且相對于最優(yōu)智能體的失敗率是有界的。有界目標條件智能體圖片滿足:

圖片

對于所有目標 ψ∈Ψ_n, 其中 Ψ_n 是所有復合目標的集合,其深度最多為 n 和 δ∈[0,1] 是錯誤率參數(shù)。

世界模型

作者考慮了預測世界模型,它可以被智能體用來進行規(guī)劃。他們將世界模型定義為任何近似圖片環(huán)境的過渡函數(shù)

圖片

有界誤差圖片。作者表明,對于任何此類有界目標條件的智能體,可以僅從其的策略中恢復環(huán)境轉(zhuǎn)換函數(shù)(世界模型)的近似值:

讓 π 成為具有最大失敗率的目標條件智能體,δ 對于所有目標 ψ∈Ψ_n,其中 n>1。 然后 π 完全確定模型圖片對于有界誤差的環(huán)境轉(zhuǎn)移概率:

圖片

對于 δ?1 以及 n?1,誤差尺度為 

圖片

上述結(jié)果揭示了兩個重要的見解:

1. 隨著智能體能力越來越強(δ→0),可恢復世界模型變得更加準確。

2. 當智能體處理更長遠的目標(更大的 n),它們必須學習越來越精確的世界模型。

這也意味著學習足夠通用的目標條件策略在信息上等同于學習準確的世界模型。

如何還原世界模型

作者還推導出了一種從有界智能體恢復世界模型的算法。該算法通過向智能體查詢精心設計的復合目標來工作,這些目標對應于「非此即彼」的決策。例如,它提出諸如「實現(xiàn)過渡圖片最多 r 次超出 n 嘗試」與「實現(xiàn)它超過 r 次」之類的目標。智能體的行動選擇揭示了哪個結(jié)果具有更高的概率,這使我們能夠估計圖片。

圖片

從有界智能體恢復世界模型的派生算法。

實驗

為了測試算法的有效性,作者對一個隨機生成的受控馬爾可夫過程進行了實驗,該過程包含 20 個狀態(tài)和 5 個動作,并采用稀疏轉(zhuǎn)移函數(shù)來增加學習難度。他們使用從環(huán)境中采樣的軌跡,在隨機策略下訓練智能體,通過延長訓練軌跡長度來提高其能力圖片。結(jié)果表明:

  • 即使智能體嚴重違反理論假設(對于某些目標實現(xiàn)最壞情況的 regret δ=1,他們的算法仍然恢復了準確的世界模型。
  • 恢復的世界模型中的平均誤差隨著圖片,匹配誤差界限和目標深度之間的理論縮放關系。
  • 隨著智能體學會處理更長遠的目標(更大的最大深度 n),提取出的世界模型變得越來越準確。這證實了智能體能力與世界模型質(zhì)量之間的根本聯(lián)系。

圖片

隨著智能體處理更深層次的目標,恢復的世界模型中的平均誤差會減小。b) 平均誤差與智能體在深度 50 時的 regret 成比例。誤差線顯示 10 次實驗的 95% 置信區(qū)間。

與其他研究的關聯(lián)

這項工作的成果補充了人工智能研究的其他幾個領域:

所提出的算法完善了環(huán)境、目標和策略之間的「三角」。規(guī)劃在給定世界模型和目標(世界模型 + 目標 → 策略)的情況下確定最優(yōu)策略,而逆向強化學習(IRL)給定世界模型和策略(世界模型 + 策略 → 目標),恢復目標。提出的算法通過給定智能體的策略和目標(策略 + 目標 → 世界模型),恢復世界模型來填補剩余的方向。正如 IRL 需要跨多個環(huán)境觀察策略才能完全確定目標一樣,算法需要觀察智能體在多個目標上的行為,才能完全恢復世界模型。

圖片

雖然規(guī)劃使用世界模型和目標來確定策略,而 IRL 和逆向規(guī)劃使用智能體的策略和世界模型來識別其目標,但所提出的算法使用智能體的策略及其目標來識別世界模型。

傳統(tǒng)的機械可解釋性(MI)通常依賴于分析神經(jīng)網(wǎng)絡激活或使用監(jiān)督探測另一方面,所提出的算法提供了一種新穎的方法,可以直接從智能體的策略行為中提取世界模型,即使在模型內(nèi)部無法訪問的情況下也能適用。這種無監(jiān)督且與架構無關的方法適用于任何滿足有限 regret 條件的智能體,無論其具體實現(xiàn)如何。對于 LLM,這意味著我們可以通過分析其目標導向行為來揭示其隱含的世界模型,而無需訪問其內(nèi)部表征。

最近的研究《Robust agents learn causal world models》表明,適應分布變化的智能體必須學習因果世界模型。該研究通過關注任務泛化而非領域泛化來補充這一理論。有趣的是,領域泛化需要比任務泛化更深的因果理解。

例如,在一個狀態(tài)變量為 X 和 Y 是存在因果關系(X→Y),智能體只需學習轉(zhuǎn)移概率即可實現(xiàn)最佳任務績效,而無需了解潛在的因果關系。這暗示了 Pearl 因果層級的智能體版本其中不同的智能體能力(如領域或任務泛化)需要不同級別的因果知識。

這些發(fā)現(xiàn)對人工智能的發(fā)展和安全也具有著重要意義。大語言模型和其他人工智能系統(tǒng)中新功能的出現(xiàn),可以用在針對各種訓練任務進行優(yōu)化時學習到的隱式世界模型來解釋。從能力強大的智能體中提取世界模型的能力,為驗證和校準提供了一種新的工具,因為模型保真度會隨著智能體能力的提升而擴展。然而,學習復雜現(xiàn)實世界系統(tǒng)的精確世界模型本身就存在困難,這也從根本上限制了智能體的通用能力。

結(jié)論

或許,Ilya 在 2023 年的預測比我們意識到的更有前瞻性。如果上述結(jié)果屬實,那么當前通過擴展語言模型來推進超級人工智能(ASI)的競賽,或許暗地里就是一場構建更復雜世界模型的競賽。我們也有可能正在見證一些更為深刻的變革:從 David Silver 和 Richard Sutton 所說的「人類數(shù)據(jù)時代」向「經(jīng)驗時代」的轉(zhuǎn)變。雖然當前的人工智能系統(tǒng)通過模仿人類生成的數(shù)據(jù)實現(xiàn)了非凡的能力,但 Silver 和 Sutton 認為,超人類智能將主要通過智能體從自身經(jīng)驗中學習而誕生。

例如,隨著 Genie 2 等基礎世界模型的最新發(fā)展,我們可以從單個圖像生成無限的 3D 環(huán)境并允許智能體在豐富的環(huán)境中產(chǎn)生「經(jīng)驗流」,并根據(jù)其能力進行適應和發(fā)展。

圖片

Genie 2,谷歌提出的一個基礎世界模型,能夠生成無限多樣、可操作、可游玩的 3D 環(huán)境,用于訓練和評估具身智能體。只需一張?zhí)崾緢D像,人類或 AI 智能體即可使用鍵盤和鼠標輸入來游玩。

如果說一般智能體必須學習世界模型,而超人類智能需要從經(jīng)驗而非人類數(shù)據(jù)中學習,那么像 Genie 2 這樣的基礎世界模型或許就是體驗時代的終極尺度法則。我們并不是在觸及人類知識的上限,而是正在進入一個新階段:AI 智能體的質(zhì)量從根本上受限于它們能夠模擬和探索的世界的保真度。

能夠做最精準的夢,并從夢中學習最多的智能體,或許才是最聰明的。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-08 14:13:53

2025-09-25 12:42:33

2025-01-09 14:34:50

2022-04-27 09:33:01

EasyNLP開源框架

2024-05-24 08:42:29

智能體訓練

2025-07-04 09:07:00

2023-12-17 13:07:11

訓練數(shù)據(jù)

2024-02-27 09:19:13

谷歌AI

2025-08-13 09:16:00

2024-10-16 09:50:32

2025-01-26 11:00:00

2025-10-28 08:46:00

2024-10-14 14:10:00

大模型AI開源

2024-08-08 14:00:00

2025-03-24 13:24:23

2022-06-25 21:38:36

AI模型
點贊
收藏

51CTO技術棧公眾號