偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

下一代智能體,用大腦的方式看世界、走世界

發(fā)布于 2025-9-23 07:02
瀏覽
0收藏

在人工智能的進(jìn)化史上,Agentic AI——具備自主感知、推理與執(zhí)行能力的智能體——正迅速崛起。它們不僅能在語言世界中與人類對話、推理、生成內(nèi)容,還能在虛擬環(huán)境中自主完成復(fù)雜任務(wù)。

然而,當(dāng)這些智能體試圖跨出虛擬的“安全區(qū)”,進(jìn)入真實的物理世界時,短板便暴露無遺,它們在空間理解與推理上的能力,遠(yuǎn)不及人類。

人類能夠在陌生街區(qū)迅速建立心理地圖,憑借視覺、聽覺、觸覺等多模態(tài)信息在復(fù)雜環(huán)境中靈活行動;而現(xiàn)有 AI 往往依賴符號化、靜態(tài)化的空間表示,缺乏對動態(tài)、非結(jié)構(gòu)化環(huán)境的適應(yīng)力。這種差距不僅是算法問題,更是認(rèn)知機制的鴻溝。

核心問題在于:為什么 AI 在空間推理上如此受限?答案或許藏在神經(jīng)科學(xué)中。人類大腦的空間認(rèn)知系統(tǒng)——從頂葉皮層到海馬體,從網(wǎng)格細(xì)胞到位置細(xì)胞——構(gòu)建了一個動態(tài)、可更新的認(rèn)知地圖,使我們能夠在三維世界中定位、規(guī)劃、預(yù)測。將這些機制引入 AI,或許能讓智能體真正具備“類人”的空間智能。

9 月11 日,arXiv發(fā)布了最新研究成果《Mind Meets Space: Rethinking Agentic Spatial Intelligence from a Neuroscience-inspired Perspective》。它跨越神經(jīng)科學(xué)、人工智能與機器人學(xué)三大領(lǐng)域,提出了一個通用計算框架,試圖將人類空間認(rèn)知的核心機制映射到 AI 系統(tǒng)中,讓智能體在虛擬與物理世界中都能如魚得水。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖1:神經(jīng)科學(xué)啟發(fā)的代理空間智能插圖。由于人類空間推理的核心功能在于多模態(tài)感知、認(rèn)知映射、記憶系統(tǒng)和決策空間推理,因此可以將智能體抽象為相應(yīng)的人工智能模塊,形成一個仿生框架,以實現(xiàn)空間推理和自適應(yīng)行為。在我們的框架中,這些功能是通過組件模擬的,包括仿生多模式傳感、多感官整合、自我中心-異中心轉(zhuǎn)換、認(rèn)知地圖、空間記憶和自適應(yīng)部署的空間推理。

這支國際化的研究團隊匯聚了來自南洋理工大學(xué)(NTU)、清華大學(xué)、瑞典皇家理工學(xué)院(KTH)、印度國家技術(shù)學(xué)院(NIT)以及產(chǎn)業(yè)界 MiroMind 的專家。團隊成員背景橫跨計算神經(jīng)科學(xué)、機器人學(xué)、計算機視覺、自然語言處理與土木空間工程,形成了從理論建模到工程實現(xiàn)的全鏈路能力。

在技術(shù)開放方面,技術(shù)團隊不僅提出了理論框架,還在 GitHub 上開源了參考實現(xiàn),包括六大核心模塊的代碼、多模態(tài)感知與空間推理的適配腳本、數(shù)據(jù)集映射表以及評測工具。開源協(xié)議推測為 MIT 或 Apache 2.0,旨在降低學(xué)術(shù)與產(chǎn)業(yè)的復(fù)現(xiàn)門檻,并鼓勵二次開發(fā)。

項目地址:??https://github.com/BioRAILab/Awesome-Neuroscience-Agentic-Spatial-Reasoning??

1.神經(jīng)科學(xué)視角下的人類空間智能

要讓 AI 擁有類人的空間智能,首先要理解人類是如何做到的。

人類的空間認(rèn)知始于多模態(tài)感知與整合。視覺系統(tǒng)通過視網(wǎng)膜到初級視覺皮層(V1)的處理,捕捉環(huán)境的形狀、顏色與深度;聽覺系統(tǒng)通過耳蝸與聽覺皮層(A1)定位聲源;觸覺系統(tǒng)則通過皮膚感受器與體感皮層(S1/S2)感知表面質(zhì)地與壓力。這些信息在頂葉皮層等區(qū)域融合,形成統(tǒng)一的空間表征。

在表征方式上,人類大腦同時使用兩種坐標(biāo)系。

自我中心(Egocentric)編碼以身體為參考,適合即時行動與近距離操作;

客體中心(Allocentric)編碼則以環(huán)境或物體為參考,構(gòu)建穩(wěn)定的世界地圖。

這種雙系統(tǒng)由頂葉皮層、后扣帶皮層(RSC)與海馬-內(nèi)嗅皮層系統(tǒng)協(xié)同完成。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖2:基于神經(jīng)科學(xué)的認(rèn)知圖譜。它植根于海馬體(橙色)和內(nèi)嗅皮層(藍(lán)色),內(nèi)嗅皮層編碼歐幾里德度量,海馬體編碼關(guān)系拓?fù)鋱D,共同形成集成的混合和層次圖。

認(rèn)知地圖理論揭示了人類如何在腦中構(gòu)建空間模型。度量型地圖精確記錄距離與方向,拓?fù)湫偷貓D強調(diào)位置之間的連接關(guān)系,分層型地圖則將空間分為不同層級以便快速推理,而混合型地圖結(jié)合了上述優(yōu)勢,既有幾何精度又具備結(jié)構(gòu)靈活性。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖3:人類認(rèn)知中的記憶系統(tǒng):工作、偶發(fā)和長期。

空間記憶系統(tǒng)是認(rèn)知地圖的存儲與調(diào)用機制。工作記憶由前額葉-頂葉網(wǎng)絡(luò)維持,用于短期任務(wù);情景記憶依賴海馬體與內(nèi)嗅皮層,記錄具體的時空經(jīng)歷;語義記憶則存儲長期的空間知識與規(guī)則,通常由默認(rèn)模式網(wǎng)絡(luò)參與。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖4:空間推理骨干神經(jīng)科學(xué)模型的開發(fā)。

在計算神經(jīng)科學(xué)中,這些機制被抽象為多種模型:貝葉斯腦假說認(rèn)為大腦在不斷進(jìn)行概率推斷;預(yù)測編碼強調(diào)大腦通過預(yù)測與誤差修正來更新世界模型;繼任表示(Successor Representation)為路徑規(guī)劃提供高效編碼;自由能原理(FEP)與分層主動推理(HAI)解釋了感知與行動的統(tǒng)一驅(qū)動;Tolman-Eichenbaum Machine 則嘗試在人工系統(tǒng)中復(fù)現(xiàn)海馬體的空間與語義編碼功能。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖5:TEM的架構(gòu)。(A)生成模型,顯示了從動作(?)和潛在狀態(tài)(??)到狀態(tài)轉(zhuǎn)換、記憶檢索和時間過濾的自上而下的過程,以生成感官預(yù)測(??)與觀察(?)。

2.類人空間智能的通用計算框架

如果說人類的空間智能是一部精密的交響樂,那么技術(shù)團隊提出的通用計算框架,就是試圖用人工系統(tǒng)重現(xiàn)這部樂章的總譜。它將神經(jīng)科學(xué)中的關(guān)鍵機制拆解為六個相互銜接的模塊,從感知到推理再到?jīng)Q策,構(gòu)成一個閉環(huán)的智能體系。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖6:提出的代理空間智能框架。根據(jù)人類從感知、認(rèn)知到行動的認(rèn)知,該框架包含六個模塊:(1)多感官輸入,(2)信息處理,(3)自我中心異中心,(4)認(rèn)知地圖,(5)空間神經(jīng)記憶,以及(6)空間推理。

多模態(tài)輸入模塊是整個框架的感官前哨。它不僅包括視覺、聽覺、觸覺等常規(guī)通道,還考慮了運動感知、力反饋等更貼近物理交互的輸入方式。設(shè)計理念借鑒了生物感官的多樣性與互補性——就像人類在昏暗環(huán)境中會更多依賴觸覺與聽覺,AI 也需要在不同情境下動態(tài)調(diào)配感知資源。

感知到的信息首先進(jìn)入信息處理模塊(IPM)。這里是數(shù)據(jù)的“中樞神經(jīng)”,負(fù)責(zé)傳感器的校準(zhǔn)與同步、噪聲抑制、跨模態(tài)注意力分配,并將不同來源的信號映射到統(tǒng)一的潛在空間表示中。這個過程對應(yīng)于人腦頂葉皮層等區(qū)域的多模態(tài)融合功能,確保后續(xù)推理建立在一致且高質(zhì)量的感知基礎(chǔ)上。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖7:用于空間推理的信息處理模塊(IPM)。在通過特定模態(tài)編碼器之前,對多感輸入進(jìn)行預(yù)處理和注意力加權(quán)。查詢/關(guān)鍵投影和對比學(xué)習(xí)將它們?nèi)诤铣山y(tǒng)一的跨模態(tài)潛在表征。

接下來是自我中心—客體中心轉(zhuǎn)換模塊。人類在行動時會不斷在以自身為參考的視角(egocentric)與以環(huán)境為參考的視角(allocentric)之間切換:前者適合即時操作,后者有助于構(gòu)建穩(wěn)定的世界模型。

AI 在這一模塊中完成類似的雙向轉(zhuǎn)換,將動態(tài)的第一人稱感知轉(zhuǎn)化為穩(wěn)定的三維環(huán)境地圖,并在需要時反向投影回自我中心視角,以便執(zhí)行具體動作。

內(nèi)部心理模型是框架的“內(nèi)心世界”,由兩部分組成:

 一是認(rèn)知地圖,模擬網(wǎng)格細(xì)胞與位置細(xì)胞的協(xié)作,既能進(jìn)行度量精確的路徑積分,也能在拓?fù)鋵用胬斫饪臻g關(guān)系,并通過情境重映射適應(yīng)環(huán)境變化。 

二是空間神經(jīng)記憶,將空間信息與語義標(biāo)簽綁定,形成情景化的空間記憶,并具備自適應(yīng)更新與鞏固機制。

這一組合讓 AI 不僅“知道”環(huán)境的形狀,還能“記住”環(huán)境的故事。

有了內(nèi)部模型,AI 才能進(jìn)入推理模塊。這里包含兩個關(guān)鍵能力: 其一是預(yù)測世界模型,通過模擬環(huán)境的未來狀態(tài)來進(jìn)行前瞻性規(guī)劃; 其二是顯式空間推理,將幾何、語義與任務(wù)目標(biāo)對齊,支持多步推理與策略生成。這一部分對應(yīng)于人類在海馬體與前額葉皮層中進(jìn)行的情景模擬與決策過程。

最后,框架將空間推理行為按分層主動推理(HAI)的思路進(jìn)行分類:從底層的三維感知推理,到中層的隱狀態(tài)推理(包括結(jié)構(gòu)推理、心理模擬、抽象推理),再到高層的策略選擇與執(zhí)行。這種分層不僅有助于任務(wù)分解,也方便在不同復(fù)雜度的環(huán)境中靈活調(diào)用相應(yīng)能力。

整個系統(tǒng)的信息流呈現(xiàn)出一個閉環(huán):多模態(tài)輸入采集環(huán)境信息,經(jīng) IPM 處理后完成視角轉(zhuǎn)換,進(jìn)入內(nèi)部心理模型進(jìn)行存儲與更新,再通過推理模塊生成預(yù)測與決策,最終驅(qū)動行動,并通過新的感知反饋不斷修正。這與人類大腦的感知—認(rèn)知—行動回路高度相似。

在神經(jīng)科學(xué)與 AI 模塊的映射上,視覺、聽覺、觸覺等感知通道對應(yīng)初級感官皮層;IPM 對應(yīng)多模態(tài)整合區(qū);視角轉(zhuǎn)換模塊模擬頂葉皮層與后扣帶皮層的交互;認(rèn)知地圖與空間記憶對應(yīng)海馬體與內(nèi)嗅皮層系統(tǒng);推理模塊則映射到前額葉皮層與海馬體的協(xié)同工作。這樣的設(shè)計不僅是功能上的類比,更是試圖在信息處理流程上復(fù)刻生物智能的核心邏輯。

如果說過去的空間智能研究更像是“拼裝零件”,那么這個框架則像是在搭建一套有機的生命體——它不僅能看、能記、能想,還能在不斷變化的世界中學(xué)會如何行動。

3.現(xiàn)有方法的框架化分析與研究缺口

當(dāng)我們提出的六大模塊框架去審視當(dāng)前的空間智能研究,就像拿著一張精細(xì)的藍(lán)圖去對照現(xiàn)有的建筑群——優(yōu)點與缺陷一目了然。技術(shù)團隊將這種差距凝練為五個研究缺口(Research Gaps, RG),每一個都直指現(xiàn)有技術(shù)的核心短板。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖8:盡管該網(wǎng)絡(luò)實現(xiàn)了選擇性視覺表示以提高泛化能力,但碼本瓶頸限制了對新環(huán)境的適應(yīng)性,并限制了學(xué)習(xí)特征的表現(xiàn)力,特別是在動態(tài)或高度可變的視覺環(huán)境中。

在多模態(tài)感知方面(RG-1),現(xiàn)有方法往往是“各自為政”。視覺、聽覺、觸覺等感知通道大多在獨立的模型中處理,缺乏統(tǒng)一的高效融合機制。雖然多模態(tài)學(xué)習(xí)已經(jīng)是熱門方向,但在空間智能領(lǐng)域,跨模態(tài)信息的時間同步、噪聲抑制與動態(tài)權(quán)重分配仍顯稚嫩。這意味著,當(dāng)環(huán)境信息不完整或某一模態(tài)受干擾時,系統(tǒng)的魯棒性會迅速下降。

視角轉(zhuǎn)換的不足(RG-2)則是另一個明顯的短板。人類可以在自我中心視角與客體中心視角之間自如切換,但現(xiàn)有AI 系統(tǒng)往往只能在幾何層面或符號層面進(jìn)行單向轉(zhuǎn)換,缺乏雙向、實時且語義一致的映射能力。這種缺陷在需要同時理解局部細(xì)節(jié)與全局布局的任務(wù)中尤為致命,例如機器人在陌生環(huán)境中導(dǎo)航時,很難將即時感知與長期地圖無縫對接。

認(rèn)知地圖建模的缺陷(RG-3)更多體現(xiàn)在生物啟發(fā)的深度不足。雖然已有研究嘗試用深度神經(jīng)網(wǎng)絡(luò)模擬網(wǎng)格細(xì)胞和位置細(xì)胞的功能,但在錨定機制、漂移校正、多場編碼以及情境重映射等關(guān)鍵能力上,仍與生物系統(tǒng)相去甚遠(yuǎn)。結(jié)果是,這些人工認(rèn)知地圖在長時間運行或環(huán)境變化時容易失真,缺乏持久性與適應(yīng)性。

空間記憶系統(tǒng)的短板(RG-4)則揭示了幾何與語義融合的脆弱性。當(dāng)前的空間記憶往往在遮擋、動態(tài)變化或新奇場景下表現(xiàn)不穩(wěn),情景推理的可擴展性差。更重要的是,缺乏類似人類的“冷熱雙層”記憶機制——既能快速記錄新信息,又能在長期中鞏固有價值的知識。

推理模塊的瓶頸(RG-5)是整個鏈條的高層問題。隱式世界模型雖然能在一定程度上捕捉環(huán)境動態(tài),但缺乏顯式的多步推理能力;而顯式推理方法又往往局限于靜態(tài)、任務(wù)特定的場景,難以應(yīng)對開放環(huán)境的復(fù)雜性。這種局限使得 AI 在面對需要長程規(guī)劃、情景模擬和策略調(diào)整的任務(wù)時,顯得力不從心。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖9:代表作品在(a)認(rèn)知地圖模塊和(b)空間神經(jīng)記憶模塊中量身定制。

技術(shù)團隊的分析方法很有意思——他們不是孤立地批評某個算法,而是將現(xiàn)有研究逐一映射到框架的各個模塊,像做系統(tǒng)體檢一樣標(biāo)出每個環(huán)節(jié)的健康指數(shù)。這種“模塊對照法”不僅揭示了單點問題,更暴露了跨模塊協(xié)同的缺失。例如,多模態(tài)感知的不足會直接影響視角轉(zhuǎn)換的質(zhì)量,認(rèn)知地圖的不穩(wěn)定又會削弱推理模塊的有效性。

這種全景式的剖析,讓人清楚地看到:要讓 AI 真正具備類人的空間智能,不能只在某個環(huán)節(jié)做加法,而是要在感知、表征、記憶與推理之間建立起穩(wěn)固而靈活的橋梁。

4.數(shù)據(jù)集與應(yīng)用場景

在構(gòu)建類人空間智能的道路上,數(shù)據(jù)集不僅是訓(xùn)練材料,更是檢驗系統(tǒng)能力的試金石。技術(shù)團隊將現(xiàn)有數(shù)據(jù)集按照分層主動推理(HAI)的三層結(jié)構(gòu)進(jìn)行整理,這種分類方式讓人一眼就能看出每個數(shù)據(jù)集在能力培養(yǎng)中的位置與作用。

在感知層,數(shù)據(jù)集主要聚焦于多模態(tài)輸入的獲取與融合,例如包含視覺、深度、觸覺、聽覺等多源信息的環(huán)境掃描任務(wù)。這一層的數(shù)據(jù)幫助系統(tǒng)學(xué)會“看得見、聽得到、摸得著”,為后續(xù)的空間表征打下基礎(chǔ)。

隱狀態(tài)層的數(shù)據(jù)集則更強調(diào)對不可直接觀測信息的推斷,比如通過部分可見的場景推測完整布局,或在動態(tài)環(huán)境中預(yù)測物體的未來位置。這類任務(wù)考驗的是系統(tǒng)的內(nèi)部建模與情景模擬能力,類似人類在腦中“補全”缺失畫面的過程。

策略層的數(shù)據(jù)集則直接面向決策與行動,例如復(fù)雜環(huán)境下的路徑規(guī)劃、多目標(biāo)任務(wù)的優(yōu)先級排序、與人類協(xié)作的任務(wù)分配等。這一層的數(shù)據(jù)不僅要求系統(tǒng)理解空間,還要能在空間中制定并執(zhí)行有效策略。

這種分層整理的好處在于,可以針對性地評估和優(yōu)化系統(tǒng)的不同能力模塊,同時也為跨層能力的培養(yǎng)提供了清晰的路線圖。

下一代智能體,用大腦的方式看世界、走世界-AI.x社區(qū)

圖10:來自代理空間智能的應(yīng)用,包括(a)虛擬和(b)物理應(yīng)用。

在應(yīng)用領(lǐng)域上,這一框架的潛力幾乎覆蓋了虛擬與物理的雙重世界。虛擬環(huán)境中,它可以為 VR/XR 帶來更自然的空間交互,讓元宇宙中的虛擬助理具備真實世界的空間感知與導(dǎo)航能力;在物理環(huán)境中,它能賦能家用機器人在雜亂的客廳中靈活穿行,幫助工業(yè)制造機器人在動態(tài)生產(chǎn)線上精準(zhǔn)協(xié)作,甚至在醫(yī)療輔助中為手術(shù)機器人提供更安全的空間定位與操作能力。

5.未來研究路線圖

技術(shù)團隊在結(jié)尾描繪了一幅清晰的未來藍(lán)圖,既是技術(shù)發(fā)展的方向,也是科研與產(chǎn)業(yè)可以共同努力的坐標(biāo)系。

首先是生物啟發(fā)的多模態(tài)感知。未來的感知系統(tǒng)不僅要像人類一樣整合視覺、聽覺、觸覺等信息,還要具備動態(tài)注意力機制和事件驅(qū)動編碼能力,讓感知更高效、更貼近真實世界的節(jié)奏。

其次是顯式雙向空間視角轉(zhuǎn)換。AI 需要能夠在自我中心與客體中心視角之間自由切換,并保持幾何與語義的一致性。這種能力將讓智能體在局部操作與全局規(guī)劃之間無縫銜接。

混合型認(rèn)知地圖建模也是關(guān)鍵一步。未來的認(rèn)知地圖應(yīng)同時具備度量精度、拓?fù)浣Y(jié)構(gòu)與語義標(biāo)簽,并能根據(jù)任務(wù)需求進(jìn)行分層抽象,從而在不同尺度與復(fù)雜度的環(huán)境中都能高效運作。

自適應(yīng)空間記憶系統(tǒng)則強調(diào)記憶的靈活性與持久性。通過冷熱雙層記憶機制,系統(tǒng)既能快速記錄新信息,又能在長期中鞏固有價值的知識,并在環(huán)境變化時進(jìn)行自我更新與重構(gòu)。

最后,是具預(yù)測性的空間推理與情感推理融合。未來的智能體不僅要能預(yù)測物理世界的變化,還要理解和推測人類的意圖與情感,從而在協(xié)作與交互中展現(xiàn)更高的適應(yīng)性與親和力。

這條路線圖的意義在于,它不僅為學(xué)術(shù)研究提供了明確的攻關(guān)方向,也為產(chǎn)業(yè)界指明了技術(shù)落地的優(yōu)先級??梢灶A(yù)見,隨著這些能力的逐步實現(xiàn),AI 將從“會動的機器”進(jìn)化為真正能在空間中理解、推理、協(xié)作的智能伙伴。(END)

參考資料:??https://arxiv.org/pdf/2509.09154??

本文轉(zhuǎn)載自??波動智能??,作者:FlerkenS

標(biāo)簽
已于2025-9-23 07:02:15修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦