讓AI像人類一樣認(rèn)知真實(shí)世界!UCLA谷歌強(qiáng)強(qiáng)聯(lián)手,長(zhǎng)時(shí)記憶+3D空間理解超越基線16.5%
想象一下,你在一個(gè)陌生的房子里尋找合適的禮物盒包裝泰迪熊,需要記住每個(gè)房間里的物品特征、位置關(guān)系,并根據(jù)反饋調(diào)整行動(dòng)。
這一系列過(guò)程依賴人類強(qiáng)大的空間-時(shí)間長(zhǎng)時(shí)記憶。
圖片
如何讓AI在3D環(huán)境中像人類一樣思考,一直是具身智能領(lǐng)域的難題。
加州大學(xué)洛杉磯分校(UCLA)與谷歌研究院的研究團(tuán)隊(duì)帶來(lái)了最新進(jìn)展:3DLLM-MEM模型與3DMEM-BENCH基準(zhǔn),讓AI首次具備在復(fù)雜3D環(huán)境中構(gòu)建、維護(hù)和利用長(zhǎng)時(shí)記憶的能力。
圖片
挑戰(zhàn):3D環(huán)境中的記憶困境
現(xiàn)有大語(yǔ)言模型(LLMs)在文本理解中表現(xiàn)卓越,但當(dāng)“進(jìn)入”動(dòng)態(tài)3D環(huán)境時(shí)卻舉步維艱。存在以下問題:
- 長(zhǎng)時(shí)記憶斷層在多房間任務(wù)中(如跨客廳、臥室、廚房尋找物品),模型難以關(guān)聯(lián)不同時(shí)空的觀察,常因“遺忘”關(guān)鍵信息導(dǎo)致任務(wù)失敗。
- 空間表征缺失傳統(tǒng)模型依賴稀疏或物體中心的表征,無(wú)法捕捉3D環(huán)境中復(fù)雜的幾何關(guān)系(如家具布局、物體尺寸對(duì)比),而這些細(xì)節(jié)對(duì)任務(wù)成敗至關(guān)重要(如判斷禮物盒是否“太松”或“太大”)。
- 時(shí)空動(dòng)態(tài)管理環(huán)境變化(如移動(dòng)家具、使用物品)會(huì)導(dǎo)致記憶過(guò)時(shí),但現(xiàn)有模型缺乏動(dòng)態(tài)更新機(jī)制,難以區(qū)分“舊記憶”與“新狀態(tài)”。
簡(jiǎn)單地說(shuō),模型無(wú)法像人類一樣形成“認(rèn)知地圖”并靈活調(diào)用記憶的核心問題在于缺乏針對(duì)3D空間-時(shí)間的記憶建模。
突破:3DMEM-BENCH基準(zhǔn)與3DLLM-MEM模型
圖片
為系統(tǒng)評(píng)估具身智能的記憶能力,研究團(tuán)隊(duì)構(gòu)建了3DMEM-BENCH——首個(gè)3D長(zhǎng)時(shí)記憶評(píng)估基準(zhǔn)。
其核心特點(diǎn)包括:
1.大規(guī)模與多樣性
包含26,000+軌跡、1,860個(gè)具身任務(wù)(從簡(jiǎn)單物品收集到復(fù)雜跨房間推理),覆蓋182個(gè)3D場(chǎng)景(平均每個(gè)場(chǎng)景18個(gè)房間)。
2.多維度評(píng)估
- 具身任務(wù):要求模型執(zhí)行跨房間動(dòng)作鏈(如“在客廳找到泰迪熊,到臥室試裝小盒子,再到廚房試裝大盒子,最終返回客廳選擇最合適的盒子”)。
- 時(shí)空問答(EQA):測(cè)試空間關(guān)系推理(如“任務(wù)完成后,站在餐桌前,梳妝臺(tái)在左側(cè)還是右側(cè)?”)。
- 場(chǎng)景描述:總結(jié)多房間記憶中的共性與差異(如“之前的房間有櫥柜和床,當(dāng)前房間獨(dú)特之處在于整面墻的衣柜”)。
3.難度分級(jí)
任務(wù)分為簡(jiǎn)單(3房間)、中等(5房間)、困難(10房間),并包含“野外挑戰(zhàn)”(從未見過(guò)的物體或場(chǎng)景),全面考察模型泛化能力。
4.對(duì)比現(xiàn)有基準(zhǔn)
相較于ALFWorld、Behavior-1K等,3DMEM-BENCH首次聚焦“長(zhǎng)時(shí)記憶”與“3D空間理解”的結(jié)合,填補(bǔ)了領(lǐng)域空白。
圖片
針對(duì)記憶難題,研究團(tuán)隊(duì)提出3DLLM-MEM模型——一款雙記憶系統(tǒng)驅(qū)動(dòng)的具身智能體。
其設(shè)計(jì)靈感源自人類認(rèn)知結(jié)構(gòu):
1.雙記憶架構(gòu)
- 工作記憶(Working Memory):存儲(chǔ)當(dāng)前觀察(如“當(dāng)前房間的書架上有紅色盒子”),容量有限但動(dòng)態(tài)更新。
- 情景記憶(Episodic Memory):以密集3D表征存儲(chǔ)歷史觀察與交互(如“廚房的藍(lán)色盒子太大,臥室的綠色盒子太小”),可擴(kuò)展且包含時(shí)空位置信息。
2.記憶融合模塊
工作記憶作為“查詢”,從情景記憶中選擇性提取與任務(wù)相關(guān)的特征(如“尋找合適禮物盒”時(shí),重點(diǎn)關(guān)注曾見過(guò)的盒子尺寸、位置),通過(guò)注意力機(jī)制融合兩者,既避免記憶過(guò)載,又確保關(guān)鍵信息不被遺漏。
3.動(dòng)態(tài)更新機(jī)制
當(dāng)環(huán)境變化(如移動(dòng)盒子),模型自動(dòng)更新情景記憶,確保記憶與當(dāng)前狀態(tài)一致。
圖片
3DLLM-MEM的核心優(yōu)勢(shì)在于:通過(guò)“選擇性記憶檢索+時(shí)空特征融合”,模型在復(fù)雜環(huán)境中既能聚焦任務(wù)關(guān)鍵信息,又能維持記憶效率。
驗(yàn)證:超越基線16.5%的記憶能力
圖片
在3DMEM-BENCH上的實(shí)驗(yàn)表明,3DLLM-MEM顯著優(yōu)于現(xiàn)有方法。
1.具身任務(wù)成功率
- 在最具挑戰(zhàn)性的“野外困難任務(wù)”中,3DLLM-MEM成功率達(dá)27.8%,遠(yuǎn)超基線模型(如“最近記憶”僅5%,“檢索增強(qiáng)記憶”僅10.6%)。
- 在“野外任務(wù)”整體成功率上,3DLLM-MEM達(dá)32.1%,比最強(qiáng)基線高16.5%。
2.時(shí)空推理能力
在EQA任務(wù)中,3DLLM-MEM在“空間關(guān)系”“跨房間對(duì)比”等子任務(wù)上準(zhǔn)確率超60%,而傳統(tǒng)3D-LLM因上下文限制,準(zhǔn)確率不足10%。
3.記憶效率
3DLLM-MEM模型通過(guò)“動(dòng)態(tài)融合”機(jī)制,僅需處理與當(dāng)前任務(wù)相關(guān)的記憶片段,計(jì)算成本比“全記憶存儲(chǔ)”降低,同時(shí)保持高推理精度。
典型案例包括:在“準(zhǔn)備早餐”任務(wù)中,3DLLM-MEM模型先在廚房尋找咖啡機(jī)未果,轉(zhuǎn)而利用記憶中“餐廳有茶壺”的信息,調(diào)整策略煮茶完成任務(wù),體現(xiàn)了靈活的記憶調(diào)用與任務(wù)規(guī)劃能力。
盡管3DLLM-MEM已實(shí)現(xiàn)重大突破,研究團(tuán)隊(duì)也指出其局限性:目前模型依賴模擬器的高層動(dòng)作預(yù)設(shè),未來(lái)需與底層導(dǎo)航和控制結(jié)合。
論文連接: https://arxiv.org/abs/2505.22657項(xiàng)目主頁(yè): https://3dllm-mem.github.io