偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

讓AI像人類一樣認(rèn)知真實(shí)世界！UCLA谷歌強(qiáng)強(qiáng)聯(lián)手，長(zhǎng)時(shí)記憶+3D空間理解超越基線16.5%

2025-06-04 11:08:28

3DLLM-MEM模型通過(guò)“動(dòng)態(tài)融合”機(jī)制，僅需處理與當(dāng)前任務(wù)相關(guān)的記憶片段，計(jì)算成本比“全記憶存儲(chǔ)”降低，同時(shí)保持高推理精度。

想象一下，你在一個(gè)陌生的房子里尋找合適的禮物盒包裝泰迪熊，需要記住每個(gè)房間里的物品特征、位置關(guān)系，并根據(jù)反饋調(diào)整行動(dòng)。

這一系列過(guò)程依賴人類強(qiáng)大的空間-時(shí)間長(zhǎng)時(shí)記憶。

圖片

如何讓AI在3D環(huán)境中像人類一樣思考，一直是具身智能領(lǐng)域的難題。

加州大學(xué)洛杉磯分校（UCLA）與谷歌研究院的研究團(tuán)隊(duì)帶來(lái)了最新進(jìn)展：3DLLM-MEM模型與3DMEM-BENCH基準(zhǔn)，讓AI首次具備在復(fù)雜3D環(huán)境中構(gòu)建、維護(hù)和利用長(zhǎng)時(shí)記憶的能力。

圖片

挑戰(zhàn)：3D環(huán)境中的記憶困境

現(xiàn)有大語(yǔ)言模型（LLMs）在文本理解中表現(xiàn)卓越，但當(dāng)“進(jìn)入”動(dòng)態(tài)3D環(huán)境時(shí)卻舉步維艱。存在以下問題：

長(zhǎng)時(shí)記憶斷層在多房間任務(wù)中（如跨客廳、臥室、廚房尋找物品），模型難以關(guān)聯(lián)不同時(shí)空的觀察，常因“遺忘”關(guān)鍵信息導(dǎo)致任務(wù)失敗。
空間表征缺失傳統(tǒng)模型依賴稀疏或物體中心的表征，無(wú)法捕捉3D環(huán)境中復(fù)雜的幾何關(guān)系（如家具布局、物體尺寸對(duì)比），而這些細(xì)節(jié)對(duì)任務(wù)成敗至關(guān)重要（如判斷禮物盒是否“太松”或“太大”）。
時(shí)空動(dòng)態(tài)管理環(huán)境變化（如移動(dòng)家具、使用物品）會(huì)導(dǎo)致記憶過(guò)時(shí)，但現(xiàn)有模型缺乏動(dòng)態(tài)更新機(jī)制，難以區(qū)分“舊記憶”與“新狀態(tài)”。

簡(jiǎn)單地說(shuō)，模型無(wú)法像人類一樣形成“認(rèn)知地圖”并靈活調(diào)用記憶的核心問題在于缺乏針對(duì)3D空間-時(shí)間的記憶建模。

突破：3DMEM-BENCH基準(zhǔn)與3DLLM-MEM模型

圖片

為系統(tǒng)評(píng)估具身智能的記憶能力，研究團(tuán)隊(duì)構(gòu)建了3DMEM-BENCH——首個(gè)3D長(zhǎng)時(shí)記憶評(píng)估基準(zhǔn)。

其核心特點(diǎn)包括：

1.大規(guī)模與多樣性

包含26,000+軌跡、1,860個(gè)具身任務(wù)（從簡(jiǎn)單物品收集到復(fù)雜跨房間推理），覆蓋182個(gè)3D場(chǎng)景（平均每個(gè)場(chǎng)景18個(gè)房間）。

2.多維度評(píng)估

具身任務(wù)：要求模型執(zhí)行跨房間動(dòng)作鏈（如“在客廳找到泰迪熊，到臥室試裝小盒子，再到廚房試裝大盒子，最終返回客廳選擇最合適的盒子”）。
時(shí)空問答（EQA）：測(cè)試空間關(guān)系推理（如“任務(wù)完成后，站在餐桌前，梳妝臺(tái)在左側(cè)還是右側(cè)？”）。
場(chǎng)景描述：總結(jié)多房間記憶中的共性與差異（如“之前的房間有櫥柜和床，當(dāng)前房間獨(dú)特之處在于整面墻的衣柜”）。

3.難度分級(jí)

任務(wù)分為簡(jiǎn)單（3房間）、中等（5房間）、困難（10房間），并包含“野外挑戰(zhàn)”（從未見過(guò)的物體或場(chǎng)景），全面考察模型泛化能力。

4.對(duì)比現(xiàn)有基準(zhǔn)

相較于ALFWorld、Behavior-1K等，3DMEM-BENCH首次聚焦“長(zhǎng)時(shí)記憶”與“3D空間理解”的結(jié)合，填補(bǔ)了領(lǐng)域空白。

圖片

針對(duì)記憶難題，研究團(tuán)隊(duì)提出3DLLM-MEM模型——一款雙記憶系統(tǒng)驅(qū)動(dòng)的具身智能體。

其設(shè)計(jì)靈感源自人類認(rèn)知結(jié)構(gòu)：

1.雙記憶架構(gòu)

工作記憶（Working Memory）：存儲(chǔ)當(dāng)前觀察（如“當(dāng)前房間的書架上有紅色盒子”），容量有限但動(dòng)態(tài)更新。
情景記憶（Episodic Memory）：以密集3D表征存儲(chǔ)歷史觀察與交互（如“廚房的藍(lán)色盒子太大，臥室的綠色盒子太小”），可擴(kuò)展且包含時(shí)空位置信息。

2.記憶融合模塊

工作記憶作為“查詢”，從情景記憶中選擇性提取與任務(wù)相關(guān)的特征（如“尋找合適禮物盒”時(shí)，重點(diǎn)關(guān)注曾見過(guò)的盒子尺寸、位置），通過(guò)注意力機(jī)制融合兩者，既避免記憶過(guò)載，又確保關(guān)鍵信息不被遺漏。

3.動(dòng)態(tài)更新機(jī)制

當(dāng)環(huán)境變化（如移動(dòng)盒子），模型自動(dòng)更新情景記憶，確保記憶與當(dāng)前狀態(tài)一致。

圖片

3DLLM-MEM的核心優(yōu)勢(shì)在于：通過(guò)“選擇性記憶檢索+時(shí)空特征融合”，模型在復(fù)雜環(huán)境中既能聚焦任務(wù)關(guān)鍵信息，又能維持記憶效率。

驗(yàn)證：超越基線16.5%的記憶能力

圖片

在3DMEM-BENCH上的實(shí)驗(yàn)表明，3DLLM-MEM顯著優(yōu)于現(xiàn)有方法。

1.具身任務(wù)成功率

在最具挑戰(zhàn)性的“野外困難任務(wù)”中，3DLLM-MEM成功率達(dá)27.8%，遠(yuǎn)超基線模型（如“最近記憶”僅5%，“檢索增強(qiáng)記憶”僅10.6%）。
在“野外任務(wù)”整體成功率上，3DLLM-MEM達(dá)32.1%，比最強(qiáng)基線高16.5%。

2.時(shí)空推理能力

在EQA任務(wù)中，3DLLM-MEM在“空間關(guān)系”“跨房間對(duì)比”等子任務(wù)上準(zhǔn)確率超60%，而傳統(tǒng)3D-LLM因上下文限制，準(zhǔn)確率不足10%。

3.記憶效率

3DLLM-MEM模型通過(guò)“動(dòng)態(tài)融合”機(jī)制，僅需處理與當(dāng)前任務(wù)相關(guān)的記憶片段，計(jì)算成本比“全記憶存儲(chǔ)”降低，同時(shí)保持高推理精度。

典型案例包括：在“準(zhǔn)備早餐”任務(wù)中，3DLLM-MEM模型先在廚房尋找咖啡機(jī)未果，轉(zhuǎn)而利用記憶中“餐廳有茶壺”的信息，調(diào)整策略煮茶完成任務(wù)，體現(xiàn)了靈活的記憶調(diào)用與任務(wù)規(guī)劃能力。

盡管3DLLM-MEM已實(shí)現(xiàn)重大突破，研究團(tuán)隊(duì)也指出其局限性：目前模型依賴模擬器的高層動(dòng)作預(yù)設(shè)，未來(lái)需與底層導(dǎo)航和控制結(jié)合。

論文連接: https://arxiv.org/abs/2505.22657項(xiàng)目主頁(yè): https://3dllm-mem.github.io

責(zé)任編輯：武曉燕來(lái)源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="lq7uc"><dfn id="lq7uc"></dfn></pre>