南洋理工、北大、上海AI實驗室開源長記憶世界模型
目前,世界模型的模擬方法在維持長期一致性方面仍面臨巨大挑戰(zhàn)。許多模擬環(huán)境在視角移動或時間推移后會出現(xiàn)內(nèi)容變化,導致 3D 空間不一致,嚴重影響了用戶體驗和模擬效果的可靠性。
為了解決這一難題,南洋理工大學、北京大學王選計算機技術研究所、上海人工智能實驗室的研究人員聯(lián)合開源了長記憶世界模型WORLDMEM。
WORLDMEM的核心在于其獨特的記憶機制,通過構建一個包含記憶單元的存儲庫,每個記憶單元都儲存著記憶幀和狀態(tài)信息,例如,姿勢和時間戳,能夠基于狀態(tài)信息有效地從記憶幀中提取相關信息,從而精準地重構之前觀察到的場景,即使在視角或時間間隔顯著的情況下也能做到。

開源地址:https://github.com/xizaoqu/WorldMem
WORLDMEM的記憶機制是整個模型的核心,相當于一個“記憶庫”,持續(xù)不斷地收集并存儲著虛擬世界中的視覺信息和狀態(tài)信息。這些信息被封裝成一個個記憶單元,每個單元都包含了特定時刻的場景畫面以及與之相關的狀態(tài)數(shù)據(jù)。這種設計巧妙地突破了傳統(tǒng)方法中時間上下文窗口的限制,不再受制于短暫的時間跨度,從而能夠長期保留環(huán)境的細節(jié)和歷史事件。
在生成新場景時,記憶機制的作用尤為關鍵。能從海量的記憶單元中精準地檢索出與當前場景最為相關的部分。該過程并非簡單的信息提取,而是基于復雜的推理和匹配,確保所提取的記憶能夠與當前的視角、時間點以及場景狀態(tài)相契合。
例如,當虛擬角色在虛擬世界中移動并返回到之前的位置時,記憶機制能夠迅速找到之前該位置的記憶幀,并將其細節(jié)融入到新生成的場景中,從而保證場景的一致性和連貫性。
記憶機制的另一個重要特點是它的動態(tài)更新能力。隨著虛擬世界的發(fā)展和變化,新的場景不斷產(chǎn)生,記憶庫也會相應地進行更新。這使得記憶庫始終保持著對最新環(huán)境狀態(tài)的記錄,同時也保證了記憶單元的質量和相關性。這種動態(tài)更新機制不僅提高了場景生成的準確性和一致性,還為虛擬世界的長期演變提供了堅實的基礎。

交互式世界模擬基礎架構扮演著“舞臺”的角色,為虛擬世界的構建和角色的互動提供了必要的環(huán)境和條件。這一架構基于條件擴散變換器(CDiT)構建,它能夠將外部動作信號整合到場景生成過程中,從而實現(xiàn)對虛擬世界的第一人稱視角生成。這種設計使得虛擬角色能夠根據(jù)用戶的指令或預設的動作模式,在虛擬世界中自由地移動、探索和互動。
WORLDMEM采用了擴散強迫技術進行訓練。這種技術的核心在于通過自回歸生成的方式,支持虛擬世界在時間維度上的長期模擬。在訓練過程中,模型會學習如何根據(jù)當前的場景和動作信號,逐步生成后續(xù)的場景序列。這種逐步生成的方式不僅保證了場景生成的連貫性和一致性,還能夠靈活地應對各種不同的動作指令和場景變化。

在交互式世界模擬基礎架構中,動作信號的處理尤為關鍵。WORLDMEM 將動作信號通過一個多層感知機投影到嵌入空間中,并采用 AdaLN 技術將動作嵌入和去噪時間步嵌入相結合。這種處理方式使得動作信號能夠以一種更加緊湊和有效的形式融入到場景生成過程中,從而提高了模型對動作信號的響應能力和場景生成的準確性。
此外,交互式世界模擬基礎架構還具備強大的靈活性和可擴展性。它能夠適應各種不同的虛擬環(huán)境和動作模態(tài),從簡單的導航任務到復雜的交互場景,都能夠提供高質量的場景生成和角色互動體驗。

記憶檢索策略是連接記憶庫和場景生成過程的關鍵環(huán)節(jié),它負責從龐大的記憶庫中精準地挖掘出與當前場景最為相關的信息。這一過程的效率和準確性直接關系到場景生成的質量和一致性。
記憶檢索策略的核心在于一種基于幀對相似度的貪婪匹配算法。該算法通過計算記憶幀與當前幀之間的相似度,來確定哪些記憶幀對當前場景的生成最為重要。相似度的計算綜合考慮了多種因素,包括視場重疊比率和時間戳差異等。
視場重疊比率反映了記憶幀與當前幀在視覺上的相似程度,而時間戳差異則考慮了時間上的相關性。通過這種綜合評估,算法能夠為每個記憶幀賦予一個置信度分數(shù),從而實現(xiàn)對記憶幀的有效篩選和排序。
在篩選出置信度最高的記憶幀后,記憶檢索策略還會進一步應用相似性過濾。這一過程的目的是去除那些與已選記憶幀過于相似的冗余記憶單元,從而確保所檢索到的記憶幀在信息上的多樣性和互補性。通過這種方式,記憶檢索策略不僅提高了檢索效率,還增強了場景生成的質量和一致性。


































