偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲

發(fā)布于 2024-3-29 10:32
瀏覽
0收藏

谷歌DeepMind的研究人員推出了一種面向3D環(huán)境的通用AI代理——SIMA。


SIMA無需訪問游戲的源代碼,也不需要定制的API。只需要輸入圖像和用戶提供的簡單自然語言文本指令,SIMA就能像人類玩家一樣執(zhí)行走路、跑步、建造、打開地圖等各種游戲中的操作。


為了測試、訓練SIMA的性能,研究人員與8個游戲工作室合作,在《無人深空》、《模擬山羊3》、《Teardown》、《挖礦模擬器》等知名復雜3D游戲上進行了綜合測試。

結果顯示,用戶只需要在游戲中提供簡單的文本、圖像提示,SIMA就能執(zhí)行挖礦、開飛船、制作裝備、打開外骨骼、搜集任務、爬樓梯等600多種基本操作,每個動作可以在大約10秒內完成。


技術報告:?https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling Instructable Agents Across Many Simulated Worlds.pdf??

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲-AI.x社區(qū)

在游戲場景中測試AI代理是一個重要課題,與傳統(tǒng)的沙盒2D方法不同的是,SIMA選擇了操作、環(huán)境、視覺難度更高的3D游戲。


SIMA使用了大模型的訓練方法,通過廣泛的數(shù)據(jù)分布來識別那些復雜的動作,同時無需為每個新游戲設計特定的控制、觀察模塊,就能理解人類的文本指令,并將其轉化為具體的行動。

多種大模型組成的“人體”

?

從SIMA的總體架構來看,由多種大模型組合而成像是在模仿人體。視覺感知模型充當“眼睛”、大語言模型充當“大腦”、建模規(guī)劃模型充當“思維”、控制和執(zhí)行模型充當“四肢”。

也就是說SIMA在接收到指令后,會用人的方式去思考、規(guī)劃接收到的任務,然后再去執(zhí)行。

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲-AI.x社區(qū)

視覺感知模型:視覺感知模塊負責處理AI代理的圖像觀察,并提取關鍵信息以輔助語言指令的理解和環(huán)境的交互。該模塊使用卷積神經(jīng)網(wǎng)絡(CNN)等深度學習技術對輸入的圖像數(shù)據(jù)進行處理和特征提取。


使得SIMA能夠識別和分析圖像中的物體、場景和空間位置等重要信息,以幫助AI代理更好地理解語言指令,并在虛擬世界中進行準確的交互和操作。

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲-AI.x社區(qū)

大語言模型:主要負責解析和理解輸入的自然語言指令。使用了NLP、詞嵌入、序列模型和注意力機制等技術,將語言指令轉化為機器可理解的表示。


使得AI代理能夠準確地理解和解釋指令中的動作和目標,為后續(xù)的建模和規(guī)劃提供基礎。

建模規(guī)劃模型:通過強化學習和規(guī)劃算法,與環(huán)境的交互和反饋來學習最佳的行動策略。AI代理通過不斷嘗試和優(yōu)化,逐漸掌握了在不同環(huán)境下執(zhí)行任務的能力。


可根據(jù)語言指令、視覺感知信息和當前環(huán)境狀態(tài),生成有效的動作序列,以實現(xiàn)任務的完成。

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲-AI.x社區(qū)

控制和執(zhí)行模型:主要負責將生成的動作序列轉化為實際的動作控制指令,并映射到鍵盤、鼠標上,以驅動AI代理在3D游戲中執(zhí)行任務,例如,移動、跳躍、奔跑、挖礦等,同時可根據(jù)環(huán)境的反饋進行自適應調整和優(yōu)化。


數(shù)據(jù)收集和預處理

數(shù)據(jù)收集和預處理是SIMA的核心模塊之一,主要獲取、準備和處理用于訓練和評估AI代理的數(shù)據(jù)。


研究人員從商業(yè)游戲等環(huán)境搜集了海量數(shù)據(jù),搜集完成后對數(shù)據(jù)進行了清洗、轉換和標準化數(shù)據(jù)操作,方便后續(xù)的訓練和分析。

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲-AI.x社區(qū)

數(shù)據(jù)清洗:對原始數(shù)據(jù)進行去噪和異常值處理,可能會存在一些噪聲或異常數(shù)據(jù),例如,圖像中的視覺干擾或語言指令中的錯誤字符。研究人員通過采用圖像去噪和文本糾錯的方式,來消除這些干擾因素。


數(shù)據(jù)轉換:在進行訓練之前,需要將原始數(shù)據(jù)轉換為機器可處理的格式。圖像數(shù)據(jù),可以使用圖像處理技術進行特征提取或縮放操作,以便于模型的訓練和推理;


文本數(shù)據(jù),可以進行詞匯化、分詞和編碼等處理,將其轉換為數(shù)值表示形式輸入到深度學習模型中。


數(shù)據(jù)標準化:為了確保數(shù)據(jù)的一致性和可比性,需要對數(shù)據(jù)進行標準化處理。包括對圖像進行歸一化或標準化,以使其具有相似的亮度、對比度和顏色分布。對于文本數(shù)據(jù),可以進行詞干化、停用詞移除和詞向量化等操作。

谷歌推出通用AI代理:能自動執(zhí)行600多種動作,游玩復雜3D游戲-AI.x社區(qū)

經(jīng)過一系列數(shù)據(jù)清洗、轉換、標準化后,可以幫助SIMA更好地去學習游戲中的物體、動作、交互等,從而提升整體的動作指令準確率。


研究人員表示,未來,會持續(xù)迭代SIMA的通用代理能力,希望可以在實際生活中幫助用戶做更多的事情。


本文轉自  AIGC開放社區(qū),作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/_VRuFCyk836Q9kmqpBHgLQ??

標簽
收藏
回復
舉報
回復
相關推薦