偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

給AI Agent完整的一生!港大NYU謝賽寧等最新智能體研究:虛擬即現(xiàn)實(shí)

人工智能 新聞
近日,來自香港大學(xué)的Jihan Yang和紐約大學(xué)的謝賽寧等人發(fā)表了新的成果,將真實(shí)世界的地圖、街景等各種信息融入Agent所在的虛擬世界,為智能體的未來賦予了無限可能。

怎樣能構(gòu)建更強(qiáng)大的AI Agent?

答案是給他們一個(gè)完整而真實(shí)的世界。

最近,來自香港大學(xué)的Jihan Yang和紐約大學(xué)的謝賽寧等人,聯(lián)合發(fā)表了一項(xiàng)新研究:在虛擬環(huán)境中模擬現(xiàn)實(shí)世界。

圖片

論文地址:https://arxiv.org/abs/2402.03310

代碼地址:https://github.com/VIRL-Platform/VIRL

項(xiàng)目名稱V-IRL,能夠彌合數(shù)字環(huán)境與人類居住的世界之間存在的巨大差距,讓Agent在模擬的真實(shí)世界環(huán)境中執(zhí)行各種復(fù)雜的任務(wù)。

V-IRL中的環(huán)境數(shù)據(jù)完全來源于真實(shí)世界:地圖、地理信息、街景......可以說,V-IRL給了Agent真實(shí)而完整的一生。

V-IRL是一個(gè)可擴(kuò)展的平臺,利用地圖、地理空間和街景圖像等API將AI智能體嵌入到地球上的真實(shí)城市中。

V-IRL可以作為一個(gè)巨大的測試平臺,用于衡量開放世界計(jì)算機(jī)視覺和具身人工智能的進(jìn)展,具有前所未有的規(guī)模和多樣性,提供對全球數(shù)千億張圖像的結(jié)構(gòu)化訪問。

截至2022年5月,僅Google街景就擁有超過2200億張圖像,并且還有許多其他圖像和數(shù)據(jù)來源可以合并以豐富環(huán)境。

V-IRL Agent

研究人員使用V-IRL實(shí)例化了一系列智能體,他們以其豐富的感知和描述數(shù)據(jù)為基礎(chǔ),解決了各種實(shí)際任務(wù)。

圖片

比如這個(gè)Peng,為了注冊為訪問學(xué)生,需要訪問紐約市的幾個(gè)地方來獲得一些文件。

圖片

利用地理定位和地圖功能,Peng可以沿著最短的路徑行走來節(jié)約時(shí)間:

圖片

語言驅(qū)動

下面這位Aria,可以搜索附近的餐館。然后,她綜合公眾評論,通過GPT-4提出最終建議。

圖片

對于上面來自四川的Peng同學(xué),Aria推薦了辛辣的中式聯(lián)合餐廳Chow House,讓他嘗到了家的味道。

圖片

Vivek是一位房地產(chǎn)經(jīng)紀(jì)人,他使用房地產(chǎn)API在Peng所需的地區(qū)和價(jià)格范圍內(nèi)尋找潛在的公寓。

圖片

圖片

Vivek使用GPT-4提供整體評級和伴隨推理。他最推薦的是一套性價(jià)比高的1居室公寓,每月1986美元,靠近超市、2個(gè)公交車站和健身房。

視覺驅(qū)動

RX-399,是一個(gè)城市輔助機(jī)器人。

圖片

在下面的演示中,他沿著預(yù)定義的城市路線導(dǎo)航,使用開放世界探測器和地理定位模塊標(biāo)記所有垃圾箱。

圖片

Imani是一位城市規(guī)劃師,

圖片

她為RX-399設(shè)置了穿越中央公園和感興趣物體的路線,RX-399遍歷了這些路線并記錄了所有檢測到的實(shí)例。

在RX-399完成其路線后,Imani會以不同的細(xì)節(jié)水平分析RX-399收集的數(shù)據(jù)。

圖片

Imani使用RX-399收集的數(shù)據(jù)對紐約市中央公園的垃圾箱、消防栓、公園長椅進(jìn)行可視化。上圖顯示了公園內(nèi)垃圾箱、消防栓和長凳的一般分布,Imani還可以放大到特定區(qū)域。

Hiro是一位經(jīng)驗(yàn)豐富的旅行者,他使用開放世界檢測來尋找餐廳;使用VQA來選擇合適的道路;使用地點(diǎn)評論和LLM來決定一個(gè)地點(diǎn)是否適合自己。

圖片

下面是Hiro在香港的午餐探索:

圖片

圖片

圖片

圖片

圖片

協(xié)作

人類經(jīng)常通過協(xié)作來解決復(fù)雜的現(xiàn)實(shí)世界任務(wù)。將復(fù)雜任務(wù)拆解為簡單的子任務(wù),交給不同領(lǐng)域的專業(yè)人士。

所以當(dāng)Agent自己沒辦法完成任務(wù)的時(shí)候,就應(yīng)該求助。

圖片

Ling是個(gè)游客,她首先從當(dāng)?shù)厝四抢铽@得路線描述,然后在V-IRL中,Ling可以使用開放世界識別和地圖來調(diào)整自己的行進(jìn)路線。

圖片

同時(shí),識別街道上的視覺地標(biāo)有助于GPT-4就轉(zhuǎn)向方向、前進(jìn)和停止的位置給出正確的決定:

最后一位Diego是禮賓專家:

圖片

他不僅會考慮你的身體和精神狀態(tài)、每項(xiàng)活動的預(yù)算,還會預(yù)測你在參加每項(xiàng)活動時(shí)的狀態(tài)變化和費(fèi)用。

他會考慮到V-IRL平臺提供的真實(shí)旅行時(shí)間,并與另一個(gè)餐廳推薦Agent合作選擇合適的餐飲方案。

圖片

當(dāng)你調(diào)整了自己的狀態(tài)并通知Diego之后,他會立即修改計(jì)劃以滿足要求。

圖片

如上圖所示,Diego使用迭代計(jì)劃流程。首先,Diego使用GPT-4為第一項(xiàng)活動創(chuàng)建一個(gè)初步計(jì)劃草案,并將用戶的簡歷、要求和以前的活動納入工作記憶。

然后,通過分層協(xié)調(diào)(真實(shí)的地理空間/地點(diǎn)信息)、感知估算(活動成本和對人類狀態(tài)的影響)和監(jiān)督(預(yù)算和潛在干預(yù))對草案進(jìn)行細(xì)致完善。

系統(tǒng)基本原理

V-IRL的分層設(shè)計(jì)把全球各個(gè)真實(shí)的城市變成了一個(gè)龐大的虛擬空間。在這里,智能體可以被構(gòu)建出來解決實(shí)際任務(wù)。

其中,平臺是整個(gè)系統(tǒng)的基礎(chǔ),為智能體提供了必要的組件和基礎(chǔ)架構(gòu)。

在這之上,智能體能夠展現(xiàn)出感知、思考、行動和合作等更高級的能力。

最后,智能體通過這些能力和用戶自定義的信息,在針對特定任務(wù)設(shè)計(jì)的運(yùn)行程序中找到解決問題的方法。

圖片

V-IRL基準(zhǔn)測試

V-IRL基準(zhǔn)測試的核心在于它能夠處理來自真實(shí)世界感覺輸入的地理上多樣化的數(shù)據(jù),并且提供了一個(gè)便捷的API與谷歌地圖平臺(GMP)進(jìn)行交互。

基于此,研究人員構(gòu)建了三個(gè)V-IRL基準(zhǔn)測試,目的是檢驗(yàn)現(xiàn)有視覺模型處理這類開放世界數(shù)據(jù)的能力。

V-IRL地點(diǎn):定位

- 動機(jī)

人們每天在城市中穿梭,為了各種目的前往不同地點(diǎn)。

因此,可以利用街景圖像及其相關(guān)的地點(diǎn)數(shù)據(jù),來測試視覺模型在日常地點(diǎn)定位任務(wù)上的表現(xiàn)。

- 設(shè)置

研究人員對RX-399智能體進(jìn)行了微調(diào),使其能夠在定位和識別20種地點(diǎn)類型的同時(shí),穿越多邊形區(qū)域。

測試共包含三種知名的開放世界檢測模型:GroundingDINO、GLIP和Owl-ViT。

此外,研究人員還設(shè)置了一個(gè)簡單的基準(zhǔn)模型——CLIP(結(jié)合GLIP提案),即使用CLIP對GLIP提出的分類進(jìn)行重新分類。

模型的評估依據(jù)是定位召回率,即正確定位的地點(diǎn)數(shù)與總定位嘗試中的地點(diǎn)數(shù)之比。

圖片

- 結(jié)果

由下表所示,開放世界檢測器如GroundingDINO、Owl-ViT和GLIP對某些特定地點(diǎn)類型(例如學(xué)校、咖啡館和便利店)是有明顯偏好的。

與之相比,CLIP(結(jié)合 GLIP 提案)能識別更多種類的地點(diǎn)。這主要是因?yàn)閷ο髾z測數(shù)據(jù)集中存在的類別偏差,這些數(shù)據(jù)集通常只包含有限的詞匯。

因此,即便是使用了CLIP進(jìn)行初始化的檢測器,如Owl-ViT,其能識別的詞匯范圍也會在微調(diào)之后縮小。

這些發(fā)現(xiàn)表明,對于那些在對象檢測數(shù)據(jù)集中不太常見的類別,使用不依賴于特定類別的對象提案,進(jìn)而利用零樣本識別技術(shù)進(jìn)行開放世界定位,是一種很有潛力的方法。

圖片

圖片

V-IRL地點(diǎn):識別與視覺問答

- 動機(jī)

相較于在街景圖像上進(jìn)行的復(fù)雜的V-IRL地點(diǎn)定位任務(wù),人們在現(xiàn)實(shí)生活中可以通過近距離觀察來輕松識別各種商業(yè)場所。

鑒于此,研究人員對現(xiàn)有的視覺模型在兩種以地點(diǎn)為主的圖像感知任務(wù)上進(jìn)行了評估:

(1)識別具體的地點(diǎn)類型;

(2)通過視覺問答來識別人類的意圖,也就是意圖VQA。

- 設(shè)置

在識別方面,研究人員評估了10種開放世界識別模型。測試使用的是以地點(diǎn)為中心的圖像,而模型需要從96個(gè)選項(xiàng)中識別出地點(diǎn)類型。

圖片

圖片

圖片

在意圖VQA方面,研究人員還評估了8種多模態(tài)大語言模型(MM-LLM),方法是通過包含有4個(gè)選項(xiàng)的多選題來判斷人類的可能意圖。

V-IRL地點(diǎn)VQA的過程如下圖所示,其中每個(gè)問題的可能答案和正確答案都是由GPT-4自動生成的。

圖片

- 結(jié)果

如下表所示,在V-RL地點(diǎn)識別任務(wù)中,CLIP(L/14@336px)的表現(xiàn)超過了Eva-02-CLIP和SigLIP的最大版本,凸顯了CLIP數(shù)據(jù)的質(zhì)量之高。

表格的底部顯示,在意圖VQA方面,BLIP2、InstructBLIP和LLaVA-1.5表現(xiàn)優(yōu)異,而其他模型則表現(xiàn)不佳。

可以看到,這三個(gè)表現(xiàn)最好的MM-LLM在評估過程中給出了一致的答案,而其他模型因?yàn)檫x擇不一致而常常失敗。

圖片

V-IRL視覺語言導(dǎo)航

- 動機(jī)

Intentional Explorer和Tourist智能體想完成復(fù)雜的任務(wù),就必須要同時(shí)利用視覺和語言模型。

因此,研究人員通過引入結(jié)合了真實(shí)街景的新任務(wù),創(chuàng)建出了V-IRL視覺語言導(dǎo)航(VLN)基準(zhǔn)測試。

- 設(shè)置

研究人員微調(diào)了Tourist智能體的實(shí)現(xiàn)方式,將其識別組件替換為了不同的基準(zhǔn)測試模型,負(fù)責(zé)在導(dǎo)航過程中識別視覺地標(biāo)。接著,GPT-4會根據(jù)識別的結(jié)果預(yù)測下一步動作。其中,導(dǎo)航指令由Local智能體生成。

這里,研究人員共評估了四種方法在導(dǎo)航時(shí)識別地標(biāo)的能力:

(1)通過搜索附近地標(biāo)的近似方法;

(2)零樣本識別器CLIP和EVA-02-CLIP;

(3)多模態(tài)大語言模型LLaVA-1.5;

(4)使用OCR模型識別街景中的文本,然后通過GPT解析答案。

- 結(jié)果

如下表所示,當(dāng)使用oracle地標(biāo)信息時(shí),強(qiáng)大的LLM能夠精準(zhǔn)地理解導(dǎo)航指令并做出正確的決策,表現(xiàn)令人印象深刻。

但是,當(dāng)依賴視覺模型從街景獲取地標(biāo)信息時(shí),成功率大幅下降,這說明視覺模型的感知存在誤導(dǎo),影響了LLM的決策。

在這些識別器中,CLIP和EVA-02-CLIP的大規(guī)模版本表現(xiàn)更為出色,凸顯了模型scaling的優(yōu)勢。

LLaVA-1.5作為視覺編碼器使用CLIP(L/14@336px)時(shí)表現(xiàn)不佳,可能是因?yàn)樵谥噶钗⒄{(diào)過程中存在對齊問題。

另外,PP-OCR(+ GPT-3.5)的成功率為28%,體現(xiàn)出OCR對于視覺地標(biāo)識別至關(guān)重要。

圖片

地理多樣性及挑戰(zhàn)

V-IRL基準(zhǔn)測試涵蓋了全球12個(gè)不同的城市,進(jìn)而提供了一個(gè)獨(dú)特的視角,來觀察視覺模型在不同地區(qū)可能存在的偏差。

正如下方圖表所展示的,視覺模型在尼日利亞拉各斯、日本東京、中國香港和阿根廷布宜諾斯艾利斯的表現(xiàn)都不盡如人意。

其中,東京、香港和布宜諾斯艾利斯等城市普遍使用了非英語文字。而拉各斯的街景更是與發(fā)達(dá)城市相比大相徑庭,直接難倒了幾乎所有的視覺模型。

這一現(xiàn)象揭示了一個(gè)重要的問題:目前的視覺模型在處理包含多種語言的圖像數(shù)據(jù)時(shí)面臨挑戰(zhàn)。

結(jié)論

開源平臺V-IRL的設(shè)計(jì)初衷是為了縮小數(shù)字世界與真實(shí)世界之間的感知差異,讓AI Agent能夠在一個(gè)既虛擬又真實(shí)的環(huán)境中與現(xiàn)實(shí)世界進(jìn)行交互。

借助V-IRL,智能體可以基于真實(shí)的地理信息和街景圖片,培養(yǎng)出豐富的感知能力和對環(huán)境的理解。

研究人員通過構(gòu)建不同的示例智能體和開展性能評估,展示了這個(gè)平臺在全球視覺數(shù)據(jù)處理方面語言和視覺模型的廣泛應(yīng)用潛力,為提高AI在理解環(huán)境、做出決策和處理現(xiàn)實(shí)世界信息方面的能力開啟了新的可能。

隨著空間計(jì)算技術(shù)和機(jī)器人系統(tǒng)的日益普及,AI Agent的需求和應(yīng)用場景將不斷擴(kuò)大。

從個(gè)人助手到城市規(guī)劃,再到為視力受限者打造的生活輔助工具,我們期待著一個(gè)能夠深刻理解周圍世界的智能體時(shí)代的到來。

作者介紹

Jihan Yang

圖片

論文一作Jihan Yang目前在香港大學(xué)電子與電氣工程學(xué)院攻讀博士學(xué)位,導(dǎo)師是Xiaojuan Qi博士。

在此之前,他在中山大學(xué)獲得了學(xué)士學(xué)位,導(dǎo)師是Liang Lin教授和Guanbin Li教授。

此外,他還與Ruijia Xu、Shaoshuai Shi博士、unyu Ding和Zhe Wang博士有著密切的合作。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-08-27 13:00:10

2025-06-16 08:53:00

2024-12-23 13:50:00

數(shù)據(jù)訓(xùn)練模型

2024-05-29 12:13:50

2023-07-06 13:50:47

AI智能

2024-12-23 07:15:00

多模態(tài)大模型MLLM人工智能

2025-04-21 16:32:29

視覺模型AI

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2015-04-23 08:51:53

2023-12-08 14:16:00

AI數(shù)據(jù)

2025-03-17 08:40:00

開源智能體框架

2025-02-24 13:46:40

2025-05-15 09:08:00

2024-10-14 13:20:00

2025-01-09 11:28:28

2025-04-03 11:11:50

2025-05-08 07:54:24

2023-09-18 08:50:51

智能模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號