偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<cite id="1eg99"><center id="1eg99"></center></cite>

<tt id="1eg99"></tt>

<code id="1eg99"></code>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用精華

發(fā)布于 2024-9-20 11:45

瀏覽

0收藏

在人工智能領(lǐng)域,具身AI(Embodied AI)一直是一個(gè)備受關(guān)注的研究方向。它旨在賦予AI代理與物理世界交互的能力,讓AI不僅僅停留在虛擬的數(shù)字世界中,而是能夠在真實(shí)環(huán)境中感知、規(guī)劃和行動(dòng)。近年來(lái),隨著大語(yǔ)言模型(LLM)的蓬勃發(fā)展,如何將LLM的強(qiáng)大語(yǔ)言理解和生成能力與具身AI任務(wù)結(jié)合起來(lái),成為了一個(gè)熱門的研究課題。

在這個(gè)背景下,來(lái)自中國(guó)科學(xué)技術(shù)大學(xué)等機(jī)構(gòu)的研究人員提出了一種新穎的方法——漸進(jìn)式檢索增強(qiáng)生成(Progressive Retrieval Augmented Generation, P-RAG),用于解決具身日常任務(wù)中的規(guī)劃問(wèn)題。這項(xiàng)研究發(fā)表在ACM多媒體會(huì)議(MM '24)上,論文題為《P-RAG: Progressive Retrieval Augmented Generation For Planning on Embodied Everyday Task》。

背景與現(xiàn)狀

具身日常任務(wù)(Embodied Everyday Task)是具身AI領(lǐng)域的一個(gè)重要任務(wù)。在這類任務(wù)中,AI代理需要根據(jù)自然語(yǔ)言指令和視覺(jué)觀察來(lái)執(zhí)行一系列動(dòng)作。例如,我們可能會(huì)給機(jī)器人下達(dá)這樣的指令:"請(qǐng)把廚房打掃干凈"或"請(qǐng)給盆栽澆水"。這看似簡(jiǎn)單的任務(wù)對(duì)AI來(lái)說(shuō)卻充滿了挑戰(zhàn):

自然語(yǔ)言指令往往缺乏明確的任務(wù)規(guī)劃。比如"打掃廚房",它包含了很多隱含的子任務(wù),如清潔臺(tái)面、收拾餐具、擦拭電器等。
AI需要對(duì)任務(wù)環(huán)境有充分的了解。不同的家庭環(huán)境可能有不同的布局和物品,AI需要適應(yīng)這種差異。
動(dòng)作空間可能是可變的,某些動(dòng)作在特定情況下可能是無(wú)效或非法的。例如,我們可以用烹飪或加熱來(lái)處理某些食物,但對(duì)于盆栽或鞋子,這些動(dòng)作就是非法的。
現(xiàn)實(shí)世界的一些限制條件容易被忽視。比如在某些模擬環(huán)境中,桌子可能比較小,無(wú)法放置過(guò)多物品。

傳統(tǒng)的基于學(xué)習(xí)的方法,如強(qiáng)化學(xué)習(xí)(RL),雖然可以通過(guò)迭代過(guò)程來(lái)增強(qiáng)模型在特定任務(wù)和環(huán)境中的能力,但往往缺乏理解語(yǔ)言指令的能力。而近期興起的基于大語(yǔ)言模型(LLM)的方法,雖然在理解語(yǔ)言指令方面表現(xiàn)出色,但又缺乏對(duì)特定任務(wù)和環(huán)境的知識(shí)。

問(wèn)題與挑戰(zhàn)

現(xiàn)有的基于LLM的方法主要面臨以下挑戰(zhàn):

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用-AI.x社區(qū)

缺乏任務(wù)特定知識(shí): LLM擁有廣泛的通用知識(shí),但對(duì)于特定任務(wù)環(huán)境的細(xì)節(jié)認(rèn)知不足。
依賴標(biāo)注數(shù)據(jù): 一些方法需要使用少量樣本(few-shot)來(lái)增強(qiáng)LLM的性能,這些樣本通常需要人工標(biāo)注,成本較高。
單次檢索的局限性: 傳統(tǒng)的檢索增強(qiáng)生成(RAG)方法通常只進(jìn)行一次檢索來(lái)輔助生成,難以適應(yīng)復(fù)雜的具身任務(wù)。
缺乏漸進(jìn)式學(xué)習(xí)能力: 現(xiàn)有方法難以像人類一樣,通過(guò)不斷嘗試和積累經(jīng)驗(yàn)來(lái)逐步提升性能。

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成

為了解決上述問(wèn)題,研究人員提出了P-RAG方法。P-RAG的核心思想是:通過(guò)漸進(jìn)式的方式,不斷積累任務(wù)特定知識(shí),并利用這些知識(shí)來(lái)輔助LLM進(jìn)行更好的規(guī)劃。

方法概述

P-RAG的整體框架如圖1所示:

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用-AI.x社區(qū)

P-RAG框架圖

P-RAG主要包含以下幾個(gè)關(guān)鍵組件:

數(shù)據(jù)庫(kù): 存儲(chǔ)歷史軌跡信息,包括目標(biāo)指令、場(chǎng)景圖、軌跡歷史和任務(wù)完成狀態(tài)。
檢索模塊: 根據(jù)當(dāng)前任務(wù)的目標(biāo)指令和場(chǎng)景觀察,從數(shù)據(jù)庫(kù)中檢索相關(guān)的歷史信息。
LLM代理: 接收檢索結(jié)果和當(dāng)前環(huán)境信息,生成行動(dòng)計(jì)劃。
交互環(huán)境: 模擬具身任務(wù)的環(huán)境,如MINI-BEHAVIOR或ALFRED。
漸進(jìn)式更新機(jī)制: 在每輪交互后,更新數(shù)據(jù)庫(kù),積累新的經(jīng)驗(yàn)。

工作流程

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用-AI.x社區(qū)

P-RAG的工作流程可以概括為以下步驟:

信息收集: 代理接收目標(biāo)指令、環(huán)境觀察、動(dòng)作空間和數(shù)據(jù)庫(kù)檢索結(jié)果。
LLM規(guī)劃: 將收集到的信息輸入LLM,生成一系列高級(jí)動(dòng)作。
動(dòng)作執(zhí)行: 將高級(jí)動(dòng)作分解為低級(jí)動(dòng)作,在環(huán)境中執(zhí)行。
結(jié)果反饋: 環(huán)境返回新的觀察和獎(jiǎng)勵(lì)信息。
數(shù)據(jù)庫(kù)更新: 將新的軌跡信息更新到數(shù)據(jù)庫(kù)中。
迭代優(yōu)化: 重復(fù)上述步驟,不斷積累經(jīng)驗(yàn),提升性能。

核心創(chuàng)新點(diǎn)

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用-AI.x社區(qū)

漸進(jìn)式知識(shí)積累: P-RAG不依賴預(yù)先標(biāo)注的數(shù)據(jù),而是通過(guò)與環(huán)境的交互,逐步積累任務(wù)特定知識(shí)。這種方式更接近人類學(xué)習(xí)的過(guò)程,也更適合實(shí)際應(yīng)用場(chǎng)景。
聯(lián)合檢索策略: P-RAG不僅檢索相似的任務(wù),還考慮相似的場(chǎng)景。這種細(xì)粒度的檢索策略能提供更有價(jià)值的參考經(jīng)驗(yàn)。具體來(lái)說(shuō),P-RAG使用以下公式計(jì)算相似度:

s_n = sim(Q_goal, K_goal) + max(sim(Q_obs,n, K_obs,t))

其中,Q_goal和K_goal是目標(biāo)指令的嵌入向量,Q_obs,n和K_obs,t是場(chǎng)景圖的嵌入向量。

迭代式更新: P-RAG引入了一種迭代方法,在每輪交互后更新數(shù)據(jù)庫(kù)。這使得模型能夠從失敗的嘗試中學(xué)習(xí),不斷改進(jìn)其性能。
靈活的LLM集成: P-RAG可以與不同的LLM(如GPT-3.5、GPT-4)集成,充分利用LLM的語(yǔ)言理解和生成能力。

實(shí)驗(yàn)與結(jié)果

研究人員在兩個(gè)具有代表性的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),以驗(yàn)證P-RAG的有效性:

ALFRED數(shù)據(jù)集: 一個(gè)基于視覺(jué)和語(yǔ)言的室內(nèi)任務(wù)數(shù)據(jù)集。
MINI-BEHAVIOR數(shù)據(jù)集: 一個(gè)抽象的網(wǎng)格環(huán)境,包含20個(gè)日?；顒?dòng)。

ALFRED數(shù)據(jù)集上的結(jié)果

表1展示了P-RAG與其他先進(jìn)方法在ALFRED數(shù)據(jù)集上的性能比較:

模型	數(shù)據(jù)集	標(biāo)注數(shù)據(jù)	Valid Unseen	Valid Seen
HiTUT	全量	?	10.23	18.41
HLSM	全量	?	18.28	29.63
LLM-Planer	部分	?	12.92	13.53
GPT-4	-	×	7.05	17.46
P-RAG (我們的方法)	部分	×	14.11	18.2
P-RAG (自迭代)	-	×	27.4	19.05

表1: ALFRED數(shù)據(jù)集上的性能比較 (成功率 %)

從表1中我們可以看出:

P-RAG在不使用任何標(biāo)注數(shù)據(jù)的情況下,就能達(dá)到或超過(guò)使用部分訓(xùn)練數(shù)據(jù)的方法(如LLM-Planer)的性能。
通過(guò)自迭代(在測(cè)試集上進(jìn)行漸進(jìn)式更新),P-RAG的性能甚至超過(guò)了使用全量訓(xùn)練數(shù)據(jù)的方法,特別是在Valid Unseen數(shù)據(jù)集上。
P-RAG顯著優(yōu)于單純使用GPT-4的基線方法,證明了檢索增強(qiáng)和漸進(jìn)式學(xué)習(xí)的有效性。

MINI-BEHAVIOR數(shù)據(jù)集上的結(jié)果

表2展示了P-RAG在MINI-BEHAVIOR數(shù)據(jù)集上的表現(xiàn):

模型	總成功率	任務(wù)成功率	SPL
GPT-4	15%	20%	13.8%
P-RAG-4	16.7%	25%	15%
GPT-3.5	7.5%	20%	7.5%
P-RAG-3.5	10%	20%	9.5%

表2: MINI-BEHAVIOR數(shù)據(jù)集上的性能比較

從表2中我們可以觀察到:

無(wú)論是基于GPT-4還是GPT-3.5,P-RAG都能顯著提升性能。
P-RAG不僅提高了總成功率,還提升了任務(wù)成功率和SPL(成功加權(quán)路徑長(zhǎng)度)指標(biāo)。
即使在這種簡(jiǎn)單的環(huán)境中,P-RAG也展現(xiàn)出了明顯的優(yōu)勢(shì),特別是考慮到MINI-BEHAVIOR對(duì)強(qiáng)化學(xué)習(xí)算法來(lái)說(shuō)是一個(gè)具有挑戰(zhàn)性的環(huán)境。

案例分析

為了更直觀地理解P-RAG的工作原理,讓我們來(lái)看一個(gè)具體的案例。圖2展示了P-RAG和GPT-4基線在"給盆栽澆水"任務(wù)上的規(guī)劃軌跡對(duì)比:

P-RAG: 漸進(jìn)式檢索增強(qiáng)生成方法在具身日常任務(wù)規(guī)劃中的應(yīng)用-AI.x社區(qū)

規(guī)劃軌跡對(duì)比

圖2: P-RAG與GPT-4基線在"給盆栽澆水"任務(wù)上的規(guī)劃軌跡對(duì)比

在這個(gè)案例中:

GPT-4基線方法簡(jiǎn)單地按順序拿起三個(gè)盆栽并放入水槽,然后認(rèn)為任務(wù)完成。但實(shí)際上,它并沒(méi)有成功完成任務(wù)。
相比之下,P-RAG利用全面的歷史軌跡信息來(lái)做決策。它不僅正確地將盆栽放入水槽,還記得要打開(kāi)水龍頭,最終成功完成了任務(wù)。

這個(gè)案例很好地展示了P-RAG如何利用歷史經(jīng)驗(yàn)來(lái)做出更合理的決策,從而更好地完成復(fù)雜的具身任務(wù)。

方法分析與改進(jìn)方向

P-RAG雖然取得了令人矚目的成果,但仍有一些值得進(jìn)一步探索和改進(jìn)的方向:

檢索效率優(yōu)化: 隨著交互輪次的增加,數(shù)據(jù)庫(kù)中的歷史軌跡會(huì)不斷累積。如何在大規(guī)模數(shù)據(jù)中快速、準(zhǔn)確地檢索相關(guān)信息,是一個(gè)值得研究的問(wèn)題?？梢钥紤]引入更高效的索引結(jié)構(gòu)或近似最近鄰搜索算法。
知識(shí)蒸餾與壓縮: 目前P-RAG直接存儲(chǔ)原始的軌跡信息。未來(lái)可以探索如何從這些原始數(shù)據(jù)中提取關(guān)鍵知識(shí),并以更緊湊的形式存儲(chǔ),從而減少存儲(chǔ)開(kāi)銷并提高檢索效率。
多模態(tài)信息融合: 當(dāng)前的方法主要依賴文本形式的場(chǎng)景圖。未來(lái)可以考慮如何更好地利用視覺(jué)信息,perhaps通過(guò)引入視覺(jué)-語(yǔ)言預(yù)訓(xùn)練模型來(lái)獲取更豐富的環(huán)境表征。
任務(wù)遷移與泛化: 雖然P-RAG在未見(jiàn)過(guò)的環(huán)境中表現(xiàn)良好,但如何將在一個(gè)任務(wù)域中學(xué)到的知識(shí)遷移到新的任務(wù)域,仍是一個(gè)開(kāi)放的問(wèn)題。研究跨任務(wù)、跨域的知識(shí)遷移將是很有價(jià)值的方向。
與強(qiáng)化學(xué)習(xí)的結(jié)合: P-RAG目前主要依賴LLM進(jìn)行決策。探索如何將P-RAG與強(qiáng)化學(xué)習(xí)方法相結(jié)合,可能會(huì)帶來(lái)更好的性能和更強(qiáng)的適應(yīng)性。
人機(jī)協(xié)作方面的應(yīng)用: P-RAG的漸進(jìn)式學(xué)習(xí)特性使其非常適合人機(jī)協(xié)作場(chǎng)景。研究如何讓人類用戶更自然地參與到知識(shí)積累和決策優(yōu)化的過(guò)程中,將是一個(gè)很有前景的方向。
可解釋性增強(qiáng): 雖然P-RAG通過(guò)檢索歷史軌跡提供了一定的可解釋性,但如何讓模型的決策過(guò)程更加透明和可理解,仍有改進(jìn)空間。perhaps可以通過(guò)可視化檢索到的關(guān)鍵信息,或生成決策依據(jù)的自然語(yǔ)言解釋。

總結(jié)與展望

P-RAG為解決具身日常任務(wù)中的規(guī)劃問(wèn)題提供了一種新穎而有效的方法。它巧妙地結(jié)合了大語(yǔ)言模型的強(qiáng)大語(yǔ)言能力和漸進(jìn)式學(xué)習(xí)的靈活性,在不依賴大量標(biāo)注數(shù)據(jù)的情況

本文轉(zhuǎn)載自 ??芝士AI吃魚??，作者：愛(ài)滑冰的咸魚

標(biāo)簽

漸進(jìn)式

已于2024-9-20 11:47:44修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

通過(guò)檢索增強(qiáng)生成(RAG) 增強(qiáng)LLM的實(shí)戰(zhàn)演練

51CTO內(nèi)容精選 ? 3782瀏覽 ? 0回復(fù)
萬(wàn)文長(zhǎng)文搞定檢索增強(qiáng)生成(RAG)技術(shù)——13篇熱門RAG文章解讀

angel ? 1.3w瀏覽 ? 0回復(fù)
面向大語(yǔ)言模型的檢索增強(qiáng)生成(RAG)技術(shù)：綜述

angel ? 5499瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

玄姐聊AGI ? 2858瀏覽 ? 0回復(fù)
15種先進(jìn)的檢索增強(qiáng)生成（RAG）技術(shù)

Halo咯咯 ? 2339瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺(jué)的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語(yǔ)言處理 ? 3077瀏覽 ? 0回復(fù)
再談大模型檢索增強(qiáng)生成——RAG

AI探索時(shí)代 ? 2328瀏覽 ? 0回復(fù)
提升RAG性能的全攻略：優(yōu)化檢索增強(qiáng)生成系統(tǒng)的策略大揭秘

Halo咯咯 ? 6337瀏覽 ? 0回復(fù)
mR^2AG：基于知識(shí)的多模態(tài)檢索-反思增強(qiáng)生成方法淺嘗

大模型自然語(yǔ)言處理 ? 2237瀏覽 ? 0回復(fù)
RAG再進(jìn)化？基于長(zhǎng)期記憶的檢索增強(qiáng)生成新范式-MemoRAG

大模型自然語(yǔ)言處理 ? 2676瀏覽 ? 0回復(fù)
大模型超長(zhǎng)窗口上下文與檢索增強(qiáng)生成——RAG

AI探索時(shí)代 ? 2847瀏覽 ? 0回復(fù)
RAG檢索增強(qiáng)生成和大模型微調(diào)的抉擇

AI探索時(shí)代 ? 2629瀏覽 ? 0回復(fù)
九種不同類型的檢索增強(qiáng)生成 (RAG)

Halo咯咯 ? 3062瀏覽 ? 0回復(fù)
繞過(guò) RAG 實(shí)時(shí)檢索瓶頸，緩存增強(qiáng)生成（CAG）如何助力性能突破？

Baihai_IDP ? 2332瀏覽 ? 0回復(fù)
什么是檢索增強(qiáng)生成 (RAG)？

Halo咯咯 ? 2168瀏覽 ? 0回復(fù)
18種RAG技術(shù)大比拼：誰(shuí)才是檢索增強(qiáng)生成的最佳選擇？

Halo咯咯 ? 2299瀏覽 ? 0回復(fù)
萬(wàn)字解析非結(jié)構(gòu)化文檔中的隱藏價(jià)值：多模態(tài)檢索增強(qiáng)生成（RAG）的前景

柏企閱文 ? 1628瀏覽 ? 0回復(fù)
開(kāi)源多模態(tài)RAG的視覺(jué)文檔(OCR-Free)檢索增強(qiáng)生成方案-VDocRAG

大模型自然語(yǔ)言處理 ? 1102瀏覽 ? 0回復(fù)
九大GraphRAG方法深度對(duì)比：選擇最適合你的圖檢索增強(qiáng)生成方案

AI博物院 ? 132瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

AI Agent vs Agentic AI：你真的分得清這兩個(gè)概念嗎？ 6天前發(fā)布
要不要搞多智能體？看看硅谷頂級(jí) AI 公司的經(jīng)驗(yàn) 6天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開(kāi)源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： OpenAI發(fā)布突破性AI模型o1系列，推理能力大幅躍升重塑行業(yè)格局

下一篇： Agent工作流記憶 - 讓AI助手更聰明地完成復(fù)雜任務(wù)

社區(qū)精華內(nèi)容

目錄

<button id="tggyh"></button>

<table id="tggyh"><legend id="tggyh"><address id="tggyh"></address></legend></table>

<cite id="tggyh"></cite>