偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

DrEureka:語(yǔ)言模型引導(dǎo)的sim2real! 原創(chuàng)

發(fā)布于 2024-5-7 06:47
瀏覽
0收藏

將在仿真中學(xué)到的策略轉(zhuǎn)移到現(xiàn)實(shí)世界是一種獲取大規(guī)模機(jī)器人技能的有前景的策略。然而,從仿真到現(xiàn)實(shí)的方法通常依賴于任務(wù)獎(jiǎng)勵(lì)函數(shù)和仿真物理參數(shù)的手工設(shè)計(jì)和調(diào)整,使得該過(guò)程緩慢且需要大量人力。研究人員使用大型語(yǔ)言模型(LLMs)來(lái)自動(dòng)化和加速?gòu)姆抡娴浆F(xiàn)實(shí)的設(shè)計(jì)。LLM引導(dǎo)的從仿真到現(xiàn)實(shí)方法僅需要目標(biāo)任務(wù)的物理仿真,并自動(dòng)構(gòu)建適當(dāng)?shù)莫?jiǎng)勵(lì)函數(shù)和域隨機(jī)化分布以支持現(xiàn)實(shí)世界的轉(zhuǎn)移。研究人員首先證明了可以發(fā)現(xiàn)與現(xiàn)有人工設(shè)計(jì)的競(jìng)爭(zhēng)性從仿真到現(xiàn)實(shí)配置,用于四足動(dòng)物的運(yùn)動(dòng)和靈巧操作任務(wù)。然后,展示該方法能夠解決新穎的機(jī)器人任務(wù),例如四足動(dòng)物平衡和在瑜伽球上行走,而無(wú)需迭代手工設(shè)計(jì)。

DrEureka組件

DrEureka接收任務(wù)和安全指令,以及環(huán)境源代碼,并運(yùn)行Eureka生成一個(gè)正則化的獎(jiǎng)勵(lì)函數(shù)和策略。然后,它在不同的仿真條件下測(cè)試策略,構(gòu)建一個(gè)考慮獎(jiǎng)勵(lì)的物理先驗(yàn),該先驗(yàn)提供給LLM以生成一組域隨機(jī)化(DR)參數(shù)。最后,使用合成的獎(jiǎng)勵(lì)和DR參數(shù),它訓(xùn)練策略以進(jìn)行現(xiàn)實(shí)世界的部署。

實(shí)驗(yàn)亮點(diǎn)

研究人員呈現(xiàn)了實(shí)驗(yàn)的關(guān)鍵定性結(jié)果,突出了DrEureka策略在真實(shí)世界瑜伽球行走任務(wù)中的穩(wěn)健性,以及所有基準(zhǔn)任務(wù)的最佳DrEureka輸出。詳細(xì)的定量實(shí)驗(yàn)和比較可在論文中找到。所有視頻以1倍速播放。

DrEureka行走球畫廊

DrEureka策略在真實(shí)世界中展現(xiàn)出令人印象深刻的穩(wěn)健性,在各種真實(shí)世界的不受控制的地形條件變化和干擾下,熟練地平衡和行走在瑜伽球上。研究人員還嘗試了踢球或放氣球,DrEureka策略對(duì)這些干擾具有魯棒性,并且可以從中恢復(fù)!?

DrEureka獎(jiǎng)勵(lì),DR參數(shù)和策略

研究人員對(duì)3個(gè)任務(wù)進(jìn)行了DrEureka評(píng)估,包括四足球行走,四足動(dòng)物運(yùn)動(dòng)和靈巧的立方體旋轉(zhuǎn)。在此演示中,可視化了每個(gè)任務(wù)的未修改的最佳DrEureka獎(jiǎng)勵(lì)和DR參數(shù),并可視化了在訓(xùn)練仿真環(huán)境以及真實(shí)世界環(huán)境中部署的策略。

DrEureka:語(yǔ)言模型引導(dǎo)的sim2real! -AI.x社區(qū)

定性比較

研究人員對(duì)基準(zhǔn)四足動(dòng)物運(yùn)動(dòng)任務(wù)進(jìn)行了系統(tǒng)研究。

地形穩(wěn)健性。在四足動(dòng)物運(yùn)動(dòng)任務(wù)中,研究人員還系統(tǒng)評(píng)估了DrEureka策略在幾種真實(shí)世界地形上的表現(xiàn),并發(fā)現(xiàn)它們保持穩(wěn)健并且優(yōu)于使用人工設(shè)計(jì)的獎(jiǎng)勵(lì)和DR配置訓(xùn)練的策略。

DrEureka:語(yǔ)言模型引導(dǎo)的sim2real! -AI.x社區(qū)

默認(rèn)以及額外的真實(shí)世界環(huán)境,用于測(cè)試四足動(dòng)物運(yùn)動(dòng)中的DrEureka穩(wěn)健性。


DrEureka:語(yǔ)言模型引導(dǎo)的sim2real! -AI.x社區(qū)

DrEureka在不同地形上表現(xiàn)一致,并保持對(duì)人工設(shè)計(jì)的優(yōu)勢(shì)。

DrEureka安全指令。DrEureka的LLM獎(jiǎng)勵(lì)設(shè)計(jì)子程序通過(guò)納入安全指令改進(jìn)了Eureka。研究人員發(fā)現(xiàn)這對(duì)于生成足以在現(xiàn)實(shí)世界部署的獎(jiǎng)勵(lì)函數(shù)至關(guān)重要。

DrEureka獎(jiǎng)勵(lì)感知物理先驗(yàn)。通過(guò)廣泛的消融研究,研究人員發(fā)現(xiàn)使用初始Eureka策略生成獎(jiǎng)勵(lì)感知的物理先驗(yàn)對(duì)于DrEureka的成功至關(guān)重要,

譯自(有刪改):https://eureka-research.github.io/dr-eureka/


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/ZpSaxuFeAXzKkkt_x5Xcfg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦