偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="1j2a0"></sub>

<cite id="1j2a0"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

DrEureka：語言模型引導(dǎo)的sim2real！原創(chuàng)

發(fā)布于 2024-5-7 06:47

瀏覽

0收藏

將在仿真中學(xué)到的策略轉(zhuǎn)移到現(xiàn)實世界是一種獲取大規(guī)模機器人技能的有前景的策略。然而，從仿真到現(xiàn)實的方法通常依賴于任務(wù)獎勵函數(shù)和仿真物理參數(shù)的手工設(shè)計和調(diào)整，使得該過程緩慢且需要大量人力。研究人員使用大型語言模型（LLMs）來自動化和加速從仿真到現(xiàn)實的設(shè)計。LLM引導(dǎo)的從仿真到現(xiàn)實方法僅需要目標任務(wù)的物理仿真，并自動構(gòu)建適當?shù)莫剟詈瘮?shù)和域隨機化分布以支持現(xiàn)實世界的轉(zhuǎn)移。研究人員首先證明了可以發(fā)現(xiàn)與現(xiàn)有人工設(shè)計的競爭性從仿真到現(xiàn)實配置，用于四足動物的運動和靈巧操作任務(wù)。然后，展示該方法能夠解決新穎的機器人任務(wù)，例如四足動物平衡和在瑜伽球上行走，而無需迭代手工設(shè)計。

DrEureka組件

DrEureka接收任務(wù)和安全指令，以及環(huán)境源代碼，并運行Eureka生成一個正則化的獎勵函數(shù)和策略。然后，它在不同的仿真條件下測試策略，構(gòu)建一個考慮獎勵的物理先驗，該先驗提供給LLM以生成一組域隨機化（DR）參數(shù)。最后，使用合成的獎勵和DR參數(shù)，它訓(xùn)練策略以進行現(xiàn)實世界的部署。

實驗亮點

研究人員呈現(xiàn)了實驗的關(guān)鍵定性結(jié)果，突出了DrEureka策略在真實世界瑜伽球行走任務(wù)中的穩(wěn)健性，以及所有基準任務(wù)的最佳DrEureka輸出。詳細的定量實驗和比較可在論文中找到。所有視頻以1倍速播放。

DrEureka行走球畫廊

DrEureka策略在真實世界中展現(xiàn)出令人印象深刻的穩(wěn)健性，在各種真實世界的不受控制的地形條件變化和干擾下，熟練地平衡和行走在瑜伽球上。研究人員還嘗試了踢球或放氣球，DrEureka策略對這些干擾具有魯棒性，并且可以從中恢復(fù)！?

DrEureka獎勵，DR參數(shù)和策略

研究人員對3個任務(wù)進行了DrEureka評估，包括四足球行走，四足動物運動和靈巧的立方體旋轉(zhuǎn)。在此演示中，可視化了每個任務(wù)的未修改的最佳DrEureka獎勵和DR參數(shù)，并可視化了在訓(xùn)練仿真環(huán)境以及真實世界環(huán)境中部署的策略。

DrEureka：語言模型引導(dǎo)的sim2real！ -AI.x社區(qū)

定性比較

研究人員對基準四足動物運動任務(wù)進行了系統(tǒng)研究。

地形穩(wěn)健性。在四足動物運動任務(wù)中，研究人員還系統(tǒng)評估了DrEureka策略在幾種真實世界地形上的表現(xiàn)，并發(fā)現(xiàn)它們保持穩(wěn)健并且優(yōu)于使用人工設(shè)計的獎勵和DR配置訓(xùn)練的策略。

DrEureka：語言模型引導(dǎo)的sim2real！ -AI.x社區(qū)

默認以及額外的真實世界環(huán)境，用于測試四足動物運動中的DrEureka穩(wěn)健性。

DrEureka：語言模型引導(dǎo)的sim2real！ -AI.x社區(qū)

DrEureka在不同地形上表現(xiàn)一致，并保持對人工設(shè)計的優(yōu)勢。

DrEureka安全指令。DrEureka的LLM獎勵設(shè)計子程序通過納入安全指令改進了Eureka。研究人員發(fā)現(xiàn)這對于生成足以在現(xiàn)實世界部署的獎勵函數(shù)至關(guān)重要。

DrEureka獎勵感知物理先驗。通過廣泛的消融研究，研究人員發(fā)現(xiàn)使用初始Eureka策略生成獎勵感知的物理先驗對于DrEureka的成功至關(guān)重要，

譯自（有刪改）：https://eureka-research.github.io/dr-eureka/

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/ZpSaxuFeAXzKkkt_x5Xcfg??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

大型語言模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

MolGen: 化學(xué)反饋引導(dǎo)的預(yù)訓(xùn)練分子生成

mb5f8eba9bdb0af ? 3929瀏覽 ? 0回復(fù)
斯坦福學(xué)者提出sim2real解決方案TRANSIC: 通過在線糾正學(xué)習(xí)進行模擬到真實政策轉(zhuǎn)移

AIGC最前線 ? 6698瀏覽 ? 0回復(fù)
3DitScene：通過語言引導(dǎo)的解耦 Gaussian Splatting開源來襲！

angel ? 5381瀏覽 ? 0回復(fù)
ICML 2024 Oral｜外部引導(dǎo)的深度聚類新范式

輕薄滴假象 ? 4294瀏覽 ? 0回復(fù)
大語言模型llama-2-7b推理服務(wù)實戰(zhàn)

zhcs333 ? 7850瀏覽 ? 1回復(fù)
電子科大、同濟大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA：引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力

sbf_2000 ? 6848瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 3987瀏覽 ? 0回復(fù)
超越Text2Video-Zero｜無需額外訓(xùn)練，條件生成、專門生成和指令引導(dǎo)的視頻編輯全搞定！

angel ? 3640瀏覽 ? 0回復(fù)
3DitScene：通過語言引導(dǎo)的解耦 Gaussian Splatting開源來襲！

angel ? 3864瀏覽 ? 0回復(fù)
微軟開源視覺語言模型Florence-2的應(yīng)用實戰(zhàn)

51CTO內(nèi)容精選 ? 4347瀏覽 ? 0回復(fù)
Zyphra發(fā)布Zamba2-7B：新一代高性能小型語言模型

Halo咯咯 ? 3890瀏覽 ? 0回復(fù)
探索 mcdse-2b-v1：全新高效的多語言文檔檢索模型

Halo咯咯 ? 3647瀏覽 ? 0回復(fù)
多模態(tài)大模型Qwen2的深入了解

一起AI技術(shù) ? 6113瀏覽 ? 0回復(fù)
ACL2024 |解釋引導(dǎo)的大語言模型主動蒸餾：一種優(yōu)化知識轉(zhuǎn)移的創(chuàng)新框架 "ELAD"

arnoldzhw ? 4434瀏覽 ? 0回復(fù)
Real-Time Voice Cloning：5 秒解鎖聲音克隆，憑啥斬獲 52.9k Stars？

穿越時空111 ? 6668瀏覽 ? 0回復(fù)
Hugging Face 發(fā)布 SmolVLM：用于設(shè)備端推理的 2B 參數(shù)視覺語言模型

Halo咯咯 ? 5420瀏覽 ? 0回復(fù)
EVEv2.0，視覺語言分開編碼，多模態(tài)視覺語言理解；視覺信息引導(dǎo)與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 4158瀏覽 ? 0回復(fù)
2025年2月五大優(yōu)秀大語言模型

51CTO內(nèi)容精選 ? 5256瀏覽 ? 0回復(fù)
LFM2-VL：端側(cè)高效的視覺語言模型

魯班模錘1 ? 1928瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復(fù)

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

關(guān)于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

上一篇： ICLR 2024：確定性與隨機環(huán)境中的effective horizon！

下一篇： ICRA 2024：基于語義增強和動作分塊實現(xiàn)的樣本高效機械臂操作——RoboAgent

社區(qū)精華內(nèi)容

目錄