偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="ipf08"></nobr>

<menuitem id="ipf08"></menuitem>

<blockquote id="ipf08"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移原創(chuàng)

發(fā)布于 2024-5-21 14:04

瀏覽

0收藏

在模擬中學習并將學到的策略轉移到現(xiàn)實世界有潛力實現(xiàn)通用型機器人。這種方法的關鍵挑戰(zhàn)是解決模擬到現(xiàn)實（sim-to-real）之間的差距。先前的方法通常需要先驗的領域特定知識。研究人員認為獲得這種知識的一種簡單方法是讓人類觀察并協(xié)助機器人在現(xiàn)實世界中執(zhí)行策略。然后機器人可以從人類那里學習以消除各種模擬到真實的差距。研究人員提出了TRANSIC，這是一種基于人機協(xié)作框架的數(shù)據(jù)驅動方法，以實現(xiàn)成功的模擬到真實轉移。TRANSIC允許人類通過干預和在線糾正來增強模擬策略，以全面地克服各種未建模的模擬到真實差距。殘余策略可以從人類糾正中學習，并與模擬策略集成以進行自主執(zhí)行。研究人員展示了該方法可以在復雜且充滿接觸的操縱任務（如家具裝配）中實現(xiàn)成功的模擬到真實轉移。通過在模擬中學習的策略和從人類學習的策略的協(xié)同集成，TRANSIC作為一種全面的方法有效地解決了各種通常共存的模擬到真實差距。它顯示出隨著人力投入的擴展而具有吸引力的屬性。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

方法概述

在高層次上，在模擬中訓練基本策略后，研究人員將其部署到真實機器人上，并由人類操作員監(jiān)控。當必要時，人類通過遠程操作中斷自主執(zhí)行，并進行在線糾正。收集此類干預和在線糾正數(shù)據(jù)以訓練殘余策略，然后部署基本策略和殘余策略以完成接觸豐富的操縱任務。

殘余策略從人類糾正中學習以彌合模擬到真實差距

這里的關鍵洞察是，人機協(xié)作框架有望作為整體解決模擬到真實差距，其中人類直接在政策執(zhí)行期間通過提供在線糾正信號來協(xié)助物理機器人。關閉模擬到真實差距所需的知識可以從人類信號中學習。

在人類操作員監(jiān)控執(zhí)行的情況下部署模擬策略。當必要時，人類通過遠程操作進行干預和糾正。收集此類干預和糾正數(shù)據(jù)以學習殘余策略。最后，在測試時間將殘余策略和模擬策略集成以實現(xiàn)成功轉移。

大規(guī)模模擬訓練以獲取基本策略

利用最先進的模擬技術，研究人員在模擬中以每秒數(shù)十萬幀的速度訓練基本策略，極大地減輕了數(shù)據(jù)收集的人力負擔。研究人員首先在大規(guī)模并行化環(huán)境中使用無模型強化學習（RL）訓練教師策略。然后將RL教師策略蒸餾為學生視覺動作策略。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

對于每種操縱技能，研究人員首先訓練RL策略，然后將其蒸餾為視覺動作策略。應用領域隨機化，以使訓練的模擬策略足夠健壯。研究人員做出了幾項重要的設計選擇，以促進模擬到真實的轉移，例如采用點云輸入和采用關節(jié)位置動作。

使用點云觀察和關節(jié)位置動作的視覺動作策略

研究人員使用點云作為主要視覺方式。訓練視覺動作策略時典型的RGB觀察存在幾個缺點，這些缺點阻礙了成功的轉移。經過良好校準的點云觀察可以規(guī)避這些問題。研究人員首先使用OSC訓練教師策略以便于學習，然后將成功的軌跡蒸餾為具有關節(jié)位置控制的學生策略。我們將這種方法稱為動作空間蒸餾，并發(fā)現(xiàn)它對于克服模擬到真實控制器差距至關重要。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

使用點云作為主要視覺方式。模擬策略是在降低的合成點云觀察上訓練的。它們能夠轉移到由標準深度相機捕獲的真實世界點云觀察。

實驗

研究問題：

Q1：相比傳統(tǒng)的模擬到真實方法，TRANSIC是否能夠實現(xiàn)更好的轉移性能？
Q2：相較于現(xiàn)有的交互式模仿學習（IL）方法，TRANSIC是否能更好地將人類糾正集成到模擬中學到的策略中？
Q3：與僅從真實機器人軌跡學習的算法相比，TRANSIC是否需要更少的真實世界數(shù)據(jù)來實現(xiàn)良好的性能？
Q4：TRANSIC能夠有效地解決不同類型的模擬到真實差距嗎？
Q5：TRANSIC如何隨著人力投入而擴展？
Q6：TRANSIC是否表現(xiàn)出引人注目的特性，如對未見過的對象的泛化、有效的門控、策略穩(wěn)健性、學到的視覺特征的一致性、解決長期操縱任務的能力以及其他新發(fā)現(xiàn)的行為？

考慮需要高精度的復雜接觸豐富的家具操縱任務。具體來說，將正方形桌子的組裝分為四個獨立的任務：穩(wěn)定、抓取、插入和螺絲。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

TRANSIC在所有四項任務上表現(xiàn)優(yōu)于所有基線方法。

研究人員展示了在模擬到真實轉移中，從模擬中學習的良好基本策略可以與有限的真實世界數(shù)據(jù)相結合以取得成功（Q3）。然而，有效利用人類糾正數(shù)據(jù)來解決模擬到真實差距是具有挑戰(zhàn)性的（Q1），特別是當我們想要防止基本策略的災難性遺忘時（Q2）。

解決不同模擬到真實差距的有效性（Q4）

雖然TRANSIC是一種全面解決多個模擬到真實差距的方法，但本文著重介紹了它解決每個單獨差距的能力。為此，研究人員創(chuàng)建了五組不同的模擬-現(xiàn)實對。對于每一組，有意地在模擬和真實世界之間制造了較大的差距。這些差距應用于真實世界設置中，包括感知誤差、欠驅動控制器、實體不匹配、動力學差異和對象資產不匹配。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

對不同模擬到真實差距的穩(wěn)健性。數(shù)字是平均成功率（％）。極坐標圖代表針對特定差距收集數(shù)據(jù)后的性能。虛線表示零次嘗試的性能。陰影圓顯示了五組之間的平均性能。

TRANSIC在五組不同的模擬-真實對中實現(xiàn)了77%的平均成功率，這表明了它關閉這些單獨差距的顯著能力。相比之下，最佳基線方法IWR僅實現(xiàn)了18%的平均成功率。研究人員將這種解決不同模擬到真實差距的效果歸因于殘余策略設計。

與人類努力的可擴展性（Q5）

與人類努力的可擴展性是人機協(xié)作機器人學習方法的期望屬性。研究人員展示了TRANSIC比最佳基線IWR具有更好的人類數(shù)據(jù)可擴展性。如果將校正數(shù)據(jù)集的大小從完整數(shù)據(jù)集大小的25%增加到75%，TRANSIC的平均成功率相對提高了42%。相比之下，IWR僅實現(xiàn)了23%的相對改善。此外，隨著更多人類數(shù)據(jù)的可用，IWR的性能在早期階段就會達到平穩(wěn)狀態(tài)，甚至開始下降。研究人員假設IWR存在災難性遺忘問題，并且在正確模擬人類和經過訓練的機器人的行為模式方面存在困難。另一方面，TRANSIC通過僅從人類糾正中學習門控殘余策略來避免這些問題。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

人類糾正數(shù)據(jù)的可擴展性。數(shù)字是在不同數(shù)量的人類糾正數(shù)據(jù)下平均成功率，涵蓋了四個任務。

引人注目的特性和新發(fā)現(xiàn)的行為（Q6）

研究人員進一步研究了TRANSIC并討論了幾個新發(fā)現(xiàn)的能力。展示了：1）TRANSIC已經學習了可重用的類別級對象泛化技能；2）一旦學會了門控機制，TRANSIC可以在完全自主的環(huán)境中可靠運行；3）TRANSIC對部分點云觀察和次優(yōu)糾正數(shù)據(jù)具有穩(wěn)健性；4）TRANSIC學習了模擬和真實之間一致的視覺特征。

斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移-AI.x社區(qū)

結論

在這項工作中，研究人員提出了TRANSIC，這是一種全面的人機協(xié)作方法，用于處理接觸豐富操縱任務的模擬到真實策略轉移。文中展示了在模擬到真實轉移中，從模擬中學習的良好基本策略可以與有限的真實世界數(shù)據(jù)相結合以取得成功。然而，有效地利用人類糾正數(shù)據(jù)來解決模擬到真實差距是具有挑戰(zhàn)性的，特別是當想要防止基本策略的災難性遺忘時。TRANSIC通過從人類糾正數(shù)據(jù)中學習門控殘余策略成功解決了這些挑戰(zhàn)。展示了當同時出現(xiàn)不同類型的模擬到真實差距時，TRANSIC作為一種全面方法有效；它也是解決性質截然不同的個別差距的方法。它具有諸如隨著人類努力的增加而擴展等吸引人的屬性。

本文轉載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/VMZbREPkDtFKTd_8AByArw??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

通用型機器人

贊

收藏

回復

舉報

回復

相關推薦

斯坦福學者推出專為Android移動設備打造的大模型，開源！

AIGC最前線 ? 2.6w瀏覽 ? 0回復
奧特曼承認了神秘gpt2！哈佛MIT巡演繼續(xù)，斯坦福演講完整版公開

Crystalcxt ? 3334瀏覽 ? 0回復
DrEureka：語言模型引導的sim2real！

AIGC最前線 ? 4493瀏覽 ? 0回復
僅靠開源數(shù)據(jù)復刻出LLaMA3指令學習效果，在線迭代RLHF全流程解決方案來了

輕薄滴假象 ? 3860瀏覽 ? 0回復
斯坦福新研究：RAG能幫助LLM更靠譜嗎？

duhorse ? 3766瀏覽 ? 0回復
CVD：第一個生成具有相機控制的多視圖一致視頻方案?。?em>斯坦福&港中文）

angel ? 3939瀏覽 ? 0回復
斯坦福學者提出Edu-ConvoKit：洞察課堂對話大數(shù)據(jù)！

AIGC最前線 ? 3531瀏覽 ? 0回復
從炒菜到縫針！斯坦福炒蝦團隊打造自主「AI達芬奇」，苦練神指當外科醫(yī)生

duhorse ? 3601瀏覽 ? 0回復
RAG 開發(fā)四大痛點及解決方案

玄姐聊AGI ? 4338瀏覽 ? 0回復
斯坦福、Salesforce等開源1萬億tokens多模態(tài)數(shù)據(jù)集

Aceryt ? 3318瀏覽 ? 0回復
從目標分配到路徑規(guī)劃，哈工大團隊提出智能倉庫的多智能體深度學習解決方案

xuxiangda ? 7274瀏覽 ? 0回復
NL2SQL：基于LLM的解決方案是最好的嗎？

大語言模型論文跟蹤 ? 8507瀏覽 ? 0回復
谷歌&卡內基梅隆&斯坦福發(fā)布Gen2Act：泛化超棒！

angel ? 3328瀏覽 ? 0回復
大模型部署解決方案之TorchServe+vLLM

夜行神魚 ? 4053瀏覽 ? 0回復
斯坦福提出擴散自蒸餾：定制圖像生成，任意上下文下擴展到任意實例！

angel ? 4093瀏覽 ? 0回復
TAG：定義自然語言查詢的高效解決方案

51CTO內容精選 ? 5112瀏覽 ? 0回復
斯坦福等開源代碼定位AI Agent，極大提升開發(fā)、維護效率

Aceryt ? 2968瀏覽 ? 0回復
關于基于RAG技術的智能客服系統(tǒng)解決方案

AI探索時代 ? 3230瀏覽 ? 0回復
RAG數(shù)據(jù)召回詳細技術解決方案

AI探索時代 ? 1400瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

預測未來模型能力！微調揭示LLM涌現(xiàn)能力的關鍵 2024-12-09 09:10:30發(fā)布
預測未來模型能力！微調揭示LLM涌現(xiàn)能力的關鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復

上一篇： AAAI前主席Subbarao Kambhampati：LLM-Modulo框架助力大模型完成規(guī)劃任務！

下一篇： ICML 2024：從視覺語言基礎模型反饋中進行強化學習

社區(qū)精華內容

目錄

<abbr id="clxnp"></abbr>

<center id="clxnp"><span id="clxnp"><strong id="clxnp"></strong></span></center>