偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<thead id="wyrjn"><acronym id="wyrjn"></acronym></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

上交大校友獲最佳論文，機(jī)器人頂會(huì)CoRL 2022獎(jiǎng)項(xiàng)公布

作者：機(jī)器之心 2022-12-19 14:39:29

人工智能新聞

在剛剛落幕的CoRL 2022大會(huì)中，本科曾就讀于上海交通大學(xué)的Kun Huang獲得了最佳論文獎(jiǎng)。

自 2017 年首次舉辦以來，CoRL 已經(jīng)成為了機(jī)器人學(xué)與機(jī)器學(xué)習(xí)交叉領(lǐng)域的全球頂級(jí)學(xué)術(shù)會(huì)議之一。CoRL 是面向機(jī)器人學(xué)習(xí)研究的 single-track 會(huì)議，涵蓋機(jī)器人學(xué)、機(jī)器學(xué)習(xí)和控制等多個(gè)主題，包括理論與應(yīng)用。

2022年的CoRL大會(huì)于12月14日至18日在新西蘭奧克蘭舉行。

?

本屆大會(huì)共收到504篇投稿，最終接收34篇Oral論文、163篇Poster論文，接收率為39%。

?

目前，CoRL 2022 公布了最佳論文獎(jiǎng)、最佳系統(tǒng)論文獎(jiǎng)、特別創(chuàng)新獎(jiǎng)等全部獎(jiǎng)項(xiàng)。賓夕法尼亞大學(xué)GRASP實(shí)驗(yàn)室碩士、上海交通大學(xué)校友Kun Huang獲得了大會(huì)最佳論文獎(jiǎng)。

最佳論文獎(jiǎng)

獲得本屆大會(huì)最佳論文獎(jiǎng)的是來自賓夕法尼亞大學(xué)的一項(xiàng)研究。

?

論文標(biāo)題：Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning
作者：Kun Huang、Edward Hu、Dinesh Jayaraman
論文鏈接：https://openreview.net/pdf?id=sK2aWU7X9b8

論文摘要：通常來說，物理相互作用有助于揭示不太明顯的信息，例如我們可能會(huì)拉一下桌腿來評(píng)估它是否穩(wěn)固，或者把一個(gè)水瓶倒過來檢查它是否漏水，該研究建議可以通過訓(xùn)練機(jī)器人來自動(dòng)獲得這種交互行為，以評(píng)估機(jī)器人嘗試執(zhí)行技能的結(jié)果。這些評(píng)估反過來作為IRF（interactive reward functions），用于訓(xùn)練強(qiáng)化學(xué)習(xí)策略以執(zhí)行目標(biāo)技能，例如擰緊桌腿。此外，即使完全訓(xùn)練完成之后，IRF也可以作為改進(jìn)在線任務(wù)執(zhí)行的驗(yàn)證機(jī)制。對(duì)于任何給定的任務(wù)， IRF訓(xùn)練非常方便，并且不需要進(jìn)一步的規(guī)范。

評(píng)估結(jié)果表明，IRF 可以實(shí)現(xiàn)顯著的性能改進(jìn)，甚至可以通過訪問演示或精心設(shè)計(jì)的獎(jiǎng)勵(lì)來超越基線。比如下圖中，機(jī)器人必須先關(guān)門，然后旋轉(zhuǎn)對(duì)稱的門把手才能完全鎖住門。

門鎖（door locking）評(píng)估示例演示

下面實(shí)驗(yàn)的目的是將 3 個(gè)視覺上相同的塊堆疊成一個(gè)穩(wěn)定的塔，其中的一個(gè)小方塊明顯比其他兩塊重，所以最佳策略是將它放在底部。

堆疊評(píng)估示例演示

為了檢查算法的魯棒性和通用性，該研究使用具有 9 個(gè)關(guān)節(jié)的 D'Claw 在真實(shí)機(jī)器人擰緊實(shí)驗(yàn)中對(duì)其進(jìn)行測(cè)試。此任務(wù)的目的是將4-prong閥門順時(shí)針旋轉(zhuǎn)約 180° 進(jìn)入擰緊狀態(tài)（閥門底座上的白線）。

作者介紹?

本次獲得CoRL 2022最佳論文獎(jiǎng)的作者共有三位，分別是Kun Huang、Edward Hu、Dinesh Jayaraman 。

Dinesh Jayaraman為賓夕法尼亞大學(xué)GRASP實(shí)驗(yàn)室的助理教授，他領(lǐng)導(dǎo)著感知、行動(dòng)和學(xué)習(xí)(PAL)研究小組，致力于計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)和機(jī)器人技術(shù)的交叉問題研究。

Kun Huang為賓夕法尼亞大學(xué)GRASP實(shí)驗(yàn)室碩士，在Dinesh Jayaraman教授的指導(dǎo)下研究強(qiáng)化學(xué)習(xí)。他在密歇根大學(xué)獲得了計(jì)算機(jī)科學(xué)學(xué)士學(xué)位，在那里他與 Dmitry Berenson 教授一起研究機(jī)器人感知。Kun Huang本科畢業(yè)于上海交通大學(xué)，研究興趣包括機(jī)器人與現(xiàn)實(shí)世界的應(yīng)用。Kun Huang 在碩士期間曾在 Waymo 實(shí)習(xí)，畢業(yè)后將加入 Cruise 擔(dān)任機(jī)器學(xué)習(xí)工程師。

領(lǐng)英主頁：https://www.linkedin.com/in/kun-huang-620034171/

Edward S. Hu 為賓夕法尼亞大學(xué)GRASP實(shí)驗(yàn)室的博士生，師從Dinesh Jayaraman教授。他的主要研究興趣包括基于模型的強(qiáng)化學(xué)習(xí)等。Edward在南加州大學(xué)獲得了計(jì)算機(jī)科學(xué)碩士和學(xué)士學(xué)位，在那里他與Joseph J. Lim教授一起研究機(jī)器人的強(qiáng)化和模仿學(xué)習(xí)。

最佳論文入圍名單

此次會(huì)議共有3篇論文入圍最佳論文獎(jiǎng)項(xiàng)，除了最終得獎(jiǎng)的論文以外，其他2篇分別是：

?

論文標(biāo)題：Learning Agile Skills via Adversarial Imitation of Rough Partial Demonstrations
作者：Chenhao Li、Marin Vlastelica、Sebastian Blaes、Jonas Frey、Felix Grimminger、Georg Martius
論文鏈接：https://arxiv.org/pdf/2206.11693.pdf

?

論文標(biāo)題：Supercharging Imitation with Regularized Optimal Transport
作者：Siddhant Haldar 、 Vaibhav Mathur、Denis Yarats、Lerrel Pinto
論文鏈接：https://arxiv.org/pdf/2206.15469.pdf

最佳系統(tǒng)論文獎(jiǎng)

獲得本屆大會(huì)最佳系統(tǒng)論文獎(jiǎng)的是來自CMU、UC伯克利的一項(xiàng)研究。

?

論文標(biāo)題：Legged Locomotion in Challenging Terrains using Egocentric Vision
作者：Ananye Agarwal,Ashish Kumar,Jitendra Malik, Deepak Pathak
論文鏈接：https://arxiv.org/pdf/2211.07638.pdf

論文摘要：動(dòng)物能夠利用視覺進(jìn)行精確而敏捷的運(yùn)動(dòng)，而復(fù)制這種能力一直是機(jī)器人技術(shù)的一個(gè)長(zhǎng)期目標(biāo)。傳統(tǒng)的方法是將這個(gè)問題分解為海拔測(cè)繪和落腳點(diǎn)規(guī)劃階段（foothold planning phase）。然而，海拔測(cè)繪很容易受到故障和大面積噪聲的影響，需要專門的硬件而且在生物學(xué)上是不可行的。

在本文中，研究者提出了第一個(gè)能夠穿越樓梯、路邊、墊腳石和空隙的端到端運(yùn)動(dòng)系統(tǒng)，并在一個(gè)中等大小、使用單個(gè)正面的深度攝像頭的四足機(jī)器人上展示了這一結(jié)果。由于機(jī)器人體積小，需要發(fā)現(xiàn)其他地方?jīng)]有的專門的步態(tài)模式。攝像頭需要掌握記住過去的信息的策略，以估計(jì)身后腳下的地形。

研究者在模擬環(huán)境中訓(xùn)練了機(jī)器人的策略。訓(xùn)練分為兩個(gè)階段：首先使用強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)具有低計(jì)算成本的深度圖像變體的策略，然后將其提煉為使用監(jiān)督學(xué)習(xí)的深度的最終策略。

?

最終的策略可遷移到現(xiàn)實(shí)世界，并能夠在機(jī)器人有限的計(jì)算能力上實(shí)時(shí)運(yùn)行。它可以穿越大量的地形，同時(shí)對(duì)諸如濕滑表面和巖石地形等干擾具有魯棒性。

墊腳石和空隙

機(jī)器人能夠跨過各種配置的吧臺(tái)凳，并調(diào)整步長(zhǎng)以跨過大間隙。由于后腳附近沒有攝像頭，機(jī)器人必須記住吧臺(tái)凳的位置并在相應(yīng)的位置放置后腳。

樓梯和路邊

該機(jī)器人能夠爬上24厘米高、30厘米寬的樓梯。策略適用于各種照明條件下的不同樓梯和路邊。在分布不均勻的樓梯，機(jī)器人最初會(huì)被卡住，但最終能夠使用爬升行為跨過這些障礙。

非結(jié)構(gòu)化地形

機(jī)器人可以穿越不屬于其訓(xùn)練類別之一的非結(jié)構(gòu)化地形，顯示了系統(tǒng)的泛化能力。

黑暗中的移動(dòng)

深度相機(jī)使用紅外光投射圖案，即使在幾乎沒有環(huán)境光的情況下也能準(zhǔn)確估計(jì)深度。

魯棒性

策略對(duì)大力量（從高處投擲 5 公斤重物）和濕滑表面（水倒在塑料布上）具有魯棒性。

作者介紹?

這項(xiàng)研究共有四位作者。

Jitendra Malik現(xiàn)為UC伯克利電氣工程和計(jì)算機(jī)科學(xué)系A(chǔ)rthur J. Chick教授，他的研究領(lǐng)域包括計(jì)算機(jī)視覺、人類視覺的計(jì)算建模、計(jì)算機(jī)圖形學(xué)和生物圖像分析等。

本次獲獎(jiǎng)研究的作者之一Ashish Kumar是他的博士生。

Deepak Pathak現(xiàn)為卡內(nèi)基梅隆大學(xué)助理教授，他在加州大學(xué)伯克利分校獲得博士學(xué)位，研究的主題包括機(jī)器學(xué)習(xí)、機(jī)器人和計(jì)算機(jī)視覺。

本次獲獎(jiǎng)研究的作者之一Ananye Agarwal是他的博士生。

此外，Deepak Pathak還有一項(xiàng)研究在本次大會(huì)最佳系統(tǒng)論文獎(jiǎng)的入圍名單之內(nèi)。

論文標(biāo)題：Deep Whole-Body Control: Learning a Unified Policy for Manipulation and Locomotion
作者：Zipeng Fu, Xuxin Cheng, Deepak Pathak
論文鏈接：https://arxiv.org/abs/2210.10044

特別創(chuàng)新獎(jiǎng)

這次大會(huì)還評(píng)選出了特別創(chuàng)新獎(jiǎng)，這項(xiàng)研究由谷歌的多位研究者共同完成。

論文標(biāo)題：Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
作者：Brian Ichter 、 Anthony Brohan 、Michael Ahn 等
論文鏈接：https://arxiv.org/pdf/2204.01691.pdf

論文摘要：大型語言模型可以編碼關(guān)于世界的大量語義知識(shí)，這樣的知識(shí)對(duì)機(jī)器人非常有用。然而，語言模型存在這樣一個(gè)缺點(diǎn)，即對(duì)真實(shí)世界缺乏經(jīng)驗(yàn)，這使得其在給定任務(wù)上很難利用語義進(jìn)行決策。

來自谷歌的研究者建議通過預(yù)訓(xùn)練技能來提供大型語言模型在現(xiàn)實(shí)世界的基礎(chǔ)，這些技能用于約束模型，以提出既可行又適合上下文的自然語言操作。機(jī)器人可以充當(dāng)語言模型的「手和眼睛」，而語言模型提供關(guān)于任務(wù)的高級(jí)語義知識(shí)。該研究展示了低級(jí)技能如何與大型語言模型相結(jié)合，以便語言模型提供有關(guān)執(zhí)行復(fù)雜和時(shí)間擴(kuò)展指令的過程的高級(jí)知識(shí)，而與這些技能相關(guān)的值函數(shù)提供了將這些知識(shí)連接到特定物理環(huán)境所需的基礎(chǔ)。

研究者將大型語言模型（LLM）與機(jī)器人的物理任務(wù)組合到一起時(shí)用到了這樣一個(gè)原則：除了讓 LLM 簡(jiǎn)單地解釋一條指令之外，還可以用它來評(píng)估單個(gè)動(dòng)作對(duì)完成整個(gè)高級(jí)指令有幫助的概率。簡(jiǎn)單來說，每個(gè)動(dòng)作可以有一個(gè)語言描述，我們可以通過 prompt 語言模型讓它給這些動(dòng)作打分。此外，如果每個(gè)動(dòng)作都有一個(gè)相應(yīng)的 affordance 函數(shù)，可以量化它從當(dāng)前狀態(tài)（比如學(xué)到的價(jià)值函數(shù)）獲得成功的可能性。兩個(gè)概率值的乘積就是機(jī)器人能成功地完成一個(gè)對(duì)于指令有幫助的動(dòng)作的概率。根據(jù)這個(gè)概率將一系列動(dòng)作排序，選取概率最高的一個(gè)。

下圖示例展示的是機(jī)器人幫助拿蘋果：

責(zé)任編輯：張燕妮來源：機(jī)器之心

機(jī)器人論文

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<menuitem id="b2pqx"></menuitem><thead id="b2pqx"><b id="b2pqx"></b></thead>

<button id="b2pqx"><b id="b2pqx"><em id="b2pqx"></em></b></button>

<em id="b2pqx"></em>

<blockquote id="b2pqx"><b id="b2pqx"></b></blockquote>

<table id="b2pqx"></table>

<button id="b2pqx"></button>

<blockquote id="b2pqx"><samp id="b2pqx"><delect id="b2pqx"></delect></samp></blockquote>

<del id="b2pqx"><ul id="b2pqx"></ul></del>