從扭秧歌到單腳跳,HugWBC讓人形機器人運動天賦覺醒了
本項目由上海交通大學APEX實驗室具身智能組和上海人工智能實驗室具身智能中心共同完成。上海交通大學的張偉楠教授主要研究強化學習、智能體技術和具身智能。龐江淼博士主要研究機器人學習,多模態(tài)學習,具身智能,負責上海人工智能實驗室具身智能中心;劉明桓博士畢業(yè)于上海交通大學,目前在字節(jié)跳動機器人研究團隊擔任研究科學家,研究機器人的虛擬現(xiàn)實遷移;薛宇斐和董文韜是上海交通大學博士生,同時是上海人工智能實驗室的見習研究員。
在春晚上扭秧歌的機器人,現(xiàn)在也能跑跳自如了?

還能在室內(nèi)室外打一套拳擊,看這兩步跳的,害怕嗎?

它還能彎腰搬箱子:

來自上海交通大學和上海AI Lab的研究團隊提出了一套通用的人形機器人控制器 HugWBC,讓人形機器人可以同時掌握多達四種步態(tài),以及可以自主組合、用于精細化調(diào)整機器人行為的 8 種命令!
- 項目主頁:https://hugwbc.github.io
- 論文地址:https://arxiv.org/abs/2502.03206
盡管此前的人形機器人在運動上取得了很多令人驚嘆的結果,但離人類還差的多!人類在運動中具有令人驚嘆的細粒度調(diào)整能力!比如,人類可以輕易實現(xiàn)多種步態(tài),例如跑步、雙腳跳躍、甚至單腳跳躍。此外,人類還能調(diào)整步伐的大小、頻率、身體的姿態(tài),同時也能保證上身各種動作的穩(wěn)定。因此,研究者提出思考,這種通用的控制能力,是否應該被機器人的底層控制模塊所掌握?
和此前控制器只跟蹤速度指令、或是關鍵點不同,HugWBC 的研究團隊提出了一套擴展的指令空間,包含任務指令(即速度跟蹤)和行為指令,后者包括姿態(tài)、腳步和步態(tài),以提供細粒度的運動控制,從而極大發(fā)揮人形機器人的硬件潛能。在默認情況下,HugWBC 是一套全身控制器,同時控制上肢和下肢用于高動態(tài)運動;與此同時,HugWBC 也提供了上肢的外部控制器介入,用于支持進一步的遙操和精細控制,和實現(xiàn)后續(xù)的移動操作類任務。為了達到這一目標,研究者們結合了控制理論和強化學習,進行了扎實的方案設計。
擴展的指令空間和步態(tài)獎勵

HugWBC 框架
HugWBC 引入的擴展指令空間包括 1)任務指令,在本工作中主要是移動的速度指令;2)行為指令,包括腳步、姿態(tài)和步態(tài)指令。此外,控制器策略還接收機器人本體感知觀測和上肢介入信號,如無上肢介入,則控制器默認控制全部關節(jié),實現(xiàn)自然的擺動。

具體來說,腳步指令包括步頻和最大擺動高度;姿態(tài)指令包括機器人高度、前傾角和腰部轉(zhuǎn)動角;步態(tài)指令則是產(chǎn)生不同類型步態(tài)的關鍵,主要由雙腳的相位變量(即雙腳在步態(tài)周期內(nèi)的進度)、相位差(即雙腳在步態(tài)周期內(nèi)的進度差)和占空比(即足部騰空時間占步態(tài)周期的比例)。通過組合這些指令即可以產(chǎn)生豐富多樣、且細粒度的步態(tài)。
為了引導機器人能根據(jù)指令學習到細粒度的步態(tài),研究者在跟蹤獎勵的基礎之上,提出了兩種額外的步態(tài)獎勵:


即接觸 - 擺動獎勵和足端擺動獎勵,用于引導機器人產(chǎn)生對應的步態(tài)周期和足端軌跡。
對稱獎勵

自然對稱的運動行為可以最小化能量消耗的效率,并通過后天學習逐漸被人類掌握。具有高度仿生機制的人形機器人也具有對稱的結構特征。然而,如果沒有先驗知識,對稱形態(tài)信息很難被策略探索,尤其是對于產(chǎn)生多樣化行為的策略。這使得最初的探索變得更加困難,使得策略很容易陷入局部最優(yōu),導致不自然的運動。為了利用這種形態(tài)對稱的優(yōu)勢,研究者為人形機器人提出了鏡像函數(shù) F (?) 和對應的損失函數(shù),以鼓勵策略產(chǎn)生對稱和自然的運動。
上身介入的魯棒性課程訓練
HugWBC 將自己定位為基礎人形控制器,因此需要支持上半身的外部控制介入,可用于遙操等數(shù)據(jù)采集。研究者們通過設計上肢的噪聲課程來促使機器人學習到這一點。

最后,整套訓練框架使用非對稱的強化學習算法在模擬環(huán)境里訓練,實現(xiàn)真實場景的部署。
評估:指令跟蹤誤差和魯棒性測試
在跟蹤性誤差實驗分析中,研究人員首先分析了在四種步態(tài)下單個指令的跟蹤誤差,如表 3 所示,其中行走(Walking)和站立(Standing)步態(tài)的跟蹤誤差明顯小于雙腳跳躍(Jumping)和單腳跳躍(Hopping),每種步態(tài)的跟蹤精度與該步態(tài)在仿真中的訓練難度一致。例如,行走和站立的模式可以在訓練中先學習,而跳躍和跳躍的步態(tài)出現(xiàn)較晚,需要較長的訓練時間才能熟練掌握。且低速下的運動技能更容易掌握,高速下機器人的動態(tài)穩(wěn)定性下降,會導致跟蹤精度的下降。

此后,研究人員評估了不同介入訓練方法對于策略在上肢介入情況下的有效性,如表 4 所示,HugWBC 在三類測試中均取得了最好的跟蹤表現(xiàn),表明 HugWBC 的噪聲課程干預策略使控制策略能夠處理大范圍的手臂運動,使其可以有效的支持復雜的移動操作任務。而僅學習 AMASS 數(shù)據(jù)或無介入訓練的策略則在訓練分布外的測試中出現(xiàn)了跟蹤精度的災難性下降。

為了進一步說明 HugWBC 對于操作任務的支持,研究人員評估了站立狀態(tài)下指令跟蹤的平均足端移動距離,如表 5 所示,HugWBC 足端移動距離最小,在站立狀態(tài)下調(diào)整姿勢引入了對穩(wěn)定性的額外要求,因為機器人通過踱步來保持平衡可能會增加完成需要站立不動的操作,實驗結果表明 HugWBC 在站立的各種姿態(tài)下可以支持精細的操作任務任務的難度。

隨后,研究人員分析了介入訓練對策略魯棒性的提升。如圖 2 所示,HugWBC 在兩項干擾測試中的表現(xiàn)明顯優(yōu)于未經(jīng)過介入訓練的基線方法。其原因在于,干預使機器人能夠有效應對來自上身的各種擾動,在訓練過程中幾乎涵蓋了所有極端情況,從而顯著提高了策略的魯棒性。

指令的組合分析
研究者分還分析了組合指令對控制器表現(xiàn)的影響,使用熱力圖矩陣來高效地可視化了不同指令在對應范圍內(nèi)的跟蹤精度。以步行狀態(tài)為例,

可以看到,在較小的速度范圍內(nèi),前向線速度、角速度、身體高度、轉(zhuǎn)腰角度都不會明顯的相互干擾,一旦速度超過 1.5m/s,控制器會犧牲跟蹤精度來保持動態(tài)的平衡與穩(wěn)定。橫向速度、抬腳高度與身體俯仰角則常受到明顯的干擾。頻率則是需要在合適區(qū)間內(nèi)才能使表現(xiàn)更好。抬腳高度與頻率、身體俯仰角與身體高度這兩組指令則有明顯的關聯(lián)性。




























