偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

手把手帶你入門(mén)機(jī)器人學(xué)習(xí),HuggingFace聯(lián)合牛津大學(xué)新教程開(kāi)源SOTA資源庫(kù)

人工智能 新聞
隨著機(jī)器學(xué)習(xí)和多模態(tài)模型的迅速發(fā)展以及大規(guī)模機(jī)器人數(shù)據(jù)的拓展,機(jī)器人學(xué)習(xí)逐步轉(zhuǎn)向了基于學(xué)習(xí)的范式,強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí),以及研究熱門(mén)的 VLA 模型,都正在為自主決策的機(jī)器人開(kāi)辟全新的潛力。

入坑機(jī)器人的春天來(lái)了。

眾所周知,機(jī)器人學(xué)本質(zhì)上是一個(gè)多學(xué)科交叉的領(lǐng)域,自 20 世紀(jì) 60 年代誕生以來(lái),已經(jīng)取得了前所未有的進(jìn)步。

尤其是在大模型誕生,多模態(tài)大模型等人工智能技術(shù)蓬勃發(fā)展的當(dāng)下,機(jī)器人領(lǐng)域與過(guò)去經(jīng)典機(jī)器人學(xué)產(chǎn)生了重大的變化,機(jī)器人學(xué)習(xí)成為了現(xiàn)代機(jī)器人學(xué)的中流砥柱。

隨著機(jī)器學(xué)習(xí)和多模態(tài)模型的迅速發(fā)展以及大規(guī)模機(jī)器人數(shù)據(jù)的拓展,機(jī)器人學(xué)習(xí)逐步轉(zhuǎn)向了基于學(xué)習(xí)的范式,強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí),以及研究熱門(mén)的 VLA 模型,都正在為自主決策的機(jī)器人開(kāi)辟全新的潛力。

值得慶幸的是,HuggingFace 與牛津大學(xué)的研究者們?yōu)橄胍M(jìn)入現(xiàn)代機(jī)器人學(xué)習(xí)領(lǐng)域的新人們提供了了一份極其全面易懂的技術(shù)教程。

這份教程將帶領(lǐng)讀者探索現(xiàn)代機(jī)器人學(xué)習(xí)的全景,從強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)的基礎(chǔ)原理出發(fā),逐步走向能夠在多種任務(wù)甚至不同機(jī)器人形態(tài)下運(yùn)行的通用型、語(yǔ)言條件模型。

  • 論文標(biāo)題:Robot Learning: A Tutorial
  • 論文鏈接:https://www.arxiv.org/abs/2510.12403v1
  • Github 鏈接:https://github.com/huggingface/lerobot
  • 模型和數(shù)據(jù)集鏈接:https://huggingface.co/lerobot

更良心的是,這份教程還額外附帶了機(jī)器人領(lǐng)域的基于 PyTorch 的開(kāi)源數(shù)據(jù)集、模型、工具和代碼庫(kù) LeRobot,收錄了許多當(dāng)前的 SOTA 方法,這些方法已經(jīng)在模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方向上展示了良好的真實(shí)機(jī)器人遷移能力。

目前,LeRobot 已經(jīng)提供了一系列預(yù)訓(xùn)練模型、包含人工采集示范的數(shù)據(jù)集,以及模擬環(huán)境,用戶(hù)無(wú)需搭建實(shí)體機(jī)器人就可以開(kāi)始上手。

LeRobot 是由 Hugging Face 開(kāi)發(fā)的開(kāi)源端到端機(jī)器人庫(kù)。該庫(kù)在整個(gè)機(jī)器人棧上垂直整合,支持對(duì)真實(shí)世界機(jī)器人設(shè)備的低級(jí)控制、高級(jí)數(shù)據(jù)和推理優(yōu)化,以及具有純 Pytorch 簡(jiǎn)單實(shí)現(xiàn)的 SOTA 機(jī)器人學(xué)習(xí)方法。

這份教程從經(jīng)典機(jī)器人學(xué)的概念開(kāi)始,逐步介紹強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),生成模型的理念,以及通用機(jī)器人策略。

「技多不壓身」,該教程是成為踏入機(jī)器人學(xué)習(xí)領(lǐng)域的一份有價(jià)值的起點(diǎn)。

我們將簡(jiǎn)單介紹一下這份教程涉及的基本內(nèi)容:

經(jīng)典機(jī)器人學(xué)

從顯式建模到隱式建模的演化,標(biāo)志著機(jī)器人運(yùn)動(dòng)生成方式的一次根本性變革。傳統(tǒng)機(jī)器人技術(shù)依賴(lài)顯式建模,通過(guò)正向運(yùn)動(dòng)學(xué)、逆向運(yùn)動(dòng)學(xué)以及基于控制的規(guī)劃來(lái)生成動(dòng)作;而基于學(xué)習(xí)的方法則通過(guò)深度強(qiáng)化學(xué)習(xí)和專(zhuān)家示范學(xué)習(xí),實(shí)現(xiàn)了隱式建模。

經(jīng)典的機(jī)器人系統(tǒng)通常遵循一個(gè)模塊化流水線(xiàn):感知模塊處理原始傳感器數(shù)據(jù),狀態(tài)估計(jì)模塊確定機(jī)器人的當(dāng)前狀態(tài),規(guī)劃模塊生成運(yùn)動(dòng)軌跡,控制模塊則負(fù)責(zé)執(zhí)行這些軌跡。

基于動(dòng)力學(xué)的機(jī)器人方法存在多方面的局限:

  • 系統(tǒng)中多個(gè)組件需要協(xié)同工作,導(dǎo)致集成過(guò)程復(fù)雜且容易出錯(cuò);
  • 不同的傳感模態(tài)和任務(wù)往往需要定制化的數(shù)據(jù)處理流水線(xiàn),降低了系統(tǒng)的可擴(kuò)展性;
  • 對(duì)物理現(xiàn)象的解析模型通常過(guò)于簡(jiǎn)化,限制了真實(shí)環(huán)境中的性能表現(xiàn);
  • 基于動(dòng)力學(xué)的方法往往忽視了機(jī)器人數(shù)據(jù)在規(guī)模與可獲取性方面的增長(zhǎng)趨勢(shì)。

綜合來(lái)看,這些限制促使人們探索基于學(xué)習(xí)的方法,這些方法能夠(1)更緊密地整合感知和控制,(2)在任務(wù)和本體之間進(jìn)行適應(yīng),同時(shí)減少專(zhuān)家建模干預(yù),以及(3)隨著更多機(jī)器人數(shù)據(jù)的可用性,在性能上擴(kuò)展。

機(jī)器人(強(qiáng)化)學(xué)習(xí)

強(qiáng)化學(xué)習(xí)通過(guò)試錯(cuò)法讓機(jī)器人自主學(xué)習(xí)最優(yōu)行為策略,在許多場(chǎng)景下展現(xiàn)了巨大潛力。

基于學(xué)習(xí)的機(jī)器人學(xué)通過(guò)訓(xùn)練一個(gè)(1)統(tǒng)一的高層控制器,能夠直接處理(2)高維、非結(jié)構(gòu)化的感知 - 運(yùn)動(dòng)信息,從而簡(jiǎn)化從感知到動(dòng)作的過(guò)程。學(xué)習(xí)過(guò)程(3)無(wú)需動(dòng)力學(xué)模型,而是聚焦于交互數(shù)據(jù),并且(4)其效果與所用數(shù)據(jù)的規(guī)模呈經(jīng)驗(yàn)性正相關(guān)。

然而,該教程也明確指出了其在現(xiàn)實(shí)世界中面臨的瓶頸:一是安全與效率問(wèn)題,尤其是在訓(xùn)練初期,機(jī)器人可能因探索性動(dòng)作造成硬件損傷;二是高昂的試錯(cuò)成本,尤其是在真實(shí)物理環(huán)境中。

為解決這些問(wèn)題,教程介紹了一系列前沿技術(shù),例如通過(guò)模擬器訓(xùn)練來(lái)規(guī)避物理風(fēng)險(xiǎn),并利用「域隨機(jī)化」技術(shù)來(lái)縮小模擬與現(xiàn)實(shí)之間的差距。

同一運(yùn)動(dòng)任務(wù)可在訓(xùn)練階段于不同(仿真)域中執(zhí)行(以地形差異為例),從而提升對(duì)多樣化環(huán)境動(dòng)態(tài)的魯棒性。

此外,教程還重點(diǎn)介紹了「離線(xiàn)到在線(xiàn)」(Offline-to-Online)強(qiáng)化學(xué)習(xí)框架,該框架利用預(yù)先收集的專(zhuān)家數(shù)據(jù)來(lái)引導(dǎo)學(xué)習(xí)過(guò)程,顯著提升了樣本效率和安全性。

其中,HIL-SERL(Human-in-the-Loop, Sample-Efficient Robot Reinforcement Learning)方法作為典型案例被詳細(xì)闡述,該方法通過(guò)在訓(xùn)練中引入人類(lèi)監(jiān)督和干預(yù),使得機(jī)器人在短短 1-2 小時(shí)內(nèi)就能掌握復(fù)雜的真實(shí)世界操作任務(wù),成功率接近 100%。

(A) HIL-SERL 通過(guò)借鑒 SAC、RLPD 和 SERL 的最新進(jìn)展,實(shí)現(xiàn)了在現(xiàn)實(shí)世界中對(duì)高性能 RL 智能體的訓(xùn)練。 (B) 在真實(shí) SO-100 上進(jìn)行 HIL-SERL 訓(xùn)練過(guò)程中的人類(lèi)干預(yù)示例。

機(jī)器人(模仿)學(xué)習(xí)

與強(qiáng)化學(xué)習(xí)不同,模仿學(xué)習(xí)為機(jī)器人提供了一條更為直接的學(xué)習(xí)路徑,即通過(guò)「行為克隆」來(lái)復(fù)現(xiàn)專(zhuān)家操作。教程指出,模仿學(xué)習(xí)的核心優(yōu)勢(shì)在于它完全規(guī)避了復(fù)雜的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),并通過(guò)直接學(xué)習(xí)專(zhuān)家數(shù)據(jù)來(lái)確保訓(xùn)練過(guò)程的安全性。

然而,簡(jiǎn)單的行為克隆也面臨兩大挑戰(zhàn):一是「復(fù)合誤差」,即微小的預(yù)測(cè)偏差會(huì)在序貫決策中被放大;二是難以處理專(zhuān)家演示中的「多模態(tài)」行為,例如,同一個(gè)任務(wù)目標(biāo)可以通過(guò)多種不同的有效動(dòng)作序列完成。

教程詳細(xì)介紹了一系列基于生成模型的先進(jìn)模仿學(xué)習(xí)方法。

例如,Action Chunking with Transformers (ACT) 和 Diffusion Policy 等技術(shù),通過(guò)學(xué)習(xí)專(zhuān)家行為的潛在分布而非單一的映射函數(shù),來(lái)有效建模多模態(tài)數(shù)據(jù)。

ACT 中使用的 CVAE 編碼器。輸入的動(dòng)作塊首先被嵌入并與位置嵌入聚合,然后與嵌入的本體感知信息以及一個(gè)用于聚合輸入層信息并預(yù)測(cè)風(fēng)格變量 z 的可學(xué)習(xí) [CLS] 標(biāo)記一起處理。該編碼器僅用于訓(xùn)練解碼器,在推理階段完全被忽略。

其中,Diffusion Policy 利用擴(kuò)散模型生成動(dòng)作序列,在模擬和真實(shí)世界的多種任務(wù)中表現(xiàn)出色,僅需 50-150 個(gè)演示(約 15-60 分鐘的遙操作數(shù)據(jù))即可完成訓(xùn)練。

Diffusion Policy 架構(gòu)。將 H_o 個(gè)歷史觀(guān)測(cè)堆疊作為外部條件,用于對(duì)一組 H_a 個(gè)動(dòng)作進(jìn)行去噪。條件注入在 U-Net 塊的每一層都執(zhí)行。Diffusion Policy 僅需 T = 10 步去噪即可獲得完整的動(dòng)作塊。

此外,教程還探討了如何通過(guò)「異步推理」優(yōu)化模型部署,有效提升機(jī)器人在資源受限環(huán)境下的響應(yīng)速度和計(jì)算效率。

異步推理。異步推理?xiàng)J疽鈭D。注意,策略可以在遠(yuǎn)程服務(wù)器上運(yùn)行,可能配備 GPU。

通用機(jī)器人策略

在模仿學(xué)習(xí)的基礎(chǔ)上,教程進(jìn)一步展望了機(jī)器人技術(shù)的未來(lái):構(gòu)建能夠跨任務(wù)、跨設(shè)備的「通用機(jī)器人策略」,即機(jī)器人領(lǐng)域的「基礎(chǔ)模型」。

這一方向的興起源于大規(guī)模開(kāi)放機(jī)器人數(shù)據(jù)集(如 Open X-Embodiment)的出現(xiàn),以及強(qiáng)大的視覺(jué) - 語(yǔ)言模型(VLM)的發(fā)展。

教程重點(diǎn)介紹了兩種前沿的 VLA 模型:π? 和 SmolVLA。這兩者均采用了混合專(zhuān)家(MoE)架構(gòu),將預(yù)訓(xùn)練的 VLM 作為強(qiáng)大的「感知主干」,負(fù)責(zé)理解視覺(jué)和語(yǔ)言指令,再結(jié)合一個(gè)專(zhuān)門(mén)的「動(dòng)作專(zhuān)家」來(lái)生成精確的機(jī)器人控制指令。

  • π? 模型利用 Flow Matching 技術(shù)進(jìn)行訓(xùn)練,并基于包含超過(guò) 1000 萬(wàn)個(gè)軌跡的大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,展現(xiàn)了強(qiáng)大的少樣本甚至零樣本泛化能力。

π0 架構(gòu)。視覺(jué)與語(yǔ)言 token 被送入 VLM 主干,該主干被禁止關(guān)注機(jī)器人本體感知狀態(tài)與動(dòng)作 token;后者轉(zhuǎn)而輸入架構(gòu)內(nèi)一個(gè)更小的權(quán)重子集,稱(chēng)為「動(dòng)作專(zhuān)家」。該架構(gòu)在 1000 萬(wàn) + 條軌跡上以 Flow Matching 訓(xùn)練,數(shù)據(jù)來(lái)自封閉與公開(kāi)數(shù)據(jù)集的混合。

  • SmolVLA 則代表了另一個(gè)重要趨勢(shì):模型的小型化和開(kāi)源化。作為一個(gè)完全開(kāi)源的項(xiàng)目,SmolVLA 在保證高性能的同時(shí),參數(shù)量?jī)H為 π?的約七分之一,內(nèi)存消耗降低了 6 倍,極大地降低了前沿機(jī)器人模型的應(yīng)用門(mén)檻。

SmolVLA 架構(gòu)如 @shukorSmolVLAVisionLanguageActionModel2025 所示。它是一個(gè)緊湊的 MoE 模型,通過(guò)流匹配訓(xùn)練對(duì)動(dòng)作塊進(jìn)行去噪。視覺(jué)與語(yǔ)言令牌輸入 VLM 主干,通過(guò)注意力機(jī)制與本體感知及動(dòng)作令牌共享信息。注意力專(zhuān)家在 VLM 主干視覺(jué)特征上交替使用 SA 與 CA 層進(jìn)一步條件化。SmolVLA 跳過(guò)部分計(jì)算并壓縮視覺(jué)令牌,內(nèi)存占用僅為 π? 的 1/7(4.5 億參數(shù) vs. π? 的 33 億)。

更多細(xì)節(jié)內(nèi)容,代碼示例等請(qǐng)參閱教程原文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-09-15 14:50:03

AI機(jī)器人開(kāi)發(fā)

2021-03-23 13:49:21

人工智能機(jī)器學(xué)習(xí)

2021-12-15 07:24:57

人工神經(jīng)網(wǎng)絡(luò)翻譯

2023-07-12 14:48:27

2020-09-02 10:36:52

機(jī)器人人工智能系統(tǒng)

2017-09-05 13:01:11

CocoaPods開(kāi)源庫(kù)GitHub

2023-03-29 10:02:36

2020-11-27 07:38:43

MongoDB

2023-01-30 09:27:57

開(kāi)發(fā)自動(dòng)化配置

2024-05-28 13:03:50

2025-06-11 14:45:26

機(jī)器人訓(xùn)練數(shù)據(jù)

2022-08-11 07:32:51

Starter自動(dòng)裝配

2022-10-28 13:16:07

四足機(jī)器人機(jī)器人人工智能

2019-11-21 15:35:28

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2017-03-27 09:59:25

機(jī)器人自創(chuàng)語(yǔ)言交流

2019-12-24 09:31:55

機(jī)器人人工智能編程

2024-12-17 13:00:00

訓(xùn)練代碼機(jī)器人

2022-01-25 17:05:44

ArkUI_eTS操作系統(tǒng)鴻蒙

2024-01-26 08:16:48

Exporter開(kāi)源cprobe

2021-05-27 11:10:42

Python開(kāi)源包代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)