偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

行業(yè)新突破:行為基礎(chǔ)模型可實現(xiàn)高效的人形機器人全身控制

人工智能 新聞
來自香港理工大學、逐際動力、東方理工大學、香港大學和 EPFL 等知名機構(gòu)的研究者合作完成題為 《A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots》 的長文綜述,首次聚焦行為基礎(chǔ)模型在人形機器人全身控制中的應用。

人形機器人作為用于復雜運動控制、人機交互和通用物理智能的多功能平臺,正受到前所未有的關(guān)注。然而,由于其復雜的動力學、欠驅(qū)動和多樣化的任務(wù)需求,實現(xiàn)高效的人形機器人全身控制 (Whole-Body Control,WBC) 仍然是一項根本性的挑戰(zhàn)。

雖然基于強化學習等方法的控制器在特定任務(wù)中展現(xiàn)出優(yōu)越的性能,但它們往往只具有有限的泛化性能,在面向新場景時需要進行復雜且成本高昂的再訓練。為了突破這些限制,行為基礎(chǔ)模型(Behavior Foundation Model,BFM)應運而生,它利用大規(guī)模預訓練來學習可重用的原始技能和廣泛的行為先驗,從而能夠零樣本或快速適應各種下游任務(wù)。 

來自香港理工大學、逐際動力、東方理工大學、香港大學和 EPFL 等知名機構(gòu)的研究者合作完成題為 《A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots》 的長文綜述,首次聚焦行為基礎(chǔ)模型在人形機器人全身控制中的應用。

該綜述系統(tǒng)性地梳理了當前 BFM 的最新進展,從預訓練(Pre-training)和任務(wù)適配(Adaptation)兩個角度對當前各類 BFM 算法提供了全面的分類體系,并且結(jié)合其他基礎(chǔ)模型(例如大語言模型、大規(guī)模視覺模型)的發(fā)展動向?qū)?BFM 的未來趨勢和研究機遇進行了展望,有望對該領(lǐng)域的研究者和從業(yè)者產(chǎn)生引導作用。

圖片

論文標題:

《A Survey of Behavior Foundation Model: Next-Generation Whole-Body Control System of Humanoid Robots》

論文鏈接:https://arxiv.org/pdf/2506.20487

項目主頁:

https://github.com/yuanmingqi/awesome-bfm-papers

人型全身控制:從 「定制化」 到 「通用化」

文章將人形全身控制算法的演化總結(jié)為下圖中的三個階段:

圖片

基于模型的控制器(Model-based Controller):

以 MPC、WBOSC 等算法為代表,面向基礎(chǔ)的人形全身控制任務(wù),極度依賴物理模型并且需要復雜的人工設(shè)計與調(diào)校,且魯棒性較低。

基于學習的,面向特定任務(wù)的控制器(Learning-based and Task-specific Controller):

以強化學習、模仿學習等方法為代表,面向特定的、復雜的人形全身控制任務(wù),支持靈活的任務(wù)設(shè)計,但跨任務(wù)的泛化性較差。

行為基礎(chǔ)模型(Behavior Foundation Model):

在大規(guī)模人類行為數(shù)據(jù)集上進行預訓練得到的模型,習得大量可復用的基礎(chǔ)技能以及廣泛的行為先驗,具備快速適應不同任務(wù)的能力。

什么是行為基礎(chǔ)模型?

「行為基礎(chǔ)模型」 這一術(shù)語首次出現(xiàn)在《Fast Imitation via Behavior Foundation Models》 一文中,作者基于無監(jiān)督強化學習 + 前后向表征學習(Forward-backward Representation Learning)方法構(gòu)建 BFM,實現(xiàn)了對多種模仿學習規(guī)則的支持,包括行為克?。˙ehavioral Cloning)、特征匹配(feature matching)、基于獎勵 / 目標的歸納(reward/goal-based reductions)。

該工作也被 ICLR2024 接收為 Spotlight 文章。后續(xù)的其他工作則將 BFM 定義為:「對于一個給定的馬爾科夫過程,行為基礎(chǔ)模型是一類以無監(jiān)督強化學習方法訓練得到的智能體。在測試時,可以為指定的大量獎勵函數(shù)生成近似最優(yōu)的策略,而無需額外的學習或規(guī)劃」。

圖片

該綜述將 BFM 的定義拓展為:「一類特殊的基礎(chǔ)模型,旨在控制智能體在動態(tài)環(huán)境中的行為。BFM 植根于通用基礎(chǔ)模型(例如 GPT-4、CLIP 和 SAM)的原理,使用大規(guī)模行為數(shù)據(jù)(例如軌跡、人類演示或智能體與環(huán)境的交互)進行預訓練,從而對廣泛的行為模式進行編碼,而非局限于單任務(wù)場景。這一特性確保了模型能夠輕松地對不同任務(wù)、情境或環(huán)境進行泛化,展現(xiàn)出靈活且自適應的行為生成能力?!?/p>

主要算法分類

文章將當前構(gòu)建 BFM 的方法分為三類:目標導向的學習方法(Goal-conditioned Learning)、內(nèi)在獎勵驅(qū)動的學習方法(Intrinsic Reward-driven Learning),以及前后向表征學習方法(Forward-backward Representation learning)。

圖片

如下圖所示,目標導向的學習方法會對智能體給予明確的任務(wù)指導,通常直接將目標輸入到智能體的策略中。目標可以以多種形式指定,例如目標狀態(tài)、目標函數(shù)或外部任務(wù)描述。

圖片

在目標學習的各類方法中,以 DeepMimic 為代表的基于動作追蹤(Motion Tracking)的學習方法目前被廣泛地應用于各類人型機器人任務(wù)中。在每個時間步,智能體通常被訓練來跟蹤給定參考運動的關(guān)節(jié)角度或下一時間步的運動學姿態(tài)。相較于直接模仿整個運動(尤其是復雜運動),學習跟蹤單個姿態(tài)更容易實現(xiàn)且更具通用性,這也是基于跟蹤的學習的主要動機。

圖片

MaskedMimic 是典型的基于目標學習方法構(gòu)建的行為基礎(chǔ)模型,其包含兩個階段的訓練過程。首先,MaskedMimic 基于動作追蹤方法對大量的行為數(shù)據(jù)進行模仿,學習各類基礎(chǔ)運動技能。然后,將得到的底層控制器固定,并訓練一個帶掩碼的變分自編碼器對底層控制器包含的知識進行蒸餾得到高階策略。MaskedMimic 支持多種控制模態(tài),并能在不同任務(wù)之間實現(xiàn)無縫切換。

圖片

在基于追蹤的學習中,智能體始終被賦予了明確的目標,并通過顯示指定的獎勵函數(shù)進行訓練,以實現(xiàn)定向的技能學習。相比之下,內(nèi)在獎勵驅(qū)動的學習則使用完全不同的方法,即激勵智能體對環(huán)境進行探索,而不依賴于明確的特定任務(wù)獎勵。智能體受內(nèi)在獎勵的引導,這些內(nèi)在獎勵是自我生成的信號,用于鼓勵探索、技能習得或者發(fā)現(xiàn)新奇的事物。

但是,只通過內(nèi)在獎勵訓練 BFM 存在顯著的限制,智能體通常需要進行巨量的訓練才能實現(xiàn)廣泛的行為覆蓋,同時有概率產(chǎn)生不可靠的行為先驗(例如,不安全或不切實際的運動),特別是對于具有極其復雜動力學的人形機器人而言。

因此,在實際應用時,內(nèi)在獎勵往往要結(jié)合其他方法使用,例如目標導向?qū)W習,以確保學得模型的有效性。

近期 BFM 的主要進步受益于一種新的學習框架 —— 前后向表征學習,其主要思想是將策略學習與特定任務(wù)目標進行解耦。前后向表征學習的核心是對后繼測度(Successor Measure)進行學習,對于一個策略 π,其后繼測度定義為:

圖片

其代表了對未來訪問狀態(tài)分布的建模?;诤罄^測度,動作價值函數(shù)可以表示為:

圖片

以上公式將動作價值函數(shù)分解為兩部分:后繼測度和獎勵函數(shù)。因此,只要學習到了策略 π 的后繼測度,即可對任意獎勵函數(shù)對應的動作價值函數(shù)進行零樣本估計,而無需進一步的訓練。在具體學習時,后繼測度又被分解為:

圖片

如下圖所示,我們分別使用一個前向嵌入網(wǎng)絡(luò)和一個后向嵌入網(wǎng)絡(luò)進行訓練。

圖片

最終,我們可以將策略表示為: 

圖片

Meta 基于前后向表征學習方法開發(fā)了 Motivo 模型。如下圖所示,Motivo 學習了廣泛的行為先驗,并展現(xiàn)出卓越的零樣本自適應能力,可應對各種下游任務(wù),包括復雜的運動模仿、姿勢達成和復合獎勵優(yōu)化。并且,Motivo 能夠在確保運動自然性的同時實現(xiàn)實時運動控制。

圖片

潛在應用與現(xiàn)實限制

文章進一步對 BFM 的潛在應用和現(xiàn)實限制進行了分析,如下圖所示:

圖片

應用方面:

  • 人形機器人的通用加速器:BFM 包含了大量可復用的基礎(chǔ)技能和廣泛的行為先驗,可以消除白板訓練,實現(xiàn)對下游任務(wù)的快速適應。諸如 Motivo 等高級 BFM 能直接將高級任務(wù)映射為控制動作,大幅縮短開發(fā)周期。
  • 虛擬智能體與游戲開發(fā):BFM 能生成逼真、情境感知的 NPC 行為,結(jié)合 LLMs 實現(xiàn)復雜指令解析,為游戲提供前所未有的交互真實感。
  • 工業(yè) 5.0:BFMs 使人形機器人融合預訓練技能與實時適應性,支持多任務(wù)切換和直觀人機協(xié)作,推動以人為中心的彈性制造。
  • 醫(yī)療與輔助機器人:BFMs 幫助機器人在非結(jié)構(gòu)化環(huán)境中適應多樣化需求,如個性化康復訓練和日常輔助任務(wù),應對人口老齡化挑戰(zhàn)。

限制方面:

  • Sim2Real 困難:BFM 在學習豐富行為技能的同時,也加劇了仿真與現(xiàn)實的差異,如動力學不匹配和感知域偏移,目前的實際應用仍主要局限于仿真環(huán)境,真實部署面臨行為泛化不穩(wěn)定等挑戰(zhàn)。
  • 數(shù)據(jù)瓶頸:BFMs 訓練數(shù)據(jù)規(guī)模遠小于 LLMs 或視覺模型,且機器人真實數(shù)據(jù)稀缺,多模態(tài)數(shù)據(jù)(如視覺 - 本體感知 - 觸覺對齊)尤其缺乏,亟需更大規(guī)模、高質(zhì)量數(shù)據(jù)集支撐發(fā)展。
  • 具身泛化:當前 BFMs 僅針對特定機器人形態(tài)訓練,難以適應不同構(gòu)型(如關(guān)節(jié)類型、驅(qū)動方式或傳感器配置),需開發(fā)更具通用性的架構(gòu)以實現(xiàn)跨平臺技能遷移。

未來研究機會與伴隨風險

最后,文章探索了未來的研究機會和伴隨的風險:

圖片

研究機會方面:

  • 多模態(tài) BFM:未來 BFM 需整合視覺、觸覺等多模態(tài)感知輸入,以增強非結(jié)構(gòu)化環(huán)境中的適應能力,但面臨數(shù)據(jù)集和訓練范式的挑戰(zhàn)。
  • 高級機器學習系統(tǒng):BFM 可與 LLM 等結(jié)合,形成認知 - 運動一體化架構(gòu),由 LLM 負責任務(wù)規(guī)劃,BFM 執(zhí)行實時控制,實現(xiàn)復雜任務(wù)的靈活處理。
  • 縮放定律:BFM 的性能可能隨模型規(guī)模、數(shù)據(jù)量和計算資源提升而增強,但需平衡行為多樣性與控制效率,其中數(shù)據(jù)質(zhì)量對行為先驗的學習尤為關(guān)鍵。
  • 后訓練優(yōu)化:借鑒 LLM 中的的微調(diào)、RL 對齊和測試時優(yōu)化技術(shù),可提升 BFM 的行為對齊性和實時計算效率,需開發(fā)針對機器人控制的專用方法。
  • 多智能體系統(tǒng):BFM 能免除單機器人基礎(chǔ)技能訓練,直接支持多機協(xié)作研究,但需開發(fā)基于群體交互數(shù)據(jù)的新型模型以解決物理協(xié)調(diào)難題。
  • 評估機制:當前缺乏 BFM 的標準化評估體系,未來需構(gòu)建涵蓋任務(wù)泛化性、魯棒性和人機安全的多維度基準,推動通用物理控制器發(fā)展。

風險方面:

  • 倫理問題

訓練數(shù)據(jù)的局限性可能導致機器人行為編碼人口偏見或泄露用戶健康隱私,而其實體化部署可能放大有害動作的社會風險,亟需建立覆蓋數(shù)據(jù)規(guī)范和實時行為治理的新框架。

  • 安全機制:

BFM 面臨傳感器干擾引發(fā)的控制失效和多模態(tài)攻擊漏洞等風險,需通過對抗訓練和跨模態(tài)校驗等機制確保其在開放環(huán)境中的可靠性和安全性。這些挑戰(zhàn)要求研究者在技術(shù)創(chuàng)新的同時,同步推進倫理規(guī)范和安全防護體系的建設(shè)。

結(jié)語

該綜述首次系統(tǒng)性地梳理了行為基礎(chǔ)模型在人形機器人全身控制領(lǐng)域的引用,全面地介紹了相關(guān)技術(shù)演化歷史、方法分類、實際應用、技術(shù)瓶頸以及未來研究機會與伴隨的風險。

盡管行為基礎(chǔ)模型展現(xiàn)出前所未有的強大能力,其也面臨著重大挑戰(zhàn),包括 Sim2Real 差距、實體依賴和數(shù)據(jù)稀缺等問題。在未來的工作中解決這些局限性將有助于開發(fā)更可靠、更通用的行為基礎(chǔ)模型。

希望我們的工作能啟發(fā)更多相關(guān)的后續(xù)研究!

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-11-04 14:35:00

AI機器人

2024-02-28 12:43:00

數(shù)據(jù)訓練

2025-02-21 14:53:40

2025-04-21 16:29:15

機器人人形機器人人工智能

2024-06-04 14:16:00

機器人AI

2023-05-22 19:16:09

人工智能機器人

2025-09-04 14:26:55

機器人Figure識別

2024-03-19 13:58:05

Isaac 機器人NVIDIA

2025-02-25 10:32:10

2025-09-08 09:49:07

2025-03-19 10:05:02

2025-02-21 13:00:00

2022-08-20 17:54:37

機器人開發(fā)

2024-04-28 09:15:22

人工智能人形機器人

2020-08-24 15:55:26

腦機接口機器人工智能

2022-10-17 15:35:32

人形機器人機器人
點贊
收藏

51CTO技術(shù)棧公眾號