偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

全球首個(gè)人形機(jī)器人通用視覺感知系統(tǒng),Humanoid Occupancy建立多模態(tài)環(huán)境理解新范式

人工智能 新聞
北京人形機(jī)器人創(chuàng)新中心推出 Humanoid Occupancy 感知系統(tǒng),為破解這一行業(yè)難題提供了革命性方案。

第一作者崔巍,北京人形機(jī)器人創(chuàng)新中心感知算法負(fù)責(zé)人;共同一作王浩宇,極佳科技算法工程師,項(xiàng)目負(fù)責(zé)人;通訊作者張強(qiáng),北京人形機(jī)器人創(chuàng)新中心學(xué)術(shù)委員會主任。

憑借類人化的結(jié)構(gòu)設(shè)計(jì)與運(yùn)動模式,人形機(jī)器人被公認(rèn)為最具潛力融入人類環(huán)境的通用型機(jī)器人。其核心任務(wù)涵蓋操作 (manipulation)、移動 (locomotion) 與導(dǎo)航 (navigation) 三大領(lǐng)域,而這些任務(wù)的高效完成,均以機(jī)器人對自身所處環(huán)境的全面精準(zhǔn)理解為前提。

然而,傳統(tǒng)感知系統(tǒng)存在明顯局限:有些僅能適配特定場景,難以應(yīng)對復(fù)雜多變的真實(shí)環(huán)境;有些無法有效融合多種傳感器信息,導(dǎo)致數(shù)據(jù)利用率低下。這直接造成機(jī)器人在實(shí)際應(yīng)用中頻繁出現(xiàn)感知失效問題,嚴(yán)重制約了任務(wù)執(zhí)行效率。

為此,北京人形機(jī)器人創(chuàng)新中心推出 Humanoid Occupancy 感知系統(tǒng),為破解這一行業(yè)難題提供了革命性方案。該系統(tǒng)通過創(chuàng)新性融合多模態(tài)傳感器信息,構(gòu)建起基于語義占用 (occupancy) 表征的通用感知框架,能夠精準(zhǔn)捕捉環(huán)境中的語義屬性與幾何特征,為機(jī)器人的任務(wù)規(guī)劃和導(dǎo)航?jīng)Q策奠定堅(jiān)實(shí)基礎(chǔ),也為人形機(jī)器人向?qū)嶋H場景大規(guī)模部署邁出了關(guān)鍵的一步。

圖片

  • 論文標(biāo)題:Humanoid Occupancy: Enabling A Generalized Multimodal Occupancy Perception System on Humanoid Robots
  • 論文地址https://arxiv.org/abs/2507.20217
  • 項(xiàng)目主頁https://humanoid-occupancy.github.io/
  • 聯(lián)系郵箱jony.zhang@x-humanoid.com

圖片

突破傳統(tǒng)感知局限,占用表征具有核心優(yōu)勢

人形機(jī)器人面臨三大核心任務(wù):操作、移動和導(dǎo)航。操作需要豐富的紋理和幾何信息,移動依賴地形幾何感知,導(dǎo)航則要求全局環(huán)境語義和空間幾何理解。這些多樣化需求對感知系統(tǒng)設(shè)計(jì)提出了巨大挑戰(zhàn),而傳統(tǒng)的感知表示方法往往只能反映部分信息,無法滿足復(fù)雜任務(wù)需求。

因此,Humanoid Occupancy 系統(tǒng)選擇語義占用表征作為人形機(jī)器人感知的核心范式,其具備兩大顯著優(yōu)勢:

  • 三維空間全面編碼:通過體素直接編碼環(huán)境中每個(gè)空間單元的占據(jù)狀態(tài)與語義類別,不僅能精準(zhǔn)捕捉二維平面分布特征,更能完整呈現(xiàn)垂直維度的精細(xì)結(jié)構(gòu)及語義屬性,其表征能力顯著優(yōu)于傳統(tǒng)的 BEV (鳥瞰圖) 表征方式。
  • 天然適配多模態(tài)融合:相較于點(diǎn)云、網(wǎng)格等其他三維表示方法,語義占用可將 RGB 圖像、深度信息、LiDAR 點(diǎn)云等多類傳感器數(shù)據(jù)方便地統(tǒng)一整合至空間體素中,使得該系統(tǒng)在數(shù)據(jù)結(jié)構(gòu)規(guī)范性、語義標(biāo)注便捷性及下游任務(wù)接口兼容性上更具通用性與可擴(kuò)展性,能夠直接為路徑規(guī)劃、障礙規(guī)避及操作執(zhí)行等任務(wù)提供支撐。

三大關(guān)鍵技術(shù),構(gòu)建完整感知體系

Humanoid Occupancy 系統(tǒng)構(gòu)建了一套覆蓋硬件布局、數(shù)據(jù)集構(gòu)建及多模態(tài)融合網(wǎng)絡(luò)設(shè)計(jì)的全鏈條解決方案,為人形機(jī)器人提供了通用化的感知技術(shù)路線。

圖片


  • 優(yōu)化傳感器布局,最大化感知能力:為兼顧操作、移動和導(dǎo)航任務(wù)的感知需求,系統(tǒng)采用了創(chuàng)新的傳感器布局策略:配備6個(gè)RGB相機(jī)和1個(gè)激光雷達(dá),其中6個(gè)相機(jī)前后各1個(gè)、兩側(cè)各2個(gè),激光雷達(dá)的水平視場角為360度。同時(shí)針對人形機(jī)器人的特性,設(shè)計(jì)了科學(xué)合理的安裝方案,有效避免了設(shè)備遮擋問題,保證了360度感知范圍,并確保兼容不同場景和未來迭代升級。

圖片

  • 構(gòu)建首個(gè)人形機(jī)器人全景占用感知數(shù)據(jù)集,助力社區(qū)研究:為解決人形機(jī)器人領(lǐng)域數(shù)據(jù)稀缺問題,團(tuán)隊(duì)構(gòu)建了首個(gè)針對人形機(jī)器人的占用感知數(shù)據(jù)集。數(shù)據(jù)集涵蓋家居、工業(yè)等多種場景,針對不同場景定義了差異化的語義標(biāo)注類別(如家居場景包括行人、椅子、桌子等,工業(yè)場景包括傳送帶、靜態(tài)物體等)。標(biāo)注采用了精心設(shè)計(jì)的動靜態(tài)解耦標(biāo)注方法,分別針對動態(tài)目標(biāo)(如行人)進(jìn)行 bounding box 標(biāo)注,靜態(tài)點(diǎn)云進(jìn)行逐點(diǎn)語義標(biāo)注,最終逐幀合并生成占用真值。
  • 設(shè)計(jì)多模態(tài)融合感知網(wǎng)絡(luò),實(shí)現(xiàn)精準(zhǔn)環(huán)境感知:為了實(shí)現(xiàn)精確且高效的三維占用感知,我們設(shè)計(jì)了輕量化的多模態(tài)時(shí)序融合占用感知網(wǎng)絡(luò)。該網(wǎng)絡(luò)首先使用各模態(tài)專用的編碼器分別提取圖像和點(diǎn)云特征。然后通過Transformer 解碼器實(shí)現(xiàn)跨模態(tài)的可變形注意力融合。為了進(jìn)一步提高感知性能,我們記錄歷史BEV特征,并將其對齊到當(dāng)前時(shí)刻自車坐標(biāo)系中,然后融合跨時(shí)序多尺度BEV特征。最終,我們將BEV特征拉升到三維空間預(yù)測最終結(jié)果。

圖片

實(shí)驗(yàn)結(jié)果優(yōu)異,實(shí)現(xiàn)性能和效率的平衡

基于采集的多樣化場景數(shù)據(jù),團(tuán)隊(duì)同步構(gòu)建了數(shù)據(jù)集與 Benchmark。我們使用 mIoU 和 rayIoU 來衡量三維空間語義分割精度,同時(shí)統(tǒng)計(jì)模型參數(shù)量衡量模型規(guī)模。

圖片

圖片

  • 對比試驗(yàn)

我們在該數(shù)據(jù)集上,將我們的方法與具有代表性的 BEV 感知模型進(jìn)行了訓(xùn)練和測試。所有模型均采用相同的訓(xùn)練配置,包括輸入圖像分辨率、骨干網(wǎng)絡(luò)結(jié)構(gòu)、特征維度和訓(xùn)練策略。結(jié)果顯示,我們的模型在取得更優(yōu)指標(biāo)的同時(shí),還保持了輕量化架構(gòu),參數(shù)數(shù)量更少。

  • 消融實(shí)驗(yàn)

我們通過消融實(shí)驗(yàn)驗(yàn)證了每一個(gè)設(shè)計(jì)的有效性。具體來說,我們分析了相機(jī)畸變修正策略、時(shí)序信息聚合和輸入模態(tài)數(shù)據(jù)的影響。

圖片

a.相機(jī)畸變:我們針對輸入圖像和投影方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在輸入原始圖像,并使用考慮畸變的投影方法進(jìn)行視角變換能夠?qū)崿F(xiàn)最優(yōu)的性能。

圖片

b.時(shí)序聚合:我們對所聚合的 BEV 特征數(shù)量進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,我們提出的時(shí)序融合模塊能夠有效聚合歷史特征,相比單幀模型獲得顯著提升。

圖片

c.模態(tài)融合:多模態(tài)模型相比只有相機(jī)和只有激光雷達(dá)的模型具有顯著性能優(yōu)勢。這印證了圖像和點(diǎn)云的互補(bǔ)特性——點(diǎn)云提供深度等幾何信息而圖像提供豐富的語義信息。

  • 可視化結(jié)果

我們展示了典型感知結(jié)果,可以發(fā)現(xiàn)得益于圖像和點(diǎn)云的深度融合,該方法能夠?qū)崿F(xiàn)精準(zhǔn)的語義占用感知。

圖片

圖片

圖片


推動人形機(jī)器人邁向通用化感知時(shí)代

Humanoid Occupancy 系統(tǒng)的推出,不僅為人形機(jī)器人提供了強(qiáng)大的環(huán)境感知能力,更解決了傳感器布局、數(shù)據(jù)標(biāo)注和多模態(tài)融合等關(guān)鍵挑戰(zhàn),奠定了通用感知模塊標(biāo)準(zhǔn)化的技術(shù)基礎(chǔ)。此外,我們構(gòu)建了首個(gè)人形機(jī)器人的全景占用感知數(shù)據(jù)集,并在天工機(jī)器人上驗(yàn)證了該系統(tǒng)的有效性。

未來,團(tuán)隊(duì)計(jì)劃進(jìn)一步擴(kuò)展數(shù)據(jù)集、優(yōu)化時(shí)序融合策略,并探索在更多人形機(jī)器人平臺上的應(yīng)用。隨著技術(shù)的不斷成熟,人形機(jī)器人有望在家庭服務(wù)、工業(yè)協(xié)作、戶外救援等多個(gè)領(lǐng)域發(fā)揮重要作用,為人類生活帶來更多便利。

想了解更多關(guān)于 Humanoid Occupancy 的詳細(xì)信息,可參考項(xiàng)目主頁以及技術(shù)報(bào)告。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-09-14 14:32:06

AI機(jī)器人人工智能

2025-08-27 09:08:00

AI視覺模型

2025-02-21 13:00:00

2025-02-21 10:14:59

2023-11-04 21:36:21

人形機(jī)器人

2021-12-24 10:00:19

自動駕駛數(shù)據(jù)汽車

2021-11-30 15:19:19

機(jī)器人人工智能技術(shù)

2021-05-21 14:11:15

機(jī)器人系統(tǒng)技術(shù)

2025-09-04 14:26:55

機(jī)器人Figure識別

2025-09-08 09:49:07

2025-05-16 09:32:48

2023-12-01 12:31:43

AI訓(xùn)練

2025-08-21 09:15:00

2024-03-25 12:40:19

訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號