波士頓動力機器人進廠打工現(xiàn)逆天操作!3D感知+實時追蹤,人類搗亂完全不帶怕的
波士頓動力帶機器人看世界,Altas重磅升級了!
現(xiàn)在,它具備3D空間感知和實時物體追蹤能力,可以自主執(zhí)行更復雜的工業(yè)任務。
請看Altas在汽車工廠打工VCR:
小哥故意將汽車零部件丟在地上,只見它360°轉動頭部環(huán)顧四周,隨后成功識別并將其放入正確位置:
(就是偷感好重,笑死)
故意移動裝置位置,它也能精準感知到變化:
然后依舊穩(wěn)穩(wěn)地將零部件放入槽內(nèi):
頭部和腰部都可360°旋轉,干起活來那叫一個麻利:
據(jù)介紹,Altas的一系列功能升級源于波士頓動力團隊對Altas感知系統(tǒng)進行的全新設計,融合了2D與3D感知技術、物體位姿追蹤,以及基于物理特性的精確校準方案。
網(wǎng)友看到該新成果后紛紛叫好。光是官方在YouTube上發(fā)布的視頻就引來了十余萬人圍觀,點贊量近8k。
網(wǎng)友紛紛表示Altas能夠觀察到物品掉落還會環(huán)顧四周觀察,這個能力非常炫酷。
還有網(wǎng)友表示迫不及待希望看到它們能夠在實際工作環(huán)境中投入使用。
除此之外,關于全新能力具體實現(xiàn),官方發(fā)布了技術Blog。
背后技術解析
波士頓動力團隊表示,拿起一個汽車零件并將其放入正確的插槽,這一看似簡單的任務對于機器人來說實際上并不容易。
它需要將這個任務拆解為多個步驟,而每個步驟都需要關于環(huán)境的廣泛知識。
Altas得先檢測并識別物體,工廠中許多零件有的是金屬材質的具有光澤感,有的對比度低顏色深暗,所以機器人攝像頭如何清晰區(qū)分就是一大挑戰(zhàn)。
然后,Altas需要推斷物體的位置進行抓取,它是在桌子上敞開放置,還是在視線受限的容器內(nèi)?
拿起物體后,Altas還需要決定將其放置在何處以及如何送達該位置。
最后,Altas要精確放置物體,任何方向偏差幾厘米都可能導致物體卡住或掉落。
因此,它還要能在出現(xiàn)問題時采取糾正措施。
例如,若插入失敗,它可以利用基于工廠零件訓練的基礎視覺模型的通用性和其本身大活動范圍,搜索并從地面撿起掉落的零件。
下面具體來看波士頓動力是如何解決這些問題的。
2D感知:環(huán)境中有哪些物體?
首先機器人需要具備2D感知能力,確定周圍的環(huán)境是否存在障礙物、目標物體或地面風險。
波士頓動力透露其2D物體檢測系統(tǒng)主要通過物體標識、邊界框、關鍵點的形式,為機器人提供環(huán)境信息。
比如在開頭所展示的Atlas存儲汽車零件的場景中,系統(tǒng)重點檢測存儲汽車零件的大型貨架這一固定裝置。
這些裝置形狀尺寸各異,Atlas需識別其類型并定位空間占位,以規(guī)避碰撞風險。除了檢測和識別所有固定裝置外,系統(tǒng)還將裝置邊角定義為關鍵點,通過匹配內(nèi)部存儲的裝置模型,實現(xiàn)感知環(huán)境與虛擬模型的坐標對齊。
而這其中,固定裝置的關鍵點是2D像素點,分為兩種類型:
- 外部點(綠色):捕捉裝置外部輪廓,如貨架正面的四個邊角,用于快速定位裝置整體位置;
- 內(nèi)部點(紅色):數(shù)量更多且形式多樣,捕捉特定固定裝置內(nèi)貨架和小隔間的內(nèi)部分布,從而實現(xiàn)對單個插槽的精確定位。
另外,為了執(zhí)行固定裝置分類和關鍵點預測,Atlas使用了輕量級網(wǎng)絡架構,平衡了性能與實時感知能力,這對Atlas的敏捷性至關重要。
3D感知:物體相對于Atlas的位置在哪里?
接下來,Atlas若想精準操作固定裝置內(nèi)的物體,必先明確自身與目標裝置的相對空間關系。
其核心依賴基于關鍵點的固定裝置定位模塊,該模塊可實時估算Atlas相對于周圍所有裝置的位置與朝向。
定位系統(tǒng)接收來自物體檢測流程的內(nèi)部、外部關鍵點,通過最小化重投影誤差將這些關鍵點與預設空間分布模型對齊。
系統(tǒng)還會接收運動里程計數(shù)據(jù)(用于測量Atlas的移動距離和方向),以便在統(tǒng)一坐標系中融合固定裝置的位姿估計,提升對關鍵點噪聲的魯棒性。
其中的一個關鍵挑戰(zhàn)是處理頻繁的遮擋和超出視野的關鍵點。例如,當Atlas靠近某個固定裝置或視角傾斜時,部分外部關鍵點可能不在視野內(nèi)或者不可靠。
這時,定位系統(tǒng)轉而依賴固定裝置內(nèi)部插槽分隔線的拐角關鍵點(與物體取放直接相關的區(qū)域)來解決這一問題。
但這又帶來了2D關鍵點與3D拐角的關聯(lián)挑戰(zhàn),即圖像中的每個關鍵點對應哪個3D拐角?
Atlas首先通過外部關鍵點進行初步近似,從而對內(nèi)部關鍵點的關聯(lián)做出初步猜測,然后結合內(nèi)外部關鍵點生成更可靠的固定裝置及其所有插槽的位姿估計。
其次,部分固定裝置在視覺上完全相同,這種情況在工廠中非常常見,也給實際場景帶來了額外挑戰(zhàn)。
Atlas通過結合時間一致性和不同固定裝置間相對位置的先驗知識(例如,假設裝置A位于裝置B右側半米處)來解決這一問題。
所有這些特性共同構成了一個可靠且敏捷的固定裝置感知系統(tǒng)。
所以,當有人移動Atlas身后的固定裝置時,機器人會迅速識別預期位置與實際位置的差異,重新定位裝置,并相應地重新規(guī)劃行為。
物體位姿估計:Atlas如何與物體交互?
接下來再看看,Atlas是如何與物體交互的。
據(jù)介紹,Atlas物體操作能力依賴于準確、實時的以物體為中心的感知。其物體位姿跟蹤系統(tǒng)SuperTracker融合了多源信息,包括機器人運動學數(shù)據(jù)、視覺數(shù)據(jù),必要時還包含力反饋數(shù)據(jù)。
具體來說,來自Atlas關節(jié)編碼器的運動學信息可幫助確定Atlas的抓手在空間中的位置。當Atlas識別出它已經(jīng)抓取到一個物體時,這些信息為Atlas在移動身體時物體應該處于的位置提供了強有力的先驗知識。
通過融合運動數(shù)據(jù),Atlas可以處理物體在視覺上被遮擋或不在攝像頭視野中的情況,并感知物體是否從抓手中滑落。
當物體處于攝像頭視野內(nèi)時,Atlas使用一種“渲染-比較”方法來估計單目圖像中的位姿,背后是一個物體位姿估計模型。
該模型通過大規(guī)模合成數(shù)據(jù)訓練而成,在給定CAD模型的情況下可對新物體進行零樣本泛化。當使用3D位姿先驗初始化時,模型會迭代地細化該先驗,以最小化渲染的CAD模型與捕獲的攝像頭圖像之間的差異。
此外,位姿估計器也可通過2D感興趣區(qū)域先驗(如物體掩碼)初始化,隨后生成一批位姿假設并輸入評分模型,最終對最優(yōu)假設進行優(yōu)化。
波士頓動力透露,Atlas的位姿估計器已在數(shù)百種工廠資產(chǎn)上通過了可靠驗證,這些資產(chǎn)均已在內(nèi)部完成建模和紋理映射。
SuperTracker將視覺位姿估計作為3D先驗接收。在Atlas面臨的操作場景中,由于遮擋、部分可見性和光照變化,視覺位姿估計可能存在歧義。
為此,系統(tǒng)使用一系列濾波器驗證位姿估計:
- 自洽性:不依賴單一的位姿先驗,而是使用一批擾動初始值,并通過基于最大團的一致性算法驗證輸出,確保收斂到相同的預測位姿;
- 運動學一致性:作為強制接觸的代理,拒絕任何導致手指與物體距離異常過大的預測位姿。
運動學和攝像頭輸入通過固定滯后平滑器異步處理。該平滑器接收來自Atlas關節(jié)編碼器的高速率運動輸入歷史,以及機器學習模型的低速率視覺位姿估計,進而確定最優(yōu)的6自由度物體軌跡。
校準:Atlas是否真的處于其“認為”的位置?
波士頓動力團隊還強調,在執(zhí)行精確操作任務時,不能低估經(jīng)過良好校準的手眼協(xié)調的重要性,即Atlas的“視覺感知”與“動作執(zhí)行”之間精確可靠的映射關系。
上圖顯示了Atlas的機身內(nèi)部模型疊加在實時攝像頭畫面上的效果,其手臂、腿部和軀干與機器人“認知”中的位置幾乎完全對齊。
而這背后是一套精心設計的攝像頭和運動校準程序,用于補償機器人機身制造和組裝中的不精確性,以及因溫度變化或反復物理沖擊等外部因素導致的隨時間產(chǎn)生的物理變化。
波士頓動力團隊表示,根據(jù)他們的經(jīng)驗,“精確的手眼校準是實現(xiàn)高性能操作和感知驅動自主能力的關鍵前提”。
One More Thing
團隊還透露了未來計劃——正專注于為Atlas構建統(tǒng)一的基礎模型:
未來的發(fā)展將超越傳統(tǒng)感知范疇,推動感知與動作從分離過程向融合過程轉變,實現(xiàn)從空間人工智能到“運動智能”的范式升級。