偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

僅用三五條樣本擊敗英偉達(dá),國內(nèi)首個超少樣本具身模型登場,還斬獲頂會冠軍

人工智能 新聞
國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型發(fā)布,跨越視覺語言與機(jī)器人操作的鴻溝。

具身智能領(lǐng)域終于要突破 “數(shù)據(jù)桎梏” 了嗎?

相較于自然語言、視覺領(lǐng)域,具身智能的數(shù)據(jù)天然稀缺。真實世界的機(jī)器人操作往往涉及復(fù)雜的物理交互、實時反饋與環(huán)境變化,導(dǎo)致數(shù)據(jù)采集不僅成本高、效率低,并且還難以規(guī)模化。因此,現(xiàn)實中能達(dá)到數(shù)十萬以及百萬物理交互的數(shù)據(jù)集并不多見。

另外,當(dāng)前的視覺 - 語言 - 動作(VLA)模型雖然已經(jīng)具備了強(qiáng)大的語義理解能力,但在實際操作層面仍依賴大規(guī)模標(biāo)注數(shù)據(jù)來彌補(bǔ)泛化能力的不足。

如何讓具身機(jī)器人在極少樣本下也能快速學(xué)習(xí)、準(zhǔn)確執(zhí)行、靈活遷移,成為決定它們真正走出實驗室、進(jìn)入工業(yè)生產(chǎn)與人機(jī)協(xié)作場景的關(guān)鍵因素。

近日,國內(nèi)通用具身智能創(chuàng)企中科第五紀(jì)(FiveAges)正式發(fā)布新一代具身操作基礎(chǔ)模型 FiveAges Manipulator-1(FAM-1),其核心架構(gòu)源于團(tuán)隊入選 NeurIPS 2025 的《BridgeVLA: Bridging the Gap between Large Vision-Language Model and 3D Robotic Manipulation》,首次實現(xiàn)了大規(guī)模視覺語言模型(VLM)與三維機(jī)器人操作控制之間的高效知識遷移與空間建模融合。

特別地,該模型在少樣本學(xué)習(xí)、跨場景適應(yīng)及復(fù)雜任務(wù)理解方面實現(xiàn)重大突破,僅需 3-5 條機(jī)器人數(shù)據(jù) / 任務(wù)即可完成精準(zhǔn)具身操作學(xué)習(xí),成功率高達(dá) 97% 并且全面超越 SOTA?;谠撃P?,團(tuán)隊斬獲 CVPR 2025 具身操作競賽冠軍,擊敗國內(nèi)外眾多競爭對手。

FAM-1:從 VLA 到 BridgeVLA,國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型

為了緩解缺少高質(zhì)量操作數(shù)據(jù)的困境,切實提升跨場景、跨任務(wù)下的泛化性,中科第五紀(jì)以 BridgeVLA 為核心框架,構(gòu)建首個少樣本通用具身操作基礎(chǔ)模型 FAM-1。

與傳統(tǒng)的 VLA 架構(gòu)相比,BridgeVLA 實現(xiàn)了以下兩個方面的技術(shù)創(chuàng)新:

  1. 整合多類型數(shù)據(jù),構(gòu)建多維度的操作知識庫,以二次預(yù)訓(xùn)練的方式挖掘 VLM 隱含知識,解決操作目標(biāo)和場景理解不準(zhǔn)確、泛化性差的問題;
  2. 利用三維熱力圖對齊 VLM 與 VLA 的輸出與輸入,通過 3-5 條非常少量的樣本微調(diào),解決視覺空間理解力弱、數(shù)據(jù)利用效率低的問題。

這些技術(shù)不僅在數(shù)個國際公開評測數(shù)據(jù)集上取得當(dāng)前 SOTA 性能,還在僅有少量標(biāo)注數(shù)據(jù)的真實開放場景下,穩(wěn)定實現(xiàn)跨光照、跨場景、跨任務(wù)的泛化性。

具體來說,F(xiàn)AM-1 是由知識驅(qū)動的預(yù)訓(xùn)練(Knowledge-driven Pretraining, KP)和三維少樣本微調(diào)(3D Few-shot Fine-tuning, FF)兩大核心模塊組成:

知識驅(qū)動的預(yù)訓(xùn)練:目前大多數(shù)具身操作模型是基于非操作數(shù)據(jù)預(yù)訓(xùn)練的 VLM,僅能在一定程度上緩解操作目標(biāo)和場景泛化的問題。這種跨域差異性的存在,導(dǎo)致模型無法真正發(fā)揮 VLM 在泛化性方面的巨大潛力。因此,中科第五紀(jì)利用從網(wǎng)絡(luò)上收集海量圖像視頻數(shù)據(jù)并構(gòu)建面向操作場景的知識庫,然后對預(yù)訓(xùn)練的 VLM 進(jìn)行二次預(yù)訓(xùn)練。通過挖掘和引導(dǎo)模型隱含的操作知識,對機(jī)械臂關(guān)鍵點位置和軌跡進(jìn)行預(yù)測,進(jìn)而逐步實現(xiàn)在操作場景下的跨域適應(yīng)。

三維少樣本樣本微調(diào):現(xiàn)有 VLM+VLA 架構(gòu)大多是將三維視覺信息壓縮到一維向量,然后再預(yù)測三維動作,形式上類似沙漏結(jié)構(gòu)。這種架構(gòu)中間的 “維度瓶頸” 讓模型損失大量三維結(jié)構(gòu)信息,導(dǎo)致需要依賴大規(guī)模有標(biāo)注數(shù)據(jù)進(jìn)行暴力擬合。因此,中科第五紀(jì)將 VLM 和 VLA 的輸出和輸入升維到三維熱力圖。這樣在模型微調(diào)的過程中,不僅能充分利用三維空間結(jié)構(gòu)信息,更顯著降低了模型對于樣本數(shù)量的依賴。

主要實驗效果:FAM-1 在國際基準(zhǔn)中全面超越 SOTA

基于 BridgeVLA 的創(chuàng)新架構(gòu),中科第五紀(jì)將 FAM-1 在國際公開評測基準(zhǔn) RLBench、Colosseum 等與微軟、MIT、斯坦福等頂尖團(tuán)隊工作進(jìn)行了公開比較,大量實驗結(jié)果驗證了模型的優(yōu)越性。

例如,在 RLBench 上,F(xiàn)AM-1 可以取得 88.2% 的操作成功率,遠(yuǎn)遠(yuǎn)超過 RVT-2、Act3D、3D Diffuser Actor 等 SOTA 模型 6% 以上,特別是在 “Insert Peg”、“Open Drawer”、“Sort Shape”、“Door Close”、“Hammer Strike” 等任務(wù)上成功率大幅領(lǐng)先,平均成功率大幅提升了 30% 以上。

真機(jī)部署效果:少樣本下基礎(chǔ)任務(wù)成功率 97%,挑戰(zhàn)任務(wù)領(lǐng)先對比模型 30%+

中科第五紀(jì)還將 FAM-1 在真機(jī)上與 RVT-2(英偉達(dá))、PI0(Physical Intelligence)、SpatialVLA(Shanghai AI Lab 等)等先進(jìn)模型進(jìn)行了全面對比,特別是在少樣本情況下的基礎(chǔ)任務(wù)(Basic)和挑戰(zhàn)任務(wù)(Distractor、Lighting、Background、Height、Combination、Category)上的對比。FAM-1 在僅使用 3-5 條樣本每個 Basic 任務(wù)的情況下,可以達(dá)到 97% 成功率,遠(yuǎn)超其它對比模型。

這些結(jié)果充分驗證了中科第五紀(jì)在少樣本實體部署方面的優(yōu)勢,尤其能夠在不同干擾物體、不同光照條件、不同背景絕大多數(shù)復(fù)雜因素且極具產(chǎn)業(yè)化價值的能力下顯著提升模型的泛化性。 

總結(jié)與展望:致力于打造工業(yè)級通用具身智能體系

FAM-1 是面向機(jī)械臂操作的少樣本通用基礎(chǔ)模型,通過遷移多模態(tài)大模型隱含知識和建模三維空間結(jié)構(gòu)信息,讓機(jī)器人獲得了前所未有的跨場景任務(wù)的泛化能力和少樣本快速學(xué)習(xí)能力。

基于此,中科第五紀(jì)未來將繼續(xù)深耕以下三大方向:

  1. 進(jìn)一步面向操作場景,提升通用基礎(chǔ)模型的泛化性、可靠性和適應(yīng)性;
  2. 推動基礎(chǔ)模型在工業(yè)場景下的更多應(yīng)用;
  3. 面向?qū)Ш綀鼍巴瞥鐾ㄓ没A(chǔ)模型。

此外,團(tuán)隊另一項成果 EC-Flow: Enabling Versatile Robotic Manipulation from Action-Unlabeled Videos via Embodiment-Centric Flow 已被 ICCV 2025 接收,展示了從無標(biāo)注人類操作視頻中自監(jiān)督學(xué)習(xí)操控策略的新路徑,進(jìn)一步展現(xiàn)了中科第五紀(jì)在具身智能核心技術(shù)上的系統(tǒng)性創(chuàng)新能力。這意味著未來機(jī)器人或可通過觀察人類操作視頻,自主學(xué)習(xí)操控策略,進(jìn)一步降低應(yīng)用門檻。

從定義具身大模型新標(biāo)準(zhǔn),到發(fā)布國內(nèi)首個少樣本通用具身操作基礎(chǔ)模型,中科第五紀(jì)的探索正推動具身智能從 “單點技術(shù)突破” 走向 “體系化落地”,為機(jī)器人真正走進(jìn)工業(yè)生產(chǎn)、日常生活提供了技術(shù)支撐。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-03-13 14:41:22

機(jī)器學(xué)習(xí)算法

2022-04-29 15:51:16

模型自然語言人工智能

2025-09-30 09:00:00

2021-05-25 14:20:20

數(shù)據(jù)模型系統(tǒng)

2021-12-01 14:36:16

數(shù)字化

2025-04-27 08:54:00

英偉達(dá)開源模型

2025-10-30 02:25:00

大型語言模型CoD注入蒸餾

2025-09-16 12:49:11

2025-03-31 09:10:00

開源模型智能體

2024-12-26 16:30:00

AI設(shè)計數(shù)據(jù)

2024-06-04 09:25:51

2024-06-19 11:47:10

2025-10-30 09:18:35

2024-09-27 09:48:28

2012-08-13 13:01:03

Linux操作系統(tǒng)

2025-05-12 09:02:00

2023-08-14 07:59:00

英偉達(dá)開源

2024-02-29 13:54:00

數(shù)據(jù)訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號