偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

具身智能大腦+首個SaaS開源框架,智源研究院刷新10項測評基準(zhǔn),加速群體智能新范式

人工智能 新聞
全新32B版本憑借時空認(rèn)知能力的突破,在多項權(quán)威具身智能基準(zhǔn)上全面刷新紀(jì)錄。

具身智能大腦+全球首個具身智能SaaS開源框架,智源研究院在具身智能領(lǐng)域發(fā)力了——

“通用具身大腦”RoboBrain 2.0,面向真實物理環(huán)境,集感知、推理與規(guī)劃于一體。

全新32B版本憑借時空認(rèn)知能力的突破,在多項權(quán)威具身智能基準(zhǔn)上全面刷新紀(jì)錄。

圖片

RoboOS 2.0,作為全球首個具身智能SaaS開源框架,創(chuàng)新性集成MCP協(xié)議與無服務(wù)器架構(gòu),實現(xiàn)輕量化部署,打通智能大腦與異構(gòu)本體協(xié)同通路。

兩招齊出,并且全部開源,發(fā)布便在全球社交媒體和技術(shù)社區(qū)引發(fā)廣泛熱議。

圖片

不少具身智能專業(yè)人士就指出,具身大腦+跨本體大小腦協(xié)同框架,是推動機器人從“單機智能”邁向“群體智能”的有效路徑,能加速具身智能技術(shù)從實驗室走向真實場景。

圖片

一起來看具體技術(shù)細(xì)節(jié)。

RoboBrain 2.0:突破三大核心瓶頸

當(dāng)前主流AI模型在應(yīng)對真實物理環(huán)境時,普遍存在三大核心瓶頸:空間理解精度不足、時間依賴建模薄弱長鏈推理能力欠缺。

RoboBrain 2.0正是針對于此,在三大關(guān)鍵能力上實現(xiàn)了全面突破,顯著提升了對復(fù)雜具身任務(wù)的理解與執(zhí)行能力。

空間理解:

  • 精確點定位和邊界框預(yù)測:能夠根據(jù)復(fù)雜指令在圖像中定位物體或區(qū)域。
  • 空間關(guān)系理解:理解物體之間的相對位置和方向。
  • 空間推理:支持基于場景圖的實時構(gòu)建和更新,進(jìn)行復(fù)雜的三維空間推理。

時間建模:

  • 長期規(guī)劃:能夠進(jìn)行多步任務(wù)規(guī)劃,支持長期目標(biāo)的實現(xiàn)。
  • 閉環(huán)交互:支持基于反饋的動態(tài)調(diào)整,適應(yīng)動態(tài)環(huán)境。
  • 多智能體協(xié)作:能夠協(xié)調(diào)多個智能體的行為,完成復(fù)雜任務(wù)。

長鏈推理:

  • 鏈?zhǔn)酵评恚耗軌蜻M(jìn)行多步推理,支持復(fù)雜任務(wù)的逐步解決。
  • 因果邏輯:能夠從復(fù)雜指令中提取因果邏輯,并與環(huán)境狀態(tài)對齊。
  • 決策透明性:能夠生成推理過程的詳細(xì)解釋,支持決策的透明性和可解釋性。
圖片

△RoboBrain能力概覽圖

模塊化編碼器-解碼架構(gòu)

具體來說,RoboBrain 2.0采用模塊化的編碼器 - 解碼器架構(gòu),為復(fù)雜的具身任務(wù)實現(xiàn)了感知、推理和規(guī)劃的統(tǒng)一。

與專注于通用靜態(tài)視覺問答(VQA)的傳統(tǒng)視覺 - 語言模型(VLMs)不同,RoboBrain 2.0在保持強大通用VQA能力的同時,專門針對具身推理任務(wù),如空間感知、時間建模和長鏈因果推理。該架構(gòu)將高分辨率圖像、多視圖輸入、視頻幀、語言指令和場景圖編碼為統(tǒng)一的多模態(tài)標(biāo)記序列,以進(jìn)行全面處理。

圖片

△RoboBrain2.0模型架構(gòu)圖

多模態(tài)數(shù)據(jù)集和分階段訓(xùn)練策略

訓(xùn)練方面,RoboBrain 2.0采用的是多模態(tài)數(shù)據(jù)集和分階段訓(xùn)練策略。

RoboBrain 2.0基于全面且多樣化的多模態(tài)數(shù)據(jù)集,融合高分辨率圖像、多視角視頻序列、場景圖、3D場景數(shù)據(jù)及復(fù)雜自然語言指令,能全面賦能機器人在具身環(huán)境中的感知、推理與行動能力。

圖片

△RoboBrain 2.0訓(xùn)練數(shù)據(jù)集

該多模態(tài)數(shù)據(jù)集聚焦三大核心領(lǐng)域,為復(fù)雜物理場景提供有力支持:

  • 通用多模態(tài)理解:整合標(biāo)準(zhǔn)視覺問答、區(qū)域級查詢、OCR視覺問答及多輪視覺對話,優(yōu)化語言表達(dá)的多樣性與語義一致性,通過豐富的視覺-語言交互數(shù)據(jù),提升模型對復(fù)雜任務(wù)的理解與響應(yīng)能力,適應(yīng)從簡單問答到多輪對話的多樣場景。
  • 空間感知:支持高精度物體定位、邊界框預(yù)測及對象功能性識別,覆蓋室內(nèi)外復(fù)雜視覺場景與3D空間推理,助力機器人精準(zhǔn)解析物體關(guān)系、空間屬性及場景上下文,應(yīng)對遮擋、多視角變化等挑戰(zhàn),滿足高精度定位與交互需求。
  • 時間建模:通過多模態(tài)數(shù)據(jù)支持長程任務(wù)規(guī)劃、閉環(huán)反饋機制及多智能體協(xié)作,強化模型在動態(tài)環(huán)境中的任務(wù)分解、動作序列預(yù)測及實時交互能力,確保在復(fù)雜物理場景中實現(xiàn)連續(xù)決策、靈活協(xié)作與高效任務(wù)執(zhí)行。RoboBrain 2.0以卓越的多模態(tài)感知、精細(xì)的空間推理及強大的長時規(guī)劃能力,賦能機器人在具身環(huán)境中進(jìn)行交互推理、多智能體協(xié)作及高效任務(wù)規(guī)劃,助力復(fù)雜物理場景的智能感知與決策。

RoboBrain 2.0采用三階段遞進(jìn)式訓(xùn)練流程

  • 第一階段:基礎(chǔ)時空學(xué)習(xí)(Foundational Spatiotemporal Learning)

在第一階段,RoboBrain 2.0專注于構(gòu)建其在空間感知和時間理解方面的基礎(chǔ)能力。模型通過大規(guī)模多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練,這些數(shù)據(jù)集涵蓋了密集標(biāo)注的圖文數(shù)據(jù)、視頻問答以及指代表達(dá)理解任務(wù)。

通過這一階段的訓(xùn)練,模型能夠處理靜態(tài)圖像和視頻流,掌握物體的基本空間關(guān)系和運動事件,為后續(xù)更復(fù)雜的任務(wù)奠定了堅實的基礎(chǔ)。

  • 第二階段:具身時空增強(Embodied Spatiotemporal Enhancement)

在第二階段,RoboBrain 2.0通過引入高分辨率多視圖圖像、第一人稱視頻數(shù)據(jù)以及導(dǎo)航和交互任務(wù),進(jìn)一步增強其在具身任務(wù)中的時空建模能力。模型學(xué)習(xí)處理長序列的時空信息,支持多智能體協(xié)調(diào)、長期規(guī)劃和動態(tài)環(huán)境中的適應(yīng)性決策。

這一階段的訓(xùn)練使模型能夠更好地將歷史視覺信息與當(dāng)前指令相結(jié)合,從而在動態(tài)交互環(huán)境中實現(xiàn)更連貫的長期規(guī)劃和穩(wěn)健的場景理解。

  • 第三階段:具身情境中的推理鏈訓(xùn)練(Chain-of-Thought Reasoning in Embodied Contexts)

在第三階段,RoboBrain 2.0通過監(jiān)督微調(diào)和強化微調(diào),進(jìn)一步提升其在復(fù)雜具身任務(wù)中的推理能力。模型使用多輪推理示例進(jìn)行訓(xùn)練,這些示例涵蓋了長期任務(wù)規(guī)劃、操作預(yù)測、閉環(huán)交互、時空理解以及多機器人協(xié)作等任務(wù)。

通過這一階段的訓(xùn)練,模型能夠生成推理鏈,支持復(fù)雜任務(wù)的逐步推理和決策,從而在具身情境中實現(xiàn)更高效、更準(zhǔn)確的推理和規(guī)劃能力。

圖片

研究人員采用FlagEvalMM框架,全面驗證了RoboBrain 2.0的空間與時間推理能力。

  • 空間推理:在BLINK(83.95)、CV-Bench(85.75)、Where2Place(73.59)等9項基準(zhǔn)測試中,RoboBrain-32B/7B-2.0屢獲SOTA,精準(zhǔn)實現(xiàn)物體定位、邊界框預(yù)測及空間參照,超越Gemini、GPT-4o等基線。

圖片

  • 時間推理:在多機器人規(guī)劃(80.33)、Ego-Plan2(57.23)、RoboBench(72.16)中,展現(xiàn)卓越長程規(guī)劃、閉環(huán)反饋及多智能體協(xié)作能力,領(lǐng)跑Qwen2.5-VL、Claude等模型。

圖片

值得一提的是,除了32B版本,此前智源研究院還推出了RoboBrain 2.0 7B版本,具備緊湊高效的模型結(jié)構(gòu),其輕量化設(shè)計適配邊緣設(shè)備部署需求,能在低資源環(huán)境下穩(wěn)定運行,同時相比主流的開閉源模型性能依舊強勁。

從單機智能邁向群體智能

依托跨本體大小腦協(xié)作框架RoboOS 2.0的多本體規(guī)劃能力,RoboBrain 2.0已實現(xiàn)多智能體間協(xié)作執(zhí)行任務(wù),支持商超廚房居家等多場景部署。

圖片

跨本體具身大小腦協(xié)作框架RoboOS 2.0是全球首個基于具身智能SaaS平臺、支持無服務(wù)器一站式輕量化機器人本體部署的開源框架。

同時,RoboOS 2.0也是全球首個支持MCP的跨本體具身大小腦協(xié)作框架,旨在構(gòu)建具身智能領(lǐng)域的“應(yīng)用商店”生態(tài)。

RoboOS 2.0實現(xiàn)了大腦云端優(yōu)化推理部署與小腦技能的免適配注冊機制,顯著降低開發(fā)門檻,典型場景下,相關(guān)代碼量僅為傳統(tǒng)手動注冊方式的1/10。

具體來說,RoboOS是面向多機器人協(xié)作的“大腦-小腦”分層系統(tǒng),包含三大核心組件:(a) 基于云計算的具身大腦模型,負(fù)責(zé)高級認(rèn)知與多智能體協(xié)同;(b) 分布式小腦模塊群,專司機器人專項技能執(zhí)行;(c) 實時共享內(nèi)存機制,強化環(huán)境態(tài)勢感知能力。

圖片

△RoboOS 2.0框架(SaaS + MCP模式)

相較于1.0,RoboOS 2.0對端到端推理鏈路進(jìn)行了系統(tǒng)級優(yōu)化,整體性能提升達(dá)30%,全鏈路平均響應(yīng)時延低至3ms以下,端云通信效率提升27倍。

在功能層面,新增了多本體時空記憶場景圖(Scene Graph)共享機制,支持動態(tài)環(huán)境下的實時感知與建模;同時引入多粒度任務(wù)監(jiān)控模塊,實現(xiàn)任務(wù)閉環(huán)反饋,有效提升機器人任務(wù)執(zhí)行的穩(wěn)定性與成功率。

RoboOS多機協(xié)作實現(xiàn)流程包含四個關(guān)鍵階段:首先通過分層任務(wù)分解將復(fù)雜任務(wù)逐級拆解,隨后基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行子任務(wù)動態(tài)分配,再由分布式智能體集群并行執(zhí)行各子任務(wù),最后通過實時共享內(nèi)存機制動態(tài)更新環(huán)境狀態(tài)與任務(wù)進(jìn)度。

圖片

基于RoboOS 2.0協(xié)作框架,可充分發(fā)揮RoboBrain 2.0強大的空間理解、時序規(guī)劃與閉環(huán)推理能力的同時,一鍵下載并部署來自全球開發(fā)者創(chuàng)建的相同型號機器人本體的小腦技能,完成大小腦的全鏈路無縫整合。

RoboBrain 2.0可通過像素級空間理解,支持下游小腦模型高精度抓取、搬運、放置等操作,同時,根據(jù)實時感知任務(wù)執(zhí)行狀態(tài)調(diào)整執(zhí)行計劃,適應(yīng)動態(tài)環(huán)境變化,實現(xiàn)閉環(huán)反饋機制。

目前,RoboBrain 2.0及RoboOS 2.0已全面開源,模型權(quán)重、訓(xùn)練代碼與評測基準(zhǔn)全部可用。

智源研究院還同步推出單機版產(chǎn)品線及RoboSkill技能商店,通過深度集成實現(xiàn)機器人技能模塊智能匹配與一鍵適配功能,標(biāo)準(zhǔn)化接口有效消除廠商與硬件適配流程差異。還有開箱即用鏡像,支持“三行指令”極速部署,全面賦能開發(fā)者高效構(gòu)建智能機器人系統(tǒng)。

傳送門

RoboBrain 2.0

Page:https://superrobobrain.github.io

GitHub:https://github.com/FlagOpen/RoboBrain2.0

ArXiv:https://arxiv.org/abs/2507.02029

Checkpoint-7B:https://huggingface.co/BAAI/RoboBrain2.0-7B

Checkpoint-32B:https://huggingface.co/BAAI/RoboBrain2.0-32B

RoboBrain2.0的FlagRelease多芯片鏡像:

https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS

https://huggingface.co/FlagRelease/RoboBrain2.0-32B-FlagOS

https://huggingface.co/FlagRelease/RoboBrain2.0-7B-FlagOS-Ascend

RoboOS 2.0

Page:https://flagopen.github.io/RoboOS

GitHub:https://github.com/FlagOpen/RoboOS

GitHub單機輕量版:https://github.com/FlagOpen/RoboOS/tree/stand-alone

GitHub技能商店:https://github.com/FlagOpen/RoboSkill

ArXiv:https://arxiv.org/abs/2505.03673

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-31 09:10:00

開源模型智能體

2025-03-20 10:19:52

2021-03-22 11:16:50

人工智能應(yīng)用基礎(chǔ)設(shè)施

2024-01-09 15:07:44

AI訓(xùn)練

2020-12-24 15:40:26

人工智能

2025-10-16 08:57:00

2021-01-07 19:08:51

人工智能AI

2024-11-14 10:40:00

智能體模型

2024-10-12 14:10:00

智能應(yīng)用

2022-01-24 17:47:10

微軟AIOps智能運維

2024-03-11 00:35:00

谷歌智能研究

2025-09-15 09:07:00

2018-09-17 11:00:05

AWS人工智能亞馬遜

2025-09-17 14:47:51

點贊
收藏

51CTO技術(shù)棧公眾號