復(fù)雜空間指令也能秒懂?RoboRefer 讓機器人理解推理空間,開放世界也能精準(zhǔn)行動!
本文的主要作者來自北京航空航天大學(xué)、北京大學(xué)和北京智源人工智能研究院。本文的第一作者為北京航空航天大學(xué)碩士生周恩申,主要研究方向為具身智能和多模態(tài)大模型。本文的共一作者兼項目負(fù)責(zé)人為北京智源研究院研究員遲程。本文的通訊作者為北京航空航天大學(xué)副教授盛律和北京大學(xué)計算機學(xué)院研究員、助理教授仉尚航。
機器人走出實驗室、進入真實世界真正可用,遠(yuǎn)比想象中更復(fù)雜。現(xiàn)實環(huán)境常常雜亂無序、物體種類繁多、靈活多變,遠(yuǎn)不像實驗室那樣干凈、單一、可控。
想象一下,你正在餐廳吃飯,身邊有個服務(wù)機器人。你對它說:「把第二列最遠(yuǎn)的黃色壽司盤,放到離我最近的壽司和醬油碟之間的空位上。」(左圖)又或者,你希望它「拿起最左邊、飲料 logo 正對的蘋果,放到最近的桌子上,并與之前的蘋果排成一排、間距一致?!梗ㄓ覉D)

這些聽起來是我們?nèi)粘T偈煜げ贿^的指令,其實是一個典型空間指代(Spatial Referring)任務(wù)。簡單來說,就是讓機器人通過「最遠(yuǎn)」「第二列」「等間距」「正對著」這類空間關(guān)系,搞清楚要抓哪個對象、放在哪里、或者走向哪個位置。
聽著簡單,做起來卻不容易。哪怕是目前最強大、最先進的多模態(tài)大模型,也依然難以準(zhǔn)確理解復(fù)雜的三維場景,并根據(jù)指令動態(tài)推理出正確的交互位置。這是因為空間指代任務(wù),背后其實包含了兩個維度的挑戰(zhàn):
- 單步空間理解:機器人得先看懂世界。這要求模型能夠準(zhǔn)確識別物體的空間屬性(比如位置、朝向)以及它們之間的空間關(guān)系(比如遠(yuǎn)近、方向)。這是空間指代任務(wù)的基礎(chǔ),大部分研究目前還停留在這一層。
- 多步空間推理:真正的挑戰(zhàn)來了:面對一連串復(fù)雜的空間關(guān)系約束,機器人不僅要理解,還要逐步推理、動態(tài)判斷,靈活應(yīng)對各種開放世界中各種各樣的空間關(guān)系組合。這種能力對于實現(xiàn)真正的空間指代至關(guān)重要,但目前仍然是一個被嚴(yán)重低估和不足探索的方向。
為了破解空間指代的難題,北京航空航天大學(xué)、北京大學(xué)與北京智源人工智能研究院聯(lián)合提出了一個具備三維空間理解推理能力的多模態(tài)大模型 —— RoboRefer。這個模型不僅通過全參數(shù)微調(diào)(SFT),實現(xiàn)了對空間信息的精準(zhǔn)理解,還通過強化學(xué)習(xí)微調(diào)(RFT),大幅提升了推理與泛化能力,最終實現(xiàn)開放世界的空間指代。

- 論文鏈接:https://arxiv.org/pdf/2506.04308
- 論文標(biāo)題:RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
- 項目主頁:https://zhoues.github.io/RoboRefer
- 代碼倉庫:https://github.com/Zhoues/RoboRefer
- 數(shù)據(jù)鏈接:https://huggingface.co/datasets/JingkunAn/RefSpatial
- 評測鏈接:https://huggingface.co/datasets/BAAI/RefSpatial-Bench
SFT 訓(xùn)練下的 RoboRefer 在空間理解任務(wù)中達(dá)到了 89.6% 的平均成功率,刷新了當(dāng)前最先進水平。而在研究者提出的高難度空間指代任務(wù)評測基準(zhǔn) RefSpatial-Bench 上,RFT 訓(xùn)練后的 RoboRefer 更是領(lǐng)先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均準(zhǔn)確率,優(yōu)勢顯著。
更重要的是,RoboRefer 并非「紙上談兵」。它可以靈活集成到不同類型的機器人上,比如 UR5 機械臂、G1 仿人機器人等,實現(xiàn)對現(xiàn)實世界中復(fù)雜、動態(tài)、多步驟任務(wù)的精準(zhǔn)執(zhí)行,真正讓機器人「聽得懂、看得清、動得準(zhǔn)」。
RoboRefer 是什么

RoboRefer 是一個具備三維空間理解與推理能力的多模態(tài)大模型,擁有獨立的圖像編碼器和深度圖編碼器,其不僅能回答各種空間感知類問答,無論是「這個物體離我有多遠(yuǎn)?」這樣的定量問題,還是「哪個物體在左邊?」這樣的定性問題;更厲害的是,它還能基于多種空間關(guān)系(比如物體的位置和朝向),進行復(fù)雜的組合式推理,最終準(zhǔn)確定位需要交互的位置。
比如,面對一個指令:「把這個物體放在筆筒和鍵盤的中間,水瓶的 logo 要正對著你?!筊oboRefer 不僅能理解這句自然語言的空間邏輯,還能在真實三維場景中,找到唯一正確的位置來完成任務(wù)。
RoboRefer 的核心是什么
為什么相較于以往的方法,RoboRefer 不僅可以精確的感知空間,而且又可以根據(jù)多個空間關(guān)系組合泛化推理出交互的位置呢?其關(guān)鍵因素在于以下幾點:
SFT 增強空間感知能力,RFT 搭配過程獎勵提升泛化推理能力
當(dāng)前多模態(tài)大模型在 2D 預(yù)訓(xùn)練階段缺乏對空間關(guān)系的深入理解,為了提升模型的單步空間理解能力,研究人員引入了一個獨立的深度編碼器,使模型能夠更有效地感知和利用三維信息,并通過全參數(shù)微調(diào)(SFT)進行訓(xùn)練。
盡管 SFT 使用了各種空間感知和推理數(shù)據(jù),但模型更傾向于記憶答案,而不是泛化到新的空間約束條件。為了解決這一問題,研究者進一步引入了基于 GRPO 的強化學(xué)習(xí)微調(diào)。
值得一提的是,團隊不僅關(guān)注結(jié)果導(dǎo)向的獎勵(outcome-based reward),還創(chuàng)新性地設(shè)計了基于過程的獎勵函數(shù)(process reward functions),這些函數(shù)能夠感知中間推理過程的質(zhì)量,從而提升模型多步空間指代任務(wù)中的推理精度。最終,模型增強了顯式多步推理能力,實現(xiàn)了開放世界的空間指代任務(wù)。
提出 RefSpatial 數(shù)據(jù)集,教一個多模態(tài)大模型從 0 到 1 學(xué)會空間指代

為了支持前述的 SFT 和 RFT 訓(xùn)練,研究團隊構(gòu)建了一個大規(guī)模、高質(zhì)量的數(shù)據(jù)集 ——RefSpatial,具有以下幾個核心特點:
- 精細(xì)標(biāo)注:每個物體都配有層級式描述,從「杯子」這類種類類別,到像「左數(shù)第三個杯子」「最靠近攝像頭的杯子」這樣的精確空間指代,確保在復(fù)雜場景中也能清晰用文字表述。
- 多維推理:數(shù)據(jù)集不僅標(biāo)注了目標(biāo),還附帶詳細(xì)的多步推理過程(最高有 5 步),為復(fù)雜空間指代提供支持。
- 高質(zhì)量篩選:數(shù)據(jù)經(jīng)過嚴(yán)格篩選,確保標(biāo)注準(zhǔn)確、語義清晰。
- 規(guī)模龐大:共包含 250 萬個樣本、2000 萬個問答對,數(shù)據(jù)量是同類數(shù)據(jù)集的兩倍。
- 場景豐富:覆蓋室內(nèi)外環(huán)境,涵蓋多種日常交互情境,并整合了 31 種空間關(guān)系(對比以往最多 15 種)。
- 易于擴展:支持從多種來源生成空間指代數(shù)據(jù),包括 2D 圖像、3D 視頻(含邊界框)和模擬資產(chǎn),具備高度擴展性。
RoboRefer 到底有多厲害
單步空間理解評測
SFT 訓(xùn)練后的 RoboRefer 在各種空間理解任務(wù)中達(dá)到了 89.6% 的平均成功率,取得了當(dāng)前最先進水平。

多步空間指代評測
RFT 訓(xùn)練后的 RoboRefer 在已有的機器人指代榜單上依舊超越現(xiàn)有方法,在研究者們提出的高難度空間指代任務(wù)評測基準(zhǔn) RefSpatial-Bench 上,其更是領(lǐng)先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均準(zhǔn)確率。

下面展示一些 RoboRefer 與其它模型輸出結(jié)果的可視化樣例:

仿真與真機實驗
在空間操控的機械臂仿真評測中,RoboRefer 的表現(xiàn)遠(yuǎn)超現(xiàn)有的視覺 - 語言 - 動作(VLA)系統(tǒng)。不僅在模擬環(huán)境中成功率遙遙領(lǐng)先,面對開放世界中的多步推理與復(fù)雜指代任務(wù),唯有 RoboRefer 能夠完成!


更多的實驗結(jié)果,可視化展示(包括更多的雜亂場景下的真機 Demo 視頻的空間指代結(jié)果)詳見論文和主頁!





























