復(fù)雜空間指令也能秒懂?RoboRefer 讓機(jī)器人理解推理空間,開放世界也能精準(zhǔn)行動(dòng)!
本文的主要作者來自北京航空航天大學(xué)、北京大學(xué)和北京智源人工智能研究院。本文的第一作者為北京航空航天大學(xué)碩士生周恩申,主要研究方向?yàn)榫呱碇悄芎投嗄B(tài)大模型。本文的共一作者兼項(xiàng)目負(fù)責(zé)人為北京智源研究院研究員遲程。本文的通訊作者為北京航空航天大學(xué)副教授盛律和北京大學(xué)計(jì)算機(jī)學(xué)院研究員、助理教授仉尚航。
機(jī)器人走出實(shí)驗(yàn)室、進(jìn)入真實(shí)世界真正可用,遠(yuǎn)比想象中更復(fù)雜。現(xiàn)實(shí)環(huán)境常常雜亂無序、物體種類繁多、靈活多變,遠(yuǎn)不像實(shí)驗(yàn)室那樣干凈、單一、可控。
想象一下,你正在餐廳吃飯,身邊有個(gè)服務(wù)機(jī)器人。你對(duì)它說:「把第二列最遠(yuǎn)的黃色壽司盤,放到離我最近的壽司和醬油碟之間的空位上?!梗ㄗ髨D)又或者,你希望它「拿起最左邊、飲料 logo 正對(duì)的蘋果,放到最近的桌子上,并與之前的蘋果排成一排、間距一致?!梗ㄓ覉D)

這些聽起來是我們?nèi)粘T偈煜げ贿^的指令,其實(shí)是一個(gè)典型空間指代(Spatial Referring)任務(wù)。簡單來說,就是讓機(jī)器人通過「最遠(yuǎn)」「第二列」「等間距」「正對(duì)著」這類空間關(guān)系,搞清楚要抓哪個(gè)對(duì)象、放在哪里、或者走向哪個(gè)位置。
聽著簡單,做起來卻不容易。哪怕是目前最強(qiáng)大、最先進(jìn)的多模態(tài)大模型,也依然難以準(zhǔn)確理解復(fù)雜的三維場景,并根據(jù)指令動(dòng)態(tài)推理出正確的交互位置。這是因?yàn)榭臻g指代任務(wù),背后其實(shí)包含了兩個(gè)維度的挑戰(zhàn):
- 單步空間理解:機(jī)器人得先看懂世界。這要求模型能夠準(zhǔn)確識(shí)別物體的空間屬性(比如位置、朝向)以及它們之間的空間關(guān)系(比如遠(yuǎn)近、方向)。這是空間指代任務(wù)的基礎(chǔ),大部分研究目前還停留在這一層。
- 多步空間推理:真正的挑戰(zhàn)來了:面對(duì)一連串復(fù)雜的空間關(guān)系約束,機(jī)器人不僅要理解,還要逐步推理、動(dòng)態(tài)判斷,靈活應(yīng)對(duì)各種開放世界中各種各樣的空間關(guān)系組合。這種能力對(duì)于實(shí)現(xiàn)真正的空間指代至關(guān)重要,但目前仍然是一個(gè)被嚴(yán)重低估和不足探索的方向。
為了破解空間指代的難題,北京航空航天大學(xué)、北京大學(xué)與北京智源人工智能研究院聯(lián)合提出了一個(gè)具備三維空間理解推理能力的多模態(tài)大模型 —— RoboRefer。這個(gè)模型不僅通過全參數(shù)微調(diào)(SFT),實(shí)現(xiàn)了對(duì)空間信息的精準(zhǔn)理解,還通過強(qiáng)化學(xué)習(xí)微調(diào)(RFT),大幅提升了推理與泛化能力,最終實(shí)現(xiàn)開放世界的空間指代。

- 論文鏈接:https://arxiv.org/pdf/2506.04308
- 論文標(biāo)題:RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
- 項(xiàng)目主頁:https://zhoues.github.io/RoboRefer
- 代碼倉庫:https://github.com/Zhoues/RoboRefer
- 數(shù)據(jù)鏈接:https://huggingface.co/datasets/JingkunAn/RefSpatial
- 評(píng)測(cè)鏈接:https://huggingface.co/datasets/BAAI/RefSpatial-Bench
SFT 訓(xùn)練下的 RoboRefer 在空間理解任務(wù)中達(dá)到了 89.6% 的平均成功率,刷新了當(dāng)前最先進(jìn)水平。而在研究者提出的高難度空間指代任務(wù)評(píng)測(cè)基準(zhǔn) RefSpatial-Bench 上,RFT 訓(xùn)練后的 RoboRefer 更是領(lǐng)先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均準(zhǔn)確率,優(yōu)勢(shì)顯著。
更重要的是,RoboRefer 并非「紙上談兵」。它可以靈活集成到不同類型的機(jī)器人上,比如 UR5 機(jī)械臂、G1 仿人機(jī)器人等,實(shí)現(xiàn)對(duì)現(xiàn)實(shí)世界中復(fù)雜、動(dòng)態(tài)、多步驟任務(wù)的精準(zhǔn)執(zhí)行,真正讓機(jī)器人「聽得懂、看得清、動(dòng)得準(zhǔn)」。
RoboRefer 是什么

RoboRefer 是一個(gè)具備三維空間理解與推理能力的多模態(tài)大模型,擁有獨(dú)立的圖像編碼器和深度圖編碼器,其不僅能回答各種空間感知類問答,無論是「這個(gè)物體離我有多遠(yuǎn)?」這樣的定量問題,還是「哪個(gè)物體在左邊?」這樣的定性問題;更厲害的是,它還能基于多種空間關(guān)系(比如物體的位置和朝向),進(jìn)行復(fù)雜的組合式推理,最終準(zhǔn)確定位需要交互的位置。
比如,面對(duì)一個(gè)指令:「把這個(gè)物體放在筆筒和鍵盤的中間,水瓶的 logo 要正對(duì)著你?!筊oboRefer 不僅能理解這句自然語言的空間邏輯,還能在真實(shí)三維場景中,找到唯一正確的位置來完成任務(wù)。
RoboRefer 的核心是什么
為什么相較于以往的方法,RoboRefer 不僅可以精確的感知空間,而且又可以根據(jù)多個(gè)空間關(guān)系組合泛化推理出交互的位置呢?其關(guān)鍵因素在于以下幾點(diǎn):
SFT 增強(qiáng)空間感知能力,RFT 搭配過程獎(jiǎng)勵(lì)提升泛化推理能力
當(dāng)前多模態(tài)大模型在 2D 預(yù)訓(xùn)練階段缺乏對(duì)空間關(guān)系的深入理解,為了提升模型的單步空間理解能力,研究人員引入了一個(gè)獨(dú)立的深度編碼器,使模型能夠更有效地感知和利用三維信息,并通過全參數(shù)微調(diào)(SFT)進(jìn)行訓(xùn)練。
盡管 SFT 使用了各種空間感知和推理數(shù)據(jù),但模型更傾向于記憶答案,而不是泛化到新的空間約束條件。為了解決這一問題,研究者進(jìn)一步引入了基于 GRPO 的強(qiáng)化學(xué)習(xí)微調(diào)。
值得一提的是,團(tuán)隊(duì)不僅關(guān)注結(jié)果導(dǎo)向的獎(jiǎng)勵(lì)(outcome-based reward),還創(chuàng)新性地設(shè)計(jì)了基于過程的獎(jiǎng)勵(lì)函數(shù)(process reward functions),這些函數(shù)能夠感知中間推理過程的質(zhì)量,從而提升模型多步空間指代任務(wù)中的推理精度。最終,模型增強(qiáng)了顯式多步推理能力,實(shí)現(xiàn)了開放世界的空間指代任務(wù)。
提出 RefSpatial 數(shù)據(jù)集,教一個(gè)多模態(tài)大模型從 0 到 1 學(xué)會(huì)空間指代

為了支持前述的 SFT 和 RFT 訓(xùn)練,研究團(tuán)隊(duì)構(gòu)建了一個(gè)大規(guī)模、高質(zhì)量的數(shù)據(jù)集 ——RefSpatial,具有以下幾個(gè)核心特點(diǎn):
- 精細(xì)標(biāo)注:每個(gè)物體都配有層級(jí)式描述,從「杯子」這類種類類別,到像「左數(shù)第三個(gè)杯子」「最靠近攝像頭的杯子」這樣的精確空間指代,確保在復(fù)雜場景中也能清晰用文字表述。
- 多維推理:數(shù)據(jù)集不僅標(biāo)注了目標(biāo),還附帶詳細(xì)的多步推理過程(最高有 5 步),為復(fù)雜空間指代提供支持。
- 高質(zhì)量篩選:數(shù)據(jù)經(jīng)過嚴(yán)格篩選,確保標(biāo)注準(zhǔn)確、語義清晰。
- 規(guī)模龐大:共包含 250 萬個(gè)樣本、2000 萬個(gè)問答對(duì),數(shù)據(jù)量是同類數(shù)據(jù)集的兩倍。
- 場景豐富:覆蓋室內(nèi)外環(huán)境,涵蓋多種日常交互情境,并整合了 31 種空間關(guān)系(對(duì)比以往最多 15 種)。
- 易于擴(kuò)展:支持從多種來源生成空間指代數(shù)據(jù),包括 2D 圖像、3D 視頻(含邊界框)和模擬資產(chǎn),具備高度擴(kuò)展性。
RoboRefer 到底有多厲害
單步空間理解評(píng)測(cè)
SFT 訓(xùn)練后的 RoboRefer 在各種空間理解任務(wù)中達(dá)到了 89.6% 的平均成功率,取得了當(dāng)前最先進(jìn)水平。

多步空間指代評(píng)測(cè)
RFT 訓(xùn)練后的 RoboRefer 在已有的機(jī)器人指代榜單上依舊超越現(xiàn)有方法,在研究者們提出的高難度空間指代任務(wù)評(píng)測(cè)基準(zhǔn) RefSpatial-Bench 上,其更是領(lǐng)先所有其他模型,比 Gemini-2.5-Pro 高出 17.4% 的平均準(zhǔn)確率。

下面展示一些 RoboRefer 與其它模型輸出結(jié)果的可視化樣例:

仿真與真機(jī)實(shí)驗(yàn)
在空間操控的機(jī)械臂仿真評(píng)測(cè)中,RoboRefer 的表現(xiàn)遠(yuǎn)超現(xiàn)有的視覺 - 語言 - 動(dòng)作(VLA)系統(tǒng)。不僅在模擬環(huán)境中成功率遙遙領(lǐng)先,面對(duì)開放世界中的多步推理與復(fù)雜指代任務(wù),唯有 RoboRefer 能夠完成!


更多的實(shí)驗(yàn)結(jié)果,可視化展示(包括更多的雜亂場景下的真機(jī) Demo 視頻的空間指代結(jié)果)詳見論文和主頁!





























