偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<style id="gqn9a"></style>

<ruby id="gqn9a"></ruby>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

復(fù)雜空間指令也能秒懂？RoboRefer 讓機器人理解推理空間，開放世界也能精準(zhǔn)行動！

2025-07-07 08:50:00

人工智能新聞

機器人走出實驗室、進入真實世界真正可用，遠(yuǎn)比想象中更復(fù)雜?，F(xiàn)實環(huán)境常常雜亂無序、物體種類繁多、靈活多變，遠(yuǎn)不像實驗室那樣干凈、單一、可控。

本文的主要作者來自北京航空航天大學(xué)、北京大學(xué)和北京智源人工智能研究院。本文的第一作者為北京航空航天大學(xué)碩士生周恩申，主要研究方向為具身智能和多模態(tài)大模型。本文的共一作者兼項目負(fù)責(zé)人為北京智源研究院研究員遲程。本文的通訊作者為北京航空航天大學(xué)副教授盛律和北京大學(xué)計算機學(xué)院研究員、助理教授仉尚航。

機器人走出實驗室、進入真實世界真正可用，遠(yuǎn)比想象中更復(fù)雜。現(xiàn)實環(huán)境常常雜亂無序、物體種類繁多、靈活多變，遠(yuǎn)不像實驗室那樣干凈、單一、可控。

想象一下，你正在餐廳吃飯，身邊有個服務(wù)機器人。你對它說：「把第二列最遠(yuǎn)的黃色壽司盤，放到離我最近的壽司和醬油碟之間的空位上。」（左圖）又或者，你希望它「拿起最左邊、飲料 logo 正對的蘋果，放到最近的桌子上，并與之前的蘋果排成一排、間距一致?！梗ㄓ覉D）

這些聽起來是我們?nèi)粘Ｔ偈煜げ贿^的指令，其實是一個典型空間指代（Spatial Referring）任務(wù)。簡單來說，就是讓機器人通過「最遠(yuǎn)」「第二列」「等間距」「正對著」這類空間關(guān)系，搞清楚要抓哪個對象、放在哪里、或者走向哪個位置。

聽著簡單，做起來卻不容易。哪怕是目前最強大、最先進的多模態(tài)大模型，也依然難以準(zhǔn)確理解復(fù)雜的三維場景，并根據(jù)指令動態(tài)推理出正確的交互位置。這是因為空間指代任務(wù)，背后其實包含了兩個維度的挑戰(zhàn)：

單步空間理解：機器人得先看懂世界。這要求模型能夠準(zhǔn)確識別物體的空間屬性（比如位置、朝向）以及它們之間的空間關(guān)系（比如遠(yuǎn)近、方向）。這是空間指代任務(wù)的基礎(chǔ)，大部分研究目前還停留在這一層。
多步空間推理：真正的挑戰(zhàn)來了：面對一連串復(fù)雜的空間關(guān)系約束，機器人不僅要理解，還要逐步推理、動態(tài)判斷，靈活應(yīng)對各種開放世界中各種各樣的空間關(guān)系組合。這種能力對于實現(xiàn)真正的空間指代至關(guān)重要，但目前仍然是一個被嚴(yán)重低估和不足探索的方向。

為了破解空間指代的難題，北京航空航天大學(xué)、北京大學(xué)與北京智源人工智能研究院聯(lián)合提出了一個具備三維空間理解推理能力的多模態(tài)大模型 —— RoboRefer。這個模型不僅通過全參數(shù)微調(diào)（SFT），實現(xiàn)了對空間信息的精準(zhǔn)理解，還通過強化學(xué)習(xí)微調(diào)（RFT），大幅提升了推理與泛化能力，最終實現(xiàn)開放世界的空間指代。

論文鏈接：https://arxiv.org/pdf/2506.04308
論文標(biāo)題：RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
項目主頁：https://zhoues.github.io/RoboRefer
代碼倉庫：https://github.com/Zhoues/RoboRefer
數(shù)據(jù)鏈接：https://huggingface.co/datasets/JingkunAn/RefSpatial
評測鏈接：https://huggingface.co/datasets/BAAI/RefSpatial-Bench

SFT 訓(xùn)練下的 RoboRefer 在空間理解任務(wù)中達(dá)到了 89.6% 的平均成功率，刷新了當(dāng)前最先進水平。而在研究者提出的高難度空間指代任務(wù)評測基準(zhǔn) RefSpatial-Bench 上，RFT 訓(xùn)練后的 RoboRefer 更是領(lǐng)先所有其他模型，比 Gemini-2.5-Pro 高出 17.4% 的平均準(zhǔn)確率，優(yōu)勢顯著。

更重要的是，RoboRefer 并非「紙上談兵」。它可以靈活集成到不同類型的機器人上，比如 UR5 機械臂、G1 仿人機器人等，實現(xiàn)對現(xiàn)實世界中復(fù)雜、動態(tài)、多步驟任務(wù)的精準(zhǔn)執(zhí)行，真正讓機器人「聽得懂、看得清、動得準(zhǔn)」。

RoboRefer 是什么

RoboRefer 是一個具備三維空間理解與推理能力的多模態(tài)大模型，擁有獨立的圖像編碼器和深度圖編碼器，其不僅能回答各種空間感知類問答，無論是「這個物體離我有多遠(yuǎn)？」這樣的定量問題，還是「哪個物體在左邊？」這樣的定性問題；更厲害的是，它還能基于多種空間關(guān)系（比如物體的位置和朝向），進行復(fù)雜的組合式推理，最終準(zhǔn)確定位需要交互的位置。

比如，面對一個指令：「把這個物體放在筆筒和鍵盤的中間，水瓶的 logo 要正對著你?！筊oboRefer 不僅能理解這句自然語言的空間邏輯，還能在真實三維場景中，找到唯一正確的位置來完成任務(wù)。

RoboRefer 的核心是什么

為什么相較于以往的方法，RoboRefer 不僅可以精確的感知空間，而且又可以根據(jù)多個空間關(guān)系組合泛化推理出交互的位置呢？其關(guān)鍵因素在于以下幾點：

SFT 增強空間感知能力，RFT 搭配過程獎勵提升泛化推理能力

當(dāng)前多模態(tài)大模型在 2D 預(yù)訓(xùn)練階段缺乏對空間關(guān)系的深入理解，為了提升模型的單步空間理解能力，研究人員引入了一個獨立的深度編碼器，使模型能夠更有效地感知和利用三維信息，并通過全參數(shù)微調(diào)（SFT）進行訓(xùn)練。

盡管 SFT 使用了各種空間感知和推理數(shù)據(jù)，但模型更傾向于記憶答案，而不是泛化到新的空間約束條件。為了解決這一問題，研究者進一步引入了基于 GRPO 的強化學(xué)習(xí)微調(diào)。

值得一提的是，團隊不僅關(guān)注結(jié)果導(dǎo)向的獎勵（outcome-based reward），還創(chuàng)新性地設(shè)計了基于過程的獎勵函數(shù)（process reward functions），這些函數(shù)能夠感知中間推理過程的質(zhì)量，從而提升模型多步空間指代任務(wù)中的推理精度。最終，模型增強了顯式多步推理能力，實現(xiàn)了開放世界的空間指代任務(wù)。

提出 RefSpatial 數(shù)據(jù)集，教一個多模態(tài)大模型從 0 到 1 學(xué)會空間指代

為了支持前述的 SFT 和 RFT 訓(xùn)練，研究團隊構(gòu)建了一個大規(guī)模、高質(zhì)量的數(shù)據(jù)集 ——RefSpatial，具有以下幾個核心特點：

精細(xì)標(biāo)注：每個物體都配有層級式描述，從「杯子」這類種類類別，到像「左數(shù)第三個杯子」「最靠近攝像頭的杯子」這樣的精確空間指代，確保在復(fù)雜場景中也能清晰用文字表述。
多維推理：數(shù)據(jù)集不僅標(biāo)注了目標(biāo)，還附帶詳細(xì)的多步推理過程（最高有 5 步），為復(fù)雜空間指代提供支持。
高質(zhì)量篩選：數(shù)據(jù)經(jīng)過嚴(yán)格篩選，確保標(biāo)注準(zhǔn)確、語義清晰。
規(guī)模龐大：共包含 250 萬個樣本、2000 萬個問答對，數(shù)據(jù)量是同類數(shù)據(jù)集的兩倍。
場景豐富：覆蓋室內(nèi)外環(huán)境，涵蓋多種日常交互情境，并整合了 31 種空間關(guān)系（對比以往最多 15 種）。
易于擴展：支持從多種來源生成空間指代數(shù)據(jù)，包括 2D 圖像、3D 視頻（含邊界框）和模擬資產(chǎn)，具備高度擴展性。

RoboRefer 到底有多厲害

單步空間理解評測

SFT 訓(xùn)練后的 RoboRefer 在各種空間理解任務(wù)中達(dá)到了 89.6% 的平均成功率，取得了當(dāng)前最先進水平。

多步空間指代評測

RFT 訓(xùn)練后的 RoboRefer 在已有的機器人指代榜單上依舊超越現(xiàn)有方法，在研究者們提出的高難度空間指代任務(wù)評測基準(zhǔn) RefSpatial-Bench 上，其更是領(lǐng)先所有其他模型，比 Gemini-2.5-Pro 高出 17.4% 的平均準(zhǔn)確率。

下面展示一些 RoboRefer 與其它模型輸出結(jié)果的可視化樣例：

仿真與真機實驗

在空間操控的機械臂仿真評測中，RoboRefer 的表現(xiàn)遠(yuǎn)超現(xiàn)有的視覺 - 語言 - 動作（VLA）系統(tǒng)。不僅在模擬環(huán)境中成功率遙遙領(lǐng)先，面對開放世界中的多步推理與復(fù)雜指代任務(wù)，唯有 RoboRefer 能夠完成！

更多的實驗結(jié)果，可視化展示（包括更多的雜亂場景下的真機 Demo 視頻的空間指代結(jié)果）詳見論文和主頁！

責(zé)任編輯：張燕妮來源：機器之心

機器人訓(xùn)練 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="whenb"></blockquote>}

<sup id="whenb"><rt id="whenb"></rt></sup>

<pre id="whenb"><samp id="whenb"></samp></pre>

<cite id="whenb"></cite><style id="whenb"></style>