偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理

發(fā)布于 2025-1-21 14:11
瀏覽
0收藏

具身人工智能的目標(biāo)是使機(jī)器人或虛擬代理能夠像人類一樣理解和操作其所在的物理環(huán)境,而空間推理被視為實(shí)現(xiàn)具身任務(wù)規(guī)劃的關(guān)鍵能力。導(dǎo)航和操作任務(wù)是具身AI中常見的挑戰(zhàn),依賴于模型對(duì)空間關(guān)系的理解和高效執(zhí)行復(fù)雜任務(wù)的能力,但現(xiàn)有方法在處理復(fù)雜空間推理任務(wù)時(shí)仍面臨諸多局限,難以滿足實(shí)際應(yīng)用的需求。

現(xiàn)有方法大多通過(guò)補(bǔ)充空間數(shù)據(jù)和模型微調(diào)來(lái)提升空間推理能力,可是這些方法主要依賴于語(yǔ)言生成的粗粒度結(jié)果,難以在復(fù)雜環(huán)境中管理更精細(xì)的任務(wù)。一些方法引入了基于點(diǎn)的動(dòng)作空間來(lái)緩解這一問(wèn)題,但在處理復(fù)雜任務(wù)時(shí)仍存在明顯不足,原因在于未充分利用視覺語(yǔ)言模型固有的思維和推理能力。另外,現(xiàn)有模型主要在配有文本的2D圖像數(shù)據(jù)上訓(xùn)練,缺乏理解空間關(guān)系所需的信息。

為了解決上述問(wèn)題,華為諾亞方舟實(shí)驗(yàn)室提出了一種新方法SpatialCoT,目標(biāo)是增強(qiáng)視覺語(yǔ)言模型(VLMs)的空間推理能力。SpatialCoT由兩個(gè)主要階段組成:空間坐標(biāo)雙向?qū)R和鏈?zhǔn)剿季S空間定位。通過(guò)這些階段,模型能夠更好地理解和生成坐標(biāo)基于的響應(yīng),并利用語(yǔ)言模型的推理能力進(jìn)行高級(jí)空間推理。實(shí)驗(yàn)結(jié)果表明,SpatialCoT在導(dǎo)航和操作任務(wù)中顯著優(yōu)于之前的最先進(jìn)方法。研究團(tuán)隊(duì)的相關(guān)論文《SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning》近日發(fā)表于 arXiv,引起業(yè)內(nèi)廣泛關(guān)注。

研究團(tuán)隊(duì)是由來(lái)自華為諾亞方舟實(shí)驗(yàn)室的一組杰出研究人員組成,包括Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yaochen Hu, Lingfeng Zhang, Yingxue Zhang, Shuang Wu, Tongtong Cao, Guowei Huang, Guangjian Tian, Xingyue Quan, Jianye Hao和 Yuzheng Zhuang。華為諾亞方舟實(shí)驗(yàn)室是華為旗下專注于人工智能和機(jī)器學(xué)習(xí)研究的機(jī)構(gòu),致力于推動(dòng)前沿技術(shù)的發(fā)展,特別是在視覺語(yǔ)言模型和具身人工智能等領(lǐng)域的創(chuàng)新與應(yīng)用。團(tuán)隊(duì)成員在各自領(lǐng)域擁有豐富的研究經(jīng)驗(yàn)和專業(yè)知識(shí),共同推動(dòng)了SpatialCoT的開發(fā)和應(yīng)用。

這些研究人員在視覺語(yǔ)言模型、具身AI和空間推理領(lǐng)域積累了豐富的經(jīng)驗(yàn)和深厚的知識(shí)基礎(chǔ)。他們的合作與研究不僅推動(dòng)了理論的發(fā)展,也對(duì)實(shí)際應(yīng)用產(chǎn)生了重要影響。通過(guò)他們的不懈努力,SpatialCoT為具身任務(wù)規(guī)劃提供了一個(gè)創(chuàng)新的解決方案,展示了其在復(fù)雜環(huán)境中處理導(dǎo)航和操作任務(wù)的巨大潛力。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖1:SpatialoT與以前方法的比較。a) 以前的方法通常直接根據(jù)語(yǔ)言指令輸出動(dòng)作。b) SpatialoT通過(guò)有效利用VLM的推理能力來(lái)提高動(dòng)作生成質(zhì)量。這是通過(guò)兩個(gè)階段的微調(diào)過(guò)程實(shí)現(xiàn)的,涉及空間坐標(biāo)對(duì)齊和思維鏈空間基礎(chǔ)。

這篇論文的貢獻(xiàn)不僅在于提出了一種新的空間推理方法,更在于其對(duì)未來(lái)研究方向的引領(lǐng)和啟發(fā)。隨著技術(shù)的不斷進(jìn)步,SpatialCoT方法有望在更多實(shí)際應(yīng)用中發(fā)揮重要作用,為機(jī)器人和智能代理的自主性和智能化提供堅(jiān)實(shí)的技術(shù)支持。

方法介紹

空間坐標(biāo)雙向?qū)R

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖2:SpatialIoT概述,包括兩個(gè)核心階段。a) 空間坐標(biāo)雙向?qū)R,包括將坐標(biāo)轉(zhuǎn)換為語(yǔ)言(由左側(cè)的藍(lán)色到黃色箭頭表示)和語(yǔ)言轉(zhuǎn)換為坐標(biāo)(由右側(cè)的黃色到藍(lán)色箭頭表示)。b) 思維鏈空間接地:該模型首先通過(guò)生成基于語(yǔ)言的基本原理進(jìn)行綜合思維,然后將其接地為基于坐標(biāo)的動(dòng)作(黃色到藍(lán)色虛線),顯著提高了模型在復(fù)雜空間推理任務(wù)中的性能。

空間坐標(biāo)雙向?qū)R是SpatialCoT方法的第一個(gè)核心階段。其主要目的是通過(guò)明確對(duì)齊視覺-語(yǔ)言輸入與空間坐標(biāo),從而增強(qiáng)模型的空間理解和響應(yīng)生成能力。具體而言,這一階段涉及將圖像和文本描述與具體坐標(biāo)進(jìn)行雙向映射,使模型能夠更精準(zhǔn)地理解和生成基于坐標(biāo)的反饋。

空間坐標(biāo)雙向?qū)R通過(guò)兩種形式的數(shù)據(jù)對(duì)齊實(shí)現(xiàn)。第一種形式是將圖像與包含坐標(biāo)的文本指令進(jìn)行配對(duì),模型需輸出指令中描述坐標(biāo)的相關(guān)信息。第二種形式是將圖像與不含坐標(biāo)的語(yǔ)言指令進(jìn)行配對(duì),模型需生成一個(gè)或多個(gè)坐標(biāo)來(lái)指示指令中描述的位置或區(qū)域。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖3:思維鏈空間接地的數(shù)據(jù)采集管道。

在圖像與坐標(biāo)的雙向?qū)R機(jī)制中,首先將視覺-語(yǔ)言數(shù)據(jù)與坐標(biāo)進(jìn)行顯式對(duì)齊,這一過(guò)程通過(guò)設(shè)計(jì)不同類型的數(shù)據(jù)(如對(duì)象理解、可用性預(yù)測(cè)、空間關(guān)系和空間兼容性)來(lái)實(shí)現(xiàn)。通過(guò)雙向?qū)R,使得模型不僅能根據(jù)坐標(biāo)理解文本描述,還能根據(jù)文本描述生成準(zhǔn)確的坐標(biāo)。

在具體數(shù)據(jù)處理過(guò)程中,模型需要處理兩種主要的數(shù)據(jù)形式。一種是圖像與包含具體坐標(biāo)的文本描述配對(duì),另一種是圖像與不包含坐標(biāo)的文本描述配對(duì)。具體示例如“圖像中物體位于(0.81, 0.90)的位置”以及“請(qǐng)指出圖像中所有椅子的位置”,前者要求模型理解并生成關(guān)于坐標(biāo)的反饋,而后者則要求模型生成對(duì)應(yīng)的坐標(biāo)。

鏈?zhǔn)剿季S空間定位

鏈?zhǔn)剿季S空間定位是SpatialCoT的第二個(gè)核心階段,旨在通過(guò)語(yǔ)言模型的推理能力進(jìn)行高級(jí)空間推理。不同于直接生成基于坐標(biāo)的動(dòng)作,這一階段通過(guò)語(yǔ)言推理過(guò)程將復(fù)雜的空間推理問(wèn)題逐步分解,生成細(xì)粒度的動(dòng)作計(jì)劃。

鏈?zhǔn)剿季S空間定位通過(guò)生成包含推理過(guò)程和具體動(dòng)作的數(shù)據(jù)來(lái)實(shí)現(xiàn)。首先,模型需生成基于任務(wù)的推理過(guò)程,利用語(yǔ)言空間中的推理能力進(jìn)行任務(wù)指導(dǎo)。然后,模型基于推理過(guò)程生成對(duì)應(yīng)的基于坐標(biāo)的動(dòng)作。這一過(guò)程通過(guò)在前一階段對(duì)齊的語(yǔ)言和坐標(biāo)數(shù)據(jù)中實(shí)現(xiàn),無(wú)需大量的微調(diào)數(shù)據(jù)。

在這一階段,模型通過(guò)內(nèi)在推理能力進(jìn)行復(fù)雜的空間定位。模型首先生成任務(wù)的推理過(guò)程,利用語(yǔ)言模型中的空間和常識(shí)推理能力,指導(dǎo)任務(wù)的完成。然后,基于推理過(guò)程生成相應(yīng)的坐標(biāo)動(dòng)作,實(shí)現(xiàn)高級(jí)空間推理任務(wù)的解決。

為了高效地生成高質(zhì)量的推理-動(dòng)作數(shù)據(jù)對(duì),我們?cè)O(shè)計(jì)了一條自動(dòng)化數(shù)據(jù)生成流水線。初始階段,基于圖像和任務(wù)指令從模擬器中獲取真實(shí)動(dòng)作,并在圖像上進(jìn)行標(biāo)注。接著,利用強(qiáng)大的視覺語(yǔ)言模型生成基于動(dòng)作標(biāo)注圖像和任務(wù)指令的推理過(guò)程,并通過(guò)加入額外的約束來(lái)確保推理過(guò)程的有效性。最終,通過(guò)微調(diào)模型,使其能夠高效處理復(fù)雜的空間推理任務(wù)。

實(shí)驗(yàn)設(shè)計(jì)

SpatialCoT的方法通過(guò)一系列精心設(shè)計(jì)的實(shí)驗(yàn)驗(yàn)證了其在具身任務(wù)中的有效性。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖4:現(xiàn)實(shí)世界的重排實(shí)驗(yàn),SpatialoT將各種對(duì)象組合排列成合理的布局,遵守物理約束并避免碰撞。

研究團(tuán)隊(duì)采用閉環(huán)具身任務(wù)規(guī)劃的方法,通過(guò)在模擬器中進(jìn)行任務(wù)設(shè)置和評(píng)估,全面考察SpatialCoT在導(dǎo)航和操作任務(wù)中的表現(xiàn)。任務(wù)設(shè)置包括狀態(tài)、目標(biāo)、動(dòng)作和轉(zhuǎn)換的具體設(shè)置,以確保任務(wù)的復(fù)雜性和真實(shí)性。

狀態(tài)、目標(biāo)、動(dòng)作、轉(zhuǎn)換的具體設(shè)置

在狀態(tài)方面,研究團(tuán)隊(duì)主要考慮了視覺遮擋、物體堆疊和封裝遮擋等因素。此外,還涉及物體屬性如幾何形狀和可移動(dòng)性。目標(biāo)設(shè)置包括物體數(shù)量、空間約束和目標(biāo)描述的抽象程度。動(dòng)作設(shè)置則考慮了動(dòng)作空間的格式和所需技能的數(shù)量。轉(zhuǎn)換方面,研究團(tuán)隊(duì)處理了環(huán)境的動(dòng)態(tài)不確定性,通過(guò)不同復(fù)雜度的層次進(jìn)行任務(wù)分解。

導(dǎo)航任務(wù)和操作任務(wù)的詳細(xì)描述

導(dǎo)航任務(wù)采用了更具挑戰(zhàn)性的目標(biāo)物體導(dǎo)航評(píng)估任務(wù)。與傳統(tǒng)的區(qū)域定位任務(wù)不同,目標(biāo)物體導(dǎo)航要求模型生成最佳的次目標(biāo)點(diǎn),以盡快找到不在視野內(nèi)的目標(biāo)物體。例如,模型需要根據(jù)圖像生成最佳路徑點(diǎn),以找到目標(biāo)物體的位置。

操作任務(wù)采用了餐桌功能重排評(píng)估任務(wù),這是對(duì)RoboPoint任務(wù)的進(jìn)一步擴(kuò)展。給定一個(gè)目標(biāo)布局描述,模型需要逐步生成每個(gè)物體的起始和結(jié)束位置,直到達(dá)到期望的布局。例如,模型需要根據(jù)語(yǔ)言指令逐步將餐桌上的物品擺放到指定位置。

基本能力評(píng)估

除了具身任務(wù)規(guī)劃,研究團(tuán)隊(duì)還評(píng)估了視覺語(yǔ)言模型的基本能力,以理解這些能力與任務(wù)規(guī)劃性能之間的關(guān)系。這些基本能力包括對(duì)象理解、可用性預(yù)測(cè)、空間關(guān)系和空間兼容性。

  • 對(duì)象理解:匹配自然語(yǔ)言描述與圖像中的具體視覺內(nèi)容。
  • 可用性預(yù)測(cè):識(shí)別和預(yù)測(cè)環(huán)境中可執(zhí)行的動(dòng)作,如確定可導(dǎo)航區(qū)域或如何操作物體。
  • 空間關(guān)系:理解物體之間的空間關(guān)系。
  • 空間兼容性:預(yù)測(cè)和理解物體之間的兼容性。

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)收集方面,研究團(tuán)隊(duì)使用了兩個(gè)主要場(chǎng)景數(shù)據(jù)集。導(dǎo)航任務(wù)的數(shù)據(jù)收集依賴于Habitat合成場(chǎng)景數(shù)據(jù)集(HSSD),并使用Habitat作為模擬器進(jìn)行閉環(huán)模型評(píng)估。操作任務(wù)的數(shù)據(jù)收集則使用Sapien作為模擬器,生成多樣的桌面重排任務(wù)和數(shù)據(jù)。為了提高視覺真實(shí)度并減少模擬與現(xiàn)實(shí)的差距,研究團(tuán)隊(duì)使用Blender渲染器獲取高質(zhì)量圖像進(jìn)行數(shù)據(jù)收集。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖5:導(dǎo)航和操縱任務(wù)中空間推理結(jié)果的可視化

數(shù)據(jù)生成和處理

數(shù)據(jù)生成過(guò)程中,研究團(tuán)隊(duì)通過(guò)大語(yǔ)言模型的強(qiáng)大生成能力,半自動(dòng)化地構(gòu)建桌面功能重排任務(wù)的數(shù)據(jù)。此外,通過(guò)引入高質(zhì)量數(shù)據(jù)進(jìn)行模型微調(diào),使得SpatialCoT在復(fù)雜環(huán)境中的表現(xiàn)更加穩(wěn)定和出色。

模型訓(xùn)練

在模型訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)選擇了Llama3.2-Vision 11B作為視覺語(yǔ)言模型的骨干。訓(xùn)練方法包括使用LoRA進(jìn)行微調(diào),整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段,每個(gè)階段進(jìn)行了2個(gè)epoch的訓(xùn)練。所有實(shí)驗(yàn)在配備8塊NVIDIA L40 GPU的單臺(tái)機(jī)器上進(jìn)行,確保了訓(xùn)練的高效和穩(wěn)定。

對(duì)比基線

為了驗(yàn)證SpatialCoT的有效性,研究團(tuán)隊(duì)將其與多個(gè)基線模型進(jìn)行對(duì)比。這些基線模型包括專門的空間推理模型RoboPoint、開源視覺語(yǔ)言模型LLaMA3.2V以及閉源模型GPT-4o。通過(guò)對(duì)比這些基線模型,研究團(tuán)隊(duì)全面評(píng)估了SpatialCoT在不同任務(wù)和環(huán)境中的性能表現(xiàn)。

實(shí)驗(yàn)結(jié)果

通過(guò)一系列實(shí)驗(yàn),SpatialCoT展示了其在導(dǎo)航和操作任務(wù)中的顯著優(yōu)勢(shì)。

導(dǎo)航任務(wù)結(jié)果

在導(dǎo)航任務(wù)中,研究團(tuán)隊(duì)引入了兩個(gè)關(guān)鍵指標(biāo):距離增益(DG)和成功率(SR)。距離增益衡量生成動(dòng)作的質(zhì)量,成功率則評(píng)估模型在模擬器內(nèi)的整體表現(xiàn)。

在比較不同基線模型時(shí),GPT-4o ICL和Llama3.2V 11B零樣本的距離增益分別為-0.27和-2.47,表明這些模型生成的動(dòng)作質(zhì)量低于平均水平。而RoboPoint模型的距離增益為0.21,盡管有所提升,但仍不足以應(yīng)對(duì)需要高推理能力的復(fù)雜任務(wù)。采用直接在動(dòng)作生成數(shù)據(jù)上微調(diào)模型的方法,距離增益達(dá)到了2.28。通過(guò)加入空間坐標(biāo)雙向?qū)R,這一數(shù)值進(jìn)一步提高到3.23,而鏈?zhǔn)剿季S空間定位則將其提升至2.83。當(dāng)結(jié)合這兩個(gè)階段時(shí),距離增益達(dá)到了3.33,相比直接動(dòng)作微調(diào)提升了46%。

在成功率方面,SpatialCoT達(dá)到了61.83%,相比直接動(dòng)作微調(diào)提高了4.43%,并且在所有評(píng)估的開源和閉源模型中表現(xiàn)最佳。

操作任務(wù)結(jié)果

在操作任務(wù)中,研究團(tuán)隊(duì)引入了碰撞率(CR)和成功率(SR)作為評(píng)估指標(biāo)。碰撞率衡量生成動(dòng)作的有效性,成功率則評(píng)估任務(wù)在指令描述和無(wú)碰撞條件下的完成情況。

零樣本評(píng)估中,先前模型的成功率為零,主要由于碰撞率較高。而直接動(dòng)作微調(diào)將碰撞率降至21.3%,成功率提高至75.8%。SpatialCoT進(jìn)一步改進(jìn)了這些指標(biāo),碰撞率降至15.6%,成功率提高到82.6%,表明在端到端任務(wù)成功率上有顯著提升。

問(wèn)題分析

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖6:分析VLM的基本能力和具體任務(wù)規(guī)劃之間的相關(guān)性,DAT表示直接動(dòng)作調(diào)整。

通過(guò)對(duì)具體任務(wù)規(guī)劃的分析,研究團(tuán)隊(duì)發(fā)現(xiàn)SpatialCoT在高復(fù)雜度任務(wù)中表現(xiàn)尤為出色。操作任務(wù)中,主要的失敗來(lái)源于非獨(dú)特物體和大量物體的處理,這些場(chǎng)景容易導(dǎo)致碰撞。而在導(dǎo)航任務(wù)中,SpatialCoT在需要稀疏獎(jiǎng)勵(lì)信號(hào)的任務(wù)中表現(xiàn)尤為突出,特別是在目標(biāo)較少且距離較大的復(fù)雜任務(wù)中表現(xiàn)顯著提高。

對(duì)基本能力與下游任務(wù)性能的相關(guān)性分析顯示,SpatialCoT在所有評(píng)估類別中均優(yōu)于其他模型。特別是對(duì)象理解和空間關(guān)系這兩個(gè)類別顯示出明顯的正相關(guān)關(guān)系,表明這些基本能力對(duì)模型在具體任務(wù)中的表現(xiàn)具有重要影響。

華為諾亞方舟實(shí)驗(yàn)室突破具身AI瓶頸, SpatialCoT通過(guò)坐標(biāo)對(duì)齊和思路鏈推進(jìn)空間推理-AI.x社區(qū)

圖7:思維鏈空間基礎(chǔ)案例研究。

鏈?zhǔn)剿季S對(duì)空間推理能力的貢獻(xiàn)也在實(shí)驗(yàn)中得到驗(yàn)證。通過(guò)鏈?zhǔn)剿季S過(guò)程,模型能夠更好地利用空間和上下文信息,如房間布局和常識(shí)知識(shí),以得出正確答案。例如,在尋找鬧鐘的任務(wù)中,SpatialCoT首先考慮鬧鐘的典型位置,然后根據(jù)布局推斷臥室位置,最終生成準(zhǔn)確結(jié)果。而基線模型在沒(méi)有鏈?zhǔn)剿季S的情況下,生成的結(jié)果則較為無(wú)序。

方法的局限性

雖然SpatialCoT在許多方面展示了其強(qiáng)大的空間推理能力,但仍有一些局限性需要注意。

處理復(fù)雜動(dòng)作(如旋轉(zhuǎn))的局限

首先,SpatialCoT的方法主要基于坐標(biāo)的動(dòng)作生成,這使得其在處理某些復(fù)雜動(dòng)作時(shí)顯得力不從心,特別是涉及物體旋轉(zhuǎn)的任務(wù)。具體來(lái)說(shuō),當(dāng)前的方法未能有效處理需要精確控制物體旋轉(zhuǎn)角度的任務(wù),這在實(shí)際應(yīng)用中可能導(dǎo)致一些局限。例如,在需要機(jī)器人旋轉(zhuǎn)物體以便更好地定位或操作時(shí),SpatialCoT的模型可能無(wú)法生成足夠精確的動(dòng)作指令。這一局限性限制了模型在某些復(fù)雜場(chǎng)景中的應(yīng)用,因此未來(lái)的研究需要進(jìn)一步探索和解決這一問(wèn)題。

對(duì)3D輸入的依賴和未來(lái)研究方向

另一個(gè)需要注意的局限性是SpatialCoT目前依賴于2D圖像作為視覺輸入。雖然2D圖像在許多場(chǎng)景中已經(jīng)能夠提供足夠的信息,但在更大、更復(fù)雜的空間中,3D輸入的需求變得尤為重要。3D輸入可以提供更豐富的空間信息,使模型能夠更準(zhǔn)確地理解和導(dǎo)航復(fù)雜環(huán)境。然而,引入3D輸入也帶來(lái)了新的挑戰(zhàn),包括更高的數(shù)據(jù)處理復(fù)雜度和計(jì)算資源需求。因此,未來(lái)的研究應(yīng)當(dāng)探索如何有效地利用3D輸入來(lái)提升模型的空間推理能力。

結(jié)論

SpatialCoT方法的創(chuàng)新點(diǎn)在于它結(jié)合了空間坐標(biāo)雙向?qū)R和鏈?zhǔn)剿季S空間定位兩大核心技術(shù),以增強(qiáng)視覺語(yǔ)言模型的空間推理能力。這種方法通過(guò)明確對(duì)齊視覺-語(yǔ)言輸入與空間坐標(biāo),使模型能夠更精準(zhǔn)地理解和生成基于坐標(biāo)的響應(yīng)。同時(shí),通過(guò)引入鏈?zhǔn)剿季S,使模型能夠利用語(yǔ)言推理能力進(jìn)行高級(jí)空間推理,從而更好地解決復(fù)雜的具身任務(wù)。

研究結(jié)果表明,SpatialCoT在導(dǎo)航和操作等復(fù)雜具身任務(wù)中的表現(xiàn)顯著優(yōu)于現(xiàn)有的最先進(jìn)方法。在導(dǎo)航任務(wù)中,SpatialCoT在距離增益和成功率兩個(gè)關(guān)鍵指標(biāo)上均取得了優(yōu)異的成績(jī),展示了其在生成高質(zhì)量動(dòng)作方面的能力。在操作任務(wù)中,SpatialCoT在碰撞率和成功率上均表現(xiàn)出色,進(jìn)一步證明了其在復(fù)雜場(chǎng)景中執(zhí)行精細(xì)操作的能力。

盡管SpatialCoT已經(jīng)展示了其強(qiáng)大的空間推理能力,但仍存在一些需要進(jìn)一步研究的領(lǐng)域。未來(lái)的研究可以探索如何更好地處理復(fù)雜動(dòng)作(如物體旋轉(zhuǎn)),以增強(qiáng)模型在實(shí)際應(yīng)用中的適用性。此外,雖然當(dāng)前的方法主要依賴于2D圖像作為視覺輸入,但隨著技術(shù)的發(fā)展,探索3D輸入的潛力也將成為未來(lái)研究的一個(gè)重要方向。3D輸入可以提供更豐富的空間信息,使模型能夠更準(zhǔn)確地理解和操作復(fù)雜環(huán)境,但同時(shí)也帶來(lái)了更高的數(shù)據(jù)處理復(fù)雜度和計(jì)算資源需求。(END)

參考資料:https://arxiv.org/abs/2501.10074

本文轉(zhuǎn)載自??大噬元獸??,作者: FlerkenS ????


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦