讓視覺語(yǔ)言模型搞空間推理,谷歌又整新活了
視覺語(yǔ)言模型 (VLM) 已經(jīng)在廣泛的任務(wù)上取得了顯著進(jìn)展,包括圖像描述、視覺問答 (VQA)、具身規(guī)劃、動(dòng)作識(shí)別等等。然而大多數(shù)視覺語(yǔ)言模型在空間推理方面仍然存在一些困難,比如需要理解目標(biāo)在三維空間中的位置或空間關(guān)系的任務(wù)。
關(guān)于這一問題,研究者們常常從「人類」身上獲得啟發(fā):通過(guò)具身體驗(yàn)和進(jìn)化發(fā)展,人類擁有固有的空間推理技能,可以毫不費(fèi)力地確定空間關(guān)系,比如目標(biāo)相對(duì)位置或估算距離和大小,而無(wú)需復(fù)雜的思維鏈或心理計(jì)算。
這種對(duì)直接空間推理任務(wù)的熟練,與當(dāng)前視覺語(yǔ)言模型能力的局限形成鮮明對(duì)比,并引發(fā)了一個(gè)引人注目的研究問題:是否能夠賦予視覺語(yǔ)言模型類似于人類的空間推理能力?
最近,谷歌提出了一種具備空間推理能力的視覺語(yǔ)言模型:SpatialVLM。

- 論文標(biāo)題:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
- 論文地址:https://arxiv.org/pdf/2401.12168.pdf
- 項(xiàng)目主頁(yè):https://spatial-vlm.github.io/
值得注意的是,研究者假設(shè)當(dāng)前視覺語(yǔ)言模型在空間推理能力方面的限制并非源于其架構(gòu)的局限,而更可能是由于在大規(guī)模訓(xùn)練時(shí)所使用的常見數(shù)據(jù)集的限制。例如,許多視覺語(yǔ)言模型是在以圖像 - 描述對(duì)為特征的互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練的,這些數(shù)據(jù)集中包含的空間信息有限。存在限制的原因是獲取富含空間信息的具身數(shù)據(jù)或 3D 感知查詢的高質(zhì)量人工注釋比較困難,自動(dòng)數(shù)據(jù)生成和增強(qiáng)技術(shù)是解決該問題的一種方法,然而很多之前的數(shù)據(jù)生成研究側(cè)重于生成具有真實(shí)語(yǔ)義標(biāo)注的照片逼真圖像,忽略了對(duì)象和 3D 關(guān)系的豐富性。
與之相反,本文研究者專注于直接從現(xiàn)實(shí)世界數(shù)據(jù)中提取空間信息,以捕捉真實(shí) 3D 世界的多樣性和復(fù)雜性。這一創(chuàng)新源自近期視覺模型方面在自動(dòng)從 2D 圖像中生成 3D 空間注釋方面的進(jìn)展。
SpatialVLM 系統(tǒng)可以實(shí)現(xiàn)數(shù)據(jù)生成和對(duì)視覺語(yǔ)言模型進(jìn)行訓(xùn)練,以增強(qiáng)它們的空間推理能力。具體而言,研究者結(jié)合面向開放詞匯的目標(biāo)檢測(cè)(open-vocabulary detection)、度量深度估計(jì)、語(yǔ)義分割和以目標(biāo)為中心的描述模型,實(shí)現(xiàn)了在大規(guī)模地密集注釋真實(shí)世界數(shù)據(jù)。SpatialVLM 將由視覺模型生成的數(shù)據(jù)轉(zhuǎn)換成一種可用于描述、VQA 和空間推理數(shù)據(jù)的混合體上訓(xùn)練視覺語(yǔ)言模型的格式。
實(shí)驗(yàn)證明,本文訓(xùn)練的視覺語(yǔ)言模型表現(xiàn)出許多令人滿意的能力。首先,它在回答定性空間問題方面的能力得到顯著提升。其次,即使在有噪聲的訓(xùn)練數(shù)據(jù)下,它也能可靠地進(jìn)行定量估計(jì)。這種能力不僅使其具備關(guān)于目標(biāo)大小的常識(shí)知識(shí),還使其在重新排列任務(wù)的開放詞匯獎(jiǎng)勵(lì)標(biāo)注方面非常有用。第三,本文的空間視覺語(yǔ)言模型在自然語(yǔ)言界面的基礎(chǔ)上,結(jié)合強(qiáng)大的大型語(yǔ)言模型,能夠進(jìn)行空間推理鏈以解決復(fù)雜的空間推理任務(wù)。
方法概覽
為了使視覺語(yǔ)言模型具備定性和定量的空間推理能力,研究者提出生成一個(gè)大規(guī)模的空間 VQA 數(shù)據(jù)集用于訓(xùn)練視覺語(yǔ)言模型。具體而言,就是設(shè)計(jì)一個(gè)全面的數(shù)據(jù)生成框架,首先利用現(xiàn)成的計(jì)算機(jī)視覺模型,包括開放詞匯檢測(cè)、度量深度估計(jì)、語(yǔ)義分割和以目標(biāo)為中心的描述模型,提取以目標(biāo)為中心的背景信息,然后采用基于模板的方法生成質(zhì)量合理的大規(guī)??臻g VQA 數(shù)據(jù)。本文中,研究者使用了生成的數(shù)據(jù)集訓(xùn)練 SpatialVLM,以學(xué)習(xí)直接的空間推理能力,然后將其與 LLMs 嵌入的高層常識(shí)推理相結(jié)合,解鎖鏈?zhǔn)剿季S的空間推理。

2D 圖像的空間基準(zhǔn)
研究者設(shè)計(jì)了一個(gè)生成包含空間推理問題的 VQA 數(shù)據(jù)的流程,具體流程如圖 2 中所示。

1、語(yǔ)義過(guò)濾:在本文的數(shù)據(jù)合成流程中,第一步是采用基于 CLIP 的開放詞匯分類模型對(duì)所有圖像進(jìn)行分類,排除不適合的圖像。
2、2D 圖像提取以目標(biāo)為中心的背景:這一步獲得由像素簇和開放詞匯描述組成的以目標(biāo)為中心的實(shí)體。
3、2D 背景信息到 3D 背景信息:經(jīng)過(guò)深度估計(jì),將單眼的 2D 像素提升到度量尺度的 3D 點(diǎn)云。本文是第一個(gè)將互聯(lián)網(wǎng)規(guī)模的圖像提升至以目標(biāo)為中心的 3D 點(diǎn)云,并用其合成帶有 3D 空間推理監(jiān)督的 VQA 數(shù)據(jù)。
4、消除歧義:有時(shí)一張圖像中可能有多個(gè)相似類別的目標(biāo),導(dǎo)致它們的描述標(biāo)簽存在歧義。因此,在詢問關(guān)于這些目標(biāo)的問題之前,需要確保參考表達(dá)不含有歧義。
大規(guī)??臻g推理 VQA 數(shù)據(jù)集
研究者通過(guò)使用合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,將「直觀」的空間推理能力融入 VLM。因此,合成涉及圖像中不超過(guò)兩個(gè)目標(biāo)(表示為 A 和 B)的空間推理問答對(duì)。這里主要考慮以下兩類問題:
1、定性問題:詢問某些空間關(guān)系的判斷。例如「給定兩個(gè)對(duì)象 A 和 B,哪個(gè)更靠左?」
2、定量問題:詢問更精細(xì)的答案,包括數(shù)字和單位。例如「相對(duì)于對(duì)象 B,對(duì)象 A 向左多少?」、「對(duì)象 A 距離 B 有多遠(yuǎn)?」
此處,研究者指定了 38 種不同類型的定性和定量空間推理問題,每種問題包含大約 20 個(gè)問題模板和 10 個(gè)答案模板。
圖 3 展示了本文獲取的合成問答對(duì)的示例。研究者創(chuàng)建了一個(gè)包括 1000 萬(wàn)張圖像和 20 億個(gè)直接空間推理問答對(duì) (50% 是定性問題,50% 是定量問題) 的龐大數(shù)據(jù)集。

學(xué)習(xí)空間推理
直接空間推理:視覺語(yǔ)言模型接收?qǐng)D像 I 和關(guān)于空間任務(wù)的查詢 Q 作為輸入,并輸出一個(gè)答案 A,并且以文本的格式呈現(xiàn),無(wú)需使用外部工具或與其他大型模型進(jìn)行交互。本文采用與 PaLM-E 相同的架構(gòu)和訓(xùn)練流程,只是將 PaLM 的骨干替換為 PaLM 2-S。然后,使用原始 PaLM-E 數(shù)據(jù)集和作者的數(shù)據(jù)集的混合進(jìn)行模型訓(xùn)練,其中有 5% 的 token 用于空間推理任務(wù)。
鏈?zhǔn)剿季S空間推理:SpatialVLM 提供了自然語(yǔ)言接口,可用于查詢具有基礎(chǔ)概念的問題,當(dāng)與強(qiáng)大的 LLM 結(jié)合使用時(shí),可以執(zhí)行復(fù)雜的空間推理。
與 Socratic Models 和 LLM 協(xié)調(diào)器中的方法類似,本文利用 LLM (text-davinci-003) 來(lái)協(xié)調(diào)與 SpatialVLM 進(jìn)行通信,以鏈?zhǔn)剿季S提示的方式解決復(fù)雜問題,如圖 4 所示。

實(shí)驗(yàn)及結(jié)果
研究者通過(guò)實(shí)驗(yàn)證明并回答了如下的問題:
問題 1:本文設(shè)計(jì)的空間 VQA 數(shù)據(jù)生成和訓(xùn)練流程,是否提高了 VLM 的一般空間推理能力?以及它的表現(xiàn)如何?
問題 2:充滿噪音數(shù)據(jù)的合成空間 VQA 數(shù)據(jù)和不同的訓(xùn)練策略,對(duì)學(xué)習(xí)性能有何影響?
問題 3:裝備了「直接」空間推理能力的 VLM,是否能夠解鎖諸如鏈?zhǔn)剿季S推理和具身規(guī)劃等新能力?
研究者通過(guò)使用 PaLM-E 訓(xùn)練集和本文設(shè)計(jì)的空間 VQA 數(shù)據(jù)集的混合來(lái)訓(xùn)練模型。為了驗(yàn)證 VLM 在空間推理上的局限是否是數(shù)據(jù)問題,他們選擇了當(dāng)前最先進(jìn)的視覺語(yǔ)言模型作為基線。這些模型的訓(xùn)練過(guò)程中語(yǔ)義描述任務(wù)占據(jù)了相當(dāng)?shù)谋戎?,而不是使用本文的空間 VQA 數(shù)據(jù)集進(jìn)行訓(xùn)練。
空間 VQA 表現(xiàn)
定性空間 VQA。對(duì)于這一問題,人工注釋的答案和 VLM 輸出均為自由形式的自然語(yǔ)言。因此,為了評(píng)估 VLM 的性能,研究者使用人工評(píng)定員確定答案是否正確,表 1 中展示了各個(gè) VLM 的成功率。

定量空間 VQA。如表 2 所示,本文的模型在兩個(gè)指標(biāo)上都比基線表現(xiàn)更好且遙遙領(lǐng)先。

空間 VQA 數(shù)據(jù)對(duì)通用 VQA 的影響
第二個(gè)問題是,由于與大量的空間 VQA 數(shù)據(jù)共同訓(xùn)練,VLM 在其他任務(wù)上的表現(xiàn)是否會(huì)因此而降低。通過(guò)將本文模型與在通用 VQA 基準(zhǔn)上沒有使用空間 VQA 數(shù)據(jù)進(jìn)行訓(xùn)練的基本 PaLM 2-E 進(jìn)行了比較,如表 3 所總結(jié)的,本文的模型在 OKVQA 基準(zhǔn)上達(dá)到了與 PaLM 2-E 相當(dāng)?shù)男阅?,其中包括了有限的空間推理問題,并且在 VQA-v2 test-dev 基準(zhǔn)上表現(xiàn)略好,該基準(zhǔn)包含了空間推理問題。

ViT 編碼器在空間推理中的影響
Frozen ViT (在對(duì)比目標(biāo)上進(jìn)行訓(xùn)練) 是否編碼了足夠的信息來(lái)進(jìn)行空間推理?為了探索這一點(diǎn),研究者的實(shí)驗(yàn)從第 110,000 步的訓(xùn)練開始,分成兩個(gè)訓(xùn)練運(yùn)行,一個(gè) Frozen ViT,另一個(gè) Unfrozen ViT。通過(guò)對(duì)這兩個(gè)模型進(jìn)行了 70,000 步的訓(xùn)練,評(píng)估結(jié)果如表 4 所示。

含噪聲的定量空間答案的影響
研究者者使用機(jī)器人操作數(shù)據(jù)集訓(xùn)練視覺語(yǔ)言模型,發(fā)現(xiàn)模型能夠在操作領(lǐng)域進(jìn)行精細(xì)的距離估計(jì) (圖 5),進(jìn)一步證明了數(shù)據(jù)的準(zhǔn)確性。

表 5 比較了不同的高斯噪聲標(biāo)準(zhǔn)差對(duì)定量空間 VQA 中整體 VLM 性能的影響。

空間推理啟發(fā)新應(yīng)用
1、視覺語(yǔ)言模型作為密集獎(jiǎng)勵(lì)注釋器
視覺語(yǔ)言模型在機(jī)器人學(xué)領(lǐng)域有一個(gè)重要的應(yīng)用。最近的研究表明,視覺語(yǔ)言模型和大型語(yǔ)言模型可以作為機(jī)器人任務(wù)的通用開放詞匯獎(jiǎng)勵(lì)注釋器和成功檢測(cè)器,可用于制定有效的控制策略。然而,VLM 的獎(jiǎng)勵(lì)標(biāo)注能力通常受到空間意識(shí)不足的限制。由于 SpatialVLM 能夠從圖像中定量估計(jì)距離或尺寸,因此它獨(dú)特地適用作為密集的獎(jiǎng)勵(lì)注釋器。作者進(jìn)行一項(xiàng)真實(shí)的機(jī)器人實(shí)驗(yàn),用自然語(yǔ)言指定了一個(gè)任務(wù),并要求 SpatialVLM 為軌跡中的每一幀注釋獎(jiǎng)勵(lì)。
圖 6 中每個(gè)點(diǎn)表示一個(gè)目標(biāo)的位置,它們的顏色表示注釋的獎(jiǎng)勵(lì)。隨著機(jī)器人朝著指定目標(biāo)的進(jìn)展,可以看到獎(jiǎng)勵(lì)是單調(diào)增加的,表明 SpatialVLM 作為密集獎(jiǎng)勵(lì)注釋器的能力。

2、鏈?zhǔn)剿季S空間推理
研究者還研究了 SpatialVLM 是否能夠用于執(zhí)行需要多步推理的任務(wù),考慮到它對(duì)基本空間問題的增強(qiáng)回答能力。作者在圖 1 和圖 4 中展示了一些例子。當(dāng)大語(yǔ)言模型 (GPT-4) 裝備有 SpatialVLM 作為空間推理子模塊時(shí),可以執(zhí)行復(fù)雜的空間推理任務(wù),比如回答環(huán)境中的 3 個(gè)對(duì)象是否能夠形成「等腰三角形」。
更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。




































