NeurIPS`24 | 超25萬(wàn)對(duì)助力具身智能!3D場(chǎng)景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI 精華
文章鏈接:https://arxiv.org/pdf/2409.02389
項(xiàng)目鏈接:https://msr3d.github.io/
亮點(diǎn)直擊
- 引入了MSQA,這是一個(gè)大規(guī)模的3D情境推理數(shù)據(jù)集,包括251K個(gè)情境問答對(duì),利用可擴(kuò)展的自動(dòng)化數(shù)據(jù)生成流程,在多樣化的真實(shí)場(chǎng)景中采集。
- 提出使用交替多模態(tài)輸入設(shè)置進(jìn)行模型學(xué)習(xí)和評(píng)估,建立了兩個(gè)全面的基準(zhǔn)測(cè)試任務(wù),MSQA和MSNN,以評(píng)估模型在3D場(chǎng)景中進(jìn)行情境推理和導(dǎo)航的能力。
- 本文進(jìn)行了全面的實(shí)驗(yàn)分析,將現(xiàn)有模型與本文提出的基準(zhǔn)模型MSR3D在MSQA和MSNN上進(jìn)行比較。本文強(qiáng)調(diào)了處理多模態(tài)交替輸入和情境建模的重要性。通過(guò)數(shù)據(jù)擴(kuò)展和跨域遷移實(shí)驗(yàn),證明了在MSQA數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的有效性,以及MSR3D在3D場(chǎng)景中的多模態(tài)情境推理潛力。
總結(jié)速覽
解決的問題
現(xiàn)有的場(chǎng)景理解數(shù)據(jù)集和基準(zhǔn)測(cè)試在數(shù)據(jù)模態(tài)、多樣性、規(guī)模和任務(wù)范圍方面存在局限性,無(wú)法充分支持對(duì)3D場(chǎng)景中情境理解的研究。
提出的方案
提出了多模態(tài)情境問答 (MSQA) 數(shù)據(jù)集和基準(zhǔn)測(cè)試,通過(guò)3D場(chǎng)景圖和視覺-語(yǔ)言模型大規(guī)模采集數(shù)據(jù),以提升模型對(duì)情境的推理能力。此外,提出了多模態(tài)情境下一步導(dǎo)航 (MSNN) 基準(zhǔn)測(cè)試,用于評(píng)估模型在情境推理中的導(dǎo)航能力。
應(yīng)用的技術(shù)
- 多模態(tài)輸入設(shè)置:引入文本、圖像和點(diǎn)云數(shù)據(jù)的交替輸入,以提供更清晰的情境描述,避免單一模態(tài)導(dǎo)致的模糊。
- 數(shù)據(jù)擴(kuò)展與跨域遷移實(shí)驗(yàn):利用MSQA進(jìn)行模型預(yù)訓(xùn)練,以提升模型的情境推理能力。
達(dá)到的效果
對(duì)MSQA和MSNN的綜合評(píng)估顯示了現(xiàn)有視覺-語(yǔ)言模型的局限性,驗(yàn)證了處理多模態(tài)交替輸入和情境建模的重要性。數(shù)據(jù)擴(kuò)展和跨域遷移實(shí)驗(yàn)進(jìn)一步表明,MSQA數(shù)據(jù)集在預(yù)訓(xùn)練中的應(yīng)用顯著提升了模型的情境推理能力。
多模態(tài)情境推理數(shù)據(jù)集
本文提出了一種新穎且可擴(kuò)展的方法,用于收集高質(zhì)量的3D情境推理數(shù)據(jù),并遵循三項(xiàng)核心原則:
- 確保情境的全面性和多樣性
- 設(shè)計(jì)高度依賴情境的問題并提供準(zhǔn)確答案
- 支持多模態(tài)交替輸入格式以避免歧義
數(shù)據(jù)收集
如下圖3所示,本文精心設(shè)計(jì)了一個(gè)基于LLM的自動(dòng)數(shù)據(jù)收集流程,包含三個(gè)階段:情境采樣、問答對(duì)生成和數(shù)據(jù)精煉。本文的數(shù)據(jù)收集目標(biāo)是確保生成數(shù)據(jù)的高質(zhì)量。以下是流程的詳細(xì)介紹。
- 問答對(duì)生成:類似于先前的工作[28, 30],采用場(chǎng)景圖來(lái)提示LLM生成數(shù)據(jù)。首先使用剪裁的物體圖像提示GPT-4V以實(shí)例化場(chǎng)景圖中的每個(gè)物體及其屬性。然后,在初始化后的物體之間進(jìn)行兩兩計(jì)算以推導(dǎo)出關(guān)系,這些關(guān)系可以分為五種類型:接觸的垂直關(guān)系(如支撐)、非接觸的垂直關(guān)系(如在上方)、水平距離(如靠近)、水平鄰近關(guān)系(如右側(cè))和多物體關(guān)系(如在…之間)。
在將這些關(guān)系建立為場(chǎng)景圖中的邊后,根據(jù)采樣情境的位置和視角調(diào)整水平鄰近關(guān)系,以獲得情境場(chǎng)景圖?;谶@些情境場(chǎng)景圖,設(shè)計(jì)系統(tǒng)提示語(yǔ)并手工制作示例以提示GPT-3.5生成情境問答對(duì)。本文關(guān)注9種不同的問題范圍,涵蓋物體屬性、計(jì)數(shù)、空間關(guān)系、導(dǎo)航動(dòng)作等(如下圖4(a)所示)。在提示過(guò)程中,指示LLM輸出問題類別。為進(jìn)一步增強(qiáng)LLM生成的問答對(duì)的多樣性,我們使用不同的種子示例組合,并根據(jù)不同的距離樣本生成不同的情境子場(chǎng)景圖用于問題生成。
數(shù)據(jù)精煉為了提升生成的情境問答對(duì)的質(zhì)量,進(jìn)行了精煉流程,包括兩個(gè)主要方面:
- 對(duì)情境場(chǎng)景圖,檢查屬性和關(guān)系的分布,以減輕可能導(dǎo)致幻覺的潛在偏差;
- 手動(dòng)審查L(zhǎng)LM生成的問答對(duì)以驗(yàn)證其準(zhǔn)確性,并基于正則表達(dá)式設(shè)計(jì)過(guò)濾函數(shù)來(lái)檢測(cè)和糾正潛在錯(cuò)誤。
先前的研究[28, 68]已強(qiáng)調(diào)數(shù)據(jù)平衡的重要性,通過(guò)篩選不平衡的問答對(duì)來(lái)平衡生成數(shù)據(jù)的答案分布。通過(guò)這些步驟,收集了跨ScanNet、3RScan和ARKitScenes的251K多模態(tài)情境問答對(duì)。下表1和提供了MSQA與現(xiàn)有數(shù)據(jù)集的對(duì)比及更多統(tǒng)計(jì)數(shù)據(jù)。
數(shù)據(jù)質(zhì)量控制
盡管基于LLM的數(shù)據(jù)收集流程具有可擴(kuò)展性,但生成數(shù)據(jù)的質(zhì)量仍然是主要關(guān)注點(diǎn),特別是在3D視覺-語(yǔ)言任務(wù)中,語(yǔ)言的錨定具備挑戰(zhàn)性。為應(yīng)對(duì)這些問題,進(jìn)行了人類研究,將生成的數(shù)據(jù)與SQA3D中的人工標(biāo)注數(shù)據(jù)進(jìn)行比較。具體而言,從MSQA和SQA3D中各抽取100條數(shù)據(jù)實(shí)例并混合供人類評(píng)估。評(píng)估員被要求從三個(gè)方面為數(shù)據(jù)打分:
- 情境描述的自然性和清晰度
- 問題的情境依賴性和清晰度
- 答案的準(zhǔn)確性和完整性
每個(gè)方面的評(píng)分范圍為1到5分。評(píng)估流程的詳細(xì)信息見附錄B。評(píng)估結(jié)果如上面圖4(b)所示,顯示MSQA在各方面的質(zhì)量與SQA3D相當(dāng)。此外,圖4(c)表明,MSQA中高評(píng)分?jǐn)?shù)據(jù)(即得分≥4的質(zhì)量數(shù)據(jù))的比例與SQA3D相匹配或超過(guò)SQA3D。這表明了MSQA的質(zhì)量以及數(shù)據(jù)精煉流程的有效性。
評(píng)估基準(zhǔn)
本節(jié)詳細(xì)描述了用于多模態(tài)情境推理的評(píng)估任務(wù)。具體而言,考慮了以下兩個(gè)基準(zhǔn)任務(wù):
多模態(tài)情境問答 (MSQA)
在MSQA中評(píng)估模型在情境感知和處理交織的多模態(tài)輸入方面的能力。具體來(lái)說(shuō),給定一個(gè)多模態(tài)情境描述,模型需要回答一個(gè)基于3D場(chǎng)景的文本-圖像交織問題。由于回答是開放式的,以往的指標(biāo)(如分類準(zhǔn)確率和完全匹配準(zhǔn)確率)無(wú)法準(zhǔn)確評(píng)估。為了解決此問題,參考OpenEQA使用基于GPT的評(píng)估指標(biāo)來(lái)評(píng)估開放式回答,并擴(kuò)展其提示集以適用于3D情境推理??傮w上,報(bào)告了包含N個(gè)樣本的測(cè)試集的正確率評(píng)分C,其計(jì)算方式如下:
多模態(tài)情境下一步導(dǎo)航 (MSNN) 除了MSQA外,還希望通過(guò)具身AI任務(wù)(如導(dǎo)航)評(píng)估模型的情境感知能力。為將長(zhǎng)時(shí)規(guī)劃與情境理解分離,本文提出了MSNN任務(wù),聚焦于在當(dāng)前情境和導(dǎo)航目標(biāo)的基礎(chǔ)上預(yù)測(cè)最佳的即時(shí)下一步動(dòng)作。具體來(lái)說(shuō),給定代理的當(dāng)前交織多模態(tài)情境描述(包括位置、方向和文本描述)、目標(biāo)文本描述和整體場(chǎng)景,我們指示模型以文本形式回答通向目標(biāo)的下一步動(dòng)作。
為評(píng)估,MSNN數(shù)據(jù)采用類似情境QA生成流程并包含四個(gè)關(guān)鍵步驟:
- 起始情境采樣
- 目標(biāo)采樣
- 最優(yōu)路徑預(yù)測(cè)
- 計(jì)算真實(shí)的即時(shí)下一步動(dòng)作
最優(yōu)路徑由A*算法生成,以在平面圖上規(guī)劃從起始位置到目標(biāo)的最短路徑,而即時(shí)下一步動(dòng)作則依據(jù)相對(duì)起始情境的最優(yōu)路徑方向確定。最終,生成了一個(gè)包含34K個(gè)MSNN樣本的數(shù)據(jù)集,覆蓋ScanNet中的378個(gè)3D場(chǎng)景。此數(shù)據(jù)集進(jìn)一步用于監(jiān)督微調(diào)和MSNN評(píng)估。
實(shí)驗(yàn)
模型設(shè)置
受3D通用模型、LLM和VLM最新進(jìn)展的啟發(fā),本文提出了幾種適用于MSQA和MSNN的潛在方法,包括可直接零樣本應(yīng)用于這些任務(wù)的模型,以及需要指令調(diào)優(yōu)的模型。
零樣本模型
本文研究了現(xiàn)有LLMs和VLMs(例如GPT-3.5和GPT-4o)在多模態(tài)情境推理中的能力。鑒于這些模型在處理3D點(diǎn)云方面的局限性,我們將3D場(chǎng)景的文本描述作為輸入提供給這些模型。具體而言,場(chǎng)景被描述為對(duì)象集合,每個(gè)對(duì)象都包含類別、位置、大小和屬性等特征。然后將該場(chǎng)景的文本描述與交織的多模態(tài)情境描述、指令和問題結(jié)合,進(jìn)一步由LLM或VLM處理。對(duì)于純文本模型(如LLMs),用對(duì)象類別替代對(duì)象的圖像作為模型輸入。此外,還引入了Claude-3.5-Sonnet以消除GPT家族內(nèi)的潛在偏差。
指令調(diào)優(yōu)
基于3D通用模型的最新進(jìn)展,對(duì)現(xiàn)有的3D視覺-語(yǔ)言基礎(chǔ)模型在MSQA和MSNN任務(wù)上進(jìn)行微調(diào)。選擇LEO作為代表模型,因其在3D視覺-語(yǔ)言理解和推理中的卓越表現(xiàn)。由于LEO不支持交織的多模態(tài)輸入,將輸入圖像替換為其對(duì)應(yīng)的對(duì)象類別,類似于零樣本模型。此外,還擴(kuò)展了LEO,以適應(yīng)交織的多模態(tài)輸入,形成了我們強(qiáng)大的基線模型MSR3D,專用于情境推理和導(dǎo)航。MSR3D通過(guò)根據(jù)代理的情境對(duì)點(diǎn)云輸入進(jìn)行平移和旋轉(zhuǎn)來(lái)建模情境。選擇MSR3D作為后續(xù)消融研究和分析的主要模型。更多關(guān)于MSR3D設(shè)計(jì)的細(xì)節(jié)詳見附錄C。
評(píng)估結(jié)果
本節(jié)提供了模型在MSQA和MSNN任務(wù)上的評(píng)估結(jié)果。報(bào)告了兩個(gè)任務(wù)測(cè)試集的平均正確性評(píng)分。此外,還考察了不同情境和問題輸入模態(tài)(Input)、3D場(chǎng)景表示(Scene)以及模型設(shè)置(Setting)。對(duì)于MSNN,將預(yù)訓(xùn)練數(shù)據(jù)(PT data)的選擇作為額外的變量來(lái)驗(yàn)證MSQA在具身任務(wù)中的實(shí)用性。
多模態(tài)情境問答 (MSQA)
下表2中展示了MSQA的實(shí)驗(yàn)結(jié)果,并報(bào)告以下發(fā)現(xiàn):
- 零樣本模型在情境空間推理方面表現(xiàn)不佳。零樣本模型擅長(zhǎng)回答常識(shí)性問題(如可操作性和房間類型等分類為“其他”的問題),這可能得益于LLMs在自然語(yǔ)言任務(wù)中的優(yōu)勢(shì)。由于對(duì)象屬性被列出,這些模型在屬性和描述方面的表現(xiàn)優(yōu)于微調(diào)模型。然而,它們?cè)谔幚砜臻g關(guān)系和導(dǎo)航問題時(shí)表現(xiàn)欠佳,凸顯出其在多模態(tài)情境推理中的局限性。
- 情境建模在情境空間推理中至關(guān)重要。像LEO這樣的3D視覺-語(yǔ)言模型在未在MSQA上微調(diào)的情況下表現(xiàn)不佳,反映出其作為通用基礎(chǔ)模型的局限性。我們的模型在不使用交織輸入的情況下在空間關(guān)系和導(dǎo)航任務(wù)上優(yōu)于LEO,這突顯了我們的情境建模方法的重要性。同時(shí),MSR3D在未使用3D場(chǎng)景輸入(即“盲模式”)微調(diào)時(shí)性能大幅下降,這表明情境意識(shí)和3D場(chǎng)景理解在MSQA任務(wù)中的重要性。
- 3D點(diǎn)云相較于文本描述更適合作為場(chǎng)景表示。本文進(jìn)行了一項(xiàng)僅使用文本描述的額外實(shí)驗(yàn),這些文本描述是通過(guò)基于情境場(chǎng)景圖的GPT-3.5提示生成的。用于生成文本描述的情境與MSQA中的QA對(duì)一致。上表2中的結(jié)果(“DES”行)顯示,在僅使用文本描述時(shí),特別是在對(duì)象屬性、空間關(guān)系和導(dǎo)航方面,性能顯著下降。進(jìn)一步探討了“DES”在計(jì)數(shù)任務(wù)上表現(xiàn)更佳的原因。下表3中顯示,對(duì)于GT < 3的情況,“DES”表現(xiàn)更好,但對(duì)于GT ≥ 3時(shí)表現(xiàn)較差。這是因?yàn)椤癉ES”在輸入中明確描述了目標(biāo)對(duì)象。然而,當(dāng)目標(biāo)對(duì)象數(shù)量超過(guò)一定閾值時(shí),由于上下文長(zhǎng)度的限制,部分目標(biāo)對(duì)象可能被截?cái)?。綜上所述,結(jié)果表明,相較于文本描述,3D點(diǎn)云在情境推理中是一種更為有效的表示方式。
情境組件對(duì)情境推理至關(guān)重要
為了揭示情境組件在微調(diào)(FT)模型中的有效性,我們添加了一個(gè)完全移除情境組件的FT基線,保留3D場(chǎng)景和問題作為輸入。前面表2(無(wú)情境)中的結(jié)果顯示,去除情境組件后性能顯著下降。特別是,導(dǎo)航相關(guān)問題的下降更為顯著,這與MSNN的評(píng)估結(jié)果相一致,突顯了情境組件的重要性。
交織多模態(tài)輸入為情境推理帶來(lái)了新挑戰(zhàn)
盡管交織多模態(tài)輸入具有優(yōu)勢(shì),觀察到MSR3D(T+I)的表現(xiàn)略遜于僅文本輸入(T)。為進(jìn)一步分析這一細(xì)微差異,我們從測(cè)試集中提取了兩個(gè)子集,使圖像僅出現(xiàn)在情境或問題中。下表4中報(bào)告了這兩個(gè)子集的評(píng)估結(jié)果,顯示“T+I”在圖像僅出現(xiàn)在問題中的子集上表現(xiàn)顯著下降。我們推測(cè),將圖像納入問題可能加大了情境推理的難度,因?yàn)閺膱D像中識(shí)別查詢對(duì)象需要額外的定位能力。
多模態(tài)情境下一步導(dǎo)航 (MSNN)
在下表5中展示了MSNN的實(shí)驗(yàn)結(jié)果,并報(bào)告以下發(fā)現(xiàn):
MSNN任務(wù)具有挑戰(zhàn)性
表5的結(jié)果顯示,最新的LLMs(如GPT-3.5和GPT-4o)和3D視覺語(yǔ)言模型在解決MSNN任務(wù)時(shí)都面臨顯著的挑戰(zhàn)。這表明了MSNN任務(wù)在3D情境推理和具身AI研究中的價(jià)值。
MSQA作為具身AI預(yù)訓(xùn)練源的有效性
我們發(fā)現(xiàn),將MSQA用于預(yù)訓(xùn)練(對(duì)LEO和MSR3D均有效)顯著提升了MSNN任務(wù)的表現(xiàn),說(shuō)明MSQA作為解決具身導(dǎo)航任務(wù)的預(yù)訓(xùn)練源的有效性。
MSR3D的情境建模方法有效
MSR3D(T),結(jié)合情境建模,在導(dǎo)航行為預(yù)測(cè)中顯示出顯著更高的準(zhǔn)確性(相比LEO(T)高出8.56%)。這驗(yàn)證了我們情境建模方法的有效性。此外,我們通過(guò)屏蔽代理的位置和方向來(lái)測(cè)試無(wú)情境的MSR3D,結(jié)果表現(xiàn)顯著下降(見表5的無(wú)情境結(jié)果),進(jìn)一步證明了情境信息的重要性,同時(shí)MSR3D能夠有效利用情境信息。
附加分析
擴(kuò)展效應(yīng)
通過(guò)在不同數(shù)據(jù)規(guī)模下訓(xùn)練MSR3D來(lái)探索MSQA的擴(kuò)展效應(yīng)。研究了擴(kuò)展的三個(gè)因素:QA(隨機(jī)下采樣QA對(duì))、情境(下采樣QA對(duì)和情境)以及場(chǎng)景(下采樣QA對(duì)和場(chǎng)景)。如圖7所示,隨著這三個(gè)因素的擴(kuò)展,模型性能呈現(xiàn)持續(xù)提升的趨勢(shì),顯示了顯著的擴(kuò)展效應(yīng),表明進(jìn)一步擴(kuò)展的潛力。
跨領(lǐng)域遷移本文將MSQA數(shù)據(jù)分為三個(gè)子集,分別為ScanNet、3RScan和ARKitScenes,并通過(guò)在每個(gè)子集上訓(xùn)練MSR3D并在所有子集上進(jìn)行評(píng)估來(lái)研究跨領(lǐng)域遷移。下表6的結(jié)果顯示,每個(gè)子集上最佳的表現(xiàn)是通過(guò)在同一領(lǐng)域內(nèi)訓(xùn)練(加粗的部分),而非跨領(lǐng)域遷移,展現(xiàn)了領(lǐng)域間的差距。在ARKitScenes上訓(xùn)練的模型在跨領(lǐng)域遷移中的表現(xiàn)較差??紤]到ARKitScenes中場(chǎng)景相對(duì)簡(jiǎn)單,這表明在復(fù)雜場(chǎng)景上的訓(xùn)練有助于提升跨領(lǐng)域泛化能力。
結(jié)論
本文提出了多模態(tài)情境問答(MSQA),這是一個(gè)大規(guī)模的多模態(tài)情境推理數(shù)據(jù)集,通過(guò)可擴(kuò)展的數(shù)據(jù)生成pipeline收集而成。MSQA包含251K個(gè)情境QA對(duì),涵蓋多種現(xiàn)實(shí)世界場(chǎng)景,所有數(shù)據(jù)以統(tǒng)一格式呈現(xiàn),包括交錯(cuò)的文本、圖像和點(diǎn)云。本文提出了基于MSQA的挑戰(zhàn)性基準(zhǔn),用于評(píng)估3D場(chǎng)景中的多模態(tài)情境推理。此外,還提出了多模態(tài)情境下一步導(dǎo)航(MSNN),這一任務(wù)旨在評(píng)估情境推理和具身導(dǎo)航的能力。我們的全面實(shí)驗(yàn)凸顯了我們數(shù)據(jù)集和基準(zhǔn)的重要價(jià)值。希望這項(xiàng)工作能推動(dòng)情境場(chǎng)景理解和具身智能的發(fā)展。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
