偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大步邁向VLA!港中文GPT4Scene:從視頻中理解3D場(chǎng)景~

人工智能 新聞
今天為大家分享港中文&上海人工實(shí)驗(yàn)室的最新工作—GPT4Scene!利用視覺語(yǔ)言模型從視頻中理解3D場(chǎng)景!

寫在前面&筆者的個(gè)人理解

具身人工智能是指能夠通過(guò)與物理環(huán)境交互來(lái)執(zhí)行各種任務(wù)的智能系統(tǒng)。它在工業(yè)檢測(cè)、智能家居和智能城市中有著廣泛的應(yīng)用和發(fā)展前景。3D 場(chǎng)景理解涉及多模態(tài)語(yǔ)言模型理解室內(nèi)環(huán)境整體布局和物體之間空間關(guān)系的能力。因此,具身智能的堅(jiān)實(shí)基礎(chǔ)在于能否有效地理解場(chǎng)景內(nèi)容。

目前,基于3D點(diǎn)云大語(yǔ)言模型是一種流行的理解室內(nèi)場(chǎng)景的方法,使用點(diǎn)云數(shù)據(jù)作為輸入,并將點(diǎn)云數(shù)據(jù)特征與LLM對(duì)齊以執(zhí)行場(chǎng)景理解任務(wù)。然而,這種方法有以下幾個(gè)方面的局限性。

  • 點(diǎn)云提供的詳細(xì)信息有限,例如精細(xì)的幾何細(xì)節(jié)、材料特性和復(fù)雜的紋理
  • 盡管一些點(diǎn)云大語(yǔ)言模型嘗試使用點(diǎn)云和多幅圖像作為輸入,但它們?cè)趯?duì)齊文本、圖像和點(diǎn)云模態(tài)方面面臨挑戰(zhàn)
  • 點(diǎn)云數(shù)據(jù)與文本/視頻數(shù)據(jù)的數(shù)據(jù)量明顯不平衡,這也帶來(lái)了進(jìn)一步的復(fù)雜性

這些限制促使我們探索使用純視覺輸入的室內(nèi)場(chǎng)景理解。這種方法更符合人類的感知模式,因?yàn)槿藗兛梢栽诓灰蕾圏c(diǎn)云等顯式 3D 數(shù)據(jù)信息的情況下理解 3D 場(chǎng)景。視覺語(yǔ)言模型 (VLM) 在圖像文本多模態(tài)任務(wù)中表現(xiàn)出色。然而,它們?cè)诶斫獬两?3D 室內(nèi)場(chǎng)景中的應(yīng)用尚未得到很好的探索和開發(fā)。我們進(jìn)行了一項(xiàng)初步研究,通過(guò)將場(chǎng)景視頻直接輸入到VLM模型中來(lái)調(diào)查這種潛力。我們的實(shí)驗(yàn)結(jié)果表明,這種方法導(dǎo)致VLM無(wú)法理解 3D 場(chǎng)景。我們認(rèn)為其核心問題在于缺乏全局場(chǎng)景信息,以及每幀的局部位置與整體背景的不一致。

針對(duì)上述提到的相關(guān)問題,我們提出了一個(gè)名為GPT4Scene 的框架來(lái)幫助 VLM 建立空間關(guān)系,其整體結(jié)構(gòu)如下圖所示。

圖片

此外,我們也構(gòu)建了一個(gè)由 165K 文本標(biāo)注組成的處理后的視頻數(shù)據(jù)集來(lái)微調(diào)開源的VLM模型,相關(guān)的實(shí)驗(yàn)結(jié)果表明,在所有 3D 理解任務(wù)上均實(shí)現(xiàn)了SOTA的性能。在使用 GPT4Scene 范式進(jìn)行訓(xùn)練后,即使沒有視覺prompt和 BEV 圖像作為顯式對(duì)應(yīng),VLM在推理過(guò)程中也可以不斷改進(jìn)。相關(guān)結(jié)果表明所提出的范式有助于 VLM 開發(fā)理解 3D 場(chǎng)景的內(nèi)在能力。

論文鏈接:https://arxiv.org/abs/2501.01428

網(wǎng)絡(luò)模型結(jié)構(gòu)&細(xì)節(jié)梳理

在詳細(xì)介紹本文提出的算法模型網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)之前,下圖展示了GPT4Scene算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)圖,如下圖所示。

圖片

GPT4Scene Framework

首先,我們假設(shè)捕獲的視頻是在室內(nèi)場(chǎng)景中移動(dòng)時(shí)拍攝的。整個(gè)視頻由幀圖像組成。使用 VLM 處理圖像序列面臨著圖像容量有限、上下文消耗快和推理成本高等挑戰(zhàn)。因此,我們均勻采樣幀圖像。其中,代表采樣的幀。我們把這種采樣后的視頻記作如下的表示形式:

圖片

這種預(yù)選擇大大減少了 VLM 在訓(xùn)練和推理過(guò)程中的時(shí)間和成本,同時(shí)又不會(huì)丟失重要的室內(nèi)場(chǎng)景信息。

以自身為中心的視頻僅僅捕獲了局部信息,缺少更廣泛的場(chǎng)景背景。為了解決這個(gè)問題,我們將整個(gè)場(chǎng)景重建為點(diǎn)云形式,并將全景圖像渲染為鳥瞰圖,為 VLM 提供完整的場(chǎng)景概覽。具體來(lái)說(shuō),從室內(nèi)場(chǎng)景視頻和相應(yīng)的相機(jī)外參開始,我們使用3D重建技術(shù)來(lái)生成3D網(wǎng)格和點(diǎn)云數(shù)據(jù),其過(guò)程可以用下式的公式進(jìn)行表示:

圖片

在公式中,表示重建過(guò)程,我們假設(shè)相機(jī)內(nèi)參是已知的。然后,我們從全局點(diǎn)云生成場(chǎng)景的 BEV 圖像,其過(guò)程可以用下式進(jìn)行表示:

圖片

其中,代表自上而下視角相機(jī)的外參,代表基于相機(jī)外參相應(yīng)視角的渲染過(guò)程,從而生成BEV場(chǎng)景的圖片。值得注意的是,我們繼續(xù)以圖像的形式向 VLM 提供全局 3D 信息。

為了幫助 VLM 聚焦于特定目標(biāo),我們引入了 Spatial-Temporal Object Markers,確保 2D 幀和 3D BEV 圖像之間的一致性。為了獲取從輸入視頻重建3D點(diǎn)云,我們應(yīng)用Mask3D等3D實(shí)例分割方法來(lái)生成實(shí)例Mask。

對(duì)于 BEV 圖像,我們首先將 3D Mask投影到xy平面上,然后提取投影形成的邊界框的中心坐標(biāo),然后將其顯示在BEV 圖像上。對(duì)于以自身為中心的 2D markers,我們首先將投影到視頻幀上,然后使用 2D Mask形成的邊界框的中心作為 2D標(biāo)記。帶有標(biāo)記的 2D 幀和 BEV 圖像可以用如下的公式進(jìn)行表示:

圖片

Unlocking VLMs with Zero-shot Prompts

我們?cè)诹銟颖驹O(shè)置中評(píng)估 VLM,最初重點(diǎn)關(guān)注強(qiáng)大的閉源 VLM(例如 GPT-4o),以評(píng)估 GPT4Scene 框架是否能夠有效地實(shí)現(xiàn) 3D 場(chǎng)景理解。這個(gè)過(guò)程被稱為“unlock”,它使 VLM 能夠通過(guò)提示理解 3D 場(chǎng)景,而無(wú)需額外的訓(xùn)練。具體而言,我們輸入和。為了減少開銷,我們將中的圖像拼接起來(lái)形成一張大的圖像。我們?cè)u(píng)估了三項(xiàng)任務(wù):3D 問答、密集字幕和視覺grounding。

在 3D 問答中,目標(biāo)是回答與場(chǎng)景相關(guān)的問題,例如“地板的顏色是什么?”在密集字幕中,任務(wù)是描述特定目標(biāo),例如“描述 C5 所代表的目標(biāo)?!痹谝曈Xgrounding中,目標(biāo)是從描述中識(shí)別目標(biāo)ID,例如“窗戶旁邊的黑色椅子的 ID 是什么?”雖然問答與目標(biāo)標(biāo)簽無(wú)關(guān),但密集字幕和視覺grounding需要目標(biāo)標(biāo)記。這些任務(wù)涉及檢測(cè)目標(biāo)并根據(jù)其邊界框的 IoU 進(jìn)行過(guò)濾。與 Chat-Scene和 Robin3D一致,我們使用 Mask3D 分割結(jié)果作為預(yù)測(cè)邊界框來(lái)計(jì)算 IoU。

除了傳統(tǒng)任務(wù)外,我們還在這種零樣本設(shè)置中進(jìn)行了進(jìn)一步的實(shí)驗(yàn)。相關(guān)的實(shí)驗(yàn)結(jié)果如下圖所示。

圖片

通過(guò)輸入和,VLM 可以理解室內(nèi)場(chǎng)景的全局特征。此時(shí),GPT-4o 仍然可以接受額外的第一人稱視角幀,使其能夠理解場(chǎng)景中的當(dāng)前位置以規(guī)劃下一步動(dòng)作。此外,使用 GPT-4o 作為agent,VLM 可以根據(jù)給定的問題確定任務(wù)類型并選擇合適的prompt。因此,GPT4Scene 框架作為下一代具身智能的核心技術(shù)展現(xiàn)出巨大的潛力。

Enhancing VLMs with ScanAlign Fine-Tuning

零樣本prompt可以解鎖強(qiáng)大的 VLM 的 3D 理解能力,但如下圖所示,這種方法并不能改善較小的VLM的能力。因此,我們的目標(biāo)是通過(guò)微調(diào)來(lái)增強(qiáng)開源、較小的 VLM。我們首先基于 ScanNet 構(gòu)建一個(gè)室內(nèi)場(chǎng)景數(shù)據(jù)集 ScanAlign,其中包含以自我為中心、BEV 圖像和文本標(biāo)注。

圖片

該數(shù)據(jù)集包括三個(gè) 3D 視覺相關(guān)任務(wù),視覺輸入包括帶有 STO 標(biāo)記的選定視頻幀和 BEV 圖像,表示從五個(gè)ScanNet標(biāo)注中得出的文本標(biāo)注,相關(guān)信息如下表所示。

圖片

我們使用提示隨機(jī)改變標(biāo)注格式以增加標(biāo)注多樣性。該數(shù)據(jù)集總共包含約 165K 條標(biāo)注。由于我們的方法不需要額外的模態(tài)對(duì)齊步驟,我們可以直接在 ScanAlign 數(shù)據(jù)集上執(zhí)行單階段指令微調(diào),以增強(qiáng)模型的 3D 空間理解能力。在訓(xùn)練階段,訓(xùn)練損失是語(yǔ)言模型的交叉熵?fù)p失。我們的目標(biāo)是通過(guò)最小化目標(biāo)答案的負(fù)似然對(duì)數(shù)來(lái)優(yōu)化可學(xué)習(xí)參數(shù)。我們統(tǒng)一了系統(tǒng)消息和用戶的問題。因此,損失函數(shù)可以表示成如下的公式形式:

圖片

使用 ScanAlign 進(jìn)行微調(diào)后,在推理過(guò)程中,我們可以輸入,其中代表問題?;蛘撸覀兛梢圆皇褂?3D BEV 圖像,而只使用進(jìn)行推理。

對(duì)于 3D 問答任務(wù),我們甚至可以刪除所有目標(biāo)標(biāo)記,僅使用原始視頻幀進(jìn)行推理,而無(wú)需任何額外處理。對(duì)于 3D 問答任務(wù),我們甚至可以刪除所有目標(biāo)標(biāo)記,使用進(jìn)行推理,僅使用原始視頻作為輸入。我們的實(shí)驗(yàn)表明,經(jīng)過(guò) ScanAlign 微調(diào)后,小規(guī)模 VLM 的 3D 場(chǎng)景理解能力得到顯著增強(qiáng)。

實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)

各任務(wù)實(shí)驗(yàn)結(jié)果匯總

3D問答任務(wù)的實(shí)驗(yàn)結(jié)果匯總在下表當(dāng)中。

圖片

我們將這些方法分為三類:專注于3D問答任務(wù)的經(jīng)典任務(wù)特定模型、基于 3D點(diǎn)云LLM 的模型和基于視覺 LLM 的模型。GPT-4o(GPT4Scene)在零樣本模式下的表現(xiàn)優(yōu)于所有任務(wù)特定模型,凸顯了 GPT4Scene 作為prompt的有效性。相比之下,開源 VLM 在零樣本模式下表現(xiàn)不佳,沒有使用 GPT4Scene 進(jìn)行微調(diào),這與我們的實(shí)驗(yàn)研究結(jié)果一致。使用GPT4Scene提出的策略,我們對(duì)Qwen2-VL-7B進(jìn)行了微調(diào),取得了優(yōu)異的問答結(jié)果。

值得注意的是,Qwen2-VL-7B(GPT4Scene)的表現(xiàn)優(yōu)于所有其他方法,達(dá)到了最先進(jìn)的性能。此外,與原始Qwen2-VL 7B相比,ScanQA中的BLEU-1提高了56.1%(27.8→43.4),CIDEr提高了68.6%(53.9→90.9)。在SQA3D中,EM-1得分上升41.0%(40.7→57.4)。相對(duì)于零樣本模式下的GPT-4o,這些指標(biāo)分別提高了21.9%、23.7%和34.1%。我們的方法極大地提高了模型對(duì)3D室內(nèi)場(chǎng)景的理解。

此外,為了更加直觀的展示我們提出的算法模型的有效性。我們?cè)趫D 4 中展示了在 GPT-4o 上以零樣本設(shè)置進(jìn)行的定性結(jié)果。拼接的幀提供了場(chǎng)景的概覽,而單獨(dú)的幀則捕捉了細(xì)節(jié)和動(dòng)作。除了目標(biāo)字幕、空間描述和計(jì)數(shù)等標(biāo)準(zhǔn)任務(wù)之外,GPT4Scene 還可以處理具體任務(wù),例如指導(dǎo)用戶從附近的書架上取回紙張。在最后一行中,粉紅色突出顯示的片段表示 BEV 圖像作為輸入,增強(qiáng)了導(dǎo)航功能。GPT4Scene 還擅長(zhǎng)導(dǎo)航和巡邏任務(wù),通過(guò)觀察機(jī)器指示器執(zhí)行工業(yè)檢查。

我們還評(píng)估了模型在密集字幕和視覺grounding方面的表現(xiàn),這與問答不同,因?yàn)樗鼈冃枰獦?biāo)記來(lái)完成這些任務(wù)。實(shí)驗(yàn)結(jié)果如下表統(tǒng)計(jì)所示。

圖片圖片

通過(guò)相關(guān)的實(shí)驗(yàn)結(jié)果可以看出,Qwen2-VL-7B 經(jīng)過(guò) GPT4Scene 微調(diào),顯著提高了 VLM 的 3D 字幕和基礎(chǔ)能力。此外,在高分辨率和更大幀設(shè)置 (HD) 下,我們的模型實(shí)現(xiàn)了SOTA的性能,超越了所有現(xiàn)有的方法。

消融實(shí)驗(yàn)結(jié)果

圖 2 表明BEV 圖像和 STO 標(biāo)記增強(qiáng)了空間理解。我們使用 3D 問答 (QA) 任務(wù)來(lái)進(jìn)一步驗(yàn)證這一點(diǎn),因?yàn)闆]有 STO標(biāo)記或 BEV 圖像的純視頻輸入就足夠了。同時(shí),標(biāo)記對(duì)于 3D 密集字幕和視覺grounding在評(píng)估過(guò)程中參考目標(biāo)至關(guān)重要。如下表所示,在訓(xùn)練和推理過(guò)程中刪除 BEV 圖像會(huì)降低這兩項(xiàng)任務(wù)的性能。進(jìn)一步刪除 STO 標(biāo)記會(huì)導(dǎo)致 QA 性能進(jìn)一步下降,凸顯了 BEV 圖像和 STO 標(biāo)記在幫助 VLM 理解 3D 場(chǎng)景方面的關(guān)鍵作用。

同時(shí),我們也以 3D 問答和視覺grounding為基準(zhǔn),對(duì)附加因素進(jìn)行了消融實(shí)驗(yàn)。結(jié)果如下表所示。前三行的實(shí)驗(yàn)結(jié)果顯示,圖像分辨率顯著影響視覺grounding性能,但對(duì) QA 任務(wù)的改進(jìn)有限。此外,實(shí)驗(yàn)結(jié)果的最后三行表明,增加幀數(shù)可以增強(qiáng)室內(nèi)場(chǎng)景理解,與 QA 中的有限改進(jìn)相比,對(duì)grounding性能的影響更為明顯。

圖片

結(jié)論

在本文中,我們引入了 GPT4Scene,這是一個(gè)增強(qiáng)視覺語(yǔ)言模型 (VLM) 的框架,可直接從純視覺輸入理解 3D 場(chǎng)景。我們的實(shí)驗(yàn)研究表明,全局場(chǎng)景信息以及視頻幀與全局文本中目標(biāo)之間的對(duì)應(yīng)關(guān)系對(duì)于提高 VLM 的 3D 理解至關(guān)重要。我們建議從輸入視頻重建 3D 點(diǎn)云,以生成用于全局信息的 BEV(鳥瞰圖)圖像。

我們通過(guò)在視頻幀和 BEV 圖像中添加時(shí)空對(duì)象標(biāo)記來(lái)建立全局和本地?cái)?shù)據(jù)對(duì)應(yīng)關(guān)系。GPT4Scene 使用零樣本推理與 GPT-4o等閉源 VLM 配合使用,實(shí)現(xiàn)了出色的性能。對(duì)于較小的 VLM,例如 Qwen2-VL,我們創(chuàng)建了 ScanAlign 數(shù)據(jù)集,其中包括視頻幀、BEV 圖像、STO markers和 165K 文本標(biāo)注。經(jīng)過(guò)微調(diào)后,VLM 在場(chǎng)景理解方面顯示出顯著的改進(jìn),在問答任務(wù)中達(dá)到了最先進(jìn)的性能。此外,經(jīng)過(guò)微調(diào)的 VLM 可以在僅使用原始視頻幀的問答任務(wù)上表現(xiàn)良好,表明提出的GPT4Scene可以使 VLM 能夠有效地理解 3D 場(chǎng)景。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-09-30 09:35:55

圖像生成AI

2023-09-25 14:53:55

3D檢測(cè)

2021-03-08 15:40:46

開源技術(shù) 軟件

2025-02-13 08:26:26

2024-12-10 15:17:11

2011-08-26 14:50:23

2011-05-26 10:55:39

2024-12-24 09:56:51

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2024-11-26 07:40:44

3D游戲場(chǎng)景

2011-06-27 15:57:21

Qt 3D OpenGL

2025-06-27 09:10:17

2024-01-29 06:50:00

3D模型

2015-04-27 15:35:42

Cocos3D場(chǎng)景編輯器

2025-01-07 13:19:48

模型AI訓(xùn)練

2024-09-27 09:51:06

2023-12-15 18:53:48

GPT-4.53D信息

2025-01-07 09:11:07

2024-07-31 15:30:05

2024-09-30 09:52:39

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)