偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="lotxg"><option id="lotxg"></option></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

李飛飛：通過「空間智能」重構(gòu)世界

AIGC前沿技術(shù)追蹤

發(fā)布于 2025-1-16 12:38

瀏覽

0收藏

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

在人工智能的持續(xù)演進中，多模態(tài)大語言模型（MLLMs）已成為核心研究領(lǐng)域之一，其在整合語言和視覺信息方面的潛力備受關(guān)注。李飛飛、謝賽寧團隊的最新研究成果猶如一顆璀璨的新星，照亮了 MLLM 在空間智能領(lǐng)域的探索之路，引發(fā)了學(xué)界和業(yè)界的廣泛關(guān)注。本文將深入剖析該團隊的研究，詳細闡述 MLLM 在空間智能方面的突破與挑戰(zhàn)，一同探索 MLLMs 在視覺空間智能方面的進展與難題。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

1.引言視覺空間智能

在人類的日常生活中，視覺空間智能起著極為關(guān)鍵的作用。無論是在家中規(guī)劃家具擺放，還是在工作場所導(dǎo)航尋路，我們都在不斷運用這一能力。人類能夠憑借視覺感知和記憶，快速構(gòu)建空間布局，并據(jù)此做出準(zhǔn)確的判斷和決策。

對于人工智能而言，尤其是多模態(tài)大語言模型，視覺空間智能的發(fā)展卻面臨諸多挑戰(zhàn)。盡管語言模型在文本處理上取得了顯著成果，但在理解和處理視覺空間信息方面仍處于探索階段。這一能力的缺失限制了 MLLMs 在許多實際應(yīng)用中的表現(xiàn)，如機器人控制、自動駕駛和增強現(xiàn)實等領(lǐng)域。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

為了填補這一研究空白，本文引入了一個全新的基準(zhǔn)測試——VSI-Bench。它基于大量真實的室內(nèi)場景視頻，構(gòu)建了超過 5000 個問題-答案對，旨在全面評估 MLLMs 的視覺空間智能。這一基準(zhǔn)測試的出現(xiàn)，為 MLLMs 在該領(lǐng)域的研究提供了重要的工具和標(biāo)準(zhǔn)，開啟了深入探究的大門。

2.視覺空間智能內(nèi)涵、范疇與關(guān)鍵要素解析

定義與范圍的精準(zhǔn)界定

本文聚焦于視覺空間智能在現(xiàn)實世界環(huán)境中的應(yīng)用，區(qū)別于傳統(tǒng)的抽象空間認知測試。在實際場景中，如家庭、辦公室和工廠等，視覺空間智能表現(xiàn)為對空間關(guān)系的準(zhǔn)確感知和有效操作。例如，在家庭場景中，能夠判斷家具之間的合理間距；在辦公室里，能快速找到所需物品的位置；在工廠中，可規(guī)劃高效的物料運輸路徑。這種基于現(xiàn)實場景的定義，使得研究更具實際意義和應(yīng)用價值。比如你要去宜家買家具，當(dāng)你看到一個心儀的衣柜時你會在腦海里想一下你的臥室，放到哪里更合適，這時候我們會在腦海里重構(gòu)一下自己的臥室空間，回憶一下房間里的物體、他們的位置以及大概的大小，判斷下新買的衣柜應(yīng)該放到哪里。

能力分類的深度剖析

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

視覺空間智能涵蓋多個關(guān)鍵能力領(lǐng)域（見圖 2）。視覺感知是基礎(chǔ)，要求模型能夠從視頻中準(zhǔn)確識別各類物體，這涉及到對物體形狀、顏色、紋理等特征的提取和識別。例如，在復(fù)雜的室內(nèi)視頻中，模型需分辨出桌椅、電器等不同物體。

語言智能則負責(zé)理解與空間相關(guān)的語言描述，并將其與視覺信息相結(jié)合。當(dāng)遇到“房間里有幾張椅子”這樣的問題時，模型要理解問題含義，并在視頻中找到對應(yīng)的答案。

時間處理能力使模型能夠追蹤物體在視頻中的時間動態(tài)變化，構(gòu)建其運動軌跡。比如在監(jiān)控視頻中，模型可記錄人員或物體的移動路徑。

空間推理能力是核心，包括關(guān)系推理和自我中心-客體中心轉(zhuǎn)換。關(guān)系推理要求模型依據(jù)距離和方向判斷物體間的空間關(guān)系，如確定書架與窗戶的相對位置。自我中心-客體中心轉(zhuǎn)換則是在以自身視角和以環(huán)境為中心的視角之間切換，這類似于人類在空間中定位自己和周圍物體的過程。

3.VSI-Bench創(chuàng)新基準(zhǔn)測試的構(gòu)建與解析

概述：架構(gòu)與任務(wù)體系

VSI-Bench 由 288 個真實視頻生成的 5000 多個問題-答案對組成，數(shù)據(jù)來源于 ScanNet、ScanNet++ 和 ARKitScenes 等權(quán)威數(shù)據(jù)集，涵蓋多種環(huán)境和地理區(qū)域。其任務(wù)分為配置、測量估計和時空三大類共八個任務(wù)（見圖 3）。

配置任務(wù)中的物體計數(shù)，考驗?zāi)Ｐ蛯σ曨l中特定物體數(shù)量的準(zhǔn)確統(tǒng)計能力；相對距離任務(wù)要求模型判斷物體間的遠近關(guān)系；相對方向任務(wù)促使模型確定物體的方位；路線規(guī)劃任務(wù)模擬機器人導(dǎo)航，需要模型規(guī)劃出從起點到終點的合理路徑。

測量估計任務(wù)中，物體大小估計要求模型根據(jù)視頻判斷物體的尺寸；房間大小估計需模型估算出整個房間的面積；絕對距離估計則是精確計算兩個物體之間的實際距離。

時空任務(wù)的外觀順序，要求模型記住物體在視頻中首次出現(xiàn)的先后順序，測試其對空間信息的記憶能力。

基準(zhǔn)測試

數(shù)據(jù)收集與統(tǒng)一的精細操作：從不同數(shù)據(jù)集中選取樣本后，對視頻進行標(biāo)準(zhǔn)化處理。ScanNet 視頻轉(zhuǎn)換為 24 FPS，ScanNet++和 ARKitScenes 視頻子采樣到 30 FPS，并統(tǒng)一分辨率為 640 × 480 像素。同時，對不同數(shù)據(jù)集的注釋結(jié)構(gòu)進行統(tǒng)一，提取包含數(shù)據(jù)集、視頻路徑、房間大小等關(guān)鍵信息的元信息，并精心篩選和重映射物體類別，確保數(shù)據(jù)的一致性和有效性。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

問題-答案生成的科學(xué)方法：除路線規(guī)劃任務(wù)采用人工標(biāo)注外，其他任務(wù)利用元信息和問題模板自動生成問題-答案對。例如物體計數(shù)的問題模板為“ How many {object} are in this room? ”，通過替換 {object} 生成具體問題。在數(shù)值答案任務(wù)中，合理生成選擇題選項，并對每個場景和任務(wù)的問題數(shù)量進行子采樣，保證數(shù)據(jù)集的平衡性。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

人工循環(huán)質(zhì)量審查的嚴(yán)格把控：在數(shù)據(jù)集收集和問題-答案對生成階段，均實施人工審查。收集時過濾掉 3D 網(wǎng)格重建不完全的場景，生成后手動驗證元信息正確性，尤其關(guān)注物體數(shù)量。在問題-答案對審查中，人工評估人員標(biāo)記錯誤或模糊的問題，研究團隊據(jù)此追溯錯誤源并采取糾正措施，如刪除問題樣本、修改元信息或問題模板等，經(jīng)過多次迭代確?；鶞?zhǔn)測試質(zhì)量。

4. VSI-Bench 上的評估模型性能的全面審視

評估設(shè)置

基準(zhǔn)模型的廣泛涵蓋：全面評估了 15 個涵蓋不同家族、參數(shù)規(guī)模和訓(xùn)練方法的視頻支持 MLLMs，包括專有模型如 Gemini1.5 和 GPT-4o，以及開源模型如 InternVL2、ViLA 等，確保評估的全面性和代表性。

指標(biāo)設(shè)計的合理考量：根據(jù)答案類型采用不同評估指標(biāo)。選擇題答案（MCA）任務(wù)使用準(zhǔn)確率（ACC），基于精確匹配（可含模糊匹配）計算；數(shù)值答案（NA）任務(wù)采用平均相對準(zhǔn)確率（MRA），通過考慮相對誤差率來衡量模型預(yù)測的準(zhǔn)確性，以適應(yīng)不同類型問題的評估需求。

基線設(shè)置的有效參照：設(shè)置Chance Level (Random) 作為 MCA 任務(wù)隨機選擇答案的準(zhǔn)確率基線，Chance Level (Frequency) 為選擇每個任務(wù)最頻繁答案的準(zhǔn)確率基線，為模型性能評估提供清晰的參照標(biāo)準(zhǔn)。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

結(jié)果分析

人類水平與模型的對比洞察：人類評估者在基準(zhǔn)測試中平均準(zhǔn)確率達 79%，在配置和時空任務(wù)上表現(xiàn)卓越，準(zhǔn)確率在 94% - 100%之間，體現(xiàn)了人類在視覺空間智能方面的優(yōu)勢。在測量任務(wù)中，人類與最佳 MLLM 的差距相對較小，表明 MLLMs 在定量估計方面有一定潛力，但仍需提升。

專有與開源模型的差異解讀：專有模型 Gemini1.5 Pro 表現(xiàn)突出，雖與人類有差距，但遠超基線水平，在絕對距離和房間大小估計等任務(wù)中接近人類表現(xiàn)，得益于其強大的研發(fā)資源和架構(gòu)。開源模型中，部分頂級模型如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 有競爭力，僅落后 Gemini1.5 Pro 4%-5%，但多數(shù)開源模型（7/12）低于基線水平，反映出開源模型在視覺空間智能方面的局限性。

視覺信息影響的顯著發(fā)現(xiàn)：對比視覺啟用、禁用和基線水平結(jié)果發(fā)現(xiàn)，視頻對任務(wù)至關(guān)重要，視覺啟用模型性能優(yōu)于禁用模型，而禁用模型低于基線水平。在絕對距離估計、路線規(guī)劃和相對方向等任務(wù)中，MLLMs 即使有視覺信息也難以超越基線，凸顯這些任務(wù)的難度。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

5.MLLMs 的語言空間推理機制探究與瓶頸剖析

通過自我解釋揭示推理過程

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

案例研究的深刻啟示：以 Gemini1.5 Pro 為例，在成功案例中，模型展示出較強的視頻理解和語言推理能力，能準(zhǔn)確描述視頻信息并構(gòu)建合理推理步驟，如在相對方向任務(wù)中正確判斷物體方位。但在錯誤案例中，常出現(xiàn)自我中心 - 客體中心轉(zhuǎn)換和關(guān)系推理錯誤，表明模型在復(fù)雜空間推理上存在不足。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

錯誤類型的詳細分析：對 Gemini1.5 Pro 在 VSI - Bench（tiny）上的錯誤分類分析發(fā)現(xiàn)，約 71%的錯誤源于空間推理能力缺陷，其他包括視覺感知、語言智能和自我中心-客體中心轉(zhuǎn)換錯誤，但空間推理錯誤占主導(dǎo)，成為 MLLM 性能提升的關(guān)鍵瓶頸。

CoT 方法

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

研究三種語言提示技術(shù)【零樣本思維鏈（CoT）、自一致性 CoT 和思維樹（ToT）】發(fā)現(xiàn)，它們在 VSI-Bench 上平均導(dǎo)致性能下降。雖在部分任務(wù)有輕微提升，但在房間大小和物體大小等任務(wù)中大幅下降，說明在視覺空間推理任務(wù)中，單純依靠語言提示技術(shù)提升模型性能不可行，與傳統(tǒng)語言推理任務(wù)有顯著差異。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

6.創(chuàng)新方法與效果評估MLLMs 的視覺空間記憶與認知地圖

通過認知地圖探索空間記憶

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

認知地圖生成的獨特方式：提示 Gemini1.5 Pro 根據(jù)視頻在 10×10 網(wǎng)格中預(yù)測物體中心位置生成認知地圖（見圖 10），模擬人類構(gòu)建空間認知的過程，以探究模型如何在內(nèi)部表示空間信息。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

局部空間意識的精準(zhǔn)評估：通過計算認知地圖中物體間歐幾里得距離并與真實地圖比較，發(fā)現(xiàn) MLLMs 定位相鄰物體準(zhǔn)確率達 64%，表明有一定局部空間意識。但隨著物體距離增加準(zhǔn)確率下降，說明模型構(gòu)建全局空間模型困難，多形成局部世界模型（見圖 11）。

利用認知地圖提升距離推理能力的效果

實驗表明，讓 Gemini1.5 Pro 先生成認知地圖再回答相對距離問題，準(zhǔn)確率提高 10%（見表 3）。這顯示認知地圖能輔助模型進行更準(zhǔn)確的距離推理，為提升 MLLMs 視覺空間智能提供了新途徑。

李飛飛：通過「空間智能」重構(gòu)世界-AI.x社區(qū)

7.相關(guān)工作

具有視覺空間意識的 MLLMs

近年來，MLLMs 借助 LLMs 的語言和推理能力及視覺編碼器的特征提取能力，在視覺理解上取得進展。但在應(yīng)用于現(xiàn)實世界視覺空間任務(wù)時仍面臨諸多挑戰(zhàn)，如準(zhǔn)確感知和理解空間信息。本文與以往關(guān)注 2D 圖像或純語言的研究不同，采用真實視頻評估模型，更貼合實際應(yīng)用場景。

MLLMs 在視頻上的基準(zhǔn)測試

隨著 MLLMs 在靜態(tài)圖像任務(wù)的出色表現(xiàn)，其視頻理解能力評估受關(guān)注。已有 Video-MME、EgoSchema 和 OpenEQA 等基準(zhǔn)測試，但多側(cè)重內(nèi)容級理解，缺乏 3D 空間考慮。本文的 VSI-Bench 填補了這一空白，為研究 MLLMs 視覺空間能力提供了重要工具。

8.討論與未來工作

通過 VSI-Bench 對 MLLMs 的研究發(fā)現(xiàn)，其在視覺空間智能方面有優(yōu)勢也有瓶頸。雖在感知、時間處理和語言能力上有表現(xiàn)，但空間推理能力尤其是自我中心-客體中心轉(zhuǎn)換和關(guān)系推理能力亟待提高。

當(dāng)前語言提示方法對空間推理效果不佳，但認知地圖為提升空間距離推理能力帶來希望。未來可從特定任務(wù)微調(diào)、開發(fā)空間推理自監(jiān)督學(xué)習(xí)目標(biāo)和設(shè)計視覺空間提示技術(shù)等方向努力，推動 MLLMs 在視覺空間領(lǐng)域取得更大突破，為人工智能發(fā)展注入新動力。

論文地址：??https://arxiv.org/pdf/2412.14171??

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

代碼地址：

??https://github.com/vision-x-nyu/thinking-in-space??

原文鏈接：

??https://www.yuque.com/u21774036/qnmlr1/ecqfh7gtbquvvwk5?#《李飛飛：通過「空間智能」重構(gòu)世界》??

本文轉(zhuǎn)載自??AIGC前沿技術(shù)追蹤??，作者：愛讀論文的吳彥祖 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

AI如何改變世界？智能化決策與預(yù)測讓企業(yè)輕松贏利！

jim3000 ? 2641瀏覽 ? 0回復(fù)
人工智能AI和數(shù)字化世界走向何方

數(shù)字化助推器 ? 2893瀏覽 ? 0回復(fù)
李飛飛、Yann LeCun vs Hinton、Ilya Sutskever

Syrupup ? 3970瀏覽 ? 0回復(fù)
李飛飛刊文：大模型技術(shù)無法?通向AGI

Syrupup ? 3296瀏覽 ? 0回復(fù)
力壓Transformer，詳解Mamba和狀態(tài)空間模型

小虎哦哦 ? 4010瀏覽 ? 0回復(fù)
AI教母李飛飛：用溫暖的人性之光，照亮AI的未來之路

InfonityAI智推星 ? 3039瀏覽 ? 0回復(fù)
人類如何通過機器智能增強認知過程和行為

51CTO內(nèi)容精選 ? 2338瀏覽 ? 0回復(fù)
回顧這波AI潮的起源：辛頓、黃仁勛、李飛飛的歷史交匯

51CTO技術(shù)棧 ? 2649瀏覽 ? 0回復(fù)
基于Agent的金融問答系統(tǒng)：代碼重構(gòu)

一起AI技術(shù) ? 2558瀏覽 ? 0回復(fù)
李飛飛的“空間魔術(shù)”：一張圖生成可探索的3D世界

云原生AI百寶箱 ? 4049瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的空間智能探秘：突破與挑戰(zhàn)

十一月雨_55 ? 2661瀏覽 ? 0回復(fù)
華為諾亞方舟實驗室突破具身AI瓶頸， SpatialCoT通過坐標(biāo)對齊和思路鏈推進空間推理

xuxiangda ? 3741瀏覽 ? 0回復(fù)
李飛飛團隊超低成本復(fù)刻DeepSeek R1推理！16張H100只訓(xùn)練了26分鐘，與R1訓(xùn)練方法不同！

51CTO技術(shù)棧 ? 2791瀏覽 ? 0回復(fù)
李飛飛+50美元+蒸餾 S1=? DeepSeekR1

CourseAI ? 2473瀏覽 ? 0回復(fù)
人工智能小白到高手：RAG通過重排（Reranking）提升信息檢索的質(zhì)量

AI取經(jīng)路 ? 2016瀏覽 ? 0回復(fù)
云算力：AIGC 時代的 “數(shù)字能源”—— 重構(gòu)智能經(jīng)濟的基礎(chǔ)設(shè)施革命

AI算力補給站 ? 1489瀏覽 ? 0回復(fù)
李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore：曝出世界生成三大致命傷

angel ? 2091瀏覽 ? 0回復(fù)
AI智能代理：2025年改變世界的七大行業(yè)應(yīng)用

Halo咯咯 ? 2302瀏覽 ? 0回復(fù)
智能時代算力崛起：從需求井噴到生態(tài)重構(gòu)

AI算力補給站 ? 995瀏覽 ? 0回復(fù)

AIGC前沿技術(shù)追蹤

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

阿里 DAIL-SQL：大型語言模型支持的文本到 SQL：基準(zhǔn)評估 2025-05-23 06:49:56發(fā)布
Xiaomi MiMo：為“推理而生” 2025-05-09 06:13:52發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：復(fù)旦大學(xué) METASQL：NL2SQL終于有候選排序了

下一篇： Text2SQL 已過時？TAG 如何一統(tǒng) AI 與數(shù)據(jù)庫江湖！

社區(qū)精華內(nèi)容

目錄