偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

清華ICCV25丨密室逃脫成AI新考場(chǎng),通關(guān)率不足50%,暴露空間推理短板

人工智能 新聞
模型在面對(duì)復(fù)雜的、多步驟的視覺推理任務(wù)時(shí),能否像人類一樣推理和決策?

近年來,多模態(tài)大模型(MLLMs)發(fā)展迅猛,從看圖說話到視頻理解,似乎無所不能。

但你是否想過:它們真的“看懂”并“想通”了嗎?

模型在面對(duì)復(fù)雜的、多步驟的視覺推理任務(wù)時(shí),能否像人類一樣推理和決策?

為評(píng)估多模態(tài)大模型在視覺環(huán)境中,完成復(fù)雜任務(wù)推理的能力。清華大學(xué)團(tuán)隊(duì)受密室逃脫游戲啟發(fā),提出EscapeCraft:一個(gè)3D密室逃脫環(huán)境,讓大模型在3D密室中通過自由探索尋找道具,解鎖出口。

該論文目前已入選ICCV 2025。

圖片

EscapeCraft 環(huán)境

沉浸式互動(dòng)環(huán)境,靈感源自密室逃脫

研究團(tuán)隊(duì)打造了可自動(dòng)生成、靈活配置的 3D 場(chǎng)景 EscapeCraft,模型在里面自由行動(dòng):找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態(tài)信息。

任務(wù)可擴(kuò)展,應(yīng)用無限可能

EscapeCraft以逃出房間為最終目的,重點(diǎn)評(píng)測(cè)逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風(fēng)格、道具鏈長(zhǎng)度與難度組合,還可擴(kuò)展到問答、邏輯推理、敘述重建等任務(wù)。它是一個(gè)高度靈活、可持續(xù)迭代的通用評(píng)測(cè)平臺(tái),也可以為未來的智能體、多模態(tài)推理、強(qiáng)化學(xué)習(xí)等方向研究提供基礎(chǔ)環(huán)境、數(shù)據(jù)和獎(jiǎng)勵(lì)設(shè)置方面的支持。

EscapeCraft支持自由定制和擴(kuò)展想要的難度等級(jí)。不同難度等級(jí)下所需的逃脫步驟有所不同。

圖片

為了提高任務(wù)的難度,我們將線索放置在了墻上而不是箱子中,考驗(yàn)?zāi)P蛯?duì)于環(huán)境信息的接收和處理能力,除此之外線索在房間的擺放位置也可自由選擇。

在第一個(gè)場(chǎng)景中,線索位于靠近出口的墻上,此時(shí)GPT-4o的表現(xiàn)更加出色,可以對(duì)線索進(jìn)行正確利用。

不過,當(dāng)我們把線索移動(dòng)到距離出口較遠(yuǎn)的墻上,GPT-4o開始不斷重復(fù)歷史路徑,無法對(duì)正確理解和利用線索,導(dǎo)致逃脫失敗。

圖片

模型推理和過程評(píng)測(cè)

Gemini-1.5-Pro 密室逃脫第一視角

圖片

這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個(gè)房間的全過程。

開始的0到4步,模型原地不動(dòng),通過旋轉(zhuǎn)視角來觀察房間的環(huán)境。

它先從右側(cè)開始旋轉(zhuǎn),一步步查看房間的不同區(qū)域,試圖找到可交互的物體或線索,比如電視、桌子和椅子。

到了第五步,模型將視角對(duì)準(zhǔn)電視方向,繼續(xù)尋找可操作的元素,這時(shí)我們可以看到桌上有一把鑰匙。

第六步時(shí),模型前進(jìn)并拾取了這把鑰匙。拿到鑰匙后,模型表示自己準(zhǔn)備轉(zhuǎn)身面對(duì)門,嘗試使用鑰匙。

接下來的步驟中,模型開始朝門的方向移動(dòng),意圖解鎖房門。在移動(dòng)過程中,它多次調(diào)整視角,尤其是向上看,試圖確認(rèn)門的位置。

由于視角偏低,模型一開始沒能看到門,于是不斷微調(diào)視角方向來定位門的位置。

從“答對(duì)”到“會(huì)想”

與傳統(tǒng)只看最終任務(wù)結(jié)果的評(píng)測(cè)不同,EscapeCraft 關(guān)注整個(gè)任務(wù)完成過程:模型是否自主探索?有沒有重復(fù)犯錯(cuò)?道具用得對(duì)不對(duì)?從而真正測(cè)試模型的“類人推理過程”。

論文重點(diǎn)彌補(bǔ)以結(jié)果為導(dǎo)向的評(píng)估缺陷,強(qiáng)調(diào)中間推理過程。為此設(shè)計(jì)了多個(gè)衡量視覺感知、多模態(tài)推理、環(huán)境探索和工具獲取和利用的過程的創(chuàng)新指標(biāo):

Intent-Outcome Consistency(意圖與結(jié)果一致性):衡量模型與環(huán)境的交互結(jié)果是否和的模型的交互意圖一致,即模型是否“在正確的位置做正確的事”。

Prop Gain / Grab Ratio / GSR:刻畫模型在探索和推理過程中的行為模式,反映模型的交互質(zhì)量、推理效率、和智能程度。

評(píng)測(cè)結(jié)果顯示:GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標(biāo)達(dá)成是“真正理解后完成的”,其余大多為偶然成功(比如想拿電視卻誤抓到關(guān)鍵道具)。

研究還發(fā)現(xiàn)大量有趣失敗案例。例如:

模型面對(duì)不可交互的沙發(fā),仍試圖抓取,并在“理由”中解釋“沙發(fā)下可能藏著鑰匙”;

模型原本已經(jīng)看見了關(guān)鍵道具,卻在移動(dòng)過程中將其“逐步移出視野”,隨后繼續(xù)提及該道具卻操作失敗……

團(tuán)隊(duì)據(jù)此將錯(cuò)誤拆分為兩類:

視覺感知錯(cuò)誤:誤判目標(biāo)是否可交互,視角控制失??;

推理邏輯錯(cuò)誤:目標(biāo)設(shè)定錯(cuò)誤,或動(dòng)作與意圖不符。

其中 Claude 3.5 的錯(cuò)誤中,61.1% 屬于推理問題,38.9% 屬于視覺問題。這說明即便模型“看到了”,不代表它“想清楚了”。

誰能逃離“密室”?模型表現(xiàn)結(jié)果對(duì)比

單房間逃脫結(jié)果統(tǒng)計(jì),包括3個(gè)不同難度級(jí)別(數(shù)值越大越難)。圖片

研究評(píng)測(cè)了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型,發(fā)現(xiàn):

在任務(wù)評(píng)價(jià)指標(biāo)方面:

GPT-4o 逃脫成功率(ER)最佳,但在任務(wù)復(fù)雜度提升后仍頻頻出錯(cuò);

國產(chǎn)大模型Doubao 1.5 Pro在最簡(jiǎn)單的關(guān)卡中,逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;并且其交互成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;

即使模型逃脫成功率相同,EscapeCraft依然能利用道具獲取率(Prop)、使用步數(shù)(Step),交互成功率(Grab SR)和交互率(Grab Ratio)對(duì)模型進(jìn)行比較。

比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率,但是Gemini 1.5 Pro憑借較高的交互率,即使它的交互成功率較低,也能通過相對(duì)較少的步數(shù)成功逃脫;而Claude 3.5 Sonnet雖然交互率低,但每一步交互的成功率較高,體現(xiàn)出該模型完成任務(wù)時(shí)的“深思熟慮”。

在推理和探索行為方面:

Gemini 和 Claude 常在房間角落“卡住”,空間方向等判斷失誤,空轉(zhuǎn)失敗;

多數(shù)模型容易“反復(fù)抓錯(cuò)”或“認(rèn)錯(cuò)道具”,他們的失敗方式也各有特色:有的不會(huì)動(dòng)、有的亂動(dòng)、有的只移動(dòng)不采取交互行動(dòng)、有的動(dòng)作對(duì)了但“目的不清”……;

子目標(biāo)達(dá)成率雖高,但意圖-結(jié)果一致性普遍低下,即“想要和沙發(fā)交互,但是意外地拿到鑰匙”;

在多房間設(shè)定下,模型能從第一個(gè)房間學(xué)習(xí)到的逃脫經(jīng)驗(yàn)有限,僅在兩個(gè)房間關(guān)卡設(shè)定相似的條件下有輔助作用。

項(xiàng)目主頁:https://thunlp-mt.github.io/EscapeCraft
GitHub 地址:https://github.com/THUNLP-MT/EscapeCraft
論文原文:https://arxiv.org/abs/2503.10042v4

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-13 10:00:00

2020-11-04 13:55:06

CSS密室逃脫前端

2019-10-24 16:30:19

iOS 13Android 9安卓

2021-08-02 19:37:27

AI人工智能新冠檢測(cè)

2025-01-21 08:00:00

2025-05-26 08:30:00

2025-05-28 10:31:13

2025-05-21 08:47:00

2020-03-20 13:43:18

曙光

2025-05-21 13:56:37

模型圖像AI

2025-10-20 09:12:00

2021-04-07 14:11:04

AI 數(shù)據(jù)人工智能

2013-06-13 09:45:34

移動(dòng)終端IPv6

2025-06-03 09:16:00

2025-08-21 11:06:55

2025-10-16 08:56:00

模型AI技術(shù)

2023-08-11 10:50:12

ChatGPT

2011-06-13 10:05:31

Android

2020-03-05 16:26:38

AI 數(shù)據(jù)人工智能

2025-04-08 09:16:00

推理模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)