偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="0ojko"><li id="0ojko"><video id="0ojko"></video></li></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

清華ICCV25丨密室逃脫成AI新考場(chǎng)，通關(guān)率不足50%，暴露空間推理短板

2025-07-14 08:40:00

人工智能新聞

模型在面對(duì)復(fù)雜的、多步驟的視覺推理任務(wù)時(shí)，能否像人類一樣推理和決策？

近年來，多模態(tài)大模型（MLLMs）發(fā)展迅猛，從看圖說話到視頻理解，似乎無所不能。

但你是否想過：它們真的“看懂”并“想通”了嗎？

模型在面對(duì)復(fù)雜的、多步驟的視覺推理任務(wù)時(shí)，能否像人類一樣推理和決策？

為評(píng)估多模態(tài)大模型在視覺環(huán)境中，完成復(fù)雜任務(wù)推理的能力。清華大學(xué)團(tuán)隊(duì)受密室逃脫游戲啟發(fā)，提出EscapeCraft：一個(gè)3D密室逃脫環(huán)境，讓大模型在3D密室中通過自由探索尋找道具，解鎖出口。

該論文目前已入選ICCV 2025。

EscapeCraft 環(huán)境

沉浸式互動(dòng)環(huán)境，靈感源自密室逃脫

研究團(tuán)隊(duì)打造了可自動(dòng)生成、靈活配置的 3D 場(chǎng)景 EscapeCraft，模型在里面自由行動(dòng)：找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態(tài)信息。

任務(wù)可擴(kuò)展，應(yīng)用無限可能

EscapeCraft以逃出房間為最終目的，重點(diǎn)評(píng)測(cè)逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風(fēng)格、道具鏈長(zhǎng)度與難度組合，還可擴(kuò)展到問答、邏輯推理、敘述重建等任務(wù)。它是一個(gè)高度靈活、可持續(xù)迭代的通用評(píng)測(cè)平臺(tái)，也可以為未來的智能體、多模態(tài)推理、強(qiáng)化學(xué)習(xí)等方向研究提供基礎(chǔ)環(huán)境、數(shù)據(jù)和獎(jiǎng)勵(lì)設(shè)置方面的支持。

EscapeCraft支持自由定制和擴(kuò)展想要的難度等級(jí)。不同難度等級(jí)下所需的逃脫步驟有所不同。

為了提高任務(wù)的難度，我們將線索放置在了墻上而不是箱子中，考驗(yàn)?zāi)Ｐ蛯?duì)于環(huán)境信息的接收和處理能力，除此之外線索在房間的擺放位置也可自由選擇。

在第一個(gè)場(chǎng)景中，線索位于靠近出口的墻上，此時(shí)GPT-4o的表現(xiàn)更加出色，可以對(duì)線索進(jìn)行正確利用。

不過，當(dāng)我們把線索移動(dòng)到距離出口較遠(yuǎn)的墻上，GPT-4o開始不斷重復(fù)歷史路徑，無法對(duì)正確理解和利用線索，導(dǎo)致逃脫失敗。

模型推理和過程評(píng)測(cè)

Gemini-1.5-Pro 密室逃脫第一視角

這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個(gè)房間的全過程。

開始的0到4步，模型原地不動(dòng)，通過旋轉(zhuǎn)視角來觀察房間的環(huán)境。

它先從右側(cè)開始旋轉(zhuǎn)，一步步查看房間的不同區(qū)域，試圖找到可交互的物體或線索，比如電視、桌子和椅子。

到了第五步，模型將視角對(duì)準(zhǔn)電視方向，繼續(xù)尋找可操作的元素，這時(shí)我們可以看到桌上有一把鑰匙。

第六步時(shí)，模型前進(jìn)并拾取了這把鑰匙。拿到鑰匙后，模型表示自己準(zhǔn)備轉(zhuǎn)身面對(duì)門，嘗試使用鑰匙。

接下來的步驟中，模型開始朝門的方向移動(dòng)，意圖解鎖房門。在移動(dòng)過程中，它多次調(diào)整視角，尤其是向上看，試圖確認(rèn)門的位置。

由于視角偏低，模型一開始沒能看到門，于是不斷微調(diào)視角方向來定位門的位置。

從“答對(duì)”到“會(huì)想”

與傳統(tǒng)只看最終任務(wù)結(jié)果的評(píng)測(cè)不同，EscapeCraft 關(guān)注整個(gè)任務(wù)完成過程：模型是否自主探索？有沒有重復(fù)犯錯(cuò)？道具用得對(duì)不對(duì)？從而真正測(cè)試模型的“類人推理過程”。

論文重點(diǎn)彌補(bǔ)以結(jié)果為導(dǎo)向的評(píng)估缺陷，強(qiáng)調(diào)中間推理過程。為此設(shè)計(jì)了多個(gè)衡量視覺感知、多模態(tài)推理、環(huán)境探索和工具獲取和利用的過程的創(chuàng)新指標(biāo)：

Intent-Outcome Consistency（意圖與結(jié)果一致性）：衡量模型與環(huán)境的交互結(jié)果是否和的模型的交互意圖一致，即模型是否“在正確的位置做正確的事”。

Prop Gain / Grab Ratio / GSR：刻畫模型在探索和推理過程中的行為模式，反映模型的交互質(zhì)量、推理效率、和智能程度。

評(píng)測(cè)結(jié)果顯示：GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標(biāo)達(dá)成是“真正理解后完成的”，其余大多為偶然成功（比如想拿電視卻誤抓到關(guān)鍵道具）。

研究還發(fā)現(xiàn)大量有趣失敗案例。例如：

模型面對(duì)不可交互的沙發(fā)，仍試圖抓取，并在“理由”中解釋“沙發(fā)下可能藏著鑰匙”；

模型原本已經(jīng)看見了關(guān)鍵道具，卻在移動(dòng)過程中將其“逐步移出視野”，隨后繼續(xù)提及該道具卻操作失敗……

團(tuán)隊(duì)據(jù)此將錯(cuò)誤拆分為兩類：

視覺感知錯(cuò)誤：誤判目標(biāo)是否可交互，視角控制失??；

推理邏輯錯(cuò)誤：目標(biāo)設(shè)定錯(cuò)誤，或動(dòng)作與意圖不符。

其中 Claude 3.5 的錯(cuò)誤中，61.1% 屬于推理問題，38.9% 屬于視覺問題。這說明即便模型“看到了”，不代表它“想清楚了”。

誰能逃離“密室”？模型表現(xiàn)結(jié)果對(duì)比

單房間逃脫結(jié)果統(tǒng)計(jì)，包括3個(gè)不同難度級(jí)別（數(shù)值越大越難）。

研究評(píng)測(cè)了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型，發(fā)現(xiàn)：

在任務(wù)評(píng)價(jià)指標(biāo)方面：

GPT-4o 逃脫成功率（ER）最佳，但在任務(wù)復(fù)雜度提升后仍頻頻出錯(cuò)；

國產(chǎn)大模型Doubao 1.5 Pro在最簡(jiǎn)單的關(guān)卡中，逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet；并且其交互成功率（Grab SR）超越GPT-4o和Claude 3.5 Sonnet；

即使模型逃脫成功率相同，EscapeCraft依然能利用道具獲取率（Prop）、使用步數(shù)（Step），交互成功率（Grab SR）和交互率（Grab Ratio）對(duì)模型進(jìn)行比較。

比如，在“Difficult-2”中，Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率，但是Gemini 1.5 Pro憑借較高的交互率，即使它的交互成功率較低，也能通過相對(duì)較少的步數(shù)成功逃脫；而Claude 3.5 Sonnet雖然交互率低，但每一步交互的成功率較高，體現(xiàn)出該模型完成任務(wù)時(shí)的“深思熟慮”。

在推理和探索行為方面：

Gemini 和 Claude 常在房間角落“卡住”，空間方向等判斷失誤，空轉(zhuǎn)失敗；

多數(shù)模型容易“反復(fù)抓錯(cuò)”或“認(rèn)錯(cuò)道具”，他們的失敗方式也各有特色：有的不會(huì)動(dòng)、有的亂動(dòng)、有的只移動(dòng)不采取交互行動(dòng)、有的動(dòng)作對(duì)了但“目的不清”……；

子目標(biāo)達(dá)成率雖高，但意圖-結(jié)果一致性普遍低下，即“想要和沙發(fā)交互，但是意外地拿到鑰匙”；

在多房間設(shè)定下，模型能從第一個(gè)房間學(xué)習(xí)到的逃脫經(jīng)驗(yàn)有限，僅在兩個(gè)房間關(guān)卡設(shè)定相似的條件下有輔助作用。

項(xiàng)目主頁：https://thunlp-mt.github.io/EscapeCraft
GitHub 地址：https://github.com/THUNLP-MT/EscapeCraft
論文原文：https://arxiv.org/abs/2503.10042v4

責(zé)任編輯：張燕妮來源：量子位

模型 AI 推理

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tr id="u4j3e"><strike id="u4j3e"></strike></tr>