偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型在具身推理上「翻車」了?4496 道題全面揭示短板

人工智能 新聞
本篇文章重點(diǎn)對(duì)多模態(tài)大模型在具身推理的多個(gè)任務(wù)上進(jìn)行評(píng)測(cè)和對(duì)失敗進(jìn)行歸因分析,并且提供了詳細(xì)的失敗測(cè)評(píng),并且設(shè)計(jì)Agent算法進(jìn)行改進(jìn)。作者希望分析結(jié)果有利于多模態(tài)大模型和具身智能在未來(lái)的迭代。

祁煜,2023年本科畢業(yè)于北京大學(xué)信息科學(xué)技術(shù)學(xué)院。目前為美國(guó)Northeastern University在讀博士生,研究方向?yàn)闄C(jī)器人與機(jī)器學(xué)習(xí), 具身智能, 在 CVPR、ICML、CoRL 等頂級(jí)會(huì)議中發(fā)表過(guò)論文。

具身智能是近年來(lái)非?;鸶拍睢R粋€(gè)智能體(比如人)能夠在環(huán)境中完成感知、理解與決策的閉環(huán),并通過(guò)環(huán)境反饋不斷進(jìn)入新一輪循環(huán),直至任務(wù)完成。這一過(guò)程往往依賴多種技能,涵蓋了底層視覺(jué)對(duì)齊,空間感知,到上層決策的不同能力,這些能力便是廣義上的具身智能。

已經(jīng)有很多優(yōu)秀的工作把多模態(tài)大語(yǔ)言模型(MLLMs)部署在具身智能的不同應(yīng)用上。盡管已經(jīng)有不少相關(guān)工作評(píng)估過(guò)他們具身智能的潛力,但主要集中在子領(lǐng)域上,比如給點(diǎn)(Pointing),空間推理(Spatial Reasoning)等等,也有一些工作在仿真里定義任務(wù)評(píng)估他們的性能,比如EmbodiedBench等,但是他們并沒(méi)有把一個(gè)任務(wù)切分成一步步的原子技能,也就無(wú)法判斷出到底是哪個(gè)細(xì)粒度的能力導(dǎo)致一個(gè)任務(wù)的失敗。

BEAR基準(zhǔn)

為了系統(tǒng)評(píng)估MLLM在具身智能的各個(gè)子能力,美國(guó)東北大學(xué)聯(lián)合香港中文大學(xué),哈佛大學(xué),提出了BEAR基準(zhǔn),并且提供了詳細(xì)的錯(cuò)因分析和算法提升。

Arxiv鏈接:
https://arxiv.org/abs/2510.08759

Huggingface鏈接:
https://huggingface.co/papers/2510.08759

項(xiàng)目主頁(yè):
https://bear-official66.github.io/

BEAR涵蓋了4,469個(gè)圖片-視頻-文字的VQA。BEAR涵蓋6個(gè)大類,其中包括5個(gè)基礎(chǔ)類別,包括給點(diǎn)(Pointing), 給檢測(cè)框(Bounding Box), 空間推理(Spatial Reasoning),任務(wù)規(guī)劃(Task Planning),并且在每個(gè)類別下面還有不同子技能,如給點(diǎn)分為普通物體給點(diǎn),空間關(guān)系給點(diǎn)和局部給點(diǎn),共分為14個(gè)技能,見(jiàn)下圖。除此之外,我們引入第六個(gè)長(zhǎng)程推理類別,首次將具身智能的任務(wù)切分為以14個(gè)不同技能劃分的步驟,涵蓋了智能體在完成一個(gè)任務(wù)中所需要具備的技能。

測(cè)評(píng)實(shí)驗(yàn)

實(shí)驗(yàn)部分,作者全面測(cè)量了20個(gè)不同的MLLM,并且測(cè)量了Direct和CoT不同的prompt, 而且將常見(jiàn)的test-time-scaling methods都進(jìn)行了實(shí)驗(yàn),得出以下有趣的結(jié)論:

多模態(tài)大模型并不具備具身智能,目前在BEAR基準(zhǔn)上表現(xiàn)最好的模型,GPT-5,也僅僅有52%的成功率。

通常情況,閉源模型比開(kāi)源模型表現(xiàn)好。但是部分開(kāi)源模型擁有很強(qiáng)的潛力,如InternVL系列模型,在BEAR基準(zhǔn)上超過(guò)了GPT-4o, Claude等模型。

Chain-of-thought在很多子能力在閉源模型上起到一致的負(fù)面作用,比如給點(diǎn)和空間推理能力。作者分析給點(diǎn)是一個(gè)直接的表達(dá)方法,模型只需要輸出一個(gè)正則之后的x和y,過(guò)度的推理給模型引入不必要的干擾。同時(shí),人們?cè)谶M(jìn)行空間推理的時(shí)候常常使用“直覺(jué)”,引入推理鏈有時(shí)會(huì)使模型引入一些錯(cuò)誤的空間表達(dá)和位置關(guān)系,在推理最終答案的時(shí)候起到了負(fù)面作用。

細(xì)粒度錯(cuò)因統(tǒng)計(jì)

更進(jìn)一步地,作者對(duì)GPT-4o的每一個(gè)子能力都進(jìn)行了錯(cuò)因統(tǒng)計(jì),分析顯示了如下幾個(gè)有趣的發(fā)現(xiàn):

模型視覺(jué)全能能力不足是多個(gè)類別的主要瓶頸。具體表現(xiàn)為模型無(wú)法細(xì)致進(jìn)行l(wèi)anguage grounding, 無(wú)法判斷軌跡走向,無(wú)法理解圖片中發(fā)生的動(dòng)作。

模型3D能力不足主要體現(xiàn)在無(wú)法判斷第一人稱下的方向(左右關(guān)系),并且常常搞混相機(jī)在連續(xù)幀之間的移動(dòng)走向。

對(duì)于長(zhǎng)程推理,與高層規(guī)劃(planning)相比,底層感知和空間推理仍然是主要瓶頸,錯(cuò)誤占比高達(dá)88%。

BEAR智能體設(shè)計(jì)全面提升大模型的具身能力

基于上面的發(fā)現(xiàn),作者團(tuán)隊(duì)意識(shí)到,增強(qiáng)模型的視覺(jué)能力,可以全面提高模型的具身推理能力。在多模態(tài)領(lǐng)域,已經(jīng)有一些工作通過(guò)畫(huà)輔助線和教會(huì)模型使用工具用來(lái)求解數(shù)學(xué)問(wèn)題。受這樣工作的啟發(fā),作者開(kāi)發(fā)了BEAR-Agent,這是一個(gè)可對(duì)話的多模態(tài)智能體,主要通過(guò)提供工具和做輔助線的方式增強(qiáng)模型的視覺(jué)推理能力,進(jìn)而提升模型的具身推理能力。作者選取了表現(xiàn)最好的開(kāi)源模型和閉源模型,InternVL3-14B和GPT-5,BEAR-Agent可以顯著提高他們?cè)贐EAR上的performance。

仿真測(cè)試

進(jìn)一步地,作者基于Maniskill用Franka-panda搭建了桌面的操作環(huán)境,并且測(cè)試了3類任務(wù),共12個(gè)語(yǔ)言指令。我們的實(shí)驗(yàn)結(jié)果表明,BEAR-Agent提升了20.17% MOKA在桌面操作環(huán)境上的表現(xiàn),這表示著B(niǎo)EAR-Agent對(duì)Embodied Agent的潛力。

本篇文章重點(diǎn)對(duì)多模態(tài)大模型在具身推理的多個(gè)任務(wù)上進(jìn)行評(píng)測(cè)和對(duì)失敗進(jìn)行歸因分析,并且提供了詳細(xì)的失敗測(cè)評(píng),并且設(shè)計(jì)Agent算法進(jìn)行改進(jìn)。作者希望分析結(jié)果有利于多模態(tài)大模型和具身智能在未來(lái)的迭代。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-10 09:10:00

2022-09-23 09:53:41

機(jī)器人機(jī)器學(xué)習(xí)

2024-06-04 09:25:51

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2025-10-14 09:04:00

2024-09-05 13:11:49

2025-07-10 14:55:12

機(jī)器人AI模型

2024-09-27 09:48:28

2025-02-21 09:37:00

2024-12-19 14:44:22

2024-06-11 08:55:00

2023-12-23 23:16:36

機(jī)器人模型

2024-03-04 07:50:00

模型成果

2025-10-20 09:12:00

2025-01-10 09:30:00

2025-05-21 08:47:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)