偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

多模態(tài)大模型不會(huì)畫輔助線？最新評(píng)估得分：o3僅25.8%，遠(yuǎn)低于人類82.3%

2025-05-28 11:43:48

來自清華大學(xué)、騰訊混元、斯坦福大學(xué)、卡耐基梅隆大學(xué)等頂尖機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了RBench-V：一款針對(duì)大模型的視覺推理能力的新型基準(zhǔn)測(cè)試。

多模態(tài)時(shí)代應(yīng)如何評(píng)估模型的視覺輸出能力？

來自清華大學(xué)、騰訊混元、斯坦福大學(xué)、卡耐基梅隆大學(xué)等頂尖機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合發(fā)布了RBench-V：一款針對(duì)大模型的視覺推理能力的新型基準(zhǔn)測(cè)試。

過去的評(píng)估基準(zhǔn)主要集中于評(píng)估多模態(tài)輸入和純文本推理過程。

而RBench-V系統(tǒng)性評(píng)估了當(dāng)前主流大模型基于“畫圖”的視覺推理能力：

比如在圖中畫出輔助線、描點(diǎn)連線、繪制光線路徑、標(biāo)注目標(biāo)區(qū)域，等等。

圖片

結(jié)果發(fā)現(xiàn)，即使是表現(xiàn)最好的模型o3，在RBench-V上的準(zhǔn)確率也只有25.8%，遠(yuǎn)低于人類的82.3%。

這篇論文在reddit machine learning社區(qū)引發(fā)了討論，有網(wǎng)友評(píng)價(jià)：

有趣的現(xiàn)象，視覺推理連小孩都能做到，GPT-4o卻做不到。

圖片

RBench-V：專為模型視覺推理設(shè)計(jì)

為了評(píng)估模型的跨模態(tài)推理能力，RBench-V精心設(shè)計(jì)并篩選了共計(jì)803道題目，涵蓋幾何與圖論（數(shù)學(xué)）、力學(xué)與電磁學(xué)（物理）、多目標(biāo)識(shí)別（計(jì)數(shù)）以及路徑規(guī)劃與圖形聯(lián)想（圖形游戲）等多個(gè)領(lǐng)域。

與以往僅要求文字回答的多模態(tài)評(píng)測(cè)不同，RBench-V的每一道題都明確要求模型生成或修改圖像內(nèi)容來支持推理過程：

簡(jiǎn)單地說，就是讓大模型像人類專家一樣，通過繪制輔助線、觀察圖形結(jié)構(gòu)等可視化方式進(jìn)行思考。

這種對(duì)“畫出圖以輔助思考”過程的強(qiáng)調(diào)，對(duì)模型的視覺理解和圖文協(xié)同推理能力提出了全新的要求。

圖片

評(píng)測(cè)發(fā)現(xiàn)，盡管GPT-4o、Gemini、o3等新一代大模型標(biāo)榜具備“多模態(tài)理解與生成”能力，它們?cè)?/span>真正需要圖像輸出參與推理的問題上仍顯得力不從心。

主流大模型的評(píng)測(cè)結(jié)果：遠(yuǎn)不及人類水平

圖片

在RBench-V的評(píng)測(cè)中，即便是當(dāng)前業(yè)界最強(qiáng)的閉源模型，也遠(yuǎn)遠(yuǎn)比不上人類視覺推理能力。

OpenAI發(fā)布的旗艦?zāi)Ｐ蚾3以25.8%的整體準(zhǔn)確率排名首位，Google最新推出的Gemini2.5緊隨其后，得分為20.2%。

但這兩者的表現(xiàn)與人類專家高達(dá)82.3%的平均準(zhǔn)確率相比，依然很不夠看，說明了現(xiàn)有模型在復(fù)雜多模態(tài)推理任務(wù)中認(rèn)知能力的嚴(yán)重不足。

在開源模型陣營(yíng)中，主流代表如Qwen2.5VL、InternVL、LLaVA-OneVision等模型的準(zhǔn)確率普遍徘徊在8%至10%之間，甚至在某些任務(wù)維度上接近“隨機(jī)作答”的水平——

所謂“把答題卡放地上踩一腳”的水平。

這種懸殊的表現(xiàn)不僅揭示了當(dāng)前開源生態(tài)在多模態(tài)輸出生成上的技術(shù)瓶頸，也反映出大模型從“看懂圖”到“畫出圖以輔助思考”的能力缺失。

當(dāng)前，大模型對(duì)于視覺推理尚處于早期探索階段。

圖片

此外，通過比較不同模型的得分，可以看到：僅靠擴(kuò)大模型參數(shù)規(guī)模、引入圖像輸入通道，或在文字層面堆疊長(zhǎng)鏈條思維（Chain-of-Thought,CoT）并不能有效提升模型的視覺推理能力。

當(dāng)下模型的重大短板：難以借助圖像進(jìn)行推理

RBench-V的研究揭示了一個(gè)關(guān)鍵問題：當(dāng)前的大模型在處理需要空間直覺和圖像操作的幾何類問題時(shí)，往往選擇“走捷徑”。

與人類專家傾向于通過直觀的可視化方法進(jìn)行思考不同，大多數(shù)模型更習(xí)慣于將圖形問題抽象為坐標(biāo)系下的代數(shù)表達(dá)，并采用文本推理路徑完成解題。

這種“用文字繞過圖形”的策略雖然在某些場(chǎng)景下能夠給出正確答案，但實(shí)際上掩蓋了其對(duì)圖像信息的深層理解缺失，也暴露出它們“表面聰明，實(shí)則薄弱”的多模態(tài)推理能力。

RBench-V的實(shí)驗(yàn)結(jié)果顯示，即便是采用長(zhǎng)文本推理路徑或具備“看圖說話”能力的模型，在面對(duì)需要圖像輸出的復(fù)雜問題時(shí)，仍然束手無策。

圖片

RBench-V團(tuán)隊(duì)指出，真正推動(dòng)大模型邁向“類人智能”的突破口，在于構(gòu)建能夠在推理過程中主動(dòng)生成圖像、構(gòu)圖輔助思考的認(rèn)知框架。

這其中，多模態(tài)思維鏈（Multi-modal Chain-of-Thought,M-CoT）機(jī)制、智能體推理（Agent-based Reasoning）范式等新興方法，可能成為人工智能通往未來的重要路徑。

論文、代碼、數(shù)據(jù)均可在項(xiàng)目主頁找到：https://evalmodels.github.io/rbenchv/

責(zé)任編輯：武曉燕來源：量子位

多模態(tài)大模型 RBench-V

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="viu6k"><progress id="viu6k"></progress></thead>

<rt id="viu6k"><label id="viu6k"><option id="viu6k"></option></label></rt>