偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<mark id="vaoo0"></mark>

<dfn id="vaoo0"><small id="vaoo0"></small></dfn>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

最強(qiáng)o1也剛剛及格！中科大等團(tuán)隊(duì)測試視頻CoT推理能力：多數(shù)模型不及格

作者：量子位 2025-04-18 09:13:00

人工智能新聞

中科大等團(tuán)隊(duì)提出了評估基準(zhǔn)——VCR-Bench，里面包含七個(gè)獨(dú)立評估維度的任務(wù)框架，每個(gè)維度針對性地考察模型的不同能力（如時(shí)空推理、因果推斷等）。

視頻理解的CoT推理能力，怎么評？

中科大等團(tuán)隊(duì)提出了評估基準(zhǔn)——VCR-Bench，里面包含七個(gè)獨(dú)立評估維度的任務(wù)框架，每個(gè)維度針對性地考察模型的不同能力（如時(shí)空推理、因果推斷等）。為確保評估的全面性和可靠性，每個(gè)維度都設(shè)計(jì)了100余條高質(zhì)量樣本。

圖片

結(jié)果發(fā)現(xiàn)當(dāng)前多模態(tài)模型在視頻復(fù)雜推理任務(wù)上表現(xiàn)普遍不佳——

最優(yōu)模型o1僅獲得62.8的CoT得分和56.7%的準(zhǔn)確率，大多數(shù)模型兩項(xiàng)指標(biāo)均低于40分，且閉源模型優(yōu)于開源模型，大模型優(yōu)于小模型。

具體來看。

多模態(tài)視頻理解

在多模態(tài)研究領(lǐng)域，視頻數(shù)據(jù)因其豐富的語義信息和全面的場景細(xì)節(jié)，為構(gòu)建復(fù)雜的思維鏈（Chain-of-Thought,CoT）推理任務(wù)提供了理想載體。

然而，當(dāng)前多模態(tài)研究社區(qū)面臨一個(gè)關(guān)鍵挑戰(zhàn)：

缺乏系統(tǒng)化的評估方法來驗(yàn)證模型在視頻理解中的CoT推理能力，這嚴(yán)重制約了視頻復(fù)雜推理任務(wù)的研究進(jìn)展。

針對這一研究空白，中科大等的研究團(tuán)隊(duì)創(chuàng)新性地提出了首個(gè)面向視頻CoT推理過程的多模態(tài)評估基準(zhǔn)（Benchmark）。

該基準(zhǔn)通過建立標(biāo)準(zhǔn)化的評估體系，顯著提升了視頻理解任務(wù)中推理能力的驗(yàn)證效度。

此項(xiàng)工作自發(fā)布以來獲得了學(xué)術(shù)界的高度關(guān)注，在HuggingFace的4月11日Daily Papers評選中榮登榜單第二位，展現(xiàn)了其重要的學(xué)術(shù)價(jià)值和應(yīng)用前景。

研究者認(rèn)為，當(dāng)前視頻理解領(lǐng)域的評測基準(zhǔn)主要存在兩個(gè)關(guān)鍵性局限：

首先，現(xiàn)有方法普遍僅關(guān)注模型輸出的最終結(jié)果，而忽視了對推理過程的評估。這種評估方式可能導(dǎo)致”假陽性”現(xiàn)象——即便模型在理解或推理環(huán)節(jié)存在錯(cuò)誤，仍可能通過猜測或巧合獲得正確的最終答案。

其次，現(xiàn)有基準(zhǔn)缺乏對模型推理能力的多維度解構(gòu)，無法精準(zhǔn)識(shí)別模型在復(fù)雜推理任務(wù)中的能力瓶頸（如視覺感知不足與邏輯推理缺陷的區(qū)分）。

這兩個(gè)局限性嚴(yán)重制約了對視頻理解模型真實(shí)推理能力的科學(xué)評估。而針對這些問題所提出的VCR-Bench，則能夠很好的實(shí)現(xiàn)視頻CoT過程評估，填補(bǔ)現(xiàn)有不足。

△圖1結(jié)果評估的局限性

首個(gè)面向視頻CoT推理的Benchmark

具體而言，研究團(tuán)隊(duì)首先構(gòu)建了包含七個(gè)獨(dú)立評估維度的任務(wù)框架，每個(gè)維度針對性地考察模型的不同能力（如時(shí)空推理、因果推斷等）。

為確保評估的全面性和可靠性，每個(gè)維度精心設(shè)計(jì)了100余條高質(zhì)量樣本，最終形成包含859個(gè)精選視頻和1034組問答對的大規(guī)模數(shù)據(jù)集。

這種多維度的評估體系能夠?qū)δＰ偷木C合推理能力進(jìn)行全面診斷，不僅覆蓋了視頻理解的各個(gè)關(guān)鍵環(huán)節(jié)，還能有效揭示模型在不同能力維度上的強(qiáng)弱項(xiàng)。

圖片

△圖2不同維度樣例

其次，對于數(shù)據(jù)集中的每一條樣本，研究團(tuán)隊(duì)不僅提供了標(biāo)準(zhǔn)問答對，還額外標(biāo)注了經(jīng)過人工驗(yàn)證的詳細(xì)CoT推理步驟作為參考標(biāo)準(zhǔn)。

在評估過程中，首先對被測模型生成的推理內(nèi)容進(jìn)行結(jié)構(gòu)化解析，將其分解為離散的推理步驟。隨后，基于預(yù)先定義的能力維度框架，包括視覺感知（perception）和邏輯推理（reasoning）兩大類別，對這些步驟進(jìn)行分類標(biāo)注。為保障評估的客觀性，采用GPT-4o作為自動(dòng)評分器，通過比對模型生成的推理步驟與人工標(biāo)注的黃金標(biāo)準(zhǔn)，分別計(jì)算步驟類別的召回率（Recall）和精確率（Precision），最終以F1分?jǐn)?shù)作為模型CoT得分。這一評估方案既保證了評分的可解釋性，又能有效反映模型在不同推理維度上的真實(shí)表現(xiàn)。

最后，采用GPT4o從模型的輸出內(nèi)容中提取出最終結(jié)果，并于正確結(jié)果進(jìn)行匹配，從而得到模型在VCR-Bench上推理的結(jié)果準(zhǔn)確性。

圖片

△圖3VCR-Bench的評估過程

研究者在VCR-Bench上進(jìn)行了大量實(shí)驗(yàn)，驗(yàn)證了其評估體系的有效性，并得到了多條富有啟發(fā)意義的結(jié)論：

當(dāng)前多模態(tài)模型在視頻復(fù)雜推理任務(wù)上表現(xiàn)普遍不佳，最優(yōu)模型o1僅獲得62.8的CoT得分和56.7%的準(zhǔn)確率，大多數(shù)模型兩項(xiàng)指標(biāo)均低于40分，且閉源模型優(yōu)于開源模型，大模型優(yōu)于小模型。
通過對感知能力和推理能力的對比分析發(fā)現(xiàn)，大多數(shù)測試模型的視覺感知得分都低于其推理能力得分，特別是在性能較差的模型中，這種差距表現(xiàn)得更為顯著。這一規(guī)律清晰地表明，視覺感知能力的不足已經(jīng)成為制約多模態(tài)模型性能提升的首要因素。

△圖4不同模型在VCR-Bench中的CoT得分

模型在時(shí)空定位（TSG）維度表現(xiàn)最差，多數(shù)模型無法正確回答相關(guān)問題，顯示出處理時(shí)空變化任務(wù)的嚴(yán)重不足。

△圖5不同模型在VCR-Bench上的準(zhǔn)確率結(jié)果

△圖6TSG任務(wù)樣例

模型的CoT得分和準(zhǔn)確率呈現(xiàn)高度正相關(guān)（r=0.89），說明正確有效的CoT的推理步驟能夠幫助模型更好的回答對問題。
部分模型如LLaVA系列雖然能達(dá)到尚可的準(zhǔn)確率，但其CoT得分卻明顯偏低，深入分析發(fā)現(xiàn)這些模型存在指令遵循不充分的問題，其輸出內(nèi)容往往過于簡略，缺乏必要的推理步驟；相比之下，Qwen2.5-VL等表現(xiàn)較好的模型能夠嚴(yán)格遵循指令要求，生成更加完整、細(xì)致的推理過程，因而獲得更高的CoT評分。
模型在中等長度視頻上表現(xiàn)最佳，短視頻和長視頻相對較差。長視頻因內(nèi)容復(fù)雜度高帶來理解挑戰(zhàn)；而短視頻對于人類標(biāo)注員而言也較容易理解，能夠標(biāo)注出更有深度的問題，此外一些特殊的維度（TSG）以短視頻為主，也是造成短視頻性能不佳的原因。這一現(xiàn)象凸顯了模型對不同時(shí)長視頻的適應(yīng)能力仍需提升。

△圖7更多實(shí)驗(yàn)結(jié)果展示。

（左側(cè)：模型在不同時(shí)長視頻上的準(zhǔn)確率；右上：模型在不同實(shí)驗(yàn)設(shè)置下的準(zhǔn)確率；右下：模型CoT得分與準(zhǔn)確率的相關(guān)性統(tǒng)計(jì)）

Paper： https://arxiv.org/abs/2504.07956

Project Page： https://vlm-reasoning.github.io/VCR-Bench/

Dataset： https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench

Code： https://github.com/zhishuifeiqian/VCR-Bench

責(zé)任編輯：張燕妮來源：量子位

AI 模型框架

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="xgouq"><b id="xgouq"><kbd id="xgouq"></kbd></b></blockquote>