最強o1也剛剛及格!中科大等團隊測試視頻CoT推理能力:多數(shù)模型不及格
視頻理解的CoT推理能力,怎么評?
中科大等團隊提出了評估基準——VCR-Bench,里面包含七個獨立評估維度的任務框架,每個維度針對性地考察模型的不同能力(如時空推理、因果推斷等)。為確保評估的全面性和可靠性,每個維度都設計了100余條高質(zhì)量樣本。
圖片
結(jié)果發(fā)現(xiàn)當前多模態(tài)模型在視頻復雜推理任務上表現(xiàn)普遍不佳——
最優(yōu)模型o1僅獲得62.8的CoT得分和56.7%的準確率,大多數(shù)模型兩項指標均低于40分,且閉源模型優(yōu)于開源模型,大模型優(yōu)于小模型。
具體來看。
多模態(tài)視頻理解
在多模態(tài)研究領(lǐng)域,視頻數(shù)據(jù)因其豐富的語義信息和全面的場景細節(jié),為構(gòu)建復雜的思維鏈(Chain-of-Thought,CoT)推理任務提供了理想載體。
然而,當前多模態(tài)研究社區(qū)面臨一個關(guān)鍵挑戰(zhàn):
缺乏系統(tǒng)化的評估方法來驗證模型在視頻理解中的CoT推理能力,這嚴重制約了視頻復雜推理任務的研究進展。
針對這一研究空白,中科大等的研究團隊創(chuàng)新性地提出了首個面向視頻CoT推理過程的多模態(tài)評估基準(Benchmark)。
該基準通過建立標準化的評估體系,顯著提升了視頻理解任務中推理能力的驗證效度。
此項工作自發(fā)布以來獲得了學術(shù)界的高度關(guān)注,在HuggingFace的4月11日Daily Papers評選中榮登榜單第二位,展現(xiàn)了其重要的學術(shù)價值和應用前景。
研究者認為,當前視頻理解領(lǐng)域的評測基準主要存在兩個關(guān)鍵性局限:
首先,現(xiàn)有方法普遍僅關(guān)注模型輸出的最終結(jié)果,而忽視了對推理過程的評估。這種評估方式可能導致”假陽性”現(xiàn)象——即便模型在理解或推理環(huán)節(jié)存在錯誤,仍可能通過猜測或巧合獲得正確的最終答案。
其次,現(xiàn)有基準缺乏對模型推理能力的多維度解構(gòu),無法精準識別模型在復雜推理任務中的能力瓶頸(如視覺感知不足與邏輯推理缺陷的區(qū)分)。
這兩個局限性嚴重制約了對視頻理解模型真實推理能力的科學評估。而針對這些問題所提出的VCR-Bench,則能夠很好的實現(xiàn)視頻CoT過程評估,填補現(xiàn)有不足。
△圖1結(jié)果評估的局限性
首個面向視頻CoT推理的Benchmark
具體而言,研究團隊首先構(gòu)建了包含七個獨立評估維度的任務框架,每個維度針對性地考察模型的不同能力(如時空推理、因果推斷等)。
為確保評估的全面性和可靠性,每個維度精心設計了100余條高質(zhì)量樣本,最終形成包含859個精選視頻和1034組問答對的大規(guī)模數(shù)據(jù)集。
這種多維度的評估體系能夠?qū)δP偷木C合推理能力進行全面診斷,不僅覆蓋了視頻理解的各個關(guān)鍵環(huán)節(jié),還能有效揭示模型在不同能力維度上的強弱項。
圖片
△圖2不同維度樣例
其次,對于數(shù)據(jù)集中的每一條樣本,研究團隊不僅提供了標準問答對,還額外標注了經(jīng)過人工驗證的詳細CoT推理步驟作為參考標準。
在評估過程中,首先對被測模型生成的推理內(nèi)容進行結(jié)構(gòu)化解析,將其分解為離散的推理步驟。隨后,基于預先定義的能力維度框架,包括視覺感知(perception)和邏輯推理(reasoning)兩大類別,對這些步驟進行分類標注。為保障評估的客觀性,采用GPT-4o作為自動評分器,通過比對模型生成的推理步驟與人工標注的黃金標準,分別計算步驟類別的召回率(Recall)和精確率(Precision),最終以F1分數(shù)作為模型CoT得分。這一評估方案既保證了評分的可解釋性,又能有效反映模型在不同推理維度上的真實表現(xiàn)。
最后,采用GPT4o從模型的輸出內(nèi)容中提取出最終結(jié)果,并于正確結(jié)果進行匹配,從而得到模型在VCR-Bench上推理的結(jié)果準確性。
圖片
△圖3VCR-Bench的評估過程
研究者在VCR-Bench上進行了大量實驗,驗證了其評估體系的有效性,并得到了多條富有啟發(fā)意義的結(jié)論:
- 當前多模態(tài)模型在視頻復雜推理任務上表現(xiàn)普遍不佳,最優(yōu)模型o1僅獲得62.8的CoT得分和56.7%的準確率,大多數(shù)模型兩項指標均低于40分,且閉源模型優(yōu)于開源模型,大模型優(yōu)于小模型。
- 通過對感知能力和推理能力的對比分析發(fā)現(xiàn),大多數(shù)測試模型的視覺感知得分都低于其推理能力得分,特別是在性能較差的模型中,這種差距表現(xiàn)得更為顯著。這一規(guī)律清晰地表明,視覺感知能力的不足已經(jīng)成為制約多模態(tài)模型性能提升的首要因素。
△圖4不同模型在VCR-Bench中的CoT得分
- 模型在時空定位(TSG)維度表現(xiàn)最差,多數(shù)模型無法正確回答相關(guān)問題,顯示出處理時空變化任務的嚴重不足。
△圖5不同模型在VCR-Bench上的準確率結(jié)果
△圖6TSG任務樣例
- 模型的CoT得分和準確率呈現(xiàn)高度正相關(guān)(r=0.89),說明正確有效的CoT的推理步驟能夠幫助模型更好的回答對問題。
- 部分模型如LLaVA系列雖然能達到尚可的準確率,但其CoT得分卻明顯偏低,深入分析發(fā)現(xiàn)這些模型存在指令遵循不充分的問題,其輸出內(nèi)容往往過于簡略,缺乏必要的推理步驟;相比之下,Qwen2.5-VL等表現(xiàn)較好的模型能夠嚴格遵循指令要求,生成更加完整、細致的推理過程,因而獲得更高的CoT評分。
- 模型在中等長度視頻上表現(xiàn)最佳,短視頻和長視頻相對較差。長視頻因內(nèi)容復雜度高帶來理解挑戰(zhàn);而短視頻對于人類標注員而言也較容易理解,能夠標注出更有深度的問題,此外一些特殊的維度(TSG)以短視頻為主,也是造成短視頻性能不佳的原因。這一現(xiàn)象凸顯了模型對不同時長視頻的適應能力仍需提升。
△圖7更多實驗結(jié)果展示。
(左側(cè):模型在不同時長視頻上的準確率;右上:模型在不同實驗設置下的準確率;右下:模型CoT得分與準確率的相關(guān)性統(tǒng)計)
Paper: https://arxiv.org/abs/2504.07956
Project Page: https://vlm-reasoning.github.io/VCR-Bench/
Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench