視頻推理界的“福爾摩斯測試”:所有大模型,統(tǒng)統(tǒng)不及格 | 論文代碼開源
一個新的Benchmark,竟讓大模型在復(fù)雜視頻推理這事兒上統(tǒng)統(tǒng)不及格!
這就是騰訊ARC Lab和香港城市大學(xué)最新推出的Video-Holmes——
如其名,它可以說是視頻推理界的“福爾摩斯測試”,通過讓多模態(tài)大模型參與“推理殺人兇手”, “解析作案意圖”等高難度的推理任務(wù),以展現(xiàn)他們復(fù)雜視頻推理能力的邊界。
而且Video-Holmes可以說是規(guī)避了現(xiàn)在業(yè)內(nèi)已有的Benchmark痛點(diǎn),即視頻源和問題都偏簡單,沒法反映推理模型和非推理模型之間的差距。
舉個例子。
在這個例子中,為了尋找男人真正的死因,模型需要主動思考需要關(guān)注的視覺信息,并通過邏輯關(guān)聯(lián)分散在不同視頻片段中的多個相關(guān)線索進(jìn)行推理,最后發(fā)現(xiàn)男人的死因居然是:“過度使用超能力”?!
結(jié)果啊,測試的成績可謂是大跌眼鏡。
所有大模型,在各項(xiàng)測試中全部不及格:
(SR代表社會推理;IMC意指意圖與動機(jī)鏈;TCI表示時(shí)間因果推理;TA時(shí)間線分析;MHR即多模態(tài)提示推理;PAR為物理異常推理;CTI代表核心主題推理。)
值得一提的是,這個Benchmark的“一鍵測評懶人包”,目前已經(jīng)上線到了GitHub和HuggingFace,有做視頻推理相關(guān)的小伙伴,可以去挑戰(zhàn)一下了(地址見文末)。
讓大模型全軍覆沒的新Benchmark
正如剛才提到的,現(xiàn)有視頻推理基準(zhǔn)(如 VCR-Bench、MVBench 等)主要評估模型的視覺感知和接地能力。
大多數(shù)問題也是基于顯式提示或孤立視覺線索(如 “女人穿了什么”),無法模擬人類在現(xiàn)實(shí)中主動搜索、整合、分析多線索的復(fù)雜推理過程。
即使是較為前沿的模型,在這些基準(zhǔn)上的提升也非常有限(如從 68.3% 到 69.4%),難以驗(yàn)證模型的真實(shí)推理能力。
因此,團(tuán)隊(duì)收集并人工標(biāo)注了270部1-5分鐘的“推理短電影”,并設(shè)計(jì)了7種高推理要求的單選題,強(qiáng)迫模型提取,串聯(lián)多個散布在電影中的關(guān)鍵信息來推導(dǎo)出最終的真相。
值得注意的是,設(shè)計(jì)的問題是由DeepSeek來生成,并且也是由DeepSeek來評估的響應(yīng)。
至于問題的類型(上文我們提及的幾大類型),具體的“打開方式”如下:
再深入到具體問題的回答,各個大模型回答結(jié)果如下(以SR和IMC為例):
測試結(jié)果顯示,即使強(qiáng)大入Gemini-2.5-Pro的閉源模型,也僅達(dá)到了45%的準(zhǔn)確率。
并且Video-Holmes能夠反應(yīng)推理模型和對應(yīng)非推理版本之間的Gap——
SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個點(diǎn),而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個點(diǎn)!
除此之外,團(tuán)隊(duì)進(jìn)一步還分析了模型的推理過程,結(jié)果顯示,現(xiàn)有模型整體上能夠正確感知視覺信息,但它們普遍在線索串聯(lián)信息(推理能力)上欠缺,以及容易遺漏關(guān)鍵的視覺信息。
注:Video-Holmes的標(biāo)注、構(gòu)建、測試、推理過程分析的資料和代碼,以及論文全部都開源啦(見文末)~
如何“食用”?
大家若是想下載Video-Holmes,可以運(yùn)行如下代碼:
git clone
https://github.com/TencentARC/Video-Holmes.git
cd Video-Holmes
pip install huggingface_hub
python download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN
unzip Benchmark/videos.zip -d Benchmark/
unzip Benchmark/annotations.zip -d Benchmark/
團(tuán)隊(duì)還為基線模型提供了一體化的評估代碼:
python evaluate.py —model_name YOUR_MODEL_NAME —model_path YOUR_MODEL_PATH (optional)
以及可支持的大模型名單如下:
還可以通過指定——model_path參數(shù)或?qū)崿F(xiàn)以下函數(shù)來定制模型:prepare_your_model(第388行)和generate_your_model(第439行)。
推理過程分析
首先需要應(yīng)用DeepSeek API密鑰,然后可以運(yùn)行以下命令來分析模型的推理過程:
python evaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY
生成你的“福爾摩斯測試”
要為帶有注釋的視頻生成問題,你可以運(yùn)行以下命令:
cd Pipeline
python generate_questions.py —api_key YOUR_API_KEY
那么你覺得這個新Benchmark如何?感興趣的話就快去試試吧~
HF Daily Paper:https://huggingface.co/papers/2505.21374