偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="alwyu"></var>

<sub id="alwyu"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

視頻推理界的“福爾摩斯測(cè)試”：所有大模型，統(tǒng)統(tǒng)不及格 | 論文代碼開源

2025-05-30 09:17:00

人工智能新聞

它可以說是視頻推理界的“福爾摩斯測(cè)試”，通過讓多模態(tài)大模型參與“推理殺人兇手”,?“解析作案意圖”等高難度的推理任務(wù)，以展現(xiàn)他們復(fù)雜視頻推理能力的邊界。

一個(gè)新的Benchmark，竟讓大模型在復(fù)雜視頻推理這事兒上統(tǒng)統(tǒng)不及格！

這就是騰訊ARC Lab和香港城市大學(xué)最新推出的Video-Holmes——

如其名，它可以說是視頻推理界的“福爾摩斯測(cè)試”，通過讓多模態(tài)大模型參與“推理殺人兇手”, “解析作案意圖”等高難度的推理任務(wù)，以展現(xiàn)他們復(fù)雜視頻推理能力的邊界。

而且Video-Holmes可以說是規(guī)避了現(xiàn)在業(yè)內(nèi)已有的Benchmark痛點(diǎn)，即視頻源和問題都偏簡(jiǎn)單，沒法反映推理模型和非推理模型之間的差距。

舉個(gè)例子。

在這個(gè)例子中，為了尋找男人真正的死因，模型需要主動(dòng)思考需要關(guān)注的視覺信息，并通過邏輯關(guān)聯(lián)分散在不同視頻片段中的多個(gè)相關(guān)線索進(jìn)行推理，最后發(fā)現(xiàn)男人的死因居然是：“過度使用超能力”?!

結(jié)果啊，測(cè)試的成績(jī)可謂是大跌眼鏡。

所有大模型，在各項(xiàng)測(cè)試中全部不及格：

（SR代表社會(huì)推理；IMC意指意圖與動(dòng)機(jī)鏈；TCI表示時(shí)間因果推理；TA時(shí)間線分析；MHR即多模態(tài)提示推理；PAR為物理異常推理；CTI代表核心主題推理。）

值得一提的是，這個(gè)Benchmark的“一鍵測(cè)評(píng)懶人包”，目前已經(jīng)上線到了GitHub和HuggingFace，有做視頻推理相關(guān)的小伙伴，可以去挑戰(zhàn)一下了（地址見文末）。

讓大模型全軍覆沒的新Benchmark

正如剛才提到的，現(xiàn)有視頻推理基準(zhǔn)（如 VCR-Bench、MVBench 等）主要評(píng)估模型的視覺感知和接地能力。

大多數(shù)問題也是基于顯式提示或孤立視覺線索（如 “女人穿了什么”），無法模擬人類在現(xiàn)實(shí)中主動(dòng)搜索、整合、分析多線索的復(fù)雜推理過程。

即使是較為前沿的模型，在這些基準(zhǔn)上的提升也非常有限（如從 68.3% 到 69.4%），難以驗(yàn)證模型的真實(shí)推理能力。

因此，團(tuán)隊(duì)收集并人工標(biāo)注了270部1-5分鐘的“推理短電影”，并設(shè)計(jì)了7種高推理要求的單選題，強(qiáng)迫模型提取，串聯(lián)多個(gè)散布在電影中的關(guān)鍵信息來推導(dǎo)出最終的真相。

值得注意的是，設(shè)計(jì)的問題是由DeepSeek來生成，并且也是由DeepSeek來評(píng)估的響應(yīng)。

至于問題的類型（上文我們提及的幾大類型），具體的“打開方式”如下：

再深入到具體問題的回答，各個(gè)大模型回答結(jié)果如下（以SR和IMC為例）：

測(cè)試結(jié)果顯示，即使強(qiáng)大入Gemini-2.5-Pro的閉源模型，也僅達(dá)到了45%的準(zhǔn)確率。

并且Video-Holmes能夠反應(yīng)推理模型和對(duì)應(yīng)非推理版本之間的Gap——

SEED-Bench-R1 比 Qwen2.5-VL-7B提升了5個(gè)點(diǎn)，而Gemini-2.0-Thinking比Gemini-2.0提升了整整12個(gè)點(diǎn)！

除此之外，團(tuán)隊(duì)進(jìn)一步還分析了模型的推理過程，結(jié)果顯示，現(xiàn)有模型整體上能夠正確感知視覺信息，但它們普遍在線索串聯(lián)信息（推理能力）上欠缺，以及容易遺漏關(guān)鍵的視覺信息。

注：Video-Holmes的標(biāo)注、構(gòu)建、測(cè)試、推理過程分析的資料和代碼，以及論文全部都開源啦（見文末）~

如何“食用”？

大家若是想下載Video-Holmes，可以運(yùn)行如下代碼：

git clone 
https://github.com/TencentARC/Video-Holmes.git
cd Video-Holmes
pip install huggingface_hub
python download.py —hf_token YOUR_HUGGINGFACE_ACCESS_TOKEN
unzip Benchmark/videos.zip -d Benchmark/
unzip Benchmark/annotations.zip -d Benchmark/

團(tuán)隊(duì)還為基線模型提供了一體化的評(píng)估代碼：

python evaluate.py —model_name YOUR_MODEL_NAME —model_path YOUR_MODEL_PATH (optional)

以及可支持的大模型名單如下：

還可以通過指定——model_path參數(shù)或?qū)崿F(xiàn)以下函數(shù)來定制模型：prepare_your_model（第388行）和generate_your_model（第439行）。

推理過程分析

首先需要應(yīng)用DeepSeek API密鑰，然后可以運(yùn)行以下命令來分析模型的推理過程：

python evaluate_reasoning.py —model_name YOUR_MODEL_NAME —api_key YOUR_API_KEY

生成你的“福爾摩斯測(cè)試”

要為帶有注釋的視頻生成問題，你可以運(yùn)行以下命令：

cd Pipeline
python generate_questions.py —api_key YOUR_API_KEY

那么你覺得這個(gè)新Benchmark如何？感興趣的話就快去試試吧~

HF Daily Paper：https://huggingface.co/papers/2505.21374

Homepage：https://video-holmes.github.io/Page.github.io/

Code：https://github.com/TencentARC/Video-Holmes

責(zé)任編輯：張燕妮來源：量子位

視頻推理 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="2yu5c"></p><style id="2yu5c"></style><cite id="2yu5c"></cite>