偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<bdo id="bjovd"></bdo>

<nobr id="bjovd"><strong id="bjovd"></strong></nobr><output id="bjovd"></output>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

全面評估多模態(tài)模型視頻OCR能力，Gemini 準確率僅73.7%

2025-06-03 08:22:00

人工智能新聞

MME-VideoOCR 致力于系統(tǒng)評估并推動MLLM在視頻OCR中的感知、理解和推理能力。

多模態(tài)大模型（MLLM）在靜態(tài)圖像上已經(jīng)展現(xiàn)出卓越的 OCR 能力，能準確識別和理解圖像中的文字內容。

然而，當應用場景從靜態(tài)圖像拓展至動態(tài)視頻時，即便是當前最先進的模型也面臨著嚴峻的挑戰(zhàn)。

MME-VideoOCR 致力于系統(tǒng)評估并推動MLLM在視頻OCR中的感知、理解和推理能力。

主要貢獻如下：

構建精細的任務體系：

精心構建了10大任務類別，進一步細分為25 個獨立任務。
評測維度超越基礎識別，深入考察時序理解、信息整合及復雜推理等高階能力。

高質量、大規(guī)模數(shù)據(jù)集：

包含了1,464 個精選視頻片段，覆蓋不同的分辨率、時長與場景。構建了2,000 條高質量、經(jīng)人工標注的問答對，確保評測的精確性。

揭示當前 MLLM 的能力邊界與局限：

對包括閉源與領先開源模型在內的18個主流MLLM進行了深入評測。
系統(tǒng)化分析了各模型在不同視頻OCR任務中的表現(xiàn)，明確了其優(yōu)勢與亟待改進的短板。
即便是Gemini-2.5 Pro，其整體準確率也僅為73.7%，顯示出當前MLLM在視頻OCR領域的巨大挑戰(zhàn)。

研究背景

視頻作為一種信息密度更高、場景更復雜的模態(tài)，其 OCR 任務的難度遠超靜態(tài)圖像：

1 運動模糊、光影變化、視角切換以及復雜的時序關聯(lián)等視頻的動態(tài)因素，都對 MLLM 的視頻文字識別構成了顯著的障礙。

2 視頻中的文字信息形式復雜多樣，既可能出現(xiàn)在畫面主體、背景場景，也可能以屏幕注釋、水印或彈幕的方式存在。這要求模型能夠建立穩(wěn)定的時空視覺-文本關聯(lián)，以實現(xiàn)對分布在不同位置與時間段文字信息的準確識別、整合與理解。

3 MLLM 不僅需要對視頻中文字的進行精確識別，更需在視覺、時序上下文中完成語義解析與推理判斷，以實現(xiàn)對視頻整體內容的深層理解。

目前，MLLM 在視頻 OCR 領域的真實性能如何？其核心局限性體現(xiàn)在哪些方面？我們應如何系統(tǒng)地評估并推動其發(fā)展？這些關鍵問題亟待一個明確的答案。

MME-VideoOCR 評測框架詳解

MME-VideoOCR的設計核心在于其全面性與深度，旨在評估模型從“看見”到“理解”視頻文字信息的全方位能力。

數(shù)據(jù)構建

MME-VideoOCR 的數(shù)據(jù)集源于部分高質量數(shù)據(jù)集和人工采集與構造，經(jīng)過精心篩選與處理，確保其：

多樣性：涵蓋生活記錄、影視娛樂、教育科普、體育賽事、游戲直播等多元化場景。
挑戰(zhàn)性：融入運動模糊、低分辨率、復雜背景、藝術字體、文字遮擋、多語言混合等真實世界的復雜因素。
時序性：特別設計了需要跨幀理解、追蹤文字動態(tài)、整合時序信息的復雜任務，考驗模型的動態(tài)處理能力。

考慮到短視頻、彈幕視頻及AIGC視頻的逐漸普及，MME-VideoOCR額外引入了這些特殊類型的視頻，增加了數(shù)據(jù)的全面性。

共收集1,464 個視頻和2000條樣本。

任務設計

10大任務類別與25 個子任務緊密圍繞視頻OCR的核心挑戰(zhàn)，重點評估模型在以下方面的能力：

基礎識別：在各種視頻條件下準確識別文字及其屬性。
時空定位：識別文字在視頻中的時間、空間位置。
時序追蹤：理解文字內容隨時間的演變。
特殊文本解析：對表格、圖表、文檔、公式、手寫體等特殊文本進行有效解析。
信息整合：結合視頻上下文與文字進行綜合理解。
場景理解：在特定視頻情境下解讀文字的深層含義。
復雜推理：基于視頻中的文字信息進行邏輯判斷與問答。
模型魯棒性：對于 AIGC、對抗樣本和超長視頻的有效理解。

評估策略

針對不同任務的特點和標準答案可能存在的靈活性，設計了字符串匹配、多選題以及 GPT 輔助評分三種評測方式。

實驗發(fā)現(xiàn)總結

通過對18個主流MLLM的深度評測，MME-VideoOCR 揭示了以下關鍵發(fā)現(xiàn)：

整體性能：提升空間巨大

頂尖模型面臨挑戰(zhàn)：Gemini-2.5 Pro雖然表現(xiàn)最佳，但73.7%的準確率表明，即便是SOTA模型在應對復雜視頻 OCR 任務時也遠未達到理想狀態(tài)。
開源模型差距顯著：當前多數(shù)開源MLLM在視頻OCR任務上的表現(xiàn)與頂尖閉源模型相比，存在較大差距，大多數(shù)開源模型準確率甚至不足60%。

能力短板：時序與推理是關鍵瓶頸

靜態(tài)易，動態(tài)難：模型處理單幀或短時序的文字信息相對較好，但在需要整合長時序信息、理解文字動態(tài)變化時，性能顯著下降。
時空推理能力薄弱：要求結合文字內容及其時空信息進行推理的任務，是當前MLLM的普遍弱點。

語言先驗依賴問題：模型在進行視頻文字理解時，有時會過度依賴其語言模型的先驗知識，而未能充分利用視覺信息進行判斷。

優(yōu)化關鍵：高分辨率與時序信息

實驗指出，提供更高分辨率的視覺輸入和更完整的時序幀覆蓋，對于提升MLLM在動態(tài)視頻場景下的OCR性能至關重要。

同時需要注意到，更多的視覺輸入可能也會導致模型難以關注到目標信息，造成準確率的下滑，這也對模型的信息提取與處理能力提出了更高要求。

論文地址：https://mme-videoocr.github.io/

責任編輯：張燕妮來源：量子位

模型評估視頻

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tr id="e2j5x"><fieldset id="e2j5x"></fieldset></tr>

<pre id="e2j5x"><tt id="e2j5x"></tt></pre>