偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

深度解析與精準(zhǔn)評(píng)估:OmniDocBench的創(chuàng)新之旅

人工智能
文檔解析技術(shù)正成為AI領(lǐng)域的重要場(chǎng)景。今天,我們將一起了解一下 OmniDocBench。

大家好,我是肆〇柒,今天咱們來(lái)聊聊 OmniDocBench,一個(gè)在文檔解析領(lǐng)域的 Benchmark。它不僅重新定義了文檔內(nèi)容提取的標(biāo)準(zhǔn),還為研究人員和開(kāi)發(fā)者提供了 豐富的資源和支持。接下來(lái),我將帶大家深入了解這個(gè)工具的方方面面。

文檔內(nèi)容提取技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域扮演著至關(guān)重要的角色。它不僅是大型語(yǔ)言模型(LLMs)和檢索增強(qiáng)生成(RAG)技術(shù)的基石,更為知識(shí)密集型應(yīng)用提供了高質(zhì)量的數(shù)據(jù)支持。然而,現(xiàn)有的文檔解析方法在多樣性和綜合評(píng)估方面存在顯著局限。OmniDocBench 的出現(xiàn),正是為了應(yīng)對(duì)這些挑戰(zhàn),它是一個(gè)精心設(shè)計(jì)的多源基準(zhǔn)測(cè)試,旨在推動(dòng)自動(dòng)化文檔內(nèi)容提取技術(shù)的發(fā)展。

OmniDocBench 數(shù)據(jù)集構(gòu)建:精雕細(xì)琢的歷程

在構(gòu)建 OmniDocBench 數(shù)據(jù)集的過(guò)程中,研究團(tuán)隊(duì)采用了系統(tǒng)化的方法,以確保數(shù)據(jù)的多樣性和高質(zhì)量。以下是詳細(xì)的步驟和說(shuō)明:

數(shù)據(jù)收集

初始階段,研究團(tuán)隊(duì)從網(wǎng)絡(luò)資源和內(nèi)部數(shù)據(jù)中收集了 200,000 個(gè) PDF 文檔。這一龐大的數(shù)據(jù)池涵蓋了多種類(lèi)型的文檔,包括學(xué)術(shù)論文、教科書(shū)、幻燈片等。為了確保數(shù)據(jù)的多樣性,團(tuán)隊(duì)使用了 ResNet-50 提取文檔頁(yè)面的視覺(jué)特征,并通過(guò) Faiss 聚類(lèi)算法對(duì)這些特征進(jìn)行分析。最終,從 10 個(gè)聚類(lèi)中心中采樣得到了 6,000 個(gè)視覺(jué)多樣化的頁(yè)面。這一過(guò)程可以參考下圖,它詳細(xì)展示了 OmniDocBench 數(shù)據(jù)集的構(gòu)建流程,包括數(shù)據(jù)獲取、智能預(yù)標(biāo)注和人工細(xì)化的完整路徑。


OmniDocBench數(shù)據(jù)集構(gòu)建概述

接下來(lái),標(biāo)注者對(duì)這些頁(yè)面進(jìn)行了細(xì)致的屬性標(biāo)注,包括頁(yè)面類(lèi)型、布局類(lèi)型和語(yǔ)言類(lèi)型等。通過(guò)人工平衡選擇,團(tuán)隊(duì)從 6,000 個(gè)頁(yè)面中進(jìn)一步篩選出 981 個(gè)樣本,這些樣本最終構(gòu)成了 OmniDocBench 數(shù)據(jù)集的核心。

數(shù)據(jù)標(biāo)注

OmniDocBench 的標(biāo)注框架包括三個(gè)關(guān)鍵階段:數(shù)據(jù)獲取、智能預(yù)標(biāo)注和人工細(xì)化。在數(shù)據(jù)獲取階段,團(tuán)隊(duì)確保了文檔頁(yè)面的多樣性和代表性。智能預(yù)標(biāo)注階段則利用最先進(jìn)的檢測(cè)和識(shí)別模型對(duì)布局和內(nèi)容進(jìn)行初步標(biāo)注。例如,使用 LayoutLMv3 進(jìn)行布局檢測(cè)標(biāo)注,PaddleOCR 進(jìn)行文本標(biāo)注,UniMERNet 進(jìn)行公式標(biāo)注,GPT-4o 進(jìn)行表格標(biāo)注。

人工細(xì)化階段是對(duì)智能預(yù)標(biāo)注結(jié)果的進(jìn)一步完善。標(biāo)注者對(duì)檢測(cè)框進(jìn)行精修,并添加閱讀順序和歸屬信息。對(duì)于文本、公式和表格的標(biāo)注,標(biāo)注者使用專業(yè)工具(如 Tables Generator 和 latexlive)進(jìn)行驗(yàn)證和修正,確保了標(biāo)注的準(zhǔn)確性和一致性。

為了確保標(biāo)注的準(zhǔn)確性,團(tuán)隊(duì)還引入了專家質(zhì)量檢查環(huán)節(jié)。通過(guò) CDM 的渲染技術(shù),專家們能夠識(shí)別并修正標(biāo)注中的問(wèn)題,從而確保了最終標(biāo)注的高質(zhì)量。下圖直觀地展示了 OmniDocBench 數(shù)據(jù)集的多樣性,包括 9 種不同的 PDF 文檔類(lèi)型以及豐富的標(biāo)注類(lèi)型,如布局標(biāo)注(標(biāo)題、表格、圖形等)和識(shí)別標(biāo)注(文本行、公式、表格等)。


全文檔基準(zhǔn)測(cè)試數(shù)據(jù)多樣性的概述

OmniDocBench 評(píng)估方法:多維度的精準(zhǔn)考量

OmniDocBench 提供了一個(gè)靈活且全面的評(píng)估框架,能夠從多個(gè)維度對(duì)文檔解析技術(shù)進(jìn)行評(píng)估。以下是詳細(xì)的評(píng)估方法和步驟:

提取與匹配算法

在評(píng)估過(guò)程中,模型生成的 markdown 文本需要經(jīng)過(guò)一系列的預(yù)處理步驟。這些步驟包括去除圖片、消除文檔開(kāi)頭的 markdown 標(biāo)簽以及標(biāo)準(zhǔn)化重復(fù)字符數(shù)量。這些操作旨在確保評(píng)估的公平性和準(zhǔn)確性。

特殊組件提取是評(píng)估中的關(guān)鍵環(huán)節(jié)。提取順序如下:首先是 LaTeX 表格,其次是 HTML 表格,然后是顯示公式、markdown 表格(轉(zhuǎn)換為 HTML 格式)和代碼塊。這種順序安排有助于避免不同內(nèi)容之間的干擾,確保提取的準(zhǔn)確性。

閱讀順序提取則通過(guò)記錄提取內(nèi)容在原始 markdown 中的起始和結(jié)束位置來(lái)實(shí)現(xiàn)。這一方法能夠有效地還原文檔的邏輯結(jié)構(gòu),為后續(xù)的評(píng)估提供基礎(chǔ)。

匹配算法采用了鄰近搜索匹配的方法,旨在合并和拆分 GTs 和 Preds 的段落,以達(dá)到最佳匹配效果。具體來(lái)說(shuō),該算法首先計(jì)算 GTs 和 Preds 之間的歸一化編輯距離。如果 Pred 和 GT 之間的相似度超過(guò)特定閾值,則認(rèn)為匹配成功。對(duì)于其他情況,則應(yīng)用模糊匹配,以確定一個(gè)字符串是否是另一個(gè)字符串的子集。如果成立,將進(jìn)一步應(yīng)用截?cái)嗪秃喜⑺惴?,直到歸一化編輯距離開(kāi)始下降,從而找到 GTs 和 Preds 之間的最佳匹配。下圖概述了 OmniDocBench 的評(píng)估流程,包括提取、匹配算法和度量計(jì)算等關(guān)鍵步驟。


OmniDocBench評(píng)估流程

度量計(jì)算

在評(píng)估過(guò)程中,OmniDocBench 實(shí)施了對(duì) PDF 頁(yè)面內(nèi)容中某些組件的忽略邏輯。這一策略主要針對(duì)頁(yè)眉、頁(yè)腳、頁(yè)碼和頁(yè)面注釋等部分,因?yàn)椴煌P驮谔幚磉@些內(nèi)容時(shí)存在輸出標(biāo)準(zhǔn)不一致的問(wèn)題。通過(guò)忽略這些部分,評(píng)估能夠更加專注于文檔的核心內(nèi)容,從而確保評(píng)估結(jié)果的公正性和準(zhǔn)確性。

OmniDocBench 基準(zhǔn)測(cè)試結(jié)果:數(shù)字背后的真相

OmniDocBench 對(duì)主流文檔解析方法進(jìn)行了全面的評(píng)估,揭示了不同技術(shù)路徑的優(yōu)勢(shì)和局限性。

組件特定評(píng)估結(jié)果

通過(guò)對(duì)文本、公式、表格和閱讀順序提取任務(wù)的評(píng)估,OmniDocBench 提供了詳細(xì)的性能指標(biāo)。例如,在文本提取方面,Pipeline 工具 MinerU 和 Mathpix 分別在英文和中文頁(yè)面上取得了最佳性能。而在公式提取方面,GOT-OCR 和 Mathpix 表現(xiàn)突出。表格提取的評(píng)估結(jié)果顯示,OCR-based Models 在語(yǔ)言多樣性和不同框架類(lèi)型上均表現(xiàn)出色。閱讀順序提取的評(píng)估則顯示,MinerU 和 Mathpix 在各種列布局類(lèi)型上均具有強(qiáng)大的性能。Table 2 展示了文檔解析算法在 OmniDocBench 上的綜合評(píng)估結(jié)果,包括文本、公式、表格和閱讀順序提取的性能指標(biāo)。


在 OmniDocBench 上對(duì)文檔解析算法的綜合評(píng)估

端到端評(píng)估結(jié)果

OmniDocBench 的端到端評(píng)估結(jié)果為我們呈現(xiàn)了不同模型在各種文檔類(lèi)型上的性能表現(xiàn)。下圖展示了不同模型在 9 種 PDF 頁(yè)面類(lèi)型上的端到端文本識(shí)別結(jié)果,直觀地反映了各模型在不同類(lèi)型文檔上的適應(yīng)性和魯棒性。


端到端文本識(shí)別在 OmniDocBench 上針對(duì) 9 種 PDF 頁(yè)面類(lèi)型的測(cè)試結(jié)果此外,評(píng)估還發(fā)現(xiàn),在面對(duì)模糊掃描、水印和彩色背景等特定屬性的文檔時(shí),VLMs InternVL2 和 Qwen2-VL 顯示出了較強(qiáng)的抗干擾能力。Table 4 提供了在不同頁(yè)面屬性下(如模糊掃描、水印、彩色背景)的端到端文本識(shí)別評(píng)估結(jié)果,展示了各模型在面對(duì)復(fù)雜文檔屬性時(shí)的表現(xiàn)。


端到端文本識(shí)別在 OmniDocBench 上的評(píng)估:在不同頁(yè)面屬性下的表現(xiàn)

單一算法評(píng)估結(jié)果:專項(xiàng)測(cè)評(píng)的深度洞察

布局檢測(cè)結(jié)果

在布局檢測(cè)方面,DocLayout-YOLO 方法展現(xiàn)出了顯著的優(yōu)勢(shì)。該方法在多種文檔類(lèi)型上均表現(xiàn)優(yōu)異,尤其在書(shū)籍和學(xué)術(shù)文獻(xiàn)等復(fù)雜文檔上的表現(xiàn)尤為突出。Table 6 展示了不同布局檢測(cè)模型在各種 PDF 頁(yè)面類(lèi)型上的 mAP 結(jié)果,突出了 DocLayout-YOLO 的卓越性能。


在 OmniDocBench 布局子集上的組件級(jí)布局檢測(cè)評(píng)估

表格識(shí)別結(jié)果

基于樹(shù)編輯距離相似性(TEDS)指標(biāo)的評(píng)估顯示,OCR-based Models 在表格識(shí)別任務(wù)上占據(jù)領(lǐng)先地位。Table 7 提供了不同表格識(shí)別模型在多種屬性下的表現(xiàn),包括語(yǔ)言類(lèi)型、表格框架類(lèi)型和特殊情形等。

在 OmniDocBench 表格子集上的組件級(jí)表格識(shí)別評(píng)估

文本識(shí)別結(jié)果

在傳統(tǒng) OCR 任務(wù)中,PaddleOCR 憑借其卓越的性能,顯著領(lǐng)先于其他模型。Table 8 則從文本屬性的角度對(duì) OCR 模型進(jìn)行了評(píng)估,展示了不同模型在語(yǔ)言、背景顏色和文本旋轉(zhuǎn)等情況下的表現(xiàn)。


在 OmniDocBench OCR 子集上的組件級(jí)評(píng)估

公式識(shí)別結(jié)果

根據(jù) CDM 指標(biāo)的評(píng)估,GPT-4o、Mathpix 和 UniMERNet 在公式識(shí)別任務(wù)上均取得了優(yōu)異的成績(jī)。Table 9 展示了不同模型在公式識(shí)別任務(wù)上的表現(xiàn),包括 CDM 指標(biāo)、公式完整率和歸一化編輯距離等。


在 OmniDocBench 公式子集上的組件級(jí)公式識(shí)別評(píng)估

總結(jié)

OmniDocBench 在文檔解析研究領(lǐng)域,不僅提供了一個(gè)多樣化且標(biāo)注詳盡的評(píng)估數(shù)據(jù)集,還建立了一個(gè)靈活且可靠的評(píng)估框架。通過(guò)支持從整個(gè)數(shù)據(jù)集、單個(gè)模塊到特定數(shù)據(jù)類(lèi)型的多層次評(píng)估,OmniDocBench 為研究人員和開(kāi)發(fā)者提供了深入分析和比較不同文檔解析方法的能力。

OmniDocBench 的貢獻(xiàn)在于它不僅揭示了現(xiàn)有文檔解析方法的局限性,還為未來(lái)的技術(shù)發(fā)展提供了方向。其詳盡的標(biāo)注和多維度的評(píng)估體系使得針對(duì)特定任務(wù)和屬性的模型優(yōu)化成為可能,從而推動(dòng)文檔解析技術(shù)向更健壯、更高效的方向發(fā)展。

不過(guò),我其實(shí)是來(lái)看有哪些 OCR 工具比較好用的,然后在 Github 上發(fā)現(xiàn)了這個(gè) Benchmark 。注意文內(nèi)的圖表,它指明了那些高性能的 OCR 組件。

責(zé)任編輯:龐桂玉 來(lái)源: 覺(jué)察流
相關(guān)推薦

2024-01-17 08:36:38

useEffect執(zhí)行時(shí)機(jī)函數(shù)

2025-08-20 16:31:24

2020-06-16 13:22:22

AI創(chuàng)新深度學(xué)習(xí)

2013-01-22 09:44:57

OpenStackKVM

2013-06-25 13:44:20

惠普云戰(zhàn)略

2025-04-02 03:55:00

MCPAI智能體

2024-08-30 09:53:17

Java 8編程集成

2013-04-07 17:57:16

SDN網(wǎng)絡(luò)架構(gòu)

2012-11-30 15:08:16

指揮城市IT解決方案H3C

2011-05-07 15:09:41

索尼筆記本

2014-01-14 10:21:18

VMware

2012-04-06 17:08:09

2024-09-25 12:36:38

數(shù)據(jù)中臺(tái)數(shù)據(jù)飛輪

2025-07-15 04:00:00

AI智能體人工智能

2025-02-27 08:50:00

RocketMQ開(kāi)發(fā)代碼

2025-03-27 04:10:00

2025-02-03 16:58:39

2013-06-24 10:26:44

惠普世界之旅大數(shù)據(jù)存儲(chǔ)

2022-02-10 11:32:40

DynamoDB亞馬遜云科技數(shù)據(jù)庫(kù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)