偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法 原創(chuàng)

發(fā)布于 2025-10-21 09:09
瀏覽
0收藏

文檔解析這條賽道真卷,《文檔智能》目前整體技術(shù)路線分三類:pipline式、兩階段式和端到端,如下:

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

pipline

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

layout+VLM

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

VLM finetune

下面再來看一個(gè)兩階段方案,由layout+VLM組成-PaddleOCR-VL-0.9B。

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

方法

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

PaddleOCR-VL

正如上圖,PaddleOCR-VL分兩階段:

階段1:PP-DocLayoutV2,負(fù)責(zé)布局分析,定位語義區(qū)域并預(yù)測其閱讀順序。PP-DocLayoutV2結(jié)構(gòu)式RT-DETR以及一個(gè)具有六個(gè)transformer層的輕量級指針網(wǎng)絡(luò),以準(zhǔn)確預(yù)測布局元素的閱讀順序。

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

版式分析:RT-DETR結(jié)構(gòu)

訓(xùn)練方法:版式分析(目標(biāo)檢測)初始化權(quán)重:PP-DocLayout_Plus-L,使用2w數(shù)據(jù)量訓(xùn)練100輪。閱讀順序:模型輸出一個(gè)矩陣,表示任意兩個(gè)元素之間的成對排序關(guān)系。

階段2:PaddleOCR-VL-0.9B對文本、表格、公式和圖表進(jìn)行ocr format。模型結(jié)構(gòu)類似LLaVA:

  • 視覺編碼器:使用NaViT結(jié)構(gòu),從keye-vl初始化,支持原生分辨率輸入(任意分辨率的圖像而不會(huì)失真,從而減少幻覺)。
  • 連接器:隨機(jī)初始化的2層MLP。
  • 解碼器:ERNIE-4.5-0.3B,引入3D-RoPE進(jìn)一步增強(qiáng)了位置表示。

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

PaddleOCR-VL-0.9B

訓(xùn)練方法:分兩階段

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

訓(xùn)練配置

階段1:模態(tài)對齊

階段2: 激發(fā)ocr format能力

  • OCR:文本識(shí)別
  • 表格識(shí)別:輸出為以 OTSL 格式(采用 OTSL 是因?yàn)樗噍^于HTML 作為視覺語言模型的目標(biāo)具有顯著優(yōu)勢。其極簡設(shè)計(jì)具有與表格視覺二維矩陣直接的結(jié)構(gòu)對應(yīng)關(guān)系,**將結(jié)構(gòu) token 數(shù)量從超過 28 個(gè)減少到僅 5 個(gè),并將平均序列長度縮短約50%**。這使得它成為模型生成時(shí)更高效的輸出目標(biāo)。最后一階段是將 OTSL 輸出簡單轉(zhuǎn)換為標(biāo)準(zhǔn)HTML。)
  • 公式識(shí)別:轉(zhuǎn)換為結(jié)構(gòu)化的LATEX格式
  • 圖表識(shí)別:各種類型的圖表中識(shí)別信息,如條形圖、折線圖和餅圖,并將其轉(zhuǎn)換為Markdown格式表格。

數(shù)據(jù)引擎

和MinerU2.5的方式差不多,主要從數(shù)據(jù)收集、管理、偽標(biāo)、精標(biāo)和男樣本挖掘構(gòu)建訓(xùn)練數(shù)據(jù)飛輪。

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

實(shí)驗(yàn)評測

  • OmniDocBench再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

  • olmOCR-Bench

再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

  • 推理性能再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model,https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf

本文轉(zhuǎn)載自??大模型自然語言處理??   作者:余俊暉

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-10-21 09:27:14修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦