偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法 原創(chuàng)

發(fā)布于 2025-10-17 09:44
瀏覽
0收藏

前期,筆者在《文檔智能》專欄中介紹了pipline式、兩階段式和端到端的多個文檔解析相關方案及技術點。如:

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

pipline

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

layout+VLM

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

VLM finetune

下面再來看一個兩階段(一個VLM既做layout,也做OCR format)的VLM文檔解析模型-MinerU2.5。

方法

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

MinerU2.5 的框架,在第一階段,MinerU2.5 對下采樣后的頁面執(zhí)行快速的全局布局分析。在第二階段,MinerU2.5 利用布局分析結果從原始高分辨率文檔中裁剪出關鍵區(qū)域,并在這些原始分辨率的局部區(qū)域內(nèi)進行細粒度的內(nèi)容識別(例如,文本、表格和公式識別)。

模型架構

  • 語言解碼器:LLM(Qwen2-Instruct-0.5B),M-RoPE 替換了原始的 1D-RoPE
  • 視覺編碼器:使用Qwen2-VL視覺編碼器(NaViT-675M)進行初始化
  • patch merge:為了在效率和性能之間取得平衡,該架構在相鄰的 2 × 2 視覺 token 上使用 pixel-unshuffe對聚合后的視覺 token 進行預處理,然后再將其輸入大型語言模型。

訓練方法

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

整體分三階段訓練:

階段 0-模態(tài)對齊
  • 圖文對齊:僅訓練兩層 MLP,凍結其他模塊。Image Caption數(shù)據(jù)集訓練。
  • 指令微調:解凍所有模塊,使用VQA數(shù)據(jù)訓練。
階段 1-文檔解析預訓練

文檔解析預訓練階段的目標是使VLM具備兩種能力:版面分析和內(nèi)容識別,該階段是解凍所有模塊訓練。

訓練數(shù)據(jù):

  • 版式分析:大規(guī)模模型標注數(shù)據(jù)與公開數(shù)據(jù)集的混合數(shù)據(jù),以確保足夠的規(guī)模和文檔多樣性。在版面分析方面,為兼顧訓練效率,將完整文檔圖像縮放到固定分辨率(1036 × 1036),并相應調整坐標,使用提示 “Layout Detection:”

數(shù)據(jù)樣式:

<|box_start |>100 200 300 400<| box_end|><|ref_start|>title <|ref_end|><|rotate_up|>
<|box_start |>400 500 600 700<| box_end|><|ref_start|>text <|ref_end|><|rotate_up|>
  • 內(nèi)容識別:注意:下面進行格式轉化時,輸入圖像將保持其原始分辨率,但圖像 token 數(shù)量將限制在 4 到 2048 的值域內(nèi)。若超過此限制,圖像將相應地進行縮放。

     a.文本:輸出為markdown格式,提示詞:“Text Recognition:”

     b.表格:輸出為以 OTSL 格式(采用 OTSL 是因為它相較于HTML 作為視覺語言模型的目標具有顯著優(yōu)勢。其極簡設計具有與表格視覺二維矩陣直接的結構對應關系,**將結構 token 數(shù)量從超過 28 個減少到僅 5 個,并將平均序列長度縮短約50%**。這使得它成為模型生成時更高效的輸出目標。最后一階段是將 OTSL 輸出簡單轉換為標準HTML。),提示詞:“Table Recognition:”

     c.公式:輸出為latex公式,提示詞:“Formula Recognition:”

訓練設置: 初始化階段0的權重,訓練了 2 輪次。每輪次總共包含 690 萬個樣本,其中包括 230 萬用于版面分析,240 萬用于文本塊,110 萬用于公式塊,以及 110 萬用于表格塊。

第二階段-文檔解析微調

目標是在保持 VLM 已具備的檢測與解析能力的基礎上,進一步提升在復雜場景下的解析性能。

訓練數(shù)據(jù):

  • 通過數(shù)據(jù)工程從預訓練數(shù)據(jù)集中抽取了高質量且多樣化的樣本,并將其納入第二階段訓練,確保對不同文檔元素類型的廣泛覆蓋。
  • 難樣本人工標注

訓練配置: 使用階段1模型初始化,訓練3輪。布局分析用 43 萬樣本,文本塊用 300 萬樣本,公式塊用 147 萬樣本,表格塊用 140 萬樣本。

數(shù)據(jù)增強策略

增強模型在開放世界情景下處理多樣化文檔的魯棒性,在第一階段和第二階段均設計了多種針對性的數(shù)據(jù)增強策略。這些增強方法模擬了常見的文檔干擾類型。

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

數(shù)據(jù)增強策略

數(shù)據(jù)引擎

  • 版面多樣性:采用頁面級圖像聚類從廣泛的視覺版面和風格中選擇樣本。
  • 文檔類型多樣性:利用文檔元數(shù)據(jù)(例如,學科、標簽),進行分層采樣,以確保學術論文、教科書、報告和演示文稿等類型的均衡表示。
  • 元素平衡:初步的檢測模型有助于確保所篩選數(shù)據(jù)集中關鍵元素(如標題、段落、表格、公式和圖表)的類別分布均衡。
  • 語言平衡:對數(shù)據(jù)進行篩選,以保持中文和英文文檔的可比數(shù)量。

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

實驗性能

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

如何打造一個文檔解析的多模態(tài)大模型?MinerU2.5架構、數(shù)據(jù)、訓練方法-AI.x社區(qū)

參考文獻:MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing,https://arxiv.org/pdf/2509.22186

本文轉載自?????大模型自然語言處理??   作者:余俊暉

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦