端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案 原創(chuàng)
前期在《文檔智能專欄》中詳細(xì)介紹了各種pipline(MinerU、ppstructure、Docling等)、檢測+多模態(tài)VLM(monkeyocr等)、端到端(olmocr等)的文檔解析技術(shù)鏈路及相關(guān)方案。

pipline

layout+VLM

VLM finetune
下面再來看一個端到端的解析方案,騰訊開源的多模態(tài)大模型-POINTS-Reader,實(shí)測了下效果一般,但可以看看數(shù)據(jù)合成及思路。
方法
1、數(shù)據(jù)形式
這個不用多說,基本上各種文檔解析的格式都趨向大同,純文本使用Markdown、表格使用html、數(shù)學(xué)公式使用LaTeX。

2、合成數(shù)據(jù)生成

兩階段pipline生成大規(guī)模高質(zhì)量數(shù)據(jù)集的過程
文檔解析的標(biāo)注數(shù)據(jù)由于其通用性還是非常難以獲取的,因此,為讓模型在統(tǒng)一格式下充分學(xué)習(xí),需生成多樣性高、覆蓋真實(shí)場景常見布局的合成數(shù)據(jù)。生成過程兼顧“數(shù)據(jù)多樣性”和“構(gòu)建效率”,POINTS-Reader的數(shù)據(jù)構(gòu)建思路如下:
1)數(shù)據(jù)分類
將合成數(shù)據(jù)分為4類,覆蓋文檔常見組合場景,確保模型接觸多樣化輸入:
- 僅含純文本(如單欄書籍正文);
- 含純文本+數(shù)學(xué)公式(如學(xué)術(shù)論文公式推導(dǎo)部分);
- 含純文本+表格(如財報數(shù)據(jù)表格部分);
- 含多列布局+表格(如報紙、學(xué)術(shù)論文的多欄表格排版)。
2)數(shù)據(jù)生成流程
- 文本生成:設(shè)計與類別匹配的Prompt,調(diào)用大語言模型(LLM,論文使用Qwen2.5-3B-Instuct)生成對應(yīng)內(nèi)容。例如,為“類別3(文本+表格)”設(shè)計Prompt時,要求LLM生成帶表格描述的段落,并插入從PubTabNet(含復(fù)雜表格結(jié)構(gòu)的公開數(shù)據(jù)集)中篩選的表格,增強(qiáng)數(shù)據(jù)真實(shí)性。
- 規(guī)則過濾:對生成的文本、表格、公式進(jìn)行初步質(zhì)量校驗(提前篩除明顯錯誤,如語法錯誤的公式、結(jié)構(gòu)無效的表格)。
- HTML渲染:將過濾后的文本按“單欄、雙欄、三欄”布局模板轉(zhuǎn)換為HTML,通過Chrome的Headless Mode渲染為圖片,形成“圖片-文本(統(tǒng)一格式)”配對數(shù)據(jù)。
相關(guān)prompt:
- 文本

- 公式



- 表格

- 多欄



3)模型訓(xùn)練與迭代訓(xùn)練
用上述合成數(shù)據(jù)對VLM進(jìn)行微調(diào)訓(xùn)練,模型結(jié)構(gòu)上沒有特別大的創(chuàng)新,LLM使用的是qwen2,視覺側(cè)使用的是qwenvl的視覺編碼器,文中提到的一點(diǎn)就是迭代訓(xùn)練,思路一句話概括就是使用訓(xùn)練好的模型對更寬泛的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測的數(shù)據(jù)通過各種規(guī)則校驗,然后加到訓(xùn)練數(shù)據(jù)中持續(xù)迭代訓(xùn)練,筆者認(rèn)為這樣最大的問題就是很難評價這個“偽數(shù)據(jù)”是否符合訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)(僅覆蓋了過濾規(guī)則)。
實(shí)驗

參考文獻(xiàn):POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:llmnlp

















