偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案 原創(chuàng)

發(fā)布于 2025-9-16 06:56
瀏覽
0收藏

前期在《文檔智能專欄》中詳細(xì)介紹了各種pipline(MinerU、ppstructure、Docling等)、檢測+多模態(tài)VLM(monkeyocr等)、端到端(olmocr等)的文檔解析技術(shù)鏈路及相關(guān)方案。

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

pipline

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

layout+VLM

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

VLM finetune

下面再來看一個端到端的解析方案,騰訊開源的多模態(tài)大模型-POINTS-Reader,實(shí)測了下效果一般,但可以看看數(shù)據(jù)合成及思路。

方法

1、數(shù)據(jù)形式

這個不用多說,基本上各種文檔解析的格式都趨向大同,純文本使用Markdown、表格使用html、數(shù)學(xué)公式使用LaTeX。

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

2、合成數(shù)據(jù)生成

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

兩階段pipline生成大規(guī)模高質(zhì)量數(shù)據(jù)集的過程

文檔解析的標(biāo)注數(shù)據(jù)由于其通用性還是非常難以獲取的,因此,為讓模型在統(tǒng)一格式下充分學(xué)習(xí),需生成多樣性高、覆蓋真實(shí)場景常見布局的合成數(shù)據(jù)。生成過程兼顧“數(shù)據(jù)多樣性”和“構(gòu)建效率”,POINTS-Reader的數(shù)據(jù)構(gòu)建思路如下:

1)數(shù)據(jù)分類

將合成數(shù)據(jù)分為4類,覆蓋文檔常見組合場景,確保模型接觸多樣化輸入:

  • 僅含純文本(如單欄書籍正文);
  • 含純文本+數(shù)學(xué)公式(如學(xué)術(shù)論文公式推導(dǎo)部分);
  • 含純文本+表格(如財報數(shù)據(jù)表格部分);
  • 含多列布局+表格(如報紙、學(xué)術(shù)論文的多欄表格排版)。

2)數(shù)據(jù)生成流程

  • 文本生成:設(shè)計與類別匹配的Prompt,調(diào)用大語言模型(LLM,論文使用Qwen2.5-3B-Instuct)生成對應(yīng)內(nèi)容。例如,為“類別3(文本+表格)”設(shè)計Prompt時,要求LLM生成帶表格描述的段落,并插入從PubTabNet(含復(fù)雜表格結(jié)構(gòu)的公開數(shù)據(jù)集)中篩選的表格,增強(qiáng)數(shù)據(jù)真實(shí)性。
  • 規(guī)則過濾:對生成的文本、表格、公式進(jìn)行初步質(zhì)量校驗(提前篩除明顯錯誤,如語法錯誤的公式、結(jié)構(gòu)無效的表格)。
  • HTML渲染:將過濾后的文本按“單欄、雙欄、三欄”布局模板轉(zhuǎn)換為HTML,通過Chrome的Headless Mode渲染為圖片,形成“圖片-文本(統(tǒng)一格式)”配對數(shù)據(jù)。

相關(guān)prompt:

  • 文本

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

  • 公式

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

  • 表格

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

  • 多欄

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

3)模型訓(xùn)練與迭代訓(xùn)練

用上述合成數(shù)據(jù)對VLM進(jìn)行微調(diào)訓(xùn)練,模型結(jié)構(gòu)上沒有特別大的創(chuàng)新,LLM使用的是qwen2,視覺側(cè)使用的是qwenvl的視覺編碼器,文中提到的一點(diǎn)就是迭代訓(xùn)練,思路一句話概括就是使用訓(xùn)練好的模型對更寬泛的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測的數(shù)據(jù)通過各種規(guī)則校驗,然后加到訓(xùn)練數(shù)據(jù)中持續(xù)迭代訓(xùn)練,筆者認(rèn)為這樣最大的問題就是很難評價這個“偽數(shù)據(jù)”是否符合訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)(僅覆蓋了過濾規(guī)則)。

實(shí)驗

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

參考文獻(xiàn):POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader


本文轉(zhuǎn)載自??大模型自然語言處理??   作者:llmnlp

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-9-16 09:31:36修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦