偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<button id="53lf1"><dl id="53lf1"><progress id="53lf1"></progress></dl></button>

<meter id="53lf1"></meter>

<menuitem id="53lf1"></menuitem>

<center id="53lf1"><rp id="53lf1"><tbody id="53lf1"></tbody></rp></center>

<bdo id="53lf1"><table id="53lf1"><thead id="53lf1"></thead></table></bdo><strong id="53lf1"></strong>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-9-16 06:56

瀏覽

0收藏

前期在《文檔智能專欄》中詳細(xì)介紹了各種pipline（MinerU、ppstructure、Docling等）、檢測+多模態(tài)VLM（monkeyocr等）、端到端（olmocr等）的文檔解析技術(shù)鏈路及相關(guān)方案。

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

pipline

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

layout+VLM

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

VLM finetune

下面再來看一個端到端的解析方案，騰訊開源的多模態(tài)大模型-POINTS-Reader，實(shí)測了下效果一般，但可以看看數(shù)據(jù)合成及思路。

方法

1、數(shù)據(jù)形式

這個不用多說，基本上各種文檔解析的格式都趨向大同，純文本使用Markdown、表格使用html、數(shù)學(xué)公式使用LaTeX。

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

2、合成數(shù)據(jù)生成

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

兩階段pipline生成大規(guī)模高質(zhì)量數(shù)據(jù)集的過程

文檔解析的標(biāo)注數(shù)據(jù)由于其通用性還是非常難以獲取的，因此，為讓模型在統(tǒng)一格式下充分學(xué)習(xí)，需生成多樣性高、覆蓋真實(shí)場景常見布局的合成數(shù)據(jù)。生成過程兼顧“數(shù)據(jù)多樣性”和“構(gòu)建效率”，POINTS-Reader的數(shù)據(jù)構(gòu)建思路如下：

1)數(shù)據(jù)分類

將合成數(shù)據(jù)分為4類，覆蓋文檔常見組合場景，確保模型接觸多樣化輸入：

僅含純文本（如單欄書籍正文）；
含純文本+數(shù)學(xué)公式（如學(xué)術(shù)論文公式推導(dǎo)部分）；
含純文本+表格（如財報數(shù)據(jù)表格部分）；
含多列布局+表格（如報紙、學(xué)術(shù)論文的多欄表格排版）。

2)數(shù)據(jù)生成流程

文本生成：設(shè)計與類別匹配的Prompt，調(diào)用大語言模型（LLM，論文使用Qwen2.5-3B-Instuct）生成對應(yīng)內(nèi)容。例如，為“類別3（文本+表格）”設(shè)計Prompt時，要求LLM生成帶表格描述的段落，并插入從PubTabNet（含復(fù)雜表格結(jié)構(gòu)的公開數(shù)據(jù)集）中篩選的表格，增強(qiáng)數(shù)據(jù)真實(shí)性。
規(guī)則過濾：對生成的文本、表格、公式進(jìn)行初步質(zhì)量校驗（提前篩除明顯錯誤，如語法錯誤的公式、結(jié)構(gòu)無效的表格）。
HTML渲染：將過濾后的文本按“單欄、雙欄、三欄”布局模板轉(zhuǎn)換為HTML，通過Chrome的Headless Mode渲染為圖片，形成“圖片-文本（統(tǒng)一格式）”配對數(shù)據(jù)。

相關(guān)prompt：

文本

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

公式

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

表格

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

多欄

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

3)模型訓(xùn)練與迭代訓(xùn)練

用上述合成數(shù)據(jù)對VLM進(jìn)行微調(diào)訓(xùn)練，模型結(jié)構(gòu)上沒有特別大的創(chuàng)新，LLM使用的是qwen2，視覺側(cè)使用的是qwenvl的視覺編碼器，文中提到的一點(diǎn)就是迭代訓(xùn)練，思路一句話概括就是使用訓(xùn)練好的模型對更寬泛的數(shù)據(jù)進(jìn)行預(yù)測，預(yù)測的數(shù)據(jù)通過各種規(guī)則校驗，然后加到訓(xùn)練數(shù)據(jù)中持續(xù)迭代訓(xùn)練，筆者認(rèn)為這樣最大的問題就是很難評價這個“偽數(shù)據(jù)”是否符合訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)（僅覆蓋了過濾規(guī)則）。

實(shí)驗

端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

參考文獻(xiàn)：POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader

本文轉(zhuǎn)載自??大模型自然語言處理?? 作者：llmnlp

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)大模型

文檔解析技術(shù)

已于2025-9-16 09:31:36修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

擊敗SDXL登頂SOTA | CoMat:端到端的擴(kuò)散模型微調(diào)策略

angel ? 5375瀏覽 ? 0回復(fù)
OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2

angel ? 4954瀏覽 ? 0回復(fù)
借助HuggingFace輕松實(shí)施一個端到端項目

51CTO內(nèi)容精選 ? 4309瀏覽 ? 0回復(fù)
使用Concrete ML為模型訓(xùn)練和推理確保端到端隱私

51CTO內(nèi)容精選 ? 3090瀏覽 ? 0回復(fù)
什么是端到端(end to end)大模型，它和傳統(tǒng)的大模型有什么區(qū)別？其優(yōu)勢與劣勢是什么？

AI探索時代 ? 6011瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 3918瀏覽 ? 0回復(fù)
AI 推理市場全景解析：戰(zhàn)火從云端到邊緣端

Syrupup ? 3659瀏覽 ? 0回復(fù)
最新端側(cè)全模態(tài)大模型Megrez-3B-Omni

NLP工作站 ? 5116瀏覽 ? 0回復(fù)
Megrez-3B-Omni：無問芯穹端側(cè)全模態(tài)大模型技術(shù)剖析與應(yīng)用指南

穿越時空111 ? 4107瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 4318瀏覽 ? 0回復(fù)
英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法

大模型自然語言處理 ? 3091瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 6379瀏覽 ? 0回復(fù)
VAE與擴(kuò)散模型迎來端到端聯(lián)合訓(xùn)練：REPA-E讓VAE自我進(jìn)化！

angel ? 3809瀏覽 ? 0回復(fù)
字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin

大模型自然語言處理 ? 2323瀏覽 ? 0回復(fù)
什么是端到端自動駕駛？

數(shù)智飛輪 ? 4017瀏覽 ? 0回復(fù)
FinWorld：開源端到端金融AI研究和部署一體化平臺

靈度智能 ? 4984瀏覽 ? 0回復(fù)
再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

大模型自然語言處理 ? 499瀏覽 ? 0回復(fù)
端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

大模型自然語言處理 ? 1059瀏覽 ? 0回復(fù)
RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）

大模型自然語言處理 ? 592瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：在開源模型上復(fù)現(xiàn)類似OpenAI o3的“thinking-with-image”能力：Mini-o3淺嘗

下一篇：通過強(qiáng)化學(xué)習(xí)讓多模態(tài)大模型自主決策圖像token壓縮的新思路-VisionThink實(shí)現(xiàn)思路及獎勵函數(shù)設(shè)計

社區(qū)精華內(nèi)容

目錄