偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<p id="3nreo"><strong id="3nreo"></strong></p>

<menuitem id="3nreo"><mark id="3nreo"><del id="3nreo"></del></mark></menuitem>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-10-24 09:57

瀏覽

0收藏

olmOCR 2相關(guān)對比：

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）-AI.x社區(qū)

持?jǐn)?shù)據(jù)、模型和代碼完全開源

olmOCR 2 是一套面向文檔 OCR 的端到端解決方案，其核心方法圍繞RLVR，通過 “合成數(shù)據(jù)規(guī)?；?- 單元測試定獎(jiǎng)勵(lì) - RL 訓(xùn)練提性能” 的閉環(huán)，解決傳統(tǒng) OCR 系統(tǒng)在復(fù)雜場景（數(shù)學(xué)公式、表格、多列布局）中的痛點(diǎn)。

現(xiàn)有問題

傳統(tǒng)OCR系統(tǒng)的性能評估依賴編輯距離 ，計(jì)算模型輸出與Ground Truth的字符級差異（插入、刪除、替換次數(shù)）。

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）-AI.x社區(qū)

圖1：傳統(tǒng)編輯距離的局限性：閱讀順序問題

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）-AI.x社區(qū)

圖2：傳統(tǒng)編輯距離的局限性：公式識別問題

為解決上述問題，設(shè)計(jì)了下面6類可驗(yàn)證的二進(jìn)制單元測試（結(jié)果僅“通過（PASS）”或“失?。‵AIL）”），覆蓋文檔OCR的需求：

測試類型	核心功能
文本存在性	驗(yàn)證特定短語（如關(guān)鍵句子、公式）是否精確出現(xiàn)在輸出中
文本不存在性	驗(yàn)證無關(guān)內(nèi)容（如頁眉、頁腳、頁碼）是否未出現(xiàn)在輸出中
自然閱讀順序	驗(yàn)證句子/段落的順序是否符合人類閱讀習(xí)慣（如圖1中“綠色→黃色”不被紅色打斷）
表格準(zhǔn)確性	驗(yàn)證表格單元格的相對位置與數(shù)值是否正確（如“Model”在“GPT-4-turbo”上方）
數(shù)學(xué)公式準(zhǔn)確性	用KaTeX渲染模型輸出與參考公式，驗(yàn)證視覺結(jié)構(gòu)是否一致（如圖2）
基線魯棒性	驗(yàn)證無長重復(fù)n-gram、無非目標(biāo)語言字符（避免模型幻覺）

這些測試的優(yōu)勢在于：

公平處理浮動(dòng)元素：對圖注、表格等位置靈活的元素，只要核心邏輯正確（如表格單元格關(guān)系、閱讀順序），均判定為通過，避免編輯距離的“過度懲罰”；
精準(zhǔn)反映實(shí)際正確性：聚焦“用戶是否能用”（如公式能否正確渲染、表格能否正確讀?。恰白址欠裢耆ヅ洹?。

數(shù)據(jù)

手動(dòng)為每個(gè)文檔設(shè)計(jì)單元測試耗時(shí)極長（原文提到“需數(shù)小時(shí)/文檔”），無法支撐RL訓(xùn)練的大規(guī)模數(shù)據(jù)需求。因此，文章開發(fā)了全自動(dòng)合成數(shù)據(jù)生成 pipeline，實(shí)現(xiàn)“文檔→HTML→單元測試”的端到端規(guī)?；诵牧鞒谭秩剑?/p>

1. 步驟1：挑選“難處理場景”PDF數(shù)據(jù)源

為確保合成數(shù)據(jù)的挑戰(zhàn)性（覆蓋真實(shí)OCR痛點(diǎn)，避免“模板化數(shù)據(jù)”，確保數(shù)據(jù)多樣性，與真實(shí)世界OCR需求對齊。），文章選擇高難度文檔樣本：數(shù)據(jù)來源arXiv數(shù)學(xué)論文（含復(fù)雜公式）、舊掃描件（低分辨率）、多列布局文檔、含復(fù)雜表格的文檔。

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）-AI.x社區(qū)

olmOCR 2 合成數(shù)據(jù)流水線的 HTML 頁面生成。從真實(shí)文檔中采樣一個(gè)頁面（左圖），并提示通用視覺語言模型（VLM）生成一個(gè)高度相似的 HTML 頁面（右圖）。渲染后的 HTML 頁面圖像與原始 HTML 配對，作為專用于 OCR 的 VLM 的監(jiān)督信號。

2. 步驟2：PDF→HTML的三階段轉(zhuǎn)換（生成“帶Ground Truth的結(jié)構(gòu)化文檔”）

HTML是生成單元測試的關(guān)鍵：其語義標(biāo)簽（如??<header>???、??<footer>???、??<table>??、KaTeX公式）可直接用于自動(dòng)提取測試用例。轉(zhuǎn)換過程依賴通用VLM（Claude-sonnet-4-20250514） ，分三階段迭代優(yōu)化：

階段	核心任務(wù)	輸入	輸出
1. 布局分析	讓VLM識別文檔結(jié)構(gòu)：列數(shù)、圖像/表格位置、頁眉/頁腳區(qū)域、公式位置等	原始PDF頁面圖像	布局結(jié)構(gòu)描述（如“2列，右上角有表格”）
2. 內(nèi)容渲染	讓VLM基于布局分析，生成與原始PDF尺寸一致的語義HTML	原始圖像+布局描述	初始HTML（含文本、KaTeX公式、HTML表格）
3. 輸出優(yōu)化	渲染初始HTML為圖像，與原始PDF對比，讓VLM修正差異（如字體、間距、公式格式）	原始圖像+初始HTML+渲染圖像	優(yōu)化后的最終HTML

3. 步驟3：基于HTML自動(dòng)生成單元測試

利用HTML的結(jié)構(gòu)化信息，程序化提取單元測試用例，無需人工干預(yù)：

文本不存在性測試：從??<header>??/??<footer>??標(biāo)簽提取頁眉/頁腳，生成“這些內(nèi)容不應(yīng)出現(xiàn)”的測試；
數(shù)學(xué)公式測試：從KaTeX標(biāo)簽提取公式，生成“渲染后與參考一致”的測試；
表格測試：從??<table>??標(biāo)簽隨機(jī)采樣單元格，生成“單元格相對位置正確”的測試；
閱讀順序測試：基于HTML中段落的先后順序，生成“段落順序符合HTML結(jié)構(gòu)”的測試。

最終生成的合成數(shù)據(jù)集 olmOCR2-synthmix-1025 包含：2186個(gè)PDF頁面 → 30381個(gè)單元測試用例，為RL訓(xùn)練提供充足數(shù)據(jù)。

訓(xùn)練流程：SFT→RLVR→模型融合，端到端優(yōu)化

olmOCR 2的訓(xùn)練分為監(jiān)督微調(diào)（SFT） 和強(qiáng)化學(xué)習(xí)（RLVR） 兩階段，結(jié)合模型融合（Souping）進(jìn)一步提升性能：

1. 階段1：sft

讓模型掌握基礎(chǔ)的文檔解析能力（文本提取、公式識別、表格結(jié)構(gòu)感知），為后續(xù)RL優(yōu)化打基礎(chǔ)。選擇Qwen2.5-VL-7B-Instruct，使用改進(jìn)后的監(jiān)督數(shù)據(jù)集 olmOCR-mix-1025（267962頁，來自10萬+PDF），相比舊版（olmOCR-mix-0225）的改進(jìn)：

用GPT-4.1替代GPT-4o處理數(shù)據(jù)，減少幻覺；
統(tǒng)一公式格式（塊級公式用??\[??，行內(nèi)公式用??\(??）；
表格用HTML格式存儲(chǔ)（而非純文本）；
為圖像添加基礎(chǔ)alt文本；

2. 階段2：強(qiáng)化學(xué)習(xí)（RLVR）

核心是用合成數(shù)據(jù)的單元測試作為獎(jiǎng)勵(lì)信號，通過GRPO算法優(yōu)化模型，解決SFT階段未覆蓋的復(fù)雜場景（如多列、公式、表格）。

訓(xùn)練數(shù)據(jù)：olmOCR2-synthmix-1025的合成文檔（帶單元測試）；
采樣策略：每個(gè)文檔生成28個(gè)不同的模型輸出（completions），確保覆蓋足夠多的候選結(jié)果；

獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）-AI.x社區(qū)

olmOCR 2 的 RLVR 訓(xùn)練的單元測試獎(jiǎng)勵(lì)。給定一個(gè)生成的 HTML 頁面及其單元測試（左側(cè)），可以根據(jù)這些單元測試輕松地對生成的 Markdown 頁面（右側(cè)）進(jìn)行評分。每個(gè)測試貢獻(xiàn)一個(gè)二元獎(jiǎng)勵(lì)，這些獎(jiǎng)勵(lì)在頁面級別匯總為通過率。例如，6 個(gè)測試中有 4 個(gè)通過，則頁面級別的獎(jiǎng)勵(lì)為 0.67。

獎(jiǎng)勵(lì)總分為三部分，取值均為0~1，確保模型同時(shí)優(yōu)化“內(nèi)容正確性”和“輸出格式合規(guī)性”：

獎(jiǎng)勵(lì)類型	計(jì)算方式	作用
主獎(jiǎng)勵(lì)：單元測試通過率	（通過的單元測試數(shù)量）/（總單元測試數(shù)量）	核心：優(yōu)化內(nèi)容正確性（公式、表格等）
輔助獎(jiǎng)勵(lì)1：EOS token	若輸出以EOS（結(jié)束符）結(jié)尾則為1，否則為0	避免模型無限重復(fù)（解決“重復(fù)循環(huán)”）
輔助獎(jiǎng)勵(lì)2：元數(shù)據(jù)位置	若文檔元數(shù)據(jù)（語言、旋轉(zhuǎn)校正系數(shù)）在輸出頂部則為1，否則按位置遞減	確保輸出結(jié)構(gòu)規(guī)范，便于下游處理

3. 階段3：模型融合（Souping）

為避免單一模型的隨機(jī)性，文章采用模型權(quán)重平均（Souping） 策略：訓(xùn)練6個(gè)不同隨機(jī)種子的RL模型（3個(gè)用token級重要性采樣，3個(gè)用序列級重要性采樣）；對6個(gè)模型的權(quán)重進(jìn)行平均，得到最終的olmOCR-2-7B-1025模型；

實(shí)驗(yàn)性能

RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源）-AI.x社區(qū)

OCR 模型性能對比

參考文獻(xiàn): olmOCR 2 Unit Test Rewards for Document OCR，https://arxiv.org/pdf/2510.19817v1
repo:https://github.com/allenai/olmocr

本文轉(zhuǎn)載自???大模型自然語言處理??? 作者：老余

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

文檔解析模型

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

2萬億訓(xùn)練數(shù)據(jù)，120億參數(shù)！開源大模型Stable LM 2-12B

Aceryt ? 4955瀏覽 ? 0回復(fù)
Google推出開源代碼大模型CodeGemma：AI編程新紀(jì)元，代碼自動(dòng)完成和生成技術(shù)再升級

AI論文解讀 ? 4790瀏覽 ? 0回復(fù)
Web2Code：適用于多模態(tài)大模型的大規(guī)模網(wǎng)頁轉(zhuǎn)代碼數(shù)據(jù)集與評估框架

sbf_2000 ? 6303瀏覽 ? 0回復(fù)
RAG技術(shù)性能提升之文檔分塊策略方案

AIGC觀察者 ? 6923瀏覽 ? 0回復(fù)
多模態(tài)大模型Qwen2的深入了解

一起AI技術(shù) ? 6052瀏覽 ? 0回復(fù)
多模態(tài)大模型數(shù)據(jù)構(gòu)造方法

shizhi02 ? 4705瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 3912瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 4431瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 4309瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 6379瀏覽 ? 0回復(fù)
多模態(tài)大模型Ovis核心技術(shù)點(diǎn)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 3426瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 1.7w瀏覽 ? 0回復(fù)
Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語言處理 ? 3345瀏覽 ? 0回復(fù)
多模態(tài)文檔檢索開源方案-三大競賽獲獎(jiǎng)方案技術(shù)鏈路

大模型自然語言處理 ? 2600瀏覽 ? 0回復(fù)
字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin

大模型自然語言處理 ? 2323瀏覽 ? 0回復(fù)
端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案

大模型自然語言處理 ? 1729瀏覽 ? 0回復(fù)
如何打造一個(gè)文檔解析的多模態(tài)大模型？MinerU2.5架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

大模型自然語言處理 ? 1349瀏覽 ? 0回復(fù)
再看兩階段多模態(tài)文檔解析大模型-PaddleOCR-VL架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

大模型自然語言處理 ? 499瀏覽 ? 0回復(fù)
端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

大模型自然語言處理 ? 1059瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

下一篇：多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路

社區(qū)精華內(nèi)容

目錄

<wbr id="wawz0"></wbr>