偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法 原創(chuàng)

發(fā)布于 2025-10-21 10:00
瀏覽
0收藏

DeepSeek-OCR是一個端到端的多模態(tài)文檔解析模型,是Vary、GOT-OCR2.0的后續(xù),前期也有詳細(xì)介紹《??【多模態(tài)&文檔智能】OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)??》。其核心目標(biāo)是用極少的視覺 token(vision tokens)解碼出大量文本 token(text tokens)。

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

視覺token壓縮比和性能比較

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

VLMs中的典型視覺編碼?:處理長文本時視覺 token 過多、激活內(nèi)存大的問題

多模態(tài)文檔解析相關(guān)就不再過多介紹了,詳細(xì)可以看專欄《???文檔智能??》。

模型架構(gòu)

如下圖,DeepSeek-OCR的架構(gòu)由編碼器(DeepEncoder)和解碼器(DeepSeek3B-MoE-A570M)組成。

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

DeepSeek-OCR的架構(gòu)

DeepEncoder

DeepEncoder設(shè)計(jì)

DeepEncoder是DeepSeek-OCR的最核心部分(高分辨率下的輕量視覺壓縮器),專門解決現(xiàn)有VLMs視覺編碼器(如Vary、InternVL2.0)的痛點(diǎn):高分辨率輸入時token過多、激活內(nèi)存大、不支持多分辨率。包含三個組件:

  • 模塊1:視覺感知(窗口注意力主導(dǎo))
    采用SAM-base(Segment Anything Model,80M參數(shù)),輸入圖像被分割為16×16的patch(如1024×1024圖像生成4096個patch token)。這個在vary和got中均使用。
    作用:通過窗口注意力(局部注意力)捕捉圖像細(xì)節(jié)(如文本位置、字體),避免全局注意力的高內(nèi)存消耗。
  • 模塊2:16×卷積壓縮器
    位于SAM和CLIP之間,由2層卷積構(gòu)成(核大小3×3,步長2,通道數(shù)從256→1024),實(shí)現(xiàn)視覺token的16倍下采樣。
    作用:將SAM輸出的4096個token壓縮為256個(1024×1024輸入場景),大幅減少后續(xù)全局注意力模塊的計(jì)算量,控制激活內(nèi)存。
  • 模塊3:視覺知識(全局注意力主導(dǎo))
    采用CLIP-large(300M參數(shù)),但移除第一層patch嵌入層(輸入改為壓縮后的token)。
    作用:通過全局注意力整合壓縮后的token,提煉圖像全局語義(如文檔布局、文本邏輯),為解碼提供結(jié)構(gòu)化視覺知識。
多分辨率支持:適配不同壓縮比需求

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

DeepEncoder的多分辨率支持。為了研究和應(yīng)用目的,設(shè)計(jì)了具有多種原生分辨率和動態(tài)分辨率模式的DeepEncoder

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

Base/Large模式通過“ padding 保留寬高比”,有效token數(shù)按公式下面公式計(jì)算(避免無效token浪費(fèi))。

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

MoE解碼器

解碼器使用的是DeepSeek3B-MoE,由3B參數(shù)的MoE模型,包含64個routed experts和2個shared experts。推理時僅激活6個routed experts+2個shared experts,實(shí)際激活參數(shù)約570M(僅為3B模型的19%)。這樣做既保留3B模型的文本生成能力,又將推理速度提升至“500M小模型”級別,適合大規(guī)模部署。

數(shù)據(jù)

1. OCR 1.0數(shù)據(jù)

OCR 1.0數(shù)據(jù)和前面的vary、got-ocr數(shù)據(jù)構(gòu)建相似,主要用于訓(xùn)練模型識別傳統(tǒng)OCR場景(文檔、自然場景文本)。 構(gòu)成如下:

  • 文檔數(shù)據(jù):30M頁多語言PDF(100種語言,中英占25M頁),含“粗標(biāo)注”(fitz工具提取,教模型識別文本)和“細(xì)標(biāo)注”(2M頁中英,用PP-DocLayout+MinerU2.0標(biāo)注布局+文本,教模型理解排版);
  • 自然場景數(shù)據(jù):20M頁圖像(LAION+Wukong數(shù)據(jù)集,用PaddleOCR標(biāo)注,支持中英場景文本識別);
  • Word數(shù)據(jù):3M頁,無布局干擾,優(yōu)化公式、HTML表格的識別。

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

OCR 1.0示例:將真實(shí)值格式化為交錯布局和文本格式,其中每段文本前都附有其在原始圖像中的坐標(biāo)和標(biāo)簽。所有坐標(biāo)都?xì)w一化到1000個區(qū)間內(nèi)。

2. OCR 2.0數(shù)據(jù)

支持圖表、化學(xué)公式、幾何圖形的結(jié)構(gòu)化解析。

  • 圖表數(shù)據(jù):10M張(線圖、柱狀圖等),標(biāo)注為HTML表格(而非字典格式,節(jié)省token);
  • 化學(xué)公式:5M對圖像-文本(SMILES格式數(shù)據(jù)源,RDKit工具渲染圖像);
  • 平面幾何:1M張(Slow Perception方法生成,標(biāo)注線段、端點(diǎn)坐標(biāo),支持幾何結(jié)構(gòu)重建)。

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

示例

3. 通用視覺數(shù)據(jù)

避免模型僅適配OCR場景,保留VLMs的通用視覺能力(如圖像描述、目標(biāo)檢測)。數(shù)據(jù)構(gòu)成參考DeepSeek-VL2,生成圖像描述、目標(biāo)檢測、視覺定位任務(wù)數(shù)據(jù),占總數(shù)據(jù)20%。

4. 純文本數(shù)據(jù)

目的是提升解碼器的文本流暢度,避免“視覺-文本”映射導(dǎo)致語言能力退化。 10%的內(nèi)部純文本數(shù)據(jù),統(tǒng)一處理為8192 token長度(與模型序列長度一致)。

訓(xùn)練流程

訓(xùn)練分兩階段進(jìn)行,先優(yōu)化編碼器質(zhì)量,再訓(xùn)練端到端模型。

1. 階段1:獨(dú)立訓(xùn)練DeepEncoder

與vary相似,讓編碼器學(xué)會“高分辨率輸入→壓縮視覺token”的映射,保證token質(zhì)量。使用上述所有OCR 1.0和2.0數(shù)據(jù),以及從LAION數(shù)據(jù)集中抽取的1億條通用數(shù)據(jù)。

2. 階段2:訓(xùn)練端到端DeepSeek-OCR

聯(lián)合優(yōu)化“編碼器→解碼器”的映射,提升OCR精度與泛化性。采用流水線并行(PP=4),DeepEncoder占2段(SAM+壓縮器凍結(jié),CLIP解凍),解碼器占2段(12層MoE分6層/段);

Gundam-M模式微調(diào)適配超高清文檔(如報(bào)紙),但避免與其他模式共訓(xùn)拖慢速度。在預(yù)訓(xùn)練好的DeepSeek-OCR上,用6M采樣數(shù)據(jù)繼續(xù)訓(xùn)練Gundam-M模式(1024×1024局部+1280×1280全局)。

實(shí)驗(yàn)

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

視覺-文本壓縮比

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

OmniDocBench評測

端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法-AI.x社區(qū)

OmniDocBench中不同類別文檔的編輯距離

參考文獻(xiàn):DeepSeek-OCR: Contexts Optical Compression,https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
權(quán)重地址:https://huggingface.co/deepseek-ai/DeepSeek-OCR

本文轉(zhuǎn)載自??大模型自然語言處理??   作者:老余

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-10-21 10:01:37修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦