偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="rz0rm"></em>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin 原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-5-28 06:42

瀏覽

0收藏

下面來看一下字節(jié)最新開源的多模態(tài)文檔解析方案，筆者實際測下來性能還有待提升（鑒于合成數(shù)據(jù)，泛化性還較差，存在幻覺），不過思路可以借鑒下，供參考。

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

Dolphin性能

創(chuàng)新點

兩階段解析架構(gòu)：Dolphin采用了分析-解析范式，首先進(jìn)行頁面級布局分析，生成結(jié)構(gòu)化布局元素序列，然后在第二階段通過異構(gòu)錨點提示進(jìn)行并行內(nèi)容解析。
端到端的文檔解析，模型參數(shù)量小（300M+），易于落地
提供了數(shù)據(jù)合成的思路，大規(guī)模數(shù)據(jù)增強(qiáng)模型的泛化能力
提供了位置坐標(biāo)，通過并行解析的方式加快了解析速度

模型架構(gòu)與方法

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

Dolphin 的兩階段文檔圖像解析范式概述

模型架構(gòu)

類似donut，基于VisionEncoderDecoderModel架構(gòu)，視覺編碼器：donut-swin + 解碼器：mbart，因此可以看出，模型側(cè)并沒有什么創(chuàng)新，創(chuàng)新點主要在于數(shù)據(jù)構(gòu)建策略上。

方法

分兩個階段：

1.1 第一階段：頁面級布局分析

(1) 圖像編碼（Page Image Encoding）

使用Swin Transformer提取文檔圖像的視覺特征，輸出形狀為，其中：

??d?? 是嵌入維度

??N?? 是圖像被分割的 patch 數(shù)量

輸入圖像會被調(diào)整大小并填充到固定尺寸（如??896×896??），以保持長寬比，避免文本變形。

(2) 布局序列生成（Layout Sequence Generation）

使用mBart 解碼器，在布局分析提示（??Playout??）的引導(dǎo)下，按閱讀順序生成文檔元素的序列??L = {l?, l?, ..., l?}???，其中每個元素??l??? 包含：

類型（如文本段落、表格、公式）

邊界框（bounding box）

提示示例：

Parse the reading order of this document.

1.2 第二階段：元素級內(nèi)容解析

(1) 元素圖像編碼（Element Image Encoding）：對第一階段提取的每個元素 ??l????，從原圖中裁剪出對應(yīng)的區(qū)域 ??I???，并用 Swin Transformer 編碼，得到該元素的視覺特征。

(2) 并行內(nèi)容解析（Parallel Content Parsing）：對每個裁剪后的元素圖像 ??I???，結(jié)合 特定類型的提示（??p???），由解碼器并行生成解析結(jié)果：

表格→ 使用??P_table?? 提示，解析為 HTML 格式
公式→ 使用??P_paragraph?? 提示（與文本段落相同），解析為 LaTeX 格式
文本段落→ 使用??P_paragraph?? 提示，解析為純文本
提示示例：
表格解析：??Parse the table in the image.??
文本/公式解析：??Read text in the image.??

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

小結(jié)：并行解碼的優(yōu)勢：并行處理多個元素，比串行解析更快（實驗顯示速度提升 ~2×）。每個元素的解析獨立進(jìn)行，減少長序列建模的誤差累積。

1.3. 數(shù)據(jù)集構(gòu)建

Dolphin 使用 3000萬+ 樣本 進(jìn)行訓(xùn)練，涵蓋多種文檔類型和解析任務(wù)：

數(shù)據(jù)來源

混合文檔：教育材料（試卷、教材）、出版物（雜志、報紙）、商業(yè)文檔（PPT、報告）。
HTML：從維基百科渲染生成，增強(qiáng)視覺多樣性。
LaTeX：從 arXiv 論文提取，保留結(jié)構(gòu)信息。
Markdown：從 GitHub 渲染，支持表格和公式。
表格 & 公式：PubTabNet、PubTab1M（表格）、arXiv 公式（LaTeX 渲染）。

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

實驗性能

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin-AI.x社區(qū)

參考文獻(xiàn)：Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting，https://arxiv.org/pdf/2505.14059

code：???https://github.com/bytedance/Dolphin??

本文轉(zhuǎn)載自??大模型自然語言處理?? 作者：余俊暉

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

已于2025-5-28 06:42:11修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

擊敗SDXL登頂SOTA | CoMat:端到端的擴(kuò)散模型微調(diào)策略

angel ? 4079瀏覽 ? 0回復(fù)
OCR小模型仍有機(jī)會！華科等提出VIMTS：零樣本視頻端到端識別新SOTA

duhorse ? 3105瀏覽 ? 0回復(fù)
TinyAgent：邊緣端的功能調(diào)用

AIGC最前線 ? 3594瀏覽 ? 0回復(fù)
復(fù)旦和騰訊優(yōu)圖發(fā)布端到端人像動畫生成器VividPose！

angel ? 4742瀏覽 ? 0回復(fù)
借助HuggingFace輕松實施一個端到端項目

51CTO內(nèi)容精選 ? 3266瀏覽 ? 0回復(fù)
南理工&InstantX&小紅書發(fā)布CSGO:簡單高效的端到端風(fēng)格遷移框架

angel ? 2946瀏覽 ? 0回復(fù)
使用Concrete ML為模型訓(xùn)練和推理確保端到端隱私

51CTO內(nèi)容精選 ? 2127瀏覽 ? 0回復(fù)
什么是端到端(end to end)大模型，它和傳統(tǒng)的大模型有什么區(qū)別？其優(yōu)勢與劣勢是什么？

AI探索時代 ? 4469瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4754瀏覽 ? 0回復(fù)
AI 推理市場全景解析：戰(zhàn)火從云端到邊緣端

Syrupup ? 2590瀏覽 ? 0回復(fù)
Material Anything：端到端打造任意3D物體的高質(zhì)量材質(zhì)！

angel ? 3058瀏覽 ? 0回復(fù)
最新端側(cè)全模態(tài)大模型Megrez-3B-Omni

NLP工作站 ? 3889瀏覽 ? 0回復(fù)
文檔解析技術(shù)指南：從傳統(tǒng)Pipeline到端到端大模型

Baihai_IDP ? 3013瀏覽 ? 0回復(fù)
英偉達(dá)ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法

大模型自然語言處理 ? 2141瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 3870瀏覽 ? 0回復(fù)
VAE與擴(kuò)散模型迎來端到端聯(lián)合訓(xùn)練：REPA-E讓VAE自我進(jìn)化！

angel ? 1549瀏覽 ? 0回復(fù)
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5

Aceryt ? 1872瀏覽 ? 0回復(fù)
首次實現(xiàn)納米晶體端到端解析，哥大團(tuán)隊提出PXRDnet，成功解析200種復(fù)雜模擬納米晶體

HyperAI超神經(jīng) ? 1384瀏覽 ? 0回復(fù)
字節(jié)開源Dolphin文檔解析模型-部署指南+實戰(zhàn)測試

AI小新 ? 1313瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

RAG知識庫構(gòu)建新框架-EasyDoc小模型+多模態(tài)大模型結(jié)合的文檔智能解析框架 2天前發(fā)布
用于實時工業(yè)社區(qū)問答的RAG新框架-ComRAG 3天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇： Qwen3模型架構(gòu)、訓(xùn)練方法梳理

下一篇：使用多Agent進(jìn)行海報生成的技術(shù)方案及評估套件-P2P、paper2poster

社區(qū)精華內(nèi)容

目錄

<var id="i7itx"><thead id="i7itx"><dfn id="i7itx"></dfn></thead></var><big id="i7itx"><samp id="i7itx"><small id="i7itx"></small></samp></big>

<em id="i7itx"><ul id="i7itx"><em id="i7itx"></em></ul></em>

<var id="i7itx"><fieldset id="i7itx"></fieldset></var>