偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tfoot id="5vtrx"></tfoot>

<thead id="5vtrx"></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-9-3 10:17

瀏覽

0收藏

前期介紹了通過GRPO的方式解決多模態(tài)大模型OCR幻覺的思路《??GRPO強化學(xué)習(xí)緩解多模態(tài)大模型OCR任務(wù)的幻覺思路及數(shù)據(jù)生成思路???》。

由于多模態(tài)大模型的OCR感知能力不是特別強，容易像LLM一樣產(chǎn)生幻覺-即生成輸入圖像中并不存在的詞匯。LVLMs 設(shè)計用于通用目的，在OCR 任務(wù)上的表現(xiàn)往往不如在特定領(lǐng)域數(shù)據(jù)集上訓(xùn)練的專家模型。

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

幻覺例子

下面來看一個方案，首先通過利用自身的 OCR 能力識別輸入圖像中的內(nèi)容，然后調(diào)用其他工具（即其他專家模型）獲取其結(jié)果作為參考，最后“再看一眼”圖像并重新思考推理過程，以提供最終的識別結(jié)果，從而減輕 LVLMs 幻覺問題。

方法

給定一張圖像和一個文本問題，DianJin-OCR-R1 首先利用自身的 OCR 能力識別輸入圖像中的相關(guān)內(nèi)容。隨后，它調(diào)用其他專家模型或工具，并將其結(jié)果作為參考或補充信息。接著，模型“再次審視”圖像，綜合分析自身結(jié)果及其他模型的結(jié)果，反思在識別過程中是否出現(xiàn)錯誤或遺漏。最后，模型提供最終的識別內(nèi)容。

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

過程pipline

數(shù)據(jù)構(gòu)建

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

在印章、表格、公式三類OCR任務(wù)上生成推理數(shù)據(jù)，格式：

印章識別：文本
表格識別：HTML代碼（需包含單元格合并標(biāo)記??colspan/rowspan??，確保結(jié)構(gòu)與圖像完全一致）；
公式識別：LaTeX代碼。

三個任務(wù)的prompt：

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

數(shù)據(jù)構(gòu)建的核心是生成包含“推理過程”和“正確結(jié)果”的結(jié)構(gòu)化樣本，選用Qwen-VL-Max作為“推理鏈生成器”。

推理鏈（r_i）的結(jié)構(gòu)：模型自身識別的內(nèi)容用 < think>< /think> 標(biāo)簽包圍，多個工具響應(yīng)用 < tool>< /tool> 標(biāo)簽包圍，反思內(nèi)容用 < rethink>< /rethink> 標(biāo)簽包圍。生成的輸出用 < answer>< /answer> 標(biāo)簽包圍。

數(shù)據(jù)集來源

印章識別
ReST數(shù)據(jù)集（ICDAR 2023印章標(biāo)題識別競賽數(shù)據(jù)集），含5000張訓(xùn)練圖、5000張測試圖（因測試集無標(biāo)注，僅用訓(xùn)練集）；
參考工具：PP-StructureV3（專家OCR模型，低幻覺）、Qwen-VL-OCR（專家VLM，適配印章文本識別）。
表格識別
表格需同時覆蓋“語言多樣性”（中/英文）和“結(jié)構(gòu)復(fù)雜性”（合并單元格、多層表頭）；

a.內(nèi)部數(shù)據(jù)集（補充未公開的復(fù)雜表格場景，如合并單元格、跨頁表格）；

b.TabRecSet（公開雙語表格數(shù)據(jù)集，含38.1k表格，20.4k英文+17.7k中文）；

c.參考工具：PP-StructureV3（表格結(jié)構(gòu)解析，如??colspan/rowspan??識別）、MonkeyOCR-3B（LVLM，優(yōu)化表格內(nèi)容提取，適配雙語場景）。

公式識別
數(shù)據(jù)集：UniMER-1M
參考工具：PP-StructureV3（PP-FormulaNet模塊，優(yōu)化公式結(jié)構(gòu)解析）、MonkeyOCR-3B（擅長公式字符識別，減少符號錯誤）。

經(jīng)過處理，構(gòu)建了三類任務(wù)的推理數(shù)據(jù)集，統(tǒng)一表示為：

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

各數(shù)據(jù)集的token統(tǒng)計

模型訓(xùn)練及獎勵概述

Qwen2.5-VL-7B-Instruct 作為訓(xùn)練底座，
SFT掌握推理流程
RFT優(yōu)化精度與格式：

a.格式獎勵：推理鏈需嚴(yán)格包含< recognition>、< tool>、< rethink>、`` 標(biāo)簽，且無額外內(nèi)容 → 獎勵 1.0；否則 → 獎勵 0.0

b.準(zhǔn)確率獎勵：（1）印章：完全匹配→1.0，否則 0.0；（2）表格：獎勵 = TEDS（結(jié)構(gòu) + 內(nèi)容相似度）；（3）公式：獎勵 = CDM（字符匹配度），CDM=1.0 時額外加 0.5（鼓勵完美結(jié)果）。

實驗效果

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路：DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

參考文獻(xiàn)：DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model，https://www.arxiv.org/pdf/2508.13238
repo:https://github.com/aliyun/qwen-dianjin

本文轉(zhuǎn)載自??大模型自然語言處理?? 作者：llmnlp

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)大模型

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

CVPR 2024 | 多模態(tài)大模型幻覺原因找到了！

zhangyannni ? 6382瀏覽 ? 0回復(fù)
一眼假！GPT4V可有效識別DeepFake圖像！

pangguiyu ? 6264瀏覽 ? 0回復(fù)
谷歌通過數(shù)據(jù)增強、對比調(diào)優(yōu)，減少多模態(tài)模型幻覺

Aceryt ? 4031瀏覽 ? 0回復(fù)
解決大型多模態(tài)模型的幻覺問題，新方法AITuning助力AI更可靠

AI論文解讀 ? 4374瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺問題（幻覺檢測、緩解、任務(wù)、數(shù)據(jù)集和評估指標(biāo)）

angel ? 6918瀏覽 ? 0回復(fù)
詳解大規(guī)?；A(chǔ)模型中的幻覺問題（幻覺檢測、緩解、任務(wù)、數(shù)據(jù)集和評估指標(biāo)）

angel ? 7049瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 3922瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 4440瀏覽 ? 0回復(fù)
Mistral發(fā)布最強多模態(tài)文檔理解模型Mistral OCR！可免費試用！

51CTO技術(shù)棧 ? 4000瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

大模型自然語言處理 ? 3589瀏覽 ? 0回復(fù)
為什么大模型在 OCR 任務(wù)上表現(xiàn)不佳？

Baihai_IDP ? 2611瀏覽 ? 0回復(fù)
DyPRAG：即插即用動態(tài)將上下文轉(zhuǎn)化為參數(shù)知識，有效緩解RAG幻覺

大模型自然語言處理 ? 3574瀏覽 ? 0回復(fù)
使用人工智能幻覺評估圖像真實感?

51CTO內(nèi)容精選 ? 2833瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強大模型，全面超越DeepSeek-R1

靈度智能 ? 3251瀏覽 ? 0回復(fù)
馴服AI幻覺：通過人在循環(huán)（HITL）測試減輕AI應(yīng)用中的幻覺

51CTO內(nèi)容精選 ? 1957瀏覽 ? 0回復(fù)
將R1的思路引入多模態(tài)大模型的RL訓(xùn)練配方-Skywork-R1V3

大模型自然語言處理 ? 1929瀏覽 ? 0回復(fù)
GRPO強化學(xué)習(xí)緩解多模態(tài)大模型OCR任務(wù)的幻覺思路及數(shù)據(jù)生成思路

大模型自然語言處理 ? 2902瀏覽 ? 0回復(fù)
OCR + LLM：誰才是最強組合？五大模型深度對比

Halo咯咯 ? 3447瀏覽 ? 0回復(fù)
ppt檢索的RAG方案（多模態(tài)、OCR、混合檢索）評估結(jié)論

大模型自然語言處理 ? 1089瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路 4天前發(fā)布
多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計思路 6天前發(fā)布

熱門推薦

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個 “非主流” 量化大佬的 AI 夢 0回復(fù)

DeepSeek團(tuán)隊開源新模型DeepSeek-OCR，用3B參數(shù)量實現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇： InternVL3.5多模態(tài)大模型改進(jìn)點及視覺分辨率理由模塊技術(shù)淺嘗

下一篇：如何讓多模態(tài)大模型學(xué)會“自動思考”-R-4B訓(xùn)練框架核心設(shè)計與訓(xùn)練方法

社區(qū)精華內(nèi)容

目錄

<wbr id="4p5wg"></wbr>

<ruby id="4p5wg"></ruby>