多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺 原創(chuàng)
前期介紹了通過GRPO的方式解決多模態(tài)大模型OCR幻覺的思路《??GRPO強化學(xué)習(xí)緩解多模態(tài)大模型OCR任務(wù)的幻覺思路及數(shù)據(jù)生成思路???》。
由于多模態(tài)大模型的OCR感知能力不是特別強,容易像LLM一樣產(chǎn)生幻覺-即生成輸入圖像中并不存在的詞匯。LVLMs 設(shè)計用于通用目的,在OCR 任務(wù)上的表現(xiàn)往往不如在特定領(lǐng)域數(shù)據(jù)集上訓(xùn)練的專家模型。

幻覺例子
下面來看一個方案,首先通過利用自身的 OCR 能力識別輸入圖像中的內(nèi)容,然后調(diào)用 其他工具(即其他專家模型)獲取其結(jié)果作為參考,最后“再看一眼”圖像并重新思考推理過程,以提供最終的識別結(jié)果,從而減輕 LVLMs 幻覺問題。
方法
給定一張圖像和一個文本問題,DianJin-OCR-R1 首先利用自身的 OCR 能力識別輸入圖像中的相關(guān)內(nèi)容。隨后,它調(diào)用其他專家模型或工具,并將其結(jié)果作為參考或補充信息。接著,模型“再次審視”圖像,綜合分析自身結(jié)果及其他模型的結(jié)果,反思在識別過程中是否出現(xiàn)錯誤或遺漏。最后,模型提供最終的識別內(nèi)容。

過程pipline
數(shù)據(jù)構(gòu)建

在印章、表格、公式三類OCR任務(wù)上生成推理數(shù)據(jù),格式:
- 印章識別:文本
- 表格識別:HTML代碼(需包含單元格合并標(biāo)記?
?colspan/rowspan??,確保結(jié)構(gòu)與圖像完全一致); - 公式識別:LaTeX代碼。
三個任務(wù)的prompt:



數(shù)據(jù)構(gòu)建的核心是生成包含“推理過程”和“正確結(jié)果”的結(jié)構(gòu)化樣本,選用Qwen-VL-Max作為“推理鏈生成器”。
推理鏈(ri)的結(jié)構(gòu):模型自身識別的內(nèi)容用 < think>< /think> 標(biāo)簽包圍,多個工具響應(yīng)用 < tool>< /tool> 標(biāo)簽包圍,反思內(nèi)容用 < rethink>< /rethink> 標(biāo)簽包圍。生成的輸出用 < answer>< /answer> 標(biāo)簽包圍。
數(shù)據(jù)集來源
- 印章識別
ReST數(shù)據(jù)集(ICDAR 2023印章標(biāo)題識別競賽數(shù)據(jù)集),含5000張訓(xùn)練圖、5000張測試圖(因測試集無標(biāo)注,僅用訓(xùn)練集);
參考工具:PP-StructureV3(專家OCR模型,低幻覺)、Qwen-VL-OCR(專家VLM,適配印章文本識別)。 - 表格識別
表格需同時覆蓋“語言多樣性”(中/英文)和“結(jié)構(gòu)復(fù)雜性”(合并單元格、多層表頭);
a.內(nèi)部數(shù)據(jù)集(補充未公開的復(fù)雜表格場景,如合并單元格、跨頁表格);
b.TabRecSet(公開雙語表格數(shù)據(jù)集,含38.1k表格,20.4k英文+17.7k中文);
c.參考工具:PP-StructureV3(表格結(jié)構(gòu)解析,如??colspan/rowspan??識別)、MonkeyOCR-3B(LVLM,優(yōu)化表格內(nèi)容提取,適配雙語場景)。
- 公式識別
數(shù)據(jù)集:UniMER-1M
參考工具:PP-StructureV3(PP-FormulaNet模塊,優(yōu)化公式結(jié)構(gòu)解析)、MonkeyOCR-3B(擅長公式字符識別,減少符號錯誤)。
經(jīng)過處理,構(gòu)建了三類任務(wù)的推理數(shù)據(jù)集,統(tǒng)一表示為:


各數(shù)據(jù)集的token統(tǒng)計
模型訓(xùn)練及獎勵概述
- Qwen2.5-VL-7B-Instruct 作為訓(xùn)練底座,
- SFT掌握推理流程
- RFT優(yōu)化精度與格式:
a.格式獎勵:推理鏈需嚴(yán)格包含< recognition>、< tool>、< rethink>、`` 標(biāo)簽,且無額外內(nèi)容 → 獎勵 1.0;否則 → 獎勵 0.0
b.準(zhǔn)確率獎勵:(1)印章:完全匹配→1.0,否則 0.0;(2)表格:獎勵 = TEDS(結(jié)構(gòu) + 內(nèi)容相似度);(3)公式:獎勵 = CDM(字符匹配度),CDM=1.0 時額外加 0.5(鼓勵完美結(jié)果)。
實驗效果


參考文獻(xiàn):DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model,https://www.arxiv.org/pdf/2508.13238
repo:https://github.com/aliyun/qwen-dianjin
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:llmnlp

















