偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺 原創(chuàng)

發(fā)布于 2025-9-3 10:17
瀏覽
0收藏

前期介紹了通過GRPO的方式解決多模態(tài)大模型OCR幻覺的思路《??GRPO強化學(xué)習(xí)緩解多模態(tài)大模型OCR任務(wù)的幻覺思路及數(shù)據(jù)生成思路???》。

由于多模態(tài)大模型的OCR感知能力不是特別強,容易像LLM一樣產(chǎn)生幻覺-即生成輸入圖像中并不存在的詞匯。LVLMs 設(shè)計用于通用目的,在OCR 任務(wù)上的表現(xiàn)往往不如在特定領(lǐng)域數(shù)據(jù)集上訓(xùn)練的專家模型。

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

幻覺例子

下面來看一個方案,首先通過利用自身的 OCR 能力識別輸入圖像中的內(nèi)容,然后調(diào)用 其他工具(即其他專家模型)獲取其結(jié)果作為參考,最后“再看一眼”圖像并重新思考推理過程,以提供最終的識別結(jié)果,從而減輕 LVLMs 幻覺問題。

方法

給定一張圖像和一個文本問題,DianJin-OCR-R1 首先利用自身的 OCR 能力識別輸入圖像中的相關(guān)內(nèi)容。隨后,它調(diào)用其他專家模型或工具,并將其結(jié)果作為參考或補充信息。接著,模型“再次審視”圖像,綜合分析自身結(jié)果及其他模型的結(jié)果,反思在識別過程中是否出現(xiàn)錯誤或遺漏。最后,模型提供最終的識別內(nèi)容。

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

過程pipline

數(shù)據(jù)構(gòu)建

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

在印章、表格、公式三類OCR任務(wù)上生成推理數(shù)據(jù),格式:

  • 印章識別:文本
  • 表格識別:HTML代碼(需包含單元格合并標(biāo)記??colspan/rowspan??,確保結(jié)構(gòu)與圖像完全一致);
  • 公式識別:LaTeX代碼。

三個任務(wù)的prompt:

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

數(shù)據(jù)構(gòu)建的核心是生成包含“推理過程”和“正確結(jié)果”的結(jié)構(gòu)化樣本,選用Qwen-VL-Max作為“推理鏈生成器”。

推理鏈(ri)的結(jié)構(gòu):模型自身識別的內(nèi)容用 < think>< /think> 標(biāo)簽包圍,多個工具響應(yīng)用 < tool>< /tool> 標(biāo)簽包圍,反思內(nèi)容用 < rethink>< /rethink> 標(biāo)簽包圍。生成的輸出用 < answer>< /answer> 標(biāo)簽包圍。

數(shù)據(jù)集來源
  1. 印章識別
    ReST數(shù)據(jù)集(ICDAR 2023印章標(biāo)題識別競賽數(shù)據(jù)集),含5000張訓(xùn)練圖、5000張測試圖(因測試集無標(biāo)注,僅用訓(xùn)練集);
    參考工具:PP-StructureV3(專家OCR模型,低幻覺)、Qwen-VL-OCR(專家VLM,適配印章文本識別)。
  2. 表格識別
    表格需同時覆蓋“語言多樣性”(中/英文)和“結(jié)構(gòu)復(fù)雜性”(合并單元格、多層表頭);

     a.內(nèi)部數(shù)據(jù)集(補充未公開的復(fù)雜表格場景,如合并單元格、跨頁表格);

     b.TabRecSet(公開雙語表格數(shù)據(jù)集,含38.1k表格,20.4k英文+17.7k中文);

     c.參考工具:PP-StructureV3(表格結(jié)構(gòu)解析,如??colspan/rowspan??識別)、MonkeyOCR-3B(LVLM,優(yōu)化表格內(nèi)容提取,適配雙語場景)。

  1. 公式識別
    數(shù)據(jù)集:UniMER-1M
    參考工具:PP-StructureV3(PP-FormulaNet模塊,優(yōu)化公式結(jié)構(gòu)解析)、MonkeyOCR-3B(擅長公式字符識別,減少符號錯誤)。

經(jīng)過處理,構(gòu)建了三類任務(wù)的推理數(shù)據(jù)集,統(tǒng)一表示為:

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

各數(shù)據(jù)集的token統(tǒng)計

模型訓(xùn)練及獎勵概述
  • Qwen2.5-VL-7B-Instruct 作為訓(xùn)練底座,
  • SFT掌握推理流程
  • RFT優(yōu)化精度與格式:

     a.格式獎勵:推理鏈需嚴(yán)格包含< recognition>、< tool>、< rethink>、`` 標(biāo)簽,且無額外內(nèi)容 → 獎勵 1.0;否則 → 獎勵 0.0

     b.準(zhǔn)確率獎勵:(1)印章:完全匹配→1.0,否則 0.0;(2)表格:獎勵 = TEDS(結(jié)構(gòu) + 內(nèi)容相似度);(3)公式:獎勵 = CDM(字符匹配度),CDM=1.0 時額外加 0.5(鼓勵完美結(jié)果)。

實驗效果

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

多模態(tài)大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺-AI.x社區(qū)

參考文獻(xiàn):DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model,https://www.arxiv.org/pdf/2508.13238
repo:https://github.com/aliyun/qwen-dianjin


本文轉(zhuǎn)載自??大模型自然語言處理??   作者:llmnlp

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦