偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

聚焦結構化注意力,探索提升多模態(tài)大模型文檔問答性能

人工智能
本文聚焦多模態(tài)大語言模型在文檔問答任務中的性能提升,提出無需改動模型架構或額外訓練的結構化輸入方法,通過保留文檔層次結構與空間關系優(yōu)化理解能力。

本文聚焦多模態(tài)大語言模型(MLLMs)在文檔問答(DocQA)任務中的性能提升,提出無需改動模型架構或額外訓練的結構化輸入方法,通過保留文檔層次結構與空間關系(如標題、表格、圖像位置)優(yōu)化理解能力。研究發(fā)現,傳統(tǒng)無結構OCR輸入導致注意力分散,性能下降,而 LaTeX 范式結構化輸入顯著提升表現。注意力分析揭示其誘導“結構化注意力”,減少無關區(qū)域干擾,聚焦語義核心。在MMLongBench、PaperTab等四個數據集上驗證,該方法尤其在復雜圖表任務中效果顯著,為智能文檔處理與自動問答提供高效的解決方案。

01、引言

多模態(tài)大語言模型(Multimodal Large Language Models, MLLMs)蓬勃發(fā)展的今天,文檔理解(Document Understanding)作為一項涉及文本、圖表和圖像的復雜任務,依然面臨諸多挑戰(zhàn)。如何高效整合多源信息、理解文檔的層次結構,成為提升 MLLMs 性能的關鍵問題。研究發(fā)現了一種無需修改模型架構或額外訓練的新方法:僅通過結構化輸入提升 MLLMs在文檔問答(DocQA)任務中的表現,同時通過注意力分析實踐探尋結構化輸入帶來性能提升的深層原因。

02、文檔理解的核心挑戰(zhàn)

文檔理解要求模型同時處理文本、圖表、圖像等多模態(tài)信息,并準確回答問題。然而,現有方法多依賴于擴展上下文窗口或優(yōu)化檢索增強生成(RAG),忽略了一個關鍵問題:輸入格式如何影響模型的理解能力?

研究發(fā)現,傳統(tǒng)的無結構 OCR 文本輸入在某些case下未提升模型性能,反而因注意力分散和結構丟失導致性能下降。例如,在 MMLongBench 數據集上,加入無結構 OCR 文本后,模型準確率從 0.389 下降至 0.370。


當前主流多模態(tài)大模型已經具備處理多模態(tài)信息的能力,其中Qwen2.5-VL-7B-Instruct,Phi-3.5-Vision-Instruct,SmolVLM-Instruct等在多個多模態(tài)任務上達到了SOTA,但在文檔閱讀任務中仍表現不佳。以往文檔閱讀模型通過訓練得到專用模型來進行文檔閱讀理解,并基于文檔回答問題,如mPLUG-DocOwl,Textmonkey等模型。但隨著RAG的快速發(fā)展,像ColBERT 和ColPali 這樣的RAG方法在分別檢索文本或視覺信息方面已被證明有效,當前主流方法通?;赗AG檢索證據頁面,然后將證據信息直接輸入多模態(tài)大模型中以便回答DocQAs。但當問題需要整合來自兩種模態(tài)的信息時,它們通常表現不佳。

隨著通用大模型的發(fā)展和AGI概念的普及,如何直接利用通用多模態(tài)大模型達到目的,不額外進行訓練成為研究熱點。改變輸入結構能否幫助多模態(tài)大模型進行高效推理為本文探討的重點。本文致力于探尋通用多模態(tài)大模型在何種條件下能夠具有更加高效的推理理解能力,能否具備在trainning free的條件下達到較高的多元素文檔理解能力。

03、創(chuàng)新方法

結構化輸入與注意力分析

為解決這一問題,提出了一種基于 LaTeX 范式的結構保留方法。該方法通過保留文檔的層次結構和空間關系(如標題、表格、圖像的位置),從而為模型提供更清晰的語義引導。

具體流程包括:

  • 結構化編碼:將 OCR 文本和圖像輸入 MLLMs,提示模型盡可能保留圖表、表格和文本的結構,生成 LaTeX 格式的表示。
  • 聯合輸入:將結構化文本與原始圖像一同輸入模型,指導其在回答問題時關注關鍵區(qū)域。
  • 注意力分析:通過比較僅圖像輸入、圖像加無結構文本、圖像加結構化文本三種情況的注意力分布,發(fā)現結構化輸入顯著減少了注意力浪費,引導模型聚焦于語義相關的文本和圖像區(qū)域。

實驗結果表明,該方法在多個文檔理解基準數據集上顯著提升了模型性能。例如,在 MMLongBench 上,QWEN2.5-VL-7B-INSTRUCT 的準確率從 0.389 提升至 0.435;在 PaperTab 數據集上,準確率提升高達 20%,得益于 LaTeX 格式對表格和圖表的精準解析。

04、通過注意力機制進行深層原因探究

進一步的,通過注意力分析揭示了結構化輸入的內在機制。無結構文本輸入導致模型注意力分布散亂,浪費在圖像邊緣或無關區(qū)域;而結構化文本添加了結構化約束,誘導模型形成“結構化注意力”模式,聚焦于文檔的核心內容(如圖表、文本塊)。例如,在一個案例中,模型需根據圖表回答“西德居民對美俄關系的看法比例”。無結構輸入下,注意力分散在圖像空白區(qū)域;結構化輸入后,注意力集中于圖表和相關文本,顯著提高答案準確性。

結構化輸入幫助減少MLLMs對于圖片邊界token的關注度,提高了模型對于文章主體部分的注意力得分。

具體實例分析,證明結構化輸入的重要意義。

05、實驗驗證與數據支持

在四個文檔理解基準數據集(MMLongBench、LongDocUrl、PaperTab、FetaTab)上測試4種 MLLMs 模型(如 QWEN2-VL-7B-INSTRUCT、Phi-3.5-Vision-Instruct)。結果顯示,結構化輸入在所有數據集上均提升了模型性能,尤其在包含復雜圖表的 PaperTab 數據集上效果顯著。消融實驗進一步證明,僅用結構化文本或僅用圖像的性能均低于兩者結合,驗證了結構化輸入與圖像聯合使用的必要性。

06、總結與展望

實踐研究揭示了輸入格式對 MLLMs 文檔理解能力的關鍵影響,提出了一種簡單而高效的結構化輸入方法。未來可進一步探索更先進的結構提取技術或設計注意力控制插件,以進一步釋放 MLLMs 在文檔理解中的潛力。該研究提供了一種無需重訓模型即可提升性能的實用方案,適用于智能文檔處理、自動問答等場景。在沒有額外訓練和架構修改的前提下,通過簡單的結構化文本輸入,可以提升現有多模態(tài)大模型在文檔理解任務中的表現。此項研究可以幫助用戶分析、工作解析等場景中更準確地提取信息,提升工作效率。同時,RAG(檢索增強生成)系統(tǒng)也能結合結構化輸入來降低信息檢索中的噪聲,從而更高效地利用檢索到的證據頁面,為未來文檔處理與分析提供了新的實踐路徑。

責任編輯:龐桂玉 來源: vivo互聯網技術
相關推薦

2024-12-17 14:39:16

2025-10-22 08:52:23

2024-06-28 08:04:43

語言模型應用

2025-01-08 08:21:16

2024-12-09 00:00:10

2024-05-10 06:59:06

2025-02-17 13:30:00

2023-05-05 13:11:16

2025-10-16 09:00:00

大模型

2025-07-16 10:15:51

2024-03-25 12:40:19

訓練模型

2024-07-01 12:17:54

2025-04-07 00:00:00

多模態(tài)大模型

2024-05-06 07:58:25

大模型AI智慧芽

2025-02-12 10:17:12

2024-12-12 00:25:09

2024-04-03 14:31:08

大型語言模型PytorchGQA

2025-09-16 09:35:52

點贊
收藏

51CTO技術棧公眾號