偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式

發(fā)布于 2025-11-4 07:36
瀏覽
0收藏

當大模型遇上“看不懂”的文檔

在ChatGPT引領的AI革命中,大語言模型(LLM)展現(xiàn)了驚人的推理能力。然而,當面對專業(yè)領域的復雜文檔時,它們卻常常“束手無策”:

  • 模態(tài)缺失:現(xiàn)有Deep Research系統(tǒng)僅支持純文本網(wǎng)頁,無法處理PDF、論文、財報中的圖表、表格、公式
  • 結(jié)構(gòu)破壞:簡單OCR將文檔轉(zhuǎn)為純文本,丟失布局信息(如表格結(jié)構(gòu)、圖表標題)
  • 檢索粗暴:單輪檢索+固定粒度,無法適應“先概覽后精讀”的人類研究習慣

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

如圖1所示,一個真實的研究場景可能需要:跨3個文檔整合文本+表格+圖片回答多跳問題。這正是Doc-Researcher要解決的挑戰(zhàn)!

三位一體的解決方案

1?? 深度多模態(tài)解析(Deep Multimodal Parsing)

  • 布局感知:用MinerU檢測文檔元素(文本段、表格、圖表、公式),保留邊界框坐標
  • 智能分塊:按章節(jié)合并文本,生成4級粒度(chunk/page/full/summary)

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

布局感知的chunk

  • 模態(tài)轉(zhuǎn)錄:表格/圖表用VLM生成描述,公式轉(zhuǎn)LaTeX,實現(xiàn)一次解析,多次復用

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

圖5:布局感知分塊流程

2?? 系統(tǒng)級檢索架構(gòu)(Systematic Retrieval)

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

對比10種檢索器后,發(fā)現(xiàn):

  • 文本檢索:適合密集文本,但丟失視覺語義(如折線圖趨勢)
  • 視覺檢索:直接編碼頁面截圖,保留圖表信息,但計算成本高
  • 混合檢索:文本塊+視覺塊雙編碼,在M4DocBench上提升8-12%召回率

檢索范式

代表模型

優(yōu)勢場景

計算成本

文本檢索

Qwen3-Embedding

合同、論文正文

低(0.6B參數(shù))

視覺檢索

ColPali/Jina-VL

財報圖表、幻燈片

高(>3B參數(shù))

混合檢索

Doc-Researcher

復雜多模態(tài)文檔

中等

3?? 多智能體研究流程(Multi-Agent Workflow)

  • Planner:像人類研究員一樣先篩選相關文檔(減少60-80%搜索空間),再動態(tài)選擇粒度(summary→chunk→page)
  • Searcher & Refiner:迭代執(zhí)行“檢索-精煉”循環(huán),支持多跳推理(如先找“Q3營收”→再對比“同比增長”)
  • Reporter:生成圖文交織的答案,直接嵌入關鍵圖表作為證據(jù)

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

圖2:Doc-Researcher系統(tǒng)架構(gòu)

全面碾壓現(xiàn)有方案

?? M4DocBench:首個“四多”基準

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

M4DocBench標注示例

為公平評測,構(gòu)建了M4DocBench

  • 多跳(Multi-hop):158個問題平均需3.8個文檔證據(jù)鏈
  • 多模態(tài)(Multi-modal):112個問題需文本+表格+圖片
  • 多文檔(Multi-document):平均每題12.7個文檔(最多42個)
  • 多輪(Multi-turn):58個問題需結(jié)合對話歷史

維度

M4DocBench

現(xiàn)有最佳基準

平均文檔數(shù)

12.7

1-2

證據(jù)頁數(shù)

7.0頁

1.2頁

標注細粒度

14.8個布局框

?? 性能對比:3.4倍提升!

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

在M4DocBench上,Doc-Researcher以50.6%準確率登頂,遠超:

  • 最強基線(MDocAgent):15.8% →+34.8%
  • 長文本模型(DeepSeek-R1):31.7% →+18.9%
  • 純視覺RAG(M3DocRAG):7.0% →+43.6%

大漲240%,Doc-Researcher確立多模態(tài)文檔深度研究新范式-AI.x社區(qū)

圖3:迭代搜索深度對性能的影響

從實驗室到產(chǎn)業(yè)界

場景

傳統(tǒng)方案痛點

Doc-Researcher優(yōu)勢

金融研報分析

手工整理圖表數(shù)據(jù)

自動提取圖表+跨報告對比

法律合同審查

遺漏附件中的關鍵條款

聯(lián)合解析正文+附件+附圖

醫(yī)學文獻調(diào)研

無法結(jié)合CT圖像與文字

整合影像+病歷+論文

教育資料準備

幻燈片與講義分離

統(tǒng)一檢索PPT+PDF+教材

https://arxiv.org/html/2510.21603
研究機構(gòu):華為技術有限公司 
Doc-Researcher: A Unified System for Multimodal Document
Parsing and Deep Research

本文轉(zhuǎn)載自??PaperAgent??


已于2025-11-4 07:36:50修改
收藏
回復
舉報
回復
相關推薦