整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路 原創(chuàng)
整體偏向工程實(shí)現(xiàn),Doc-Researcher從名字可以看出,首先這個(gè)框架需要進(jìn)行文檔解析提取文檔的圖文多模態(tài)元素,文檔解析相關(guān)技術(shù)鏈路《??文檔智能??》。其次是多模態(tài)深度研究(通過迭代分解問題、積累證據(jù)、驗(yàn)證信息,實(shí)現(xiàn)多文檔、多跳、多輪的深度推理。)和銜接兩者的多模態(tài)檢索架構(gòu)。

Doc-ReseaRcHeR 架構(gòu)

多模態(tài)文檔深度研究的典型應(yīng)用場景。用戶在多輪對(duì)話的上下文中提出一個(gè)需要多跳推理的問題,其中真實(shí)證據(jù)跨越多個(gè)文檔和模態(tài)。
下面簡單看下思路。
方法架構(gòu)

Doc-Researcher 架構(gòu)
整體架構(gòu)分三個(gè)模塊:文檔解析、多模態(tài)檢索和多模態(tài)deepResearch。
模塊1:深度多模態(tài)文檔解析
與多數(shù)的《???RAG??》知識(shí)庫構(gòu)建組件相同,都需要對(duì)文檔進(jìn)行深度解析,盡可能的保留文檔的所有元素信息。該框架使用的是MinerU解析文檔中的(文本/表格/圖表/公式)、邊界框坐標(biāo)(精確到頁面像素,用于后續(xù)定位引用)等信息。表格/圖表:用Qwen2.5-VL生成兩類描述:(1)粗粒度摘要(如“2023年A股市值Top5行業(yè)分布表”):用于快速匹配查詢意圖;(2)細(xì)粒度描述(如“第一列是行業(yè)名稱,第二列是市值占比,金融行業(yè)占比28%”):用于精確證據(jù)提?。?/p>
多粒度分塊策略
單一元素(如孤立表格)缺乏上下文,需通過布局分析模型合并生成多粒度單元。定義了4個(gè)核心粒度級(jí)別

- Chunk(塊): 在章節(jié)邊界內(nèi)合并文本/表格/圖表元素,限制最大長度(避免跨章節(jié)語義斷裂),保留每個(gè)元素的邊界框坐標(biāo)
- Page(頁面):兩種形式:
1. 合并單頁所有元素(含文本+轉(zhuǎn)錄后的表格/公式);
2. 原始頁面截圖(用于純視覺檢索) - Full(全文): 合并文檔所有元素,形成完整結(jié)構(gòu)化文本(含章節(jié)層級(jí)、公式LaTeX、表格描述)
- Summary(摘要): 用LLM對(duì)“Full”粒度文本生成摘要,突出核心結(jié)論/結(jié)構(gòu)

模塊2:多模態(tài)檢索架構(gòu)

評(píng)估了5種文本檢索器
三種檢索范式的設(shè)計(jì)與對(duì)比:
- 純視覺檢索:以“Page”粒度的原始截圖為檢索單元,用視覺模型(如Jina-embedding-v4)直接編碼截圖為向量,匹配查詢的視覺特征(需將查詢轉(zhuǎn)視覺向量或用跨模態(tài)模型匹配)
- 純文本檢索:以“Chunk/Page/Full/Summary”粒度的文本轉(zhuǎn)錄結(jié)果為單元(含OCR文本、表格/圖表描述、公式LaTeX),用文本嵌入模型(如BGE-M3)編碼匹配
- 混合檢索:結(jié)合兩種范式:(1)文本檢索器編碼“Chunk/Full/Summary”的文本;(2)視覺檢索器編碼“Page/Chunk”的截圖;(3)融合兩類檢索結(jié)果(如加權(quán)排序)
模塊3:多模態(tài)Deep Research
通過多智能體協(xié)作的迭代流程,模擬人類“分解問題→搜索證據(jù)→驗(yàn)證補(bǔ)充→合成結(jié)論”的研究過程。

協(xié)作流程
如上圖,系統(tǒng)包含4個(gè)Agent:
1. 規(guī)劃器(Planner)
輸入:用戶查詢、對(duì)話歷史、文檔集合
輸出:1. 過濾后相關(guān)文檔子集(縮小搜索范圍);2. 最優(yōu)檢索粒度(如摘要 / 塊 / 頁面);3. 細(xì)化子查詢(分解復(fù)雜問題)
2. Searcher+ Refiner
核心是通過多輪搜索-精煉循環(huán),逐步補(bǔ)充高質(zhì)量證據(jù),避免單輪檢索的“證據(jù)不足”或“噪聲過多”問題:
- Searcher:證據(jù)初篩,基于多模態(tài)檢索架構(gòu)(文本 / 視覺 / 混合),獲取初始多模態(tài)證據(jù)(文本塊、表格截圖、圖表等)
- Refiner:證據(jù)提純,1. 去重(刪除重復(fù)證據(jù));2. 相關(guān)性過濾(剔除無關(guān)內(nèi)容);3. 輸出精煉后高質(zhì)量證據(jù)
3. Reporter
輸入:用戶查詢、累計(jì)精煉證據(jù)、解析階段記錄的引用元數(shù)據(jù)(證據(jù)對(duì)應(yīng)的文檔ID、頁面ID、邊界框坐標(biāo));
輸出:多模態(tài)報(bào)告,特點(diǎn):
- 自動(dòng)插入證據(jù)中的表格/圖表截圖(而非僅文本描述),并搭配解釋;
- 每個(gè)結(jié)論后標(biāo)注證據(jù)來源,用戶可直接定位到原始文檔位置驗(yàn)證,解決LLM生成“幻覺”問題;
- 根據(jù)查詢類型生成對(duì)應(yīng)結(jié)構(gòu)
實(shí)驗(yàn)性能


參考文獻(xiàn):Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research,https://arxiv.org/pdf/2510.21603v1
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:老余

















