偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路 原創(chuàng)

發(fā)布于 2025-10-29 07:13
瀏覽
0收藏

整體偏向工程實(shí)現(xiàn),Doc-Researcher從名字可以看出,首先這個(gè)框架需要進(jìn)行文檔解析提取文檔的圖文多模態(tài)元素,文檔解析相關(guān)技術(shù)鏈路《??文檔智能??》。其次是多模態(tài)深度研究(通過迭代分解問題、積累證據(jù)、驗(yàn)證信息,實(shí)現(xiàn)多文檔、多跳、多輪的深度推理。)和銜接兩者的多模態(tài)檢索架構(gòu)。

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

Doc-ReseaRcHeR 架構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

多模態(tài)文檔深度研究的典型應(yīng)用場景。用戶在多輪對(duì)話的上下文中提出一個(gè)需要多跳推理的問題,其中真實(shí)證據(jù)跨越多個(gè)文檔和模態(tài)。

下面簡單看下思路。

方法架構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

Doc-Researcher 架構(gòu)

整體架構(gòu)分三個(gè)模塊:文檔解析、多模態(tài)檢索和多模態(tài)deepResearch。

模塊1:深度多模態(tài)文檔解析

與多數(shù)的《???RAG??》知識(shí)庫構(gòu)建組件相同,都需要對(duì)文檔進(jìn)行深度解析,盡可能的保留文檔的所有元素信息。該框架使用的是MinerU解析文檔中的(文本/表格/圖表/公式)、邊界框坐標(biāo)(精確到頁面像素,用于后續(xù)定位引用)等信息。表格/圖表:用Qwen2.5-VL生成兩類描述:(1)粗粒度摘要(如“2023年A股市值Top5行業(yè)分布表”):用于快速匹配查詢意圖;(2)細(xì)粒度描述(如“第一列是行業(yè)名稱,第二列是市值占比,金融行業(yè)占比28%”):用于精確證據(jù)提?。?/p>

多粒度分塊策略

單一元素(如孤立表格)缺乏上下文,需通過布局分析模型合并生成多粒度單元。定義了4個(gè)核心粒度級(jí)別

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

  • Chunk(塊): 在章節(jié)邊界內(nèi)合并文本/表格/圖表元素,限制最大長度(避免跨章節(jié)語義斷裂),保留每個(gè)元素的邊界框坐標(biāo)
  • Page(頁面):兩種形式:
    1. 合并單頁所有元素(含文本+轉(zhuǎn)錄后的表格/公式);
    2. 原始頁面截圖(用于純視覺檢索)
  • Full(全文): 合并文檔所有元素,形成完整結(jié)構(gòu)化文本(含章節(jié)層級(jí)、公式LaTeX、表格描述)
  • Summary(摘要): 用LLM對(duì)“Full”粒度文本生成摘要,突出核心結(jié)論/結(jié)構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

模塊2:多模態(tài)檢索架構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

評(píng)估了5種文本檢索器

三種檢索范式的設(shè)計(jì)與對(duì)比:

  • 純視覺檢索:以“Page”粒度的原始截圖為檢索單元,用視覺模型(如Jina-embedding-v4)直接編碼截圖為向量,匹配查詢的視覺特征(需將查詢轉(zhuǎn)視覺向量或用跨模態(tài)模型匹配)
  • 純文本檢索:以“Chunk/Page/Full/Summary”粒度的文本轉(zhuǎn)錄結(jié)果為單元(含OCR文本、表格/圖表描述、公式LaTeX),用文本嵌入模型(如BGE-M3)編碼匹配
  • 混合檢索:結(jié)合兩種范式:(1)文本檢索器編碼“Chunk/Full/Summary”的文本;(2)視覺檢索器編碼“Page/Chunk”的截圖;(3)融合兩類檢索結(jié)果(如加權(quán)排序)

模塊3:多模態(tài)Deep Research

通過多智能體協(xié)作的迭代流程,模擬人類“分解問題→搜索證據(jù)→驗(yàn)證補(bǔ)充→合成結(jié)論”的研究過程。

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

協(xié)作流程

如上圖,系統(tǒng)包含4個(gè)Agent:

1. 規(guī)劃器(Planner)

輸入:用戶查詢、對(duì)話歷史、文檔集合
輸出:1. 過濾后相關(guān)文檔子集(縮小搜索范圍);2. 最優(yōu)檢索粒度(如摘要 / 塊 / 頁面);3. 細(xì)化子查詢(分解復(fù)雜問題)

2. Searcher+ Refiner

核心是通過多輪搜索-精煉循環(huán),逐步補(bǔ)充高質(zhì)量證據(jù),避免單輪檢索的“證據(jù)不足”或“噪聲過多”問題:

  • Searcher:證據(jù)初篩,基于多模態(tài)檢索架構(gòu)(文本 / 視覺 / 混合),獲取初始多模態(tài)證據(jù)(文本塊、表格截圖、圖表等)
  • Refiner:證據(jù)提純,1. 去重(刪除重復(fù)證據(jù));2. 相關(guān)性過濾(剔除無關(guān)內(nèi)容);3. 輸出精煉后高質(zhì)量證據(jù)
3. Reporter

輸入:用戶查詢、累計(jì)精煉證據(jù)、解析階段記錄的引用元數(shù)據(jù)(證據(jù)對(duì)應(yīng)的文檔ID、頁面ID、邊界框坐標(biāo));
輸出多模態(tài)報(bào)告,特點(diǎn):

  • 自動(dòng)插入證據(jù)中的表格/圖表截圖(而非僅文本描述),并搭配解釋;
  • 每個(gè)結(jié)論后標(biāo)注證據(jù)來源,用戶可直接定位到原始文檔位置驗(yàn)證,解決LLM生成“幻覺”問題;
  • 根據(jù)查詢類型生成對(duì)應(yīng)結(jié)構(gòu)

實(shí)驗(yàn)性能

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

整合多模態(tài)文檔解析與DeepResearch的框架:Doc-Researcher思路-AI.x社區(qū)

參考文獻(xiàn):Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research,https://arxiv.org/pdf/2510.21603v1


本文轉(zhuǎn)載自??大模型自然語言處理??   作者:老余

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-10-29 09:28:49修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦