偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="01cma"><option id="01cma"></option></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-10-29 07:13

瀏覽

0收藏

整體偏向工程實(shí)現(xiàn)，Doc-Researcher從名字可以看出，首先這個(gè)框架需要進(jìn)行文檔解析提取文檔的圖文多模態(tài)元素，文檔解析相關(guān)技術(shù)鏈路《??文檔智能??》。其次是多模態(tài)深度研究（通過迭代分解問題、積累證據(jù)、驗(yàn)證信息，實(shí)現(xiàn)多文檔、多跳、多輪的深度推理。）和銜接兩者的多模態(tài)檢索架構(gòu)。

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

Doc-ReseaRcHeR 架構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

多模態(tài)文檔深度研究的典型應(yīng)用場景。用戶在多輪對(duì)話的上下文中提出一個(gè)需要多跳推理的問題，其中真實(shí)證據(jù)跨越多個(gè)文檔和模態(tài)。

下面簡單看下思路。

方法架構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

Doc-Researcher 架構(gòu)

整體架構(gòu)分三個(gè)模塊：文檔解析、多模態(tài)檢索和多模態(tài)deepResearch。

模塊1：深度多模態(tài)文檔解析

與多數(shù)的《???RAG??》知識(shí)庫構(gòu)建組件相同，都需要對(duì)文檔進(jìn)行深度解析，盡可能的保留文檔的所有元素信息。該框架使用的是MinerU解析文檔中的（文本/表格/圖表/公式）、邊界框坐標(biāo)（精確到頁面像素，用于后續(xù)定位引用）等信息。表格/圖表：用Qwen2.5-VL生成兩類描述：（1）粗粒度摘要（如“2023年A股市值Top5行業(yè)分布表”）：用于快速匹配查詢意圖；（2）細(xì)粒度描述（如“第一列是行業(yè)名稱，第二列是市值占比，金融行業(yè)占比28%”）：用于精確證據(jù)提?。?/p>

多粒度分塊策略

單一元素（如孤立表格）缺乏上下文，需通過布局分析模型合并生成多粒度單元。定義了4個(gè)核心粒度級(jí)別

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

Chunk（塊）: 在章節(jié)邊界內(nèi)合并文本/表格/圖表元素，限制最大長度（避免跨章節(jié)語義斷裂），保留每個(gè)元素的邊界框坐標(biāo)
Page（頁面）:兩種形式：
1. 合并單頁所有元素（含文本+轉(zhuǎn)錄后的表格/公式）；
2. 原始頁面截圖（用于純視覺檢索）
Full（全文）: 合并文檔所有元素，形成完整結(jié)構(gòu)化文本（含章節(jié)層級(jí)、公式LaTeX、表格描述）
Summary（摘要）: 用LLM對(duì)“Full”粒度文本生成摘要，突出核心結(jié)論/結(jié)構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

模塊2：多模態(tài)檢索架構(gòu)

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

評(píng)估了5種文本檢索器

三種檢索范式的設(shè)計(jì)與對(duì)比：

純視覺檢索：以“Page”粒度的原始截圖為檢索單元，用視覺模型（如Jina-embedding-v4）直接編碼截圖為向量，匹配查詢的視覺特征（需將查詢轉(zhuǎn)視覺向量或用跨模態(tài)模型匹配）
純文本檢索：以“Chunk/Page/Full/Summary”粒度的文本轉(zhuǎn)錄結(jié)果為單元（含OCR文本、表格/圖表描述、公式LaTeX），用文本嵌入模型（如BGE-M3）編碼匹配
混合檢索：結(jié)合兩種范式：（1）文本檢索器編碼“Chunk/Full/Summary”的文本；（2）視覺檢索器編碼“Page/Chunk”的截圖；（3）融合兩類檢索結(jié)果（如加權(quán)排序）

模塊3：多模態(tài)Deep Research

通過多智能體協(xié)作的迭代流程，模擬人類“分解問題→搜索證據(jù)→驗(yàn)證補(bǔ)充→合成結(jié)論”的研究過程。

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

協(xié)作流程

如上圖，系統(tǒng)包含4個(gè)Agent：

1. 規(guī)劃器（Planner）

輸入：用戶查詢、對(duì)話歷史、文檔集合
輸出：1. 過濾后相關(guān)文檔子集（縮小搜索范圍）；2. 最優(yōu)檢索粒度（如摘要 / 塊 / 頁面）；3. 細(xì)化子查詢（分解復(fù)雜問題）

2. Searcher+ Refiner

核心是通過多輪搜索-精煉循環(huán)，逐步補(bǔ)充高質(zhì)量證據(jù)，避免單輪檢索的“證據(jù)不足”或“噪聲過多”問題:

Searcher：證據(jù)初篩，基于多模態(tài)檢索架構(gòu)（文本 / 視覺 / 混合），獲取初始多模態(tài)證據(jù)（文本塊、表格截圖、圖表等）
Refiner：證據(jù)提純，1. 去重（刪除重復(fù)證據(jù)）；2. 相關(guān)性過濾（剔除無關(guān)內(nèi)容）；3. 輸出精煉后高質(zhì)量證據(jù)

3. Reporter

輸入：用戶查詢、累計(jì)精煉證據(jù)、解析階段記錄的引用元數(shù)據(jù)（證據(jù)對(duì)應(yīng)的文檔ID、頁面ID、邊界框坐標(biāo)）；
輸出：多模態(tài)報(bào)告，特點(diǎn)：

自動(dòng)插入證據(jù)中的表格/圖表截圖（而非僅文本描述），并搭配解釋；
每個(gè)結(jié)論后標(biāo)注證據(jù)來源，用戶可直接定位到原始文檔位置驗(yàn)證，解決LLM生成“幻覺”問題；
根據(jù)查詢類型生成對(duì)應(yīng)結(jié)構(gòu)

實(shí)驗(yàn)性能

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

整合多模態(tài)文檔解析與DeepResearch的框架：Doc-Researcher思路-AI.x社區(qū)

參考文獻(xiàn)：Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research，https://arxiv.org/pdf/2510.21603v1

本文轉(zhuǎn)載自??大模型自然語言處理?? 作者：老余

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

已于2025-10-29 09:28:49修改

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

多模態(tài)與偽多模態(tài)大模型

AI探索時(shí)代 ? 3718瀏覽 ? 0回復(fù)
多模態(tài)RAG-VisRAG：基于視覺的檢索增強(qiáng)生成在多模態(tài)文檔上的應(yīng)用

大模型自然語言處理 ? 4201瀏覽 ? 0回復(fù)
先進(jìn)的多文檔問答（MDQA）框架HiQA：大幅降低區(qū)分度低的復(fù)雜多文檔RAG的幻覺問題

AI博物院 ? 3780瀏覽 ? 0回復(fù)
再看多模態(tài)RAG進(jìn)行文檔問答的方案

大模型自然語言處理 ? 3918瀏覽 ? 0回復(fù)
文檔截圖嵌入統(tǒng)一多模態(tài)檢索方法原理

大模型自然語言處理 ? 3389瀏覽 ? 0回復(fù)
MACT：如何用多Agent框架思路實(shí)現(xiàn)表格問答

大語言模型論文跟蹤 ? 3647瀏覽 ? 0回復(fù)
簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

大模型自然語言處理 ? 3257瀏覽 ? 0回復(fù)
allenai開源多模態(tài)的文檔智能解析大模型（OLMOCR）方法、效果淺析

大模型自然語言處理 ? 6379瀏覽 ? 0回復(fù)
萬字解析非結(jié)構(gòu)化文檔中的隱藏價(jià)值：多模態(tài)檢索增強(qiáng)生成（RAG）的前景

柏企閱文 ? 2756瀏覽 ? 0回復(fù)
字節(jié)開源的多模態(tài)端到端文檔解析模型-Dolphin

大模型自然語言處理 ? 2323瀏覽 ? 0回復(fù)
GRPO訓(xùn)練布局感知的強(qiáng)化學(xué)習(xí)多模態(tài)文檔解析框架-Infinity-Parser

大模型自然語言處理 ? 2165瀏覽 ? 0回復(fù)
LLaMA 4深度解析：多模態(tài)、長文本與高效推理，AI模型的“全能戰(zhàn)士”誕生了！

Halo咯咯 ? 3831瀏覽 ? 0回復(fù)
RAG知識(shí)庫構(gòu)建新框架-EasyDoc小模型+多模態(tài)大模型結(jié)合的文檔智能解析框架

大模型自然語言處理 ? 2011瀏覽 ? 0回復(fù)
CLIP：打通圖文壁壘的多模態(tài)神器，原理與實(shí)戰(zhàn)全解析

鴻煊的學(xué)習(xí)筆記 ? 9000瀏覽 ? 0回復(fù)
字節(jié)跳動(dòng)Dolphin多模態(tài)文檔解析神器開源，16G顯存就能流暢運(yùn)行，效果不輸GPT4.1!

九歌AI大模型 ? 2912瀏覽 ? 0回復(fù)
端到端的多模態(tài)大模型文檔解析：POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案

大模型自然語言處理 ? 1734瀏覽 ? 0回復(fù)
多模態(tài)文檔理解視覺token剪枝思路

大模型自然語言處理 ? 855瀏覽 ? 0回復(fù)
多模態(tài)文檔類“GraphRAG”框架實(shí)現(xiàn)思路-LAD-RAG框架

大模型自然語言處理 ? 1587瀏覽 ? 0回復(fù)
端到端的多模態(tài)文檔解析模型-DeepSeek-OCR架構(gòu)、數(shù)據(jù)、訓(xùn)練方法

大模型自然語言處理 ? 1059瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路 6天前發(fā)布
RLVR訓(xùn)練多模態(tài)文檔解析模型-olmOCR 2技術(shù)方案（模型、數(shù)據(jù)和代碼均開源） 9天前發(fā)布

熱門推薦

阿里新一代企業(yè)級(jí)多 AI 智能體開發(fā)框架 AgentScope 技術(shù)架構(gòu)全解析 0回復(fù)

代碼41%由AI生成！2025七大編程工具深度對(duì)比，你的選擇是？ 0回復(fù)

Deepseek發(fā)布最新OCR模型在實(shí)測中展現(xiàn)出驚人效率，僅用15秒便將百頁P(yáng)DF完整轉(zhuǎn)換為Markdown格式 0回復(fù)

DeepSeek 成長史：從量化投資到 AI 革命的一個(gè) “非主流” 量化大佬的 AI 夢(mèng) 0回復(fù)

DeepSeek團(tuán)隊(duì)開源新模型DeepSeek-OCR，用3B參數(shù)量實(shí)現(xiàn)10倍文本壓縮的多模態(tài)突破 0回復(fù)

上一篇：多模態(tài)大模型Detect Anything量化坐標(biāo)設(shè)計(jì)思路

社區(qū)精華內(nèi)容

目錄