偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<abbr id="ikj63"><var id="ikj63"></var></abbr>

<tt id="ikj63"></tt>

<abbr id="ikj63"></abbr>

<rt id="ikj63"><source id="ikj63"></source></rt>

<wbr id="ikj63"></wbr>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0 原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-5-8 06:42

瀏覽

0收藏

MRAG1.0

MRAG1.0是MRAG框架的初始階段，通常被稱為“偽MRAG”。它是對RAG范式的簡單擴展，支持多模態(tài)數(shù)據(jù)。MRAG1.0通過利用現(xiàn)有的基于文本的檢索和生成機制，實現(xiàn)了從RAG到MRAG的平穩(wěn)過渡。

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG1.0的架構(gòu)

MRAG1.0的架構(gòu)包括三個關鍵組件：

文檔解析和索引：

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

源：多模GraphRAG初探：文檔智能+知識圖譜+大模型結(jié)合范式，https://mp.weixin.qq.com/s/coMc5jNPJldPk9X74tDAbA

a.使用《??文檔智能解析技術(shù)??》處理多模態(tài)文檔（如Word、Excel、PDF、HTML），使用OCR或特定格式的解析技術(shù)提取文本內(nèi)容。

b.使用文檔布局檢測模型將文檔分割成結(jié)構(gòu)化元素（如標題、段落、圖像、視頻、表格、頁腳）。

c.對于多模態(tài)數(shù)據(jù)，使用專門的模型生成描述圖像、視頻和其他非文本元素的標題。

d.索引階段：將這些塊和標題編碼成向量表示，并存儲在向量數(shù)據(jù)庫中。

檢索：
使用與索引相同的嵌入模型將用戶查詢編碼成向量表示。如：余弦相似度、BGE等進行相似度計算從向量數(shù)據(jù)庫中檢索最相關的塊和標題。合并重復或重疊的信息，形成外部知識的綜合集合，并將其集成到生成階段的提示中。
生成：
將用戶查詢和檢索到的文檔合成為一個連貫的提示。結(jié)合其參數(shù)化知識和檢索到的外部信息，使用LLM生成答案。在多輪對話中，系統(tǒng)將對話歷史記錄集成到提示中，實現(xiàn)上下文感知和無縫交互。

局限性

文檔解析繁瑣：將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為文本描述增加了系統(tǒng)的復雜性，并導致模態(tài)特定信息的丟失。
檢索瓶頸：文本向量檢索技術(shù)雖然成熟，但在處理多模態(tài)數(shù)據(jù)時存在挑戰(zhàn)，導致檢索精度不高。
生成挑戰(zhàn)：處理多模態(tài)數(shù)據(jù)和圖像標題等需要有效組織這些元素，同時最小化冗余并保留相關信息。

MRAG2.0

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG2.0的架構(gòu)

與MRAG1.0不同，MRAG2.0不僅支持多模態(tài)輸入的查詢，還在知識庫中保留了原始的多模態(tài)數(shù)據(jù)。

MRAG2.0的架構(gòu)包括幾個關鍵的優(yōu)化：

MLLMs Captions：利用MLLMs的表示能力，特別是Captions任務的能力，使用單個或多個MLLM從多模態(tài)文檔中提取Captions。這種方法簡化了文檔解析模塊，減少了其復雜性。
多模態(tài)檢索：增強檢索模塊以支持多模態(tài)用戶輸入，保留原始多模態(tài)數(shù)據(jù)并實現(xiàn)跨模態(tài)檢索。允許基于文本的查詢直接檢索相關的多模態(tài)數(shù)據(jù)，結(jié)合基于字幕的召回和跨模態(tài)搜索能力。
多模態(tài)生成：增強生成模塊以處理多模態(tài)數(shù)據(jù)，通過集成MLLMs實現(xiàn)用戶查詢和檢索結(jié)果的合成。當檢索結(jié)果準確且輸入包含原始多模態(tài)數(shù)據(jù)時，生成模塊減少了模態(tài)轉(zhuǎn)換中的信息損失。

局限性

多模態(tài)數(shù)據(jù)輸入的準確性：整合多模態(tài)數(shù)據(jù)輸入可能會降低傳統(tǒng)文本查詢描述的準確性。
數(shù)據(jù)格式的多樣性：生成模塊需要高效地組織這些多樣化的數(shù)據(jù)形式，并清晰地定義生成輸入。

MRAG3.0

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG3.0架構(gòu)圖

MRAG3.0是MRAG的重大演變，引入了結(jié)構(gòu)和功能上的創(chuàng)新，增強了其在多個維度上的能力。

MRAG3.0的創(chuàng)新主要體現(xiàn)在三個方面：

增強的文檔解析：在解析過程中保留文檔頁面截圖，最小化數(shù)據(jù)庫存儲中的信息損失。使用MLLMs對文檔截圖進行向量化并索引，實現(xiàn)基于用戶查詢的相關文檔截圖的高效檢索。
真正的端到端多模態(tài)：在知識庫構(gòu)建和系統(tǒng)輸入中強調(diào)多模態(tài)能力的同時，MRAG3.0引入了多模態(tài)輸出能力，完成了端到端的多模態(tài)框架。
場景擴展：超越傳統(tǒng)的理解能力，MRAG3.0通過模塊調(diào)整和添加，將理解和生成能力結(jié)合起來。這種統(tǒng)一顯著拓寬了系統(tǒng)的適用性，涵蓋了視覺問答（VQA）、多模態(tài)生成和融合多模態(tài)輸出等場景。

MRAG3.0支持多種場景：

檢索增強場景：通過從外部知識庫中檢索相關內(nèi)容來提供準確的答案。
VQA場景：通過動態(tài)路由和檢索來最小化不必要的搜索和不相關信息。
多模態(tài)生成場景：擴展生成任務的能力，通過檢索增強（RA）顯著提高生成任務的性能。
融合多模態(tài)輸出場景：生成包含多種模態(tài)的輸出，如文本、圖像或視頻。

修改模塊

文檔解析和索引模塊：使用MLLMs對文檔截圖進行向量化并索引，確保高效檢索相關文檔截圖。通過保留文檔截圖，解決了信息損失問題，并提高了知識庫的可靠性。
生成：集成理解和生成能力，通過多模態(tài)輸出增強子模塊實現(xiàn)從文本到多模態(tài)輸出的轉(zhuǎn)變。包括原生MLLM-based輸出和增強多模態(tài)輸出兩種方法。

新模塊

多模態(tài)搜索規(guī)劃：解決MRAG系統(tǒng)中的關鍵決策挑戰(zhàn)，包括檢索分類和查詢重構(gòu)。檢索分類確定最優(yōu)的檢索策略，查詢重構(gòu)通過整合視覺信息和歷史檢索結(jié)果來優(yōu)化查詢。

前面兩個階段的流程前期內(nèi)容都有相關介紹，下面來詳細看下MRAG3.0的整體過程，也就是這張架構(gòu)圖。

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG3.0架構(gòu)圖

1. 文檔解析（Documents Parsing）

輸入：系統(tǒng)接受多種類型的文檔（如PDF、HTML等）。
處理：

a.**Extractive-Based Module (Same with MRA2.0)**：使用提取模塊（可能是基于MRA2.0的模型）將文檔解析為純文本數(shù)據(jù)（Plain Text Data）和多模態(tài)數(shù)據(jù)（Multimodal Data）。

b.純文本數(shù)據(jù)：包括文本塊（Text Chunks）。

c.多模態(tài)數(shù)據(jù)：包括圖像（Image）、表格（Table）、屏幕截圖（Screenshots）等。

d.圖像處理：圖像會生成對應的描述（Image Captions）。

輸出：解析后的數(shù)據(jù)分為純文本和多模態(tài)數(shù)據(jù)，準備進入索引階段。

2. 索引（Indexing）

目的：將解析后的數(shù)據(jù)存儲到數(shù)據(jù)庫中，以便后續(xù)檢索。
處理：

a.文本嵌入（Text Embedding Model）：將純文本數(shù)據(jù)嵌入為向量，存儲到文本向量數(shù)據(jù)庫（Text Vector DB）。

b.多模態(tài)嵌入（Multimodal Embedding Model）：將多模態(tài)數(shù)據(jù)（包括圖像、表格等）嵌入為向量，存儲到多模態(tài)向量數(shù)據(jù)庫（Multimodal Vector DB）。

c.屏幕截圖嵌入（Documents/Screenshots Embedding Model）：單獨處理文檔和屏幕截圖，嵌入后存儲到屏幕截圖向量數(shù)據(jù)庫（Documents/Screenshots Vector DB）。

輸出：三個向量數(shù)據(jù)庫（Text Vector DB、Multimodal Vector DB、Documents/Screenshots Vector DB）存儲了嵌入后的數(shù)據(jù)。

3. 多模態(tài)檢索規(guī)劃（Multimodal Search Planning）

輸入：用戶查詢（Query）及其歷史數(shù)據(jù)（History）。
處理：

a.如果不需要（No），直接生成多模態(tài)提示（Multimodal Prompt，No search）。

b.如果需要（Yes），進一步判斷是否為純文本查詢（Text Only?）。

c.如果需要檢索（With search），生成帶檢索的純文本提示（Text Only Prompt, With search）。

d.如果不需要檢索（No search），生成不帶檢索的純文本提示（Text Only Prompt, No search）。

e.純文本查詢（Yes）：生成純文本提示（Text Only Prompt）。

f.非純文本查詢（No）：生成多模態(tài)提示（Multimodal Prompt, With search）。

g.檢索分類（Retrieval Classification）：判斷查詢是否需要檢索外部數(shù)據(jù)。

h.查詢重構(gòu)（Query Reformation）：根據(jù)需要重構(gòu)查詢，生成新的查詢（New Query）。

輸出：生成適合檢索的提示（Prompt）或重構(gòu)后的新查詢。

4. 檢索（Retrieval）

輸入：多模態(tài)提示（Multimodal Prompt）或純文本提示（Text Only Prompt）。
處理：

a.Position Identification：確定相關數(shù)據(jù)的位置。

b.Candidate Set Retrieval：獲取候選數(shù)據(jù)集合。

c.Matching and Insertion：將檢索到的數(shù)據(jù)與查詢匹配并插入。

d.純文本提示：從Text Vector DB中檢索。

e.多模態(tài)提示：從Multimodal Vector DB和Documents/Screenshots Vector DB中檢索。

f.根據(jù)提示類型，從對應的向量數(shù)據(jù)庫中檢索相關數(shù)據(jù)：

g.檢索結(jié)果包括：

輸出：增強的多模態(tài)輸出（Augmented Multimodal Output），包含檢索到的相關數(shù)據(jù)。

5. 生成（Generation）

輸入：增強的多模態(tài)輸出。
處理：

a.如果是（Yes），直接交給大語言模型（LLMs）生成純文本回答。

b.如果不是（No），交給多模態(tài)大語言模型（MLLMs）生成多模態(tài)回答。

c.判斷是否為純文本查詢（Text Only?）：

輸出：最終的多模態(tài)回答（Multimodal Answer），可能包含文本、圖像、表格等。

6. 輸出（Multimodal Answer）

形式：生成的回答可能是純文本，也可能是多模態(tài)內(nèi)容（例如文本+圖像+表格）。
示例：圖中展示了一個包含文本、圖像和圖表的回答。

僅供參考。

參考文獻：A Survey on Multimodal Retrieval-Augmented Generation，https://arxiv.org/pdf/2504.08748

公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責任

標簽

多模態(tài)

已于2025-5-8 06:42:46修改

贊

收藏

回復

舉報

回復

相關推薦

多模態(tài)視覺-語言大模型的架構(gòu)演進

angel ? 5177瀏覽 ? 0回復
MRAG：一種多頭RAG，提升具有顯著不同內(nèi)容的多個文檔復雜查詢的檢索準確性

PaperAgent ? 4298瀏覽 ? 0回復
2024年以來，學術(shù)和產(chǎn)業(yè)界的那些SOTA多模態(tài)大模型的架構(gòu)演進之路

angel ? 4083瀏覽 ? 0回復
IBM重磅發(fā)布Granite 3.0秒殺同級別大模型|全球首個39語言多模態(tài)大模型開源，告別"英語霸權(quán)"

sbf_2000 ? 2650瀏覽 ? 0回復
多模態(tài)RAG應用開發(fā)實戰(zhàn)演練

51CTO內(nèi)容精選 ? 2422瀏覽 ? 0回復
傳統(tǒng)RAG涼涼？多模態(tài)RAG帶來工業(yè)級革命

NLP前沿1 ? 2632瀏覽 ? 0回復
一文讀懂：從RAG到多模態(tài)RAG

kede96 ? 4347瀏覽 ? 0回復
多模態(tài)RAG-VisRAG：基于視覺的檢索增強生成在多模態(tài)文檔上的應用

大模型自然語言處理 ? 3081瀏覽 ? 0回復
【多模態(tài)&RAG】多模態(tài)RAG ColPali實踐

大模型自然語言處理 ? 2447瀏覽 ? 0回復
再看多模態(tài)RAG進行文檔問答的方案

大模型自然語言處理 ? 2679瀏覽 ? 0回復
Jina CLIP v2：為多模態(tài)RAG設計的向量模型

kede96 ? 3923瀏覽 ? 0回復
多模態(tài)RAG構(gòu)建指南：為AI系統(tǒng)提供更多可能性

51CTO內(nèi)容精選 ? 2542瀏覽 ? 0回復
LLaVA系列算法架構(gòu)演進：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

大模型自然語言處理 ? 4653瀏覽 ? 0回復
基于Gemini 2.0和LangGraph實現(xiàn)自主多工具AI代理

51CTO內(nèi)容精選 ? 2801瀏覽 ? 0回復
?對標DeepSeek，Gemini 2.0輕量模型開卷“極致性價比”！谷歌守住多模態(tài)陣地應用們都要開始做推理了！

51CTO技術(shù)棧 ? 1860瀏覽 ? 0回復
RAG范式演進及Agentic-RAG總結(jié)綜述

大模型自然語言處理 ? 3616瀏覽 ? 0回復
簡單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR

大模型自然語言處理 ? 2234瀏覽 ? 0回復
Qwen-VL系列多模態(tài)大模型技術(shù)演進-模型架構(gòu)、訓練方法、數(shù)據(jù)細節(jié)

大模型自然語言處理 ? 5423瀏覽 ? 0回復
可靈2.0多模態(tài)編輯震撼全場！開辟視頻模型的“新語言”，Prompt的門檻被砍沒了！

51CTO技術(shù)棧 ? 1988瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

RAG知識庫構(gòu)建新框架-EasyDoc小模型+多模態(tài)大模型結(jié)合的文檔智能解析框架 3天前發(fā)布
用于實時工業(yè)社區(qū)問答的RAG新框架-ComRAG 4天前發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

圖像編輯革命！FLUX.1 Kontext [dev]震撼開源：挑戰(zhàn)GPT-4o的圖像編輯 0回復

上一篇： Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓練方法、訓練數(shù)據(jù)淺析

下一篇：多模態(tài)大模型輕量化探索-視覺大模型SAM的視覺編碼器

社區(qū)精華內(nèi)容

目錄

<nobr id="ymf4h"></nobr>

<u id="ymf4h"><form id="ymf4h"><optgroup id="ymf4h"></optgroup></form></u>

<bdo id="ymf4h"></bdo>