偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0 原創(chuàng)

發(fā)布于 2025-5-8 06:42
瀏覽
0收藏

MRAG1.0

MRAG1.0是MRAG框架的初始階段,通常被稱為“偽MRAG”。它是對RAG范式的簡單擴展,支持多模態(tài)數(shù)據(jù)。MRAG1.0通過利用現(xiàn)有的基于文本的檢索和生成機制,實現(xiàn)了從RAG到MRAG的平穩(wěn)過渡。

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG1.0的架構(gòu)

MRAG1.0的架構(gòu)包括三個關鍵組件:

  1. 文檔解析和索引:

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

源:多模GraphRAG初探:文檔智能+知識圖譜+大模型結(jié)合范式,https://mp.weixin.qq.com/s/coMc5jNPJldPk9X74tDAbA

     a.使用《??文檔智能解析技術(shù)??》處理多模態(tài)文檔(如Word、Excel、PDF、HTML),使用OCR或特定格式的解析技術(shù)提取文本內(nèi)容。

     b.使用文檔布局檢測模型將文檔分割成結(jié)構(gòu)化元素(如標題、段落、圖像、視頻、表格、頁腳)。

     c.對于多模態(tài)數(shù)據(jù),使用專門的模型生成描述圖像、視頻和其他非文本元素的標題。

     d.索引階段:將這些塊和標題編碼成向量表示,并存儲在向量數(shù)據(jù)庫中。

  1. 檢索:
    使用與索引相同的嵌入模型將用戶查詢編碼成向量表示。如:余弦相似度、BGE等進行相似度計算從向量數(shù)據(jù)庫中檢索最相關的塊和標題。合并重復或重疊的信息,形成外部知識的綜合集合,并將其集成到生成階段的提示中。
  2. 生成:
    將用戶查詢和檢索到的文檔合成為一個連貫的提示。結(jié)合其參數(shù)化知識和檢索到的外部信息,使用LLM生成答案。在多輪對話中,系統(tǒng)將對話歷史記錄集成到提示中,實現(xiàn)上下文感知和無縫交互。

局限性

  • 文檔解析繁瑣:將多模態(tài)數(shù)據(jù)轉(zhuǎn)換為文本描述增加了系統(tǒng)的復雜性,并導致模態(tài)特定信息的丟失。
  • 檢索瓶頸:文本向量檢索技術(shù)雖然成熟,但在處理多模態(tài)數(shù)據(jù)時存在挑戰(zhàn),導致檢索精度不高。
  • 生成挑戰(zhàn):處理多模態(tài)數(shù)據(jù)和圖像標題等需要有效組織這些元素,同時最小化冗余并保留相關信息。

MRAG2.0

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG2.0的架構(gòu)

與MRAG1.0不同,MRAG2.0不僅支持多模態(tài)輸入的查詢,還在知識庫中保留了原始的多模態(tài)數(shù)據(jù)。

MRAG2.0的架構(gòu)包括幾個關鍵的優(yōu)化:

  1. MLLMs Captions: 利用MLLMs的表示能力,特別是Captions任務的能力,使用單個或多個MLLM從多模態(tài)文檔中提取Captions。這種方法簡化了文檔解析模塊,減少了其復雜性。
  2. 多模態(tài)檢索:增強檢索模塊以支持多模態(tài)用戶輸入,保留原始多模態(tài)數(shù)據(jù)并實現(xiàn)跨模態(tài)檢索。允許基于文本的查詢直接檢索相關的多模態(tài)數(shù)據(jù),結(jié)合基于字幕的召回和跨模態(tài)搜索能力。
  3. 多模態(tài)生成:增強生成模塊以處理多模態(tài)數(shù)據(jù),通過集成MLLMs實現(xiàn)用戶查詢和檢索結(jié)果的合成。當檢索結(jié)果準確且輸入包含原始多模態(tài)數(shù)據(jù)時,生成模塊減少了模態(tài)轉(zhuǎn)換中的信息損失。

局限性

  • 多模態(tài)數(shù)據(jù)輸入的準確性:整合多模態(tài)數(shù)據(jù)輸入可能會降低傳統(tǒng)文本查詢描述的準確性。
  • 數(shù)據(jù)格式的多樣性:生成模塊需要高效地組織這些多樣化的數(shù)據(jù)形式,并清晰地定義生成輸入。

MRAG3.0

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG3.0架構(gòu)圖

MRAG3.0是MRAG的重大演變,引入了結(jié)構(gòu)和功能上的創(chuàng)新,增強了其在多個維度上的能力。

MRAG3.0的創(chuàng)新主要體現(xiàn)在三個方面:

  1. 增強的文檔解析:在解析過程中保留文檔頁面截圖,最小化數(shù)據(jù)庫存儲中的信息損失。使用MLLMs對文檔截圖進行向量化并索引,實現(xiàn)基于用戶查詢的相關文檔截圖的高效檢索。
  2. 真正的端到端多模態(tài):在知識庫構(gòu)建和系統(tǒng)輸入中強調(diào)多模態(tài)能力的同時,MRAG3.0引入了多模態(tài)輸出能力,完成了端到端的多模態(tài)框架。
  3. 場景擴展:超越傳統(tǒng)的理解能力,MRAG3.0通過模塊調(diào)整和添加,將理解和生成能力結(jié)合起來。這種統(tǒng)一顯著拓寬了系統(tǒng)的適用性,涵蓋了視覺問答(VQA)、多模態(tài)生成和融合多模態(tài)輸出等場景。

MRAG3.0支持多種場景:

  1. 檢索增強場景:通過從外部知識庫中檢索相關內(nèi)容來提供準確的答案。
  2. VQA場景:通過動態(tài)路由和檢索來最小化不必要的搜索和不相關信息。
  3. 多模態(tài)生成場景:擴展生成任務的能力,通過檢索增強(RA)顯著提高生成任務的性能。
  4. 融合多模態(tài)輸出場景:生成包含多種模態(tài)的輸出,如文本、圖像或視頻。

修改模塊

  1. 文檔解析和索引模塊:使用MLLMs對文檔截圖進行向量化并索引,確保高效檢索相關文檔截圖。通過保留文檔截圖,解決了信息損失問題,并提高了知識庫的可靠性。
  2. 生成:集成理解和生成能力,通過多模態(tài)輸出增強子模塊實現(xiàn)從文本到多模態(tài)輸出的轉(zhuǎn)變。包括原生MLLM-based輸出和增強多模態(tài)輸出兩種方法。

新模塊

多模態(tài)搜索規(guī)劃:解決MRAG系統(tǒng)中的關鍵決策挑戰(zhàn),包括檢索分類和查詢重構(gòu)。檢索分類確定最優(yōu)的檢索策略,查詢重構(gòu)通過整合視覺信息和歷史檢索結(jié)果來優(yōu)化查詢。

前面兩個階段的流程前期內(nèi)容都有相關介紹,下面來詳細看下MRAG3.0的整體過程,也就是這張架構(gòu)圖。

多模態(tài)RAG演進-MRAG1.0->MRAG2.0->MRAG3.0-AI.x社區(qū)

MRAG3.0架構(gòu)圖

1. 文檔解析(Documents Parsing)
  • 輸入:系統(tǒng)接受多種類型的文檔(如PDF、HTML等)。
  • 處理

     a.**Extractive-Based Module (Same with MRA2.0)**:使用提取模塊(可能是基于MRA2.0的模型)將文檔解析為純文本數(shù)據(jù)(Plain Text Data)和多模態(tài)數(shù)據(jù)(Multimodal Data)。

     b.純文本數(shù)據(jù):包括文本塊(Text Chunks)。

     c.多模態(tài)數(shù)據(jù):包括圖像(Image)、表格(Table)、屏幕截圖(Screenshots)等。

     d.圖像處理:圖像會生成對應的描述(Image Captions)。

  • 輸出:解析后的數(shù)據(jù)分為純文本和多模態(tài)數(shù)據(jù),準備進入索引階段。
2. 索引(Indexing)
  • 目的:將解析后的數(shù)據(jù)存儲到數(shù)據(jù)庫中,以便后續(xù)檢索。
  • 處理

      a.文本嵌入(Text Embedding Model):將純文本數(shù)據(jù)嵌入為向量,存儲到文本向量數(shù)據(jù)庫(Text Vector DB)。

      b.多模態(tài)嵌入(Multimodal Embedding Model):將多模態(tài)數(shù)據(jù)(包括圖像、表格等)嵌入為向量,存儲到多模態(tài)向量數(shù)據(jù)庫(Multimodal Vector DB)。

      c.屏幕截圖嵌入(Documents/Screenshots Embedding Model):單獨處理文檔和屏幕截圖,嵌入后存儲到屏幕截圖向量數(shù)據(jù)庫(Documents/Screenshots Vector DB)。

  • 輸出:三個向量數(shù)據(jù)庫(Text Vector DB、Multimodal Vector DB、Documents/Screenshots Vector DB)存儲了嵌入后的數(shù)據(jù)。
3. 多模態(tài)檢索規(guī)劃(Multimodal Search Planning)
  • 輸入:用戶查詢(Query)及其歷史數(shù)據(jù)(History)。
  • 處理

      a.如果不需要(No),直接生成多模態(tài)提示(Multimodal Prompt,No search)。

      b.如果需要(Yes),進一步判斷是否為純文本查詢(Text Only?)。

      c.如果需要檢索(With search),生成帶檢索的純文本提示(Text Only Prompt, With search)。

      d.如果不需要檢索(No search),生成不帶檢索的純文本提示(Text Only Prompt, No search)。

      e.純文本查詢(Yes):生成純文本提示(Text Only Prompt)。

      f.非純文本查詢(No):生成多模態(tài)提示(Multimodal Prompt, With search)。

      g.檢索分類(Retrieval Classification):判斷查詢是否需要檢索外部數(shù)據(jù)。

      h.查詢重構(gòu)(Query Reformation):根據(jù)需要重構(gòu)查詢,生成新的查詢(New Query)。

  • 輸出:生成適合檢索的提示(Prompt)或重構(gòu)后的新查詢。
4. 檢索(Retrieval)
  • 輸入:多模態(tài)提示(Multimodal Prompt)或純文本提示(Text Only Prompt)。
  • 處理

      a.Position Identification:確定相關數(shù)據(jù)的位置。

      b.Candidate Set Retrieval:獲取候選數(shù)據(jù)集合。

      c.Matching and Insertion:將檢索到的數(shù)據(jù)與查詢匹配并插入。

      d.純文本提示:從Text Vector DB中檢索。

      e.多模態(tài)提示:從Multimodal Vector DB和Documents/Screenshots Vector DB中檢索。

      f.根據(jù)提示類型,從對應的向量數(shù)據(jù)庫中檢索相關數(shù)據(jù):

      g.檢索結(jié)果包括:

  • 輸出:增強的多模態(tài)輸出(Augmented Multimodal Output),包含檢索到的相關數(shù)據(jù)。
5. 生成(Generation)
  • 輸入:增強的多模態(tài)輸出。
  • 處理

      a.如果是(Yes),直接交給大語言模型(LLMs)生成純文本回答。

      b.如果不是(No),交給多模態(tài)大語言模型(MLLMs)生成多模態(tài)回答。

      c.判斷是否為純文本查詢(Text Only?)

  • 輸出:最終的多模態(tài)回答(Multimodal Answer),可能包含文本、圖像、表格等。
6. 輸出(Multimodal Answer)
  • 形式:生成的回答可能是純文本,也可能是多模態(tài)內(nèi)容(例如文本+圖像+表格)。
  • 示例:圖中展示了一個包含文本、圖像和圖表的回答。

僅供參考。

參考文獻:A Survey on Multimodal Retrieval-Augmented Generation,https://arxiv.org/pdf/2504.08748


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/l1NcfmuQ9CZKB0BIFu9m5g??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
已于2025-5-8 06:42:46修改
收藏
回復
舉報
回復
相關推薦