偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

多模態(tài)RAG技術(shù):從語義抽取到VLM應(yīng)用與規(guī)?;魬?zhàn)

人工智能
本次分享聚焦于多模態(tài) RAG 的實現(xiàn)路徑與發(fā)展前景。多模態(tài) RAG 的發(fā)展方向旨在構(gòu)建一個高度集成的系統(tǒng),能夠無縫融合文本、圖像和其它多媒體元素,為用戶提供更豐富的信息交互體驗。

一、基于語義抽取的多模態(tài) RAG

多模態(tài) RAG 的發(fā)展方向旨在構(gòu)建一個高度集成的系統(tǒng),能夠無縫融合文本、圖像和其它多媒體元素,為用戶提供更豐富的信息交互體驗。

圖片

實現(xiàn)多模態(tài) RAG 系統(tǒng)的三種主要技術(shù)路徑如下:

  • 傳統(tǒng)對象識別與解析(雕花路線)
    傳統(tǒng)的多模態(tài)文檔處理首先會運用圖像識別技術(shù),如 OCR(Optical Character Recognition,光學(xué)字符識別),從圖像中抽取出文字、表格和圖片等元素。之后,這些獨立的對象會被進一步解析,轉(zhuǎn)換成文本格式,以便于后續(xù)的信息檢索與分析。
  • 采用 Transformer 架構(gòu)
    近年來,深度學(xué)習(xí)模型,特別是 Transformer 架構(gòu),在自然語言處理領(lǐng)域取得了巨大成功。在多模態(tài) RAG 上,這種方法涉及使用編碼器(Encoder)對整個文檔進行編碼,再由解碼器(Decoder)將編碼后的信息轉(zhuǎn)化為可讀文本。這種方法與第一種類似,只是模型不同,第一種用的是 CNN,這種是 Transformer。此法的優(yōu)勢在于可以更好地捕捉上下文依賴關(guān)系,提高信息的連貫性和一致性。
  • 采用視覺語言模型
    第三種方式是直接利用視覺語言模型(Visual Language Model, VLM)處理多模態(tài)數(shù)據(jù)。此類模型可以直接接收文檔、圖片或視頻等形式的原始輸入,將其轉(zhuǎn)化為向量(Patch Embedding)。這些向量可用于構(gòu)建更加精細的文檔嵌入,有助于增強 RAG 系統(tǒng)的檢索和生成能力。尤其值得一提的是,由于單一向量難以充分反映復(fù)雜文檔的所有方面,使用多向量(或稱為張量)成為了優(yōu)選方案,以減少信息丟失,更全面地代表文檔含義。

圖片

下面來具體看一下路線一,我們稱其為“雕花”式路線。

從上圖中可以看到,文檔通常富含圖形和表格,如折線圖、餅狀圖和柱狀圖,甚至存在表格跨頁、合并單元格等復(fù)雜情況,處理難度較高。

圖片

該路線的核心步驟如上圖所示。首先進行文檔結(jié)構(gòu)識別,區(qū)分各個組成部分,明確哪些是段落、哪些是表格、哪些是圖表等。針對每一類識別出的對象進一步解析,對于文本部分,采用 OCR 技術(shù)轉(zhuǎn)錄文字;對于圖表,則需專門的模型進行識別和解析,理解其內(nèi)容與意義。

“雕花”路線的特點在于其深度和廣度,幾乎覆蓋了文檔內(nèi)的每一個細節(jié)。耗時費力,但對于確保信息的全面性和精準性具有不可替代的作用。但其處理效率相對較低,自動化程度受限,尤其面對大規(guī)模數(shù)據(jù)集時,挑戰(zhàn)更為顯著。

圖片

路線一的 RAG 架構(gòu)是最基礎(chǔ)的 RAG:文檔被細分成 chunks,每一塊包含可獨立處理的內(nèi)容片段,通過 Embedding 模型將每塊轉(zhuǎn)換成向量,以便在向量數(shù)據(jù)庫中進行相似性檢索,檢索結(jié)果作為提示詞提供給大模型。

實際應(yīng)用場景下會更為復(fù)雜,需要進入更深層次的 RAG 架構(gòu)。文檔布局模型識別出不同布局后,分離不同類型的 chunks。之后進行檢索,會用到全文索引、向量索引、稀疏向量索引以及圖索引等。檢索召回后,利用 Tensor Reranker 進行重排序,提升檢索效果。最后交由大模型生成回答。

在此過程中,面對復(fù)雜文檔,如果沒有“雕花”的過程,那么一定會存在信息混亂,導(dǎo)致“Garbage in, garbage out”。

圖片

我們根據(jù)第一種路線,設(shè)計了 RAGFlow 的功能模塊,并通過 Infinity 數(shù)據(jù)庫提供向量處理。

在“雕花”過程中,表格識別是一大難點。

圖片

表格通常布局復(fù)雜,需要判定單元格邊界、識別表頭和合并的單元格,還要判斷跨頁結(jié)構(gòu),對色彩標(biāo)記、圖表嵌入等進行識別,處理難度很大。

我們實現(xiàn)了利用 Transformer 架構(gòu)對表格內(nèi)容進行解析。

圖片

采用 VAE(Variational Auto Encoder)提取圖片特征,經(jīng)過 Encoder 生成 Code Book,再經(jīng)過 Decoder 得到最終結(jié)果。如果結(jié)果一致,則證明 Code Book 可以準確表達表格結(jié)構(gòu)和內(nèi)容。再來訓(xùn)練 Encoder 和 Decoder,最后生成 HTML 表格。生成的表格與原表格經(jīng)過嚴格對比,確認無誤后,我們就認為 Transformer 模型是準確有效的。

圖片

此流程不僅適用于表格識別,亦可用于流程圖、餅狀圖、柱狀圖等其它圖表類型的解析。

二、基于 VLM 的多模態(tài) RAG

接下來介紹另一種路線——基于視覺語言模型的多模態(tài) RAG。

圖片

VLM 能夠同時處理圖像與文本信息,對復(fù)合媒介資料提供全面解析。如上圖中所示,模型不僅能夠識別出圖像中貓的位置,精確定位貓的輪廓,還可以回答關(guān)于圖像內(nèi)容的提問,體現(xiàn)出其強大的多模態(tài)認知能力。下面來看一下 VLM 的進展。

圖片

2024 年見證了多模態(tài)語言模型的迅猛崛起,以 GPT-4o 為代表的各種開源、閉源模型百花齊放,標(biāo)志著多模態(tài)領(lǐng)域的重大進步。今年是多模態(tài)模型的爆發(fā)之年,那么明年是否會是多模態(tài) RAG 的爆發(fā)之年呢?下面來看一些相關(guān)的例子。

圖片

使用 PaliGemma 模型針對 PDF 文檔進行問答,例如提問 2018 年中國 IDC 市場規(guī)模有多大,模型直接給出了柱狀圖中的具體數(shù)字,非常準確。

圖片

又如,對 Qwen2 模型提問一張圖表中的內(nèi)容,模型也給出了準確而詳細的解析。

圖片

上圖中展示的是一篇利用 VLM 實現(xiàn)多模態(tài)搜索的論文,其中用到了 ColPali 方法,即基于上下文的延遲交互。其核心理念是將多模態(tài)文檔轉(zhuǎn)換為多維向量,再運用相似度匹配,交予大型模型生成答案,這一流程與現(xiàn)代 RAG 類似。其最為重要的一點是多模態(tài)信息如何表達。傳統(tǒng)搜索引擎使用全文索引,提取關(guān)鍵詞進行檢索,然后用倒排索引的方式進行打分。而在 AI 時代,文本采用向量的方式進行表達,可顯著提升信息處理效能。

圖片

ColPali 系統(tǒng)的評估標(biāo)準為 nDCG(歸一化折減累積增益),顯示出相比于以往方法,其準確度有了質(zhì)的飛躍,達到了 80% 以上的水平,較之前低于 60% 的結(jié)果有著顯著改進。實驗表明,在特定數(shù)據(jù)集(如 MLDR)上的表現(xiàn)亦十分出色,實現(xiàn)了接近 70% 的準確度,充分證明了技術(shù)的有效性。

圖片

前面提到,ColPali 用到了基于上下文的延遲交互,也就是上圖中最右邊的一種模型。圖中第一種,Dual Encoder,是現(xiàn)在常用的利用向量數(shù)據(jù)庫做相似度匹配的方式。文檔經(jīng)模型轉(zhuǎn)換為一系列向量,之后聚合簡化為單個向量,用于快速查詢和匹配。這種方式的優(yōu)勢是速度快,效率高。局限性在于信息大量丟失,難以精確定位文檔與查詢間的關(guān)聯(lián)。

于是,引入了 Reranker,即圖中第二種方式,Cross Encoder。通過初篩獲取候選 chunks 后,采用該方式重新排序,模型根據(jù)相關(guān)性排序,再作為提示詞。這種方式的問題是需借助 GPU 運行,且文檔數(shù)量受限。

因此出現(xiàn)了延遲交互模型。首先將文檔生成為多向量(或稱為張量)存儲。用戶查詢時,同樣轉(zhuǎn)化為張量形式,計算內(nèi)積 MaxSim 得分,而非依賴模型計算。這樣可以顯著減少計算量,待選文檔數(shù)量就可以增大,最后召回率就可以得到提升。

圖片

ColPali 就是采用了這種方式。將 PDF 文檔切為 1024 個 patches,每個 patch 使用 128 維向量表示,這樣一個 PDF 文檔就轉(zhuǎn)成了包含 1024 個向量的張量。

圖片

一個 PDF 切分為多頁,每頁采用一個 Tensor 來表示。

圖片

計算 MaxSim 得分。

圖片

上圖中列出了一些相關(guān)模型的效果。它們都是名字中包含了“Col”的版本,相較于之前傳統(tǒng)版本都有著顯著提升。

三、如何 Scale 基于 VLM 的多模態(tài) RAG

接下來探討如何應(yīng)用基于 VLM 的多模態(tài) RAG。

圖片

第一個挑戰(zhàn)是數(shù)據(jù)規(guī)模變大,Tensor 復(fù)雜度增加。例如前面提到的,用 1024 個向量來表示一個文檔,無論存儲復(fù)雜度還是計算復(fù)雜度都大幅上升。

圖片

那么在張量之上是否還有必要建索引呢?索引對降低計算規(guī)模的作用是有限的。因此我們采取了對張量進行二值化處理等方式來減小數(shù)據(jù)規(guī)模。我們也發(fā)現(xiàn),用張量做重排序,和直接用張量作為第一次搜索排序,其準確度是相近的。

圖片

因此,利用 Infinity 數(shù)據(jù)庫,第一輪搜索采用全文搜索、稠密向量搜索和稀疏向量搜索,搜索得到的結(jié)果再經(jīng)過 Tensor Reranker 重排序。

圖片

Infinity 數(shù)據(jù)庫針對結(jié)構(gòu)化數(shù)據(jù)、稠密向量、稀疏向量、張量、全文搜索都有對應(yīng)的索引,還可以進行融合搜索。

圖片

從上圖展示的測試結(jié)果中可以看到,藍色部分是沒有采用張量方式的搜索,BM25 是全文搜索,效果較好,而現(xiàn)在常用的稠密向量搜索效果最差。我們還對搜索方式兩兩進行排列組合,結(jié)果發(fā)現(xiàn),組合和類型越多,搜索準確度越高。黃色是加上了張量重排序的搜索,可以看到準確度得到了顯著提升。

圖片

延遲交互將是 RAG 的未來發(fā)展趨勢。JaColBERT 和 Jina-ColBERT v2 都展現(xiàn)出了積極的進展。

四、如何選擇技術(shù)路線

圖片

上圖所示的工作中認為視覺語言模型的路線更具優(yōu)勢。但我們認為雕花路線和視覺語言模型各有所長,對于抽象圖像較多的文檔更適合采用 VLM 的方式,相反則更適合傳統(tǒng)手段。

兩種路線將長期并存:

  • 基于 Transformer 的新一代 OCR,針對多模態(tài)文檔的提取精度更加準確。
  • OCR 和 VLM 可以長期共存。
  • 支持 Tensor 的延遲交互將是未來多模態(tài) RAG 的標(biāo)配選擇。

圖片

最后,歡迎大家關(guān)注 RAGFlow。

五、問答環(huán)節(jié)

Q1:如何應(yīng)對多模態(tài)可能比自然語言擁有更大狀態(tài)空間的挑戰(zhàn)?是否有嘗試標(biāo)準化處理?

A1:將圖表映射為 Excel 是一種理想化的處理方式,但難度非常大,首先已有的大量文檔無法都轉(zhuǎn)為 Excel,另外 Excel 的美觀性和展示效果還是有欠缺的。

Q2:為何選擇張量而非向量計算?

A2:向量維度固定,而張量尺寸靈活,適應(yīng)變長數(shù)據(jù)。向量數(shù)據(jù)庫無法直接處理變長數(shù)據(jù),故轉(zhuǎn)向張量計算。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2021-08-12 07:40:05

5G5G應(yīng)用5G商業(yè)模式

2023-12-22 08:00:00

2024-10-29 11:54:25

2022-02-11 10:16:53

5G通信數(shù)字化轉(zhuǎn)型

2025-08-05 02:25:00

多模態(tài)大語言模型

2022-11-10 08:02:08

2020-12-22 16:10:43

人工智能

2025-10-30 02:11:00

2021-12-29 14:57:47

德勤人工智能AI驅(qū)動型企業(yè)

2021-08-09 21:02:02

云原生規(guī)?;?/a>演進

2025-04-22 07:00:00

2025-01-08 07:02:00

人工智能GenAI美妝領(lǐng)域

2025-04-03 07:00:00

2025-05-26 09:49:59

多模態(tài)智能體RAG

2022-07-19 15:27:48

元宇宙區(qū)塊鏈貨幣

2010-01-12 10:14:05

龍芯

2022-05-09 23:08:52

5G數(shù)字技術(shù)機器人

2019-10-23 19:46:31

無人駕駛谷歌自動駕駛

2022-07-04 14:28:31

5G4G數(shù)字經(jīng)濟
點贊
收藏

51CTO技術(shù)棧公眾號