偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

告別OCR,開源VisRAG幫你實現(xiàn)圖片RAG

人工智能
TextRAG與VisRAG在最終生成準(zhǔn)確性上的對比。在TextRAG中,解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下,VisRAG直接利用原始文檔圖像,通過使用基于VLM的檢索器和生成器來實現(xiàn)。

當(dāng)前的RAG系統(tǒng)僅基于文本,這使得無法利用在現(xiàn)實世界多模態(tài)文檔中扮演關(guān)鍵角色的視覺信息,如布局和圖像。

TextRAG與VisRAG在最終生成準(zhǔn)確性上的對比。在TextRAG中,解析后的文本作為檢索和生成過程的基礎(chǔ)。相比之下,VisRAG直接利用原始文檔圖像,通過使用基于VLM的檢索器和生成器來實現(xiàn)。

圖片

VisRAG:一個基于VLM的RAG框架,它通過直接將文檔圖像嵌入到VLM中來檢索和生成信息,從而繞過了傳統(tǒng)的文本解析階段。VisRAG包括兩個主要組件:VisRAG-Ret(檢索器)和VisRAG-Gen(生成器)。

基于文本的RAG(左)與基于視覺的RAG(右)。傳統(tǒng)的基于文本的RAG(TextRAG)依賴于解析后的文本進(jìn)行檢索和生成,這會丟失多模態(tài)文檔中的視覺信息。我們的基于視覺的RAG(VisRAG)使用基于VLM的檢索器和生成器直接處理文檔頁面的圖像,從而保留原始頁面中的所有信息。

圖片

  1. 傳統(tǒng)RAG流程:典型的RAG流程,包括一個檢索器(基于大型語言模型,LLMs)和一個生成器。檢索器從知識庫中檢索相關(guān)信息,生成器結(jié)合檢索到的信息和用戶查詢生成答案。
  2. VisRAG框架:它使用視覺-語言模型(VLM)代替?zhèn)鹘y(tǒng)的基于文本的模型。VisRAG框架包括兩個主要組件:

VisRAG-Ret(檢索器):使用VLM直接對查詢和文檔圖像進(jìn)行編碼,而不是依賴提取的文本內(nèi)容。通過加權(quán)平均池化(weighted mean pooling)在輸入文本或視覺標(biāo)記的最終隱藏狀態(tài)上獲得嵌入向量,然后通過余弦相似度計算相似性得分進(jìn)行檢索。

VisRAG-Gen(生成器):提出了處理多個檢索頁面的機制,包括頁面連接(將所有頁面連接成單個圖像)、加權(quán)選擇(根據(jù)置信度選擇最終答案)以及支持多圖像輸入的VLM。

實驗表明,VisRAG在檢索和生成階段都優(yōu)于傳統(tǒng)RAG,比傳統(tǒng)的基于文本的RAG流程實現(xiàn)了25-39%的端到端性能提升。進(jìn)一步分析表明,VisRAG在利用訓(xùn)練數(shù)據(jù)方面是有效的,并展示了強大的泛化能力,使其成為多模態(tài)文檔RAG的一個有前景的解決方案。

圖片圖片

圖片圖片

來自DocVQA的案例研究。在這個案例中,VisRAG成功檢索到了真實文檔,而TextRAG失敗了,導(dǎo)致VisRAG能夠正確生成答案,而TextRAG生成了錯誤的答案。

圖片圖片

圖片圖片

來自InfographicsVQA的案例研究。在這個案例中,VisRAG和TextRAG都成功檢索到了正確的文檔;然而,只有VisRAG有效地利用了布局信息,從而能夠準(zhǔn)確生成答案。相比之下,TextRAG因為布局信息的丟失,導(dǎo)致了錯誤的回答

圖片圖片

如果對內(nèi)容有什么疑問和建議可以私信和留言,也可以添加我加入大模型交流群,一起討論大模型在創(chuàng)作、RAG和agent中的應(yīng)用。

責(zé)任編輯:武曉燕 來源: 哎呀AIYA
相關(guān)推薦

2021-06-02 10:21:45

深度學(xué)習(xí)編程人工智能

2025-06-10 02:44:00

RAGAnthropic神經(jīng)網(wǎng)絡(luò)

2021-01-24 11:59:48

開源技術(shù) 工具

2020-11-23 16:18:21

Python開發(fā)工具

2023-08-21 12:13:53

2023-11-01 07:24:55

2010-05-14 17:29:09

火狐瀏覽器開源

2025-05-30 01:33:00

2023-10-11 12:25:35

2025-05-22 06:39:08

2025-02-06 11:20:00

開發(fā)工具AI

2018-12-17 09:57:11

服務(wù)器LinuxBoot開源

2023-08-08 13:25:10

軟件開發(fā)開源

2024-11-11 14:23:11

2024-08-29 08:23:22

EasyOCRSpring文字識別

2009-06-08 15:43:56

IT服務(wù)運維管理廣通信達(dá)

2024-01-08 13:50:00

數(shù)據(jù)訓(xùn)練

2025-06-11 03:10:00

RAG系統(tǒng)性能

2025-06-27 08:14:05

點贊
收藏

51CTO技術(shù)棧公眾號