偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ppt檢索的RAG方案(多模態(tài)、OCR、混合檢索)評(píng)估結(jié)論 原創(chuàng)

發(fā)布于 2025-9-23 08:13
瀏覽
0收藏

ppt RAG主要分下面3種:

  • 基于layout+OCR的pipline的以文本主導(dǎo)的RAG方案。
  • 基于VLMs+圖片向量模型的多模態(tài)RAG方案。

ppt檢索的RAG方案(多模態(tài)、OCR、混合檢索)評(píng)估結(jié)論-AI.x社區(qū)

  • 綜合上述兩種的混合檢索

那么哪種方式更好?下面主要記錄一下評(píng)估結(jié)論。

數(shù)據(jù)集

ppt檢索的RAG方案(多模態(tài)、OCR、混合檢索)評(píng)估結(jié)論-AI.x社區(qū)

SlideVQA 和 LPM 數(shù)據(jù)集中的示例

  • SlideVQA:是一個(gè)為推動(dòng)演示文稿VQA研究而開(kāi)發(fā)的數(shù)據(jù)集,包含來(lái)自SlideShare 的2619個(gè)ppt,包含超過(guò) 52000 個(gè)ppt和 14484個(gè) VQA 樣本。該數(shù)據(jù)集評(píng)估模型在文本和視覺(jué)ppt元素之間檢索相關(guān)內(nèi)容并進(jìn)行推理的能力,每個(gè)樣本均關(guān)聯(lián)真實(shí)值ppt用于評(píng)估,并包含單跳問(wèn)題(僅需一個(gè)ppt即可回答)和多跳問(wèn)題(需要多個(gè)ppt才能回答)。
  • LPM:用于訓(xùn)練多模態(tài)講座ppt內(nèi)容模型的資源,包含 334 個(gè)教育視頻(187 小時(shí)中 9031 幅ppt,覆蓋生物、解剖學(xué)、心理學(xué)、牙科、公共演講和機(jī)器學(xué)習(xí)等 35 門課程,每幅ppt均配有對(duì)應(yīng)的口語(yǔ)文本、視覺(jué)元素以及通過(guò) OCR 提取的文字。數(shù)據(jù)集中包含 8,598 個(gè)視覺(jué)圖像,包括自然圖像(45.1%)、圖表(46.7%)、表格(3.5%)和公式(4.6%),平均每幅ppt包含 26 個(gè)單詞和 0.94 個(gè)圖像。

實(shí)驗(yàn)及結(jié)論

ppt檢索的RAG方案(多模態(tài)、OCR、混合檢索)評(píng)估結(jié)論-AI.x社區(qū)

  • 基于視覺(jué)的檢索方法:DSE、ColPali、jina-reranker-m0、MonoQwen2-VL-v0.1等
  • 基于文本的檢索:bge-reranker-v2-gemma、ms-marco-MiniLM-L-12-v2等

關(guān)鍵結(jié)論

  • 將混合文本檢索方法應(yīng)用于視覺(jué)語(yǔ)言模型生成的ppt標(biāo)題(例如,BM25 結(jié)合向量模型如BGE等)可顯著優(yōu)于直接的多模態(tài)編碼方法(如微調(diào)的 DSE)。
  • 通過(guò)引入 Jina 視覺(jué)重排序器增強(qiáng)的晚期交互 ColPali(視覺(jué))模型,或通過(guò) RRF 融合 ColPali(視覺(jué))與其文本對(duì)應(yīng)版本在標(biāo)題上的表現(xiàn),達(dá)到了最高的檢索效率。僅使用文本的 ColPali 模型本身在標(biāo)題上應(yīng)用時(shí),提供了一種具有競(jìng)爭(zhēng)力且顯著更節(jié)省存儲(chǔ)空間的替代案。在所有高性能配置中,強(qiáng)大的重排序器對(duì)于獲得最高得分至關(guān)重要,但不可避免地帶來(lái)了顯著延遲,凸顯了存儲(chǔ)需求與計(jì)算成本之間的核心權(quán)衡。用于生成標(biāo)題的 VLM 選擇(Molmo 對(duì)比 Gemma3)也顯示出依賴數(shù)據(jù)集的性能差異。

檢索ppt的最佳方法是什么?

取決于應(yīng)用場(chǎng)景。

  • 若以準(zhǔn)確率為優(yōu)先,且資源和延遲可忽略,則使用Jina 重排序器的 ColPali(視覺(jué))或其與文本 ColPali 結(jié)合的 RRF 混合方案為最佳選擇。
  • 在需要兼顧高準(zhǔn)確率、低延遲和可控存儲(chǔ)的 RAG 系統(tǒng)中,基于高質(zhì)量標(biāo)題的混合文本檢索(如 BM25+Neural+BGE)或搭配 BGE 重排序器的文本 ColPali 方案極為有效。

因此,將多模態(tài)ppt檢索問(wèn)題轉(zhuǎn)化為文本問(wèn)題,能夠利用成熟的文本信息檢索技術(shù),通常比直接進(jìn)行多模態(tài)編碼獲得更實(shí)用的解決方案。在資源極度受限的環(huán)境中,即使僅對(duì)高質(zhì)量標(biāo)題使用簡(jiǎn)單的 BM25,也能提供一個(gè)合理且高效的基準(zhǔn)。頂級(jí)重排序器(無(wú)論是視覺(jué)還是文本)帶來(lái)的顯著延遲,仍是在交互式 RAG 系統(tǒng)部署的主要挑戰(zhàn)。

What’s the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques,https://arxiv.org/pdf/2509.15211v1

本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理??   作者:余俊輝

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-9-23 10:42:37修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦