偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

簡(jiǎn)單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR 原創(chuàng)

發(fā)布于 2025-2-11 11:07
瀏覽
0收藏

企業(yè)知識(shí)庫(kù)中的模態(tài)數(shù)據(jù)不止文本一個(gè)模態(tài),傳統(tǒng)的RAG無(wú)法解決多模態(tài)場(chǎng)景下的問答,問題提出:如何檢索到與用戶問題相關(guān)且有用的多模態(tài)數(shù)據(jù)?以及如何將這些數(shù)據(jù)整合成一個(gè)連貫的多模態(tài)答案?來(lái)看一個(gè)簡(jiǎn)單有效的多模態(tài)RAG框架-MuRAR。

MuRAR框架

在MuRAR框架的設(shè)計(jì)中,目標(biāo)是生成一個(gè)高質(zhì)量的多模態(tài)答案(multimodal answer),該答案通過(guò)整合與用戶問題相關(guān)的多模態(tài)數(shù)據(jù)來(lái)提供連貫且信息豐富的內(nèi)容。

簡(jiǎn)單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

簡(jiǎn)單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

用戶界面設(shè)計(jì):用戶輸入問題;顯示檢索到的相關(guān)文本片段;顯示每個(gè)文本片段及其可能的來(lái)源;顯示檢索到的多模態(tài)數(shù)據(jù)(如圖像和視頻);最終的多模態(tài)答案,包含文本和多模態(tài)元素的整合。

1、 設(shè)計(jì)目標(biāo)

形式化:給定用戶問題和一組多模態(tài)數(shù)據(jù),其中:

  • 表示文本文檔片段的集合。
  • 表示圖像的集合。
  • 表示表格的集合。
  • 表示視頻的集合。

目標(biāo)是生成一個(gè)多模態(tài)答案,其中是一個(gè)函數(shù),用于將檢索到的多模態(tài)數(shù)據(jù)組織成一個(gè)連貫且有用的答案。

2、 文本答案生成

文本答案生成組件采用檢索增強(qiáng)生成(RAG)的方法。具體步驟如下:

  • 文本片段檢索:首先,根據(jù)用戶查詢檢索相關(guān)的文本文檔片段。這一步使用了一個(gè)預(yù)訓(xùn)練的文本嵌入模型,該模型在內(nèi)部標(biāo)注的數(shù)據(jù)集上進(jìn)行了微調(diào),以識(shí)別哪些文本片段與用戶查詢相關(guān)。
  • 創(chuàng)建向量索引:使用FAISS庫(kù)對(duì)文本文檔片段進(jìn)行向量化,創(chuàng)建向量索引。這些向量索引用于計(jì)算用戶查詢與每個(gè)文本文檔片段之間的余弦相似度。
  • 選擇相關(guān)片段:對(duì)于每個(gè)用戶查詢,選擇與查詢最相關(guān)的五個(gè)文本片段。
  • 生成初始文本答案:使用一個(gè)大型語(yǔ)言模型(LLM)結(jié)合用戶查詢和檢索到的五個(gè)文本片段來(lái)生成初始文本答案。

簡(jiǎn)單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

生成初始文本答案提示詞

3、 基于源的多模態(tài)檢索

基于源的多模態(tài)檢索組件分為兩個(gè)步驟:源歸屬和節(jié)級(jí)多模態(tài)數(shù)據(jù)檢索。

  • 源歸屬: 將初始文本答案分割成多個(gè)句子,每個(gè)句子代表一個(gè)連續(xù)的文本答案片段。計(jì)算每個(gè)文本答案片段與其在中的每個(gè)文本文檔片段的余弦相似度。將文本文檔片段識(shí)別為的來(lái)源,如果相似度得分低于0.6,則不分配來(lái)源。
  • 節(jié)級(jí)多模態(tài)數(shù)據(jù)檢索:對(duì)于每個(gè)文本答案片段及其對(duì)應(yīng)的來(lái)源,定位包含的原始網(wǎng)頁(yè)文檔。確定所在的節(jié)段,并收集該節(jié)段內(nèi)的所有多模態(tài)數(shù)據(jù)(如圖像、表格和視頻)。使用上下文文本特征和LLM生成的特征來(lái)表示多模態(tài)數(shù)據(jù)。例如,使用GPT-4生成的圖像標(biāo)題和HTML中的"alt"屬性來(lái)表示圖像。

檢索時(shí),使用相同的微調(diào)嵌入模型計(jì)算多模態(tài)數(shù)據(jù)的文本嵌入?;谖谋敬鸢钙闻c多模態(tài)數(shù)據(jù)的文本嵌入之間的余弦相似度來(lái)檢索多模態(tài)數(shù)據(jù)。只選擇得分最高的多模態(tài)數(shù)據(jù)。為了避免重復(fù),只保留從檢索結(jié)果中得分最高的多模態(tài)數(shù)據(jù)。

4、 多模態(tài)答案優(yōu)化

在檢索到多模態(tài)數(shù)據(jù)后,使用LLM提示來(lái)優(yōu)化初始文本答案,生成最終的多模態(tài)答案。提示包括:

  • 用戶問題。
  • 初始文本答案。
  • 檢索到的多模態(tài)數(shù)據(jù)及其上下文文本特征。

簡(jiǎn)單有效的企業(yè)多模態(tài)RAG問答框架-MuRAR-AI.x社區(qū)

多模態(tài)答案細(xì)化的提示詞

為了指導(dǎo)LLM生成多模態(tài)答案,提示中插入了占位符,用于替換為檢索到的多模態(tài)數(shù)據(jù)的描述。占位符包括多模態(tài)數(shù)據(jù)的URL和上下文文本特征,以確保LLM在生成答案時(shí)能夠整合相關(guān)信息。

參考文獻(xiàn)

MuRAR: A Simple and Effective Multimodal Retrieval and Answer Refinement Framework for Multimodal Question Answering,https://arxiv.org/pdf/2408.08521v2


本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/eq9lSMoOUjvDXY7D1RTMzw??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-2-11 15:54:52修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦