偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級(jí)革命

發(fā)布于 2024-10-30 15:23
瀏覽
0收藏

論文筆記分享,標(biāo)題Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

多模態(tài)VL模型很早的就進(jìn)入了這個(gè)圈子,早的有LLava,近一點(diǎn)的gpt4o。這個(gè)內(nèi)容的主要想論證一個(gè)事情,在工業(yè)界,同時(shí)包含文本和圖像的RAG系統(tǒng),相比于單文本的 RAG 系統(tǒng)會(huì)提高整體性能?

當(dāng)然這個(gè)問題的結(jié)論是,會(huì)提高,所以還額外做了一些,優(yōu)化多模態(tài)流程探索的工作。

首先,多模態(tài)的結(jié)合,2種模式,一種是圖片保持不變,建立起圖片向量庫(kù);另一種是圖片會(huì)提取出摘要描述用于召回。 分別對(duì)應(yīng)了下圖

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級(jí)革命-AI.x社區(qū)

比較特別的是,這個(gè)論文用到的數(shù)據(jù)是私有的,測(cè)試數(shù)據(jù)是自己標(biāo)的。 語(yǔ)料庫(kù)有8540 個(gè)片段,8377 張圖片。 測(cè)試數(shù)據(jù)由專業(yè)人士標(biāo)注100個(gè)問答對(duì)。

考慮到,這里多模態(tài),現(xiàn)有的評(píng)測(cè)框架不夠用了,所以他們開發(fā)并開源了一個(gè)評(píng)測(cè)框架,具體的維度還是老幾樣,正確性,相關(guān)性,事實(shí)性等等。地址在:https://github.com/riedlerm/multimodal_rag_for_industry

評(píng)測(cè)結(jié)論如下圖,就看下圖左一,關(guān)注框框的對(duì)比把

  • 僅僅使用圖片的RAG,不管是不是摘要,效果基本都不如baseline  no rag
  • 使用text only的RAG系統(tǒng)已經(jīng)是個(gè)非常強(qiáng)的baseline了

多模態(tài)的RAG有潛力,但是很難打敗基于純文本的,但是如果圖片檢索厲害的話,還是能起飛的(黃框)

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級(jí)革命-AI.x社區(qū)

最后,在多模態(tài)RAG中,基于圖片摘要向量的比圖像直接做向量的,大部分指標(biāo)都表現(xiàn)的好,受限于多模態(tài)向量的潛能,文本向量模型目前表現(xiàn)更好,也限制了這方面的發(fā)揮??偟膩碚f,未來可期。

傳統(tǒng)RAG涼涼?多模態(tài)RAG帶來工業(yè)級(jí)革命-AI.x社區(qū)

本文轉(zhuǎn)載自 ??NLP前沿??,作者: 熱愛AI的

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦