RAG只能應用于文本檢索嗎?關(guān)于大模型應用之RAG——檢索增強的思考 原創(chuàng)
“ RAG是一項入門很簡單,但實際操作起來卻很困難的技術(shù)之一;RAG是模型無關(guān)的獨立技術(shù)棧,它的核心是文檔和檢索,RAG本身并不具備生成的能力,結(jié)合模型才具備生成能力 ”
最近在做RAG方面的應用,關(guān)于RAG技術(shù)很多人應該都了解過,畢竟其也算是大模型應用的一個主要方向;具體應用場景有智能客服,搜索引擎優(yōu)化,教育輔助等。
在傳統(tǒng)的印象中,RAG技術(shù)結(jié)合LLM(Large Language Model)大語言模型,做文檔類檢索增強;但RAG僅僅只能用來處理文檔類文本嗎?
RAG僅僅只是一項技術(shù),一個工具,它和其它技術(shù)是相互獨立的;它可以和具體的應用場景相結(jié)合,來解決實際問題。
關(guān)于RAG應用的思考
在RAG應用的過程中,最近兩天突然有了一個想法,那就是RAG結(jié)合LLM模型;對具體的LLM模型有要求嗎?簡單來說就是,是不是任何一個LLM模型都可以用到RAG技術(shù)?
可能說到這里有些人還不是很理解,舉例來說LLM語言模型有多種任務類型,有翻譯類任務模型,情感分類模型,生成類模型和問答,摘要模型等。
是否某些模型不能使用RAG技術(shù)?
但是轉(zhuǎn)念一想,RAG技術(shù)和大模型技術(shù)一樣,它是一項獨立的技術(shù);即使沒有大模型RAG技術(shù)也是獨立存在的;RAG并不是大模型技術(shù)的子領域。
比如說,在搜索引擎領域也可以應用到RAG技術(shù);而且RAG技術(shù)的本質(zhì)是建立一個外部知識庫,然后能夠進行更加復雜和準確高效的檢索,最后把檢索到的內(nèi)容返回給調(diào)用者就可以了,這里的調(diào)用者可以是任何人;比如說能夠在海量文檔中準確快速地檢索到我們需要的內(nèi)容。
所以RAG就類似于建立一個檔案館,然后能夠快速準確地找到需要的資料;至于是大模型需要這些資料,還是搜索引擎需要這些資料,就不是RAG需要操心的了。
和傳統(tǒng)的字符匹配或簡單分詞不同,RAG需要做到的是語義檢索;舉例來說,描述愛情的句子中并一定需要出現(xiàn)愛情兩個字;而傳統(tǒng)的字符匹配機制,只有出現(xiàn)愛情的時候才能匹配到相應的內(nèi)容。
ok,上面說了RAG是一項獨立的技術(shù),和大模型沒有直接關(guān)系;那么是否可以發(fā)散一下思維,RAG除了進行文檔增強之外,是否可以應用于圖像檢索增強,以及文字圖像混合檢索增強?
以上問題從理論上來說是完全可行的,因為RAG主要負責的就是資料的維護和檢索;至于怎么使用這些資料就不關(guān)RAG的事了。而對RAG來說,文檔資料和圖像資料沒有本質(zhì)上的區(qū)別。
因此,把RAG應用于大語言模型那么就是文檔RAG,而把RAG應用于圖像大模型,那么它就是圖像RAG,而RAG應用于多模態(tài)那么就能實現(xiàn)文本和圖像的混合檢索。
當然,雖然從理論上來說RAG和模型無關(guān),使用什么模型是你自己的事;但不同的模型還是有一定的區(qū)別,比如說模型的上下文長度,大模型的質(zhì)量也就是理解和生成能力等。
RAG并不依賴于具體的模型,但不同的模型在適配性方面可能會存在一定的差別。
本文轉(zhuǎn)載自公眾號AI探索時代 作者:DFires
