FlashRAG:5大組件、12種RAG技術(shù)、32個(gè)數(shù)據(jù)集的開(kāi)源框架,比LangChain輕量!
FlashRAG是一個(gè)用于復(fù)制和開(kāi)發(fā)檢索增強(qiáng)生成(RAG)研究的Python工具包。它包括32個(gè)預(yù)處理的基準(zhǔn)RAG數(shù)據(jù)集、13種最先進(jìn)的RAG算法,5大RAG組件,包括檢索器、重排器、生成器、精煉器、評(píng)測(cè)器。借助FlashRAG和提供的資源,可以輕松地復(fù)制RAG領(lǐng)域的現(xiàn)有SOTA(最先進(jìn))工作,或者實(shí)現(xiàn)自定義的RAG流程和組件,比LangChain和LlamaIndex輕量且易操作。
FlashRAG概覽
12種RAG技術(shù)在三個(gè)數(shù)據(jù)集上進(jìn)行的性能評(píng)估。優(yōu)化組件表示該方法主要優(yōu)化的組件,而流程表示對(duì)整個(gè)RAG過(guò)程的優(yōu)化。帶有?標(biāo)記的方法表示使用了經(jīng)過(guò)訓(xùn)練的生成器。?
在不同檢索文檔數(shù)量和檢索器數(shù)量下的標(biāo)準(zhǔn)RAG過(guò)程的結(jié)果。左圖:使用三種不同檢索器,檢索不同數(shù)量文檔,在六個(gè)數(shù)據(jù)集上的平均結(jié)果。右圖:使用E5作為檢索器,在六個(gè)數(shù)據(jù)集上的單獨(dú)結(jié)果。
32個(gè)數(shù)據(jù)集總結(jié)。FlashRAG目前包含了不同任務(wù)的多種數(shù)據(jù)集。每個(gè)數(shù)據(jù)集的樣本大小以及答案的知識(shí)來(lái)源被列出作為參考。"-"表示知識(shí)來(lái)源是常識(shí)。星號(hào)(?)表示這個(gè)數(shù)據(jù)集的任務(wù)已經(jīng)被修改以適應(yīng)RAG場(chǎng)景。?
https://github.com/RUC-NLPIR/FlashRAG
https://arxiv.org/pdf/2405.13576
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research
本文轉(zhuǎn)載自 ??PaperAgent??,作者: PaperAgent
