理解 RAG 第四部分:檢索增強生成評估框架
檢索增強生成(RAG) 在擴展獨立大型語言模型(LLM)的局限性和克服其諸多限制方面發(fā)揮了關(guān)鍵作用。通過整合檢索器,RAG 增強了響應(yīng)的相關(guān)性和事實準(zhǔn)確性:它只需實時利用外部知識源(例如矢量文檔庫),并在原始用戶查詢或提示中添加相關(guān)的上下文信息,然后將其傳遞給 LLM 進行輸出生成。
對于那些深入 RAG 領(lǐng)域的人來說,一個自然而然的問題出現(xiàn)了:我們?nèi)绾卧u估這些遠(yuǎn)非簡單的系統(tǒng)?
為此,存在幾個框架,例如DeepEval,它提供了超過 14 種評估指標(biāo)來評估幻覺和忠實度等標(biāo)準(zhǔn);MLflow LLM Evaluate,以其模塊化和簡單性而聞名,可以在自定義管道中進行評估;RAGAs,專注于定義 RAG 管道,提供忠實度和上下文相關(guān)性等指標(biāo)來計算綜合的 RAGA 質(zhì)量得分。
以下是這三個框架的摘要:
理解 RAGA
RAGA (檢索增強生成評估的縮寫)被認(rèn)為是評估 LLM 應(yīng)用的最佳工具包之一。它能夠以最簡單的方式——既可以單獨評估,也可以作為單一流程聯(lián)合評估RAG 系統(tǒng)組件(即檢索器和生成器)的性能。
RAGA 的核心要素是其指標(biāo)驅(qū)動開發(fā)(MDD) 方法,該方法依賴數(shù)據(jù)做出明智的系統(tǒng)決策。MDD 需要持續(xù)監(jiān)控關(guān)鍵指標(biāo),從而清晰洞察應(yīng)用程序的性能。除了允許開發(fā)人員評估其 LLM/RAG 應(yīng)用程序并進行指標(biāo)輔助實驗外,MDD 方法還與應(yīng)用程序的可重復(fù)性高度契合。
RAGA 組件
- 提示對象:定義提示的結(jié)構(gòu)和內(nèi)容的組件,用于引出語言模型生成的響應(yīng)。通過遵循一致且清晰的提示,它有助于進行準(zhǔn)確的評估。
- 評估樣本:一個獨立的數(shù)據(jù)實例,包含用戶查詢、生成的響應(yīng)以及參考響應(yīng)或基本事實(類似于 ROUGE、BLEU 和 METEOR 等 LLM 指標(biāo))。它是評估 RAG 系統(tǒng)性能的基本單元。
- 評估數(shù)據(jù)集:一組評估樣本,用于基于各種指標(biāo)更系統(tǒng)地評估整個 RAG 系統(tǒng)的性能。其目的是全面評估系統(tǒng)的有效性和可靠性。
RAGA指標(biāo)
RAGAs 提供了配置 RAG 系統(tǒng)指標(biāo)的功能,通過定義檢索器和生成器的特定指標(biāo),并將它們混合成整體 RAGAs 分?jǐn)?shù),如下圖所示:
讓我們了解一下事物檢索和生成方面的一些最常見的指標(biāo)。
1.檢索性能指標(biāo):
- 上下文回憶率:回憶率衡量的是知識庫中檢索到的相關(guān)文檔在真實 Top-K 結(jié)果中所占的比例,即檢索到的與問題答案最相關(guān)的文檔數(shù)量是多少?它的計算方法是將檢索到的相關(guān)文檔數(shù)量除以相關(guān)文檔總數(shù)。
- 上下文精度:在檢索到的文檔中,有多少與提示相關(guān),而不是噪音?上下文精度可以回答這個問題,其計算方法是將檢索到的相關(guān)文檔數(shù)除以檢索到的文檔總數(shù)。
2.生成性能指標(biāo):
- 忠實度:它評估生成的響應(yīng)是否與檢索到的證據(jù)相符,換句話說,就是響應(yīng)的事實準(zhǔn)確性。這通常通過比較響應(yīng)和檢索到的文檔來完成。
- 上下文相關(guān)性:此指標(biāo)決定生成的響應(yīng)與查詢的相關(guān)性。它通?;谌斯づ袛嗷蛲ㄟ^自動語義相似度評分(例如余弦相似度)計算得出。
作為連接 RAG 系統(tǒng)兩個方面(檢索和生成)的示例指標(biāo),我們有:
- 上下文利用率:這評估了 RAG 系統(tǒng)如何有效地利用檢索到的上下文來生成其響應(yīng)。即使檢索器獲取了極好的上下文(高準(zhǔn)確率和記憶),性能較差的生成器也可能無法有效地利用它。上下文利用率的提出正是為了捕捉這種細(xì)微差別。
在 RAGAs 框架中,各個指標(biāo)會被組合起來,計算出一個RAGAs 的總體得分,從而全面量化 RAG 系統(tǒng)的性能。計算此得分的過程包括:選擇相關(guān)指標(biāo)并計算它們,將它們標(biāo)準(zhǔn)化為在同一范圍內(nèi)變動(通常為 0-1),然后計算這些指標(biāo)的加權(quán)平均值。權(quán)重的分配取決于每個用例的優(yōu)先級,例如,在需要高度事實準(zhǔn)確性的系統(tǒng)中,確保信息的忠實性和準(zhǔn)確性確實至關(guān)重要。當(dāng)處理或提供信息時,尤其是涉及到具體數(shù)據(jù)、日期、事件等事實性內(nèi)容時,優(yōu)先考慮信息的真實性而非僅僅追求快速的回憶或檢索能力是十分必要的。這樣可以保證提供的信息更加可靠,減少錯誤信息傳播的風(fēng)險。
小結(jié)
本文介紹并概述了 RAGA:這是一個流行的評估框架,用于從信息檢索和文本生成的角度系統(tǒng)地衡量 RAG 系統(tǒng)性能的多個方面。了解該框架的關(guān)鍵要素是掌握其實際用途以利用高性能 RAG 應(yīng)用程序的第一步。