偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sub id="a4a10"></sub>

<tr id="a4a10"></tr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

理解 RAG 第四部分：檢索增強(qiáng)生成評(píng)估框架

作者：曉曉 2025-04-27 00:30:00

本文介紹并概述了 RAGA：這是一個(gè)流行的評(píng)估框架，用于從信息檢索和文本生成的角度系統(tǒng)地衡量 RAG 系統(tǒng)性能的多個(gè)方面。了解該框架的關(guān)鍵要素是掌握其實(shí)際用途以利用高性能 RAG 應(yīng)用程序的第一步。

檢索增強(qiáng)生成(RAG) 在擴(kuò)展獨(dú)立大型語言模型(LLM)的局限性和克服其諸多限制方面發(fā)揮了關(guān)鍵作用。通過整合檢索器，RAG 增強(qiáng)了響應(yīng)的相關(guān)性和事實(shí)準(zhǔn)確性：它只需實(shí)時(shí)利用外部知識(shí)源（例如矢量文檔庫），并在原始用戶查詢或提示中添加相關(guān)的上下文信息，然后將其傳遞給 LLM 進(jìn)行輸出生成。

對(duì)于那些深入 RAG 領(lǐng)域的人來說，一個(gè)自然而然的問題出現(xiàn)了：我們?nèi)绾卧u(píng)估這些遠(yuǎn)非簡(jiǎn)單的系統(tǒng)？

為此，存在幾個(gè)框架，例如DeepEval，它提供了超過 14 種評(píng)估指標(biāo)來評(píng)估幻覺和忠實(shí)度等標(biāo)準(zhǔn)；MLflow LLM Evaluate，以其模塊化和簡(jiǎn)單性而聞名，可以在自定義管道中進(jìn)行評(píng)估；RAGAs，專注于定義 RAG 管道，提供忠實(shí)度和上下文相關(guān)性等指標(biāo)來計(jì)算綜合的 RAGA 質(zhì)量得分。

以下是這三個(gè)框架的摘要：

RAG評(píng)估框架

理解 RAGA

RAGA （檢索增強(qiáng)生成評(píng)估的縮寫）被認(rèn)為是評(píng)估 LLM 應(yīng)用的最佳工具包之一。它能夠以最簡(jiǎn)單的方式——既可以單獨(dú)評(píng)估，也可以作為單一流程聯(lián)合評(píng)估RAG 系統(tǒng)組件（即檢索器和生成器）的性能。

RAGA 的核心要素是其指標(biāo)驅(qū)動(dòng)開發(fā)(MDD) 方法，該方法依賴數(shù)據(jù)做出明智的系統(tǒng)決策。MDD 需要持續(xù)監(jiān)控關(guān)鍵指標(biāo)，從而清晰洞察應(yīng)用程序的性能。除了允許開發(fā)人員評(píng)估其 LLM/RAG 應(yīng)用程序并進(jìn)行指標(biāo)輔助實(shí)驗(yàn)外，MDD 方法還與應(yīng)用程序的可重復(fù)性高度契合。

RAGA 組件

提示對(duì)象：定義提示的結(jié)構(gòu)和內(nèi)容的組件，用于引出語言模型生成的響應(yīng)。通過遵循一致且清晰的提示，它有助于進(jìn)行準(zhǔn)確的評(píng)估。
評(píng)估樣本：一個(gè)獨(dú)立的數(shù)據(jù)實(shí)例，包含用戶查詢、生成的響應(yīng)以及參考響應(yīng)或基本事實(shí)（類似于 ROUGE、BLEU 和 METEOR 等 LLM 指標(biāo)）。它是評(píng)估 RAG 系統(tǒng)性能的基本單元。
評(píng)估數(shù)據(jù)集：一組評(píng)估樣本，用于基于各種指標(biāo)更系統(tǒng)地評(píng)估整個(gè) RAG 系統(tǒng)的性能。其目的是全面評(píng)估系統(tǒng)的有效性和可靠性。

RAGA指標(biāo)

RAGAs 提供了配置 RAG 系統(tǒng)指標(biāo)的功能，通過定義檢索器和生成器的特定指標(biāo)，并將它們混合成整體 RAGAs 分?jǐn)?shù)，如下圖所示：

讓我們了解一下事物檢索和生成方面的一些最常見的指標(biāo)。

1.檢索性能指標(biāo)：

上下文回憶率：回憶率衡量的是知識(shí)庫中檢索到的相關(guān)文檔在真實(shí) Top-K 結(jié)果中所占的比例，即檢索到的與問題答案最相關(guān)的文檔數(shù)量是多少？它的計(jì)算方法是將檢索到的相關(guān)文檔數(shù)量除以相關(guān)文檔總數(shù)。
上下文精度：在檢索到的文檔中，有多少與提示相關(guān)，而不是噪音？上下文精度可以回答這個(gè)問題，其計(jì)算方法是將檢索到的相關(guān)文檔數(shù)除以檢索到的文檔總數(shù)。

2.生成性能指標(biāo)：

忠實(shí)度：它評(píng)估生成的響應(yīng)是否與檢索到的證據(jù)相符，換句話說，就是響應(yīng)的事實(shí)準(zhǔn)確性。這通常通過比較響應(yīng)和檢索到的文檔來完成。
上下文相關(guān)性：此指標(biāo)決定生成的響應(yīng)與查詢的相關(guān)性。它通?；谌斯づ袛嗷蛲ㄟ^自動(dòng)語義相似度評(píng)分（例如余弦相似度）計(jì)算得出。

作為連接 RAG 系統(tǒng)兩個(gè)方面（檢索和生成）的示例指標(biāo)，我們有：

上下文利用率：這評(píng)估了 RAG 系統(tǒng)如何有效地利用檢索到的上下文來生成其響應(yīng)。即使檢索器獲取了極好的上下文（高準(zhǔn)確率和記憶），性能較差的生成器也可能無法有效地利用它。上下文利用率的提出正是為了捕捉這種細(xì)微差別。

在 RAGAs 框架中，各個(gè)指標(biāo)會(huì)被組合起來，計(jì)算出一個(gè)RAGAs 的總體得分，從而全面量化 RAG 系統(tǒng)的性能。計(jì)算此得分的過程包括：選擇相關(guān)指標(biāo)并計(jì)算它們，將它們標(biāo)準(zhǔn)化為在同一范圍內(nèi)變動(dòng)（通常為 0-1），然后計(jì)算這些指標(biāo)的加權(quán)平均值。權(quán)重的分配取決于每個(gè)用例的優(yōu)先級(jí)，例如，在需要高度事實(shí)準(zhǔn)確性的系統(tǒng)中，確保信息的忠實(shí)性和準(zhǔn)確性確實(shí)至關(guān)重要。當(dāng)處理或提供信息時(shí)，尤其是涉及到具體數(shù)據(jù)、日期、事件等事實(shí)性內(nèi)容時(shí)，優(yōu)先考慮信息的真實(shí)性而非僅僅追求快速的回憶或檢索能力是十分必要的。這樣可以保證提供的信息更加可靠，減少錯(cuò)誤信息傳播的風(fēng)險(xiǎn)。

小結(jié)

本文介紹并概述了 RAGA：這是一個(gè)流行的評(píng)估框架，用于從信息檢索和文本生成的角度系統(tǒng)地衡量 RAG 系統(tǒng)性能的多個(gè)方面。了解該框架的關(guān)鍵要素是掌握其實(shí)際用途以利用高性能 RAG 應(yīng)用程序的第一步。

責(zé)任編輯：龐桂玉來源：數(shù)據(jù)驅(qū)動(dòng)智能

RAG 檢索增強(qiáng)生成 AI 人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="fcuie"></cite>

<s id="fcuie"></s>