LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估 原創(chuàng)
大家好,我是玄姐。
一、引言
Agentic AI 的評(píng)估,核心是測(cè)試你的大語言模型(LLM)應(yīng)用,確保其性能穩(wěn)定。

這個(gè)話題或許不算最吸引人,但越來越多企業(yè)開始關(guān)注它。所以,搞清楚該跟蹤哪些指標(biāo)來實(shí)際衡量性能,很有必要。
另外,每次推送代碼更新時(shí),做好評(píng)估也能防止系統(tǒng)出問題。
因此,本文研究了多輪對(duì)話機(jī)器人、檢索增強(qiáng)生成(RAG)和智能體(Agentic)應(yīng)用的常見評(píng)估指標(biāo),還簡(jiǎn)要介紹了 DeepEval、RAGAS 和 OpenAI 的 Evals 庫(kù)等框架,幫你明確不同場(chǎng)景下該選哪個(gè)工具。

二、傳統(tǒng)評(píng)估方式(基礎(chǔ)入門)
如果你熟悉自然語言處理(NLP)任務(wù)的評(píng)估方法,也了解公開基準(zhǔn)測(cè)試的原理,可直接跳過這部分。
要是不熟悉,建議先了解準(zhǔn)確率(Accuracy)、BLEU 等早期指標(biāo)的用途和原理,以及 MMLU 這類公開基準(zhǔn)測(cè)試的流程。
2.1 自然語言處理任務(wù)的評(píng)估
評(píng)估文本分類、翻譯、摘要等傳統(tǒng) NLP 任務(wù)時(shí),我們會(huì)用到準(zhǔn)確率、精確率(Precision)、F1 分?jǐn)?shù)、BLEU 和 ROUGE 等傳統(tǒng)指標(biāo)。

這些指標(biāo)至今仍在使用,但主要適用于模型輸出單一、易對(duì)比的 “正確答案” 的場(chǎng)景。
- 以文本分類為例,任務(wù)是給每個(gè)文本分配一個(gè)標(biāo)簽。此時(shí)可通過準(zhǔn)確率評(píng)估 —— 將模型分配的標(biāo)簽與評(píng)估數(shù)據(jù)集中的參考標(biāo)簽對(duì)比,判斷是否正確。
a.評(píng)判標(biāo)準(zhǔn)很明確:標(biāo)簽錯(cuò)誤得 0 分,正確得 1 分。
b.比如,用 1000 封郵件的垃圾郵件數(shù)據(jù)集訓(xùn)練分類器,若模型正確標(biāo)記了 910 封,準(zhǔn)確率就是 0.91。
c.文本分類中,我們還常使用 F1 分?jǐn)?shù)、精確率和召回率(Recall)。
- 對(duì)于文本摘要、機(jī)器翻譯這類 NLP 任務(wù),人們常用 ROUGE 和 BLEU 指標(biāo),判斷模型生成的譯文或摘要與參考文本的吻合度。
- 這兩個(gè)指標(biāo)都會(huì)統(tǒng)計(jì)重疊的 n 元語法(n-grams),雖對(duì)比方向不同,但核心邏輯一致:共享的詞語片段越多,分?jǐn)?shù)越高。
- 不過這種評(píng)估方式比較簡(jiǎn)單 —— 若模型輸出用了不同措辭,分?jǐn)?shù)就會(huì)偏低。
總體而言,這些傳統(tǒng)指標(biāo)在 “答案唯一” 的場(chǎng)景下效果最好,但對(duì)于如今我們搭建的 LLM 應(yīng)用,大多不太適用。
2.2 大語言模型基準(zhǔn)測(cè)試
關(guān)注行業(yè)動(dòng)態(tài)的話,你可能會(huì)發(fā)現(xiàn):每次有新的大語言模型發(fā)布,都會(huì)進(jìn)行 MMLU Pro、GPQA 或 Big-Bench 等基準(zhǔn)測(cè)試。

這些屬于通用評(píng)估,正確叫法是 “基準(zhǔn)測(cè)試(Benchmark)”,而非我們后續(xù)會(huì)講的 “評(píng)估(Evals)”。
盡管每個(gè)模型還會(huì)接受毒性、幻覺、偏見等方面的評(píng)估,但最受關(guān)注的還是類似 “考試” 或 “排行榜” 的基準(zhǔn)測(cè)試。
- MMLU 等數(shù)據(jù)集以選擇題為主,出現(xiàn)已有一段時(shí)間。我曾瀏覽過該數(shù)據(jù)集,發(fā)現(xiàn)其中存在不少混亂之處。
a.有些問題和答案模糊不清,這讓我猜測(cè):LLM 提供商可能會(huì)針對(duì)這些數(shù)據(jù)集訓(xùn)練模型,確保模型能答對(duì)題目。
b.這也引發(fā)了公眾的擔(dān)憂:大多數(shù) LLM 在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,可能只是過擬合導(dǎo)致;因此,我們需要更新的數(shù)據(jù)集和獨(dú)立的評(píng)估方式。
2.3 大語言模型評(píng)分器(LLM-as-a-judge)
評(píng)估這些數(shù)據(jù)集時(shí),通常可以用準(zhǔn)確率和單元測(cè)試。但現(xiàn)在有個(gè)新變化 —— 出現(xiàn)了 “大語言模型評(píng)分器(LLM-as-a-judge)”。
- 基準(zhǔn)測(cè)試模型時(shí),團(tuán)隊(duì)大多仍用傳統(tǒng)方法。只要是選擇題或答案唯一的場(chǎng)景,無需其他操作,只需將模型答案與參考答案對(duì)比,判斷是否完全匹配即可。

a.MMLU、GPQA 等含選擇題答案的數(shù)據(jù)集,就屬于這種情況。
b.對(duì)于代碼測(cè)試(如 HumanEval、SWE-Bench),評(píng)分器只需運(yùn)行模型生成的補(bǔ)丁或函數(shù):所有測(cè)試通過,即視為問題解決;反之則未解決。
但可想而知,若問題模糊或?qū)儆陂_放式問題,答案就可能不穩(wěn)定。這種漏洞催生了 “LLM-as-a-judge”—— 用 GPT-4 這類大語言模型對(duì)答案打分。

- MT-Bench 是采用 LLM 作為評(píng)分器的基準(zhǔn)測(cè)試之一:它將兩個(gè)競(jìng)爭(zhēng)的多輪對(duì)話答案輸入 GPT-4,讓其判斷哪個(gè)更好。
- 原本依賴人工評(píng)分的 “聊天機(jī)器人競(jìng)技場(chǎng)(Chatbot Arena)”,如今似乎也通過引入 LLM-as-a-judge 來擴(kuò)大規(guī)模。
為保證透明度,也可使用 BERTScore 等語義評(píng)估工具,對(duì)比語義相似度。為簡(jiǎn)潔起見,這里就不詳細(xì)展開現(xiàn)有工具了。
綜上,團(tuán)隊(duì)可能仍會(huì)用 BLEU、ROUGE 等重疊指標(biāo)進(jìn)行快速合理性檢查,或在可能的情況下依賴完全匹配解析,但如今的新趨勢(shì)是用另一個(gè)大語言模型來評(píng)判輸出結(jié)果。
三、大語言模型應(yīng)用的評(píng)估方法
現(xiàn)在的核心變化是:我們不再只測(cè)試 LLM 本身,而是測(cè)試整個(gè)系統(tǒng)。

只要條件允許,我們?nèi)詴?huì)像以前一樣用程序化方法評(píng)估。
對(duì)于更細(xì)微的輸出,我們可以先通過 BLEU、ROUGE 這類低成本、確定性的指標(biāo)查看 n 元語法重疊情況,但如今大多數(shù)現(xiàn)代框架都會(huì)用 LLM 評(píng)分器進(jìn)行評(píng)估。
有三個(gè)領(lǐng)域值得探討:多輪對(duì)話、RAG 和智能體(Agent)的評(píng)估方法及相關(guān)指標(biāo)。
你可以看到,這三個(gè)領(lǐng)域已定義的指標(biāo)數(shù)量非常多。

接下來,我們先簡(jiǎn)要介紹這些指標(biāo),再講解能提供幫助的各類框架。
3.1 多輪對(duì)話評(píng)估
首先要講的是多輪對(duì)話(常見于聊天機(jī)器人)的評(píng)估搭建方法。
我們與聊天機(jī)器人互動(dòng)時(shí),希望對(duì)話自然、專業(yè),機(jī)器人能記住關(guān)鍵信息,全程不偏離主題,且能準(zhǔn)確回答問題。
目前有不少常用指標(biāo)可跟蹤,首先來看 “相關(guān)性 / 連貫性(Relevancy/Coherence)” 和 “完整性(Completeness)”。
- 相關(guān)性:用于跟蹤 LLM 是否恰當(dāng)回應(yīng)用戶查詢、不偏離主題;
- 完整性:若最終結(jié)果能滿足用戶需求,則該指標(biāo)得分高。

也就是說,只要能跟蹤整個(gè)對(duì)話過程中的用戶滿意度,我們就能進(jìn)一步跟蹤對(duì)話是否真的 “降低了支持成本”、“提升了信任度”,以及是否 “提高了自助服務(wù)率”。
其次是 “知識(shí)留存(Knowledge Retention)” 和 “可靠性(Reliability)”。
- 知識(shí)留存:機(jī)器人是否記住對(duì)話中的關(guān)鍵細(xì)節(jié);
- 可靠性:能否確保機(jī)器人不 “混亂”—— 不僅要記住細(xì)節(jié),還要能自我修正。

在 “氛圍編碼工具(vibe coding tools)” 中,我們常會(huì)遇到機(jī)器人忘記之前犯的錯(cuò)誤、反復(fù)出錯(cuò)的情況,這種情況就可判定為 “可靠性(或穩(wěn)定性)低”。
第三是 “角色一致性(Role Adherence)” 和 “提示對(duì)齊(Prompt Alignment)”。

- 這兩個(gè)指標(biāo)用于跟蹤 LLM 是否堅(jiān)守給定角色,以及是否遵循系統(tǒng)提示中的指令。
接下來是與安全性相關(guān)的指標(biāo),如 “幻覺(Hallucination)” 和 “偏見 / 毒性(Bias/Toxicity)”。
- 幻覺:該指標(biāo)很重要,但評(píng)估難度較大。有人會(huì)嘗試通過網(wǎng)頁(yè)搜索驗(yàn)證輸出,也有人會(huì)將輸出拆分為不同斷言,用更大規(guī)模的模型(LLM-as-a-judge 模式)評(píng)估。
a.還有其他方法,比如 SelfCheckGPT—— 對(duì)同一提示多次調(diào)用模型,查看模型是否堅(jiān)持最初答案、偏離次數(shù)多少,以此判斷一致性。
- 偏見 / 毒性:可通過其他 NLP 方法評(píng)估,例如用微調(diào)后的分類器。
此外,你可能還需要跟蹤一些應(yīng)用定制化指標(biāo),比如代碼正確性、安全漏洞、JSON 格式正確性等。
至于評(píng)估方式,并非一定要用 LLM,但多數(shù)情況下,標(biāo)準(zhǔn)解決方案都會(huì)采用 LLM。
如果能提取出正確答案(如解析 JSON),自然無需使用 LLM。正如之前所說,許多 LLM 提供商在評(píng)估代碼相關(guān)指標(biāo)時(shí),也會(huì)用單元測(cè)試。
需要說明的是:用于評(píng)判的 LLM 并非總是絕對(duì)可靠,就像它們所評(píng)估的應(yīng)用一樣。但目前我沒有相關(guān)數(shù)據(jù)支持這一點(diǎn),你需要自行調(diào)研。
3.2 檢索增強(qiáng)生成(RAG)評(píng)估
在多輪對(duì)話評(píng)估的基礎(chǔ)上,我們?cè)賮砜纯?RAG 系統(tǒng)需要衡量哪些指標(biāo)。
評(píng)估 RAG 系統(tǒng)時(shí),需將流程拆分為兩部分:分別衡量檢索(Retrieval)和生成(Generation)的指標(biāo)。

3.2.1 檢索環(huán)節(jié)評(píng)估
首先要評(píng)估檢索環(huán)節(jié):獲取的文檔是否與查詢匹配。
如果檢索環(huán)節(jié)得分低,可通過以下方式優(yōu)化系統(tǒng):
- 制定更優(yōu)的分塊策略;
- 更換嵌入模型(Embedding Model);
- 加入混合搜索、重排序等技術(shù);
- 用元數(shù)據(jù)過濾等。
評(píng)估檢索效果,既可以用依賴精選數(shù)據(jù)集的傳統(tǒng)指標(biāo),也可以用基于 LLM-as-a-judge 的無參考方法。
- 先說說經(jīng)典的信息檢索(IR)指標(biāo),它們是最早出現(xiàn)的檢索評(píng)估指標(biāo)。使用這些指標(biāo)需要 “黃金答案(Gold Answers)”—— 即針對(duì)某個(gè)查詢,對(duì)每個(gè)文檔進(jìn)行排序。
a.雖然可以用 LLM 構(gòu)建這類數(shù)據(jù)集,但評(píng)估時(shí)無需 LLM,因?yàn)閿?shù)據(jù)集中已有可對(duì)比的分?jǐn)?shù)。
b.最知名的 IR 指標(biāo)包括 Precision@k(前 k 個(gè)結(jié)果的精確率)、Recall@k(前 k 個(gè)結(jié)果的召回率)和 Hit@k(前 k 個(gè)結(jié)果中是否有相關(guān)文檔)。

c.這些指標(biāo)分別衡量:獲取的相關(guān)文檔數(shù)量、基于黃金參考答案檢索到的相關(guān)文檔數(shù)量,以及結(jié)果中是否至少包含一個(gè)相關(guān)文檔。
- 而 RAGAS、DeepEval 等較新的框架,則引入了無參考、LLM 評(píng)分式的指標(biāo),如 Context Recall(上下文召回率)和 Context Precision(上下文精確率)。
- 這些指標(biāo)通過 LLM 判斷:基于查詢,前 K 個(gè)結(jié)果中是否包含真正相關(guān)的文本塊。
- 簡(jiǎn)單來說,就是判斷系統(tǒng)是否返回了與查詢相關(guān)的文檔,或者是否包含過多無關(guān)文檔,導(dǎo)致無法正確回答問題。
構(gòu)建檢索評(píng)估數(shù)據(jù)集的方法有兩種:
- 從真實(shí)日志中挖掘問題,再由人工整理;
- 借助 LLM 使用數(shù)據(jù)集生成器 —— 多數(shù)框架中都有這類工具,也有 YourBench 這樣的獨(dú)立工具。
若你想基于 LLM 搭建自己的數(shù)據(jù)集生成器,可參考以下示例:
# 生成問題的提示語
qa_generate_prompt_tmpl = """
以下是上下文信息。
---------------------
{context_str}
---------------------
根據(jù)上述上下文信息,且不依賴任何先驗(yàn)知識(shí),
基于上述上下文生成{num}個(gè)問題和{num}個(gè)答案。...
"""3.2.2 生成環(huán)節(jié)評(píng)估
再來看 RAG 系統(tǒng)的生成環(huán)節(jié):評(píng)估模型能否利用提供的文檔準(zhǔn)確回答問題。
如果該環(huán)節(jié)表現(xiàn)不佳,可通過以下方式調(diào)整:
- 優(yōu)化提示詞(Prompt);
- 調(diào)整模型參數(shù)(如溫度系數(shù) temperature);
- 更換模型;
- 針對(duì)特定領(lǐng)域知識(shí)微調(diào)模型;
- 強(qiáng)制模型通過思維鏈(CoT)模式推理;
- 檢查模型的自我一致性等。
評(píng)估生成環(huán)節(jié)時(shí),RAGAS 框架的指標(biāo)很實(shí)用,包括 Answer Relevancy(答案相關(guān)性)、Faithfulness(忠誠(chéng)度)和 Noise Sensitivity(噪聲敏感度)。

- 答案相關(guān)性:判斷答案是否真正回應(yīng)了用戶問題;
- 忠誠(chéng)度:判斷答案中的每個(gè)斷言是否都有檢索到的文檔支持;
- 噪聲敏感度:判斷少量無關(guān)上下文是否會(huì)導(dǎo)致模型輸出偏離正確方向。
以 RAGAS 為例,其評(píng)估第一個(gè)指標(biāo)(答案相關(guān)性)的方式可能是:將問題、答案和檢索到的上下文輸入 LLM,讓 LLM 按 0-1 分打分,“1 分” 表示答案完全貼合問題,最終可根據(jù)原始分?jǐn)?shù)計(jì)算平均值。
綜上,評(píng)估 RAG 系統(tǒng)需將其拆分為檢索和生成兩個(gè)環(huán)節(jié)。既可以用基于 IR 指標(biāo)的方法,也可以用基于 LLM 評(píng)分的無參考方法。
3.3 智能體(Agent)評(píng)估
最后要講的是智能體評(píng)估 —— 除了上述提到的輸出、對(duì)話和上下文評(píng)估,智能體還擴(kuò)展了新的評(píng)估指標(biāo)。
評(píng)估智能體時(shí),我們不僅關(guān)注輸出、對(duì)話和上下文,還要評(píng)估它的 “行動(dòng)能力”:
- 能否完成任務(wù)或流程;
- 完成效率如何;
- 是否能在合適的時(shí)機(jī)調(diào)用正確的工具。
不同框架對(duì)這些指標(biāo)的命名可能不同,但核心要跟蹤的兩個(gè)指標(biāo)是 Task Completion(任務(wù)完成度)和 Tool Correctness(工具正確性)。

- 工具正確性:評(píng)估智能體是否為用戶查詢調(diào)用了正確的工具。
測(cè)試時(shí)需要內(nèi)置包含真值的 “黃金腳本(Gold Script)”,但只需編寫一次,后續(xù)每次修改系統(tǒng)后都可復(fù)用。
- 任務(wù)完成度:評(píng)估時(shí)需查看完整的操作軌跡和目標(biāo),按 0-1 分打分并給出理由,以此衡量智能體完成任務(wù)的效果。
此外,根據(jù)智能體的具體應(yīng)用場(chǎng)景,可能還需要測(cè)試前面提到的其他指標(biāo)。
需要注意的是:盡管已有不少定義好的指標(biāo),但不同應(yīng)用場(chǎng)景需求不同。了解常見指標(biāo)很有必要,但不要默認(rèn)它們就是最適合你應(yīng)用的評(píng)估指標(biāo)。
四、實(shí)用評(píng)估框架推薦
目前有很多框架可輔助評(píng)估工作,本文重點(diǎn)介紹幾個(gè)常用框架:RAGAS、DeepEval、OpenAI 的 Evals 庫(kù)和 MLFlow 的 Evals 庫(kù),分析它們的優(yōu)勢(shì)和適用場(chǎng)景。

你可以在這個(gè)代碼倉(cāng)庫(kù)中找到我整理的所有評(píng)估框架列表。
此外,也可以使用一些框架專屬的評(píng)估系統(tǒng)(如 LlamaIndex),尤其適合快速原型開發(fā)。
- OpenAI 和 MLFlow 的 Evals 更偏向 “附加工具”,而非獨(dú)立框架;
- RAGAS 主要定位為 RAG 應(yīng)用的指標(biāo)庫(kù)(不過也提供其他指標(biāo));
- DeepEval 可能是所有框架中功能最全面的評(píng)估庫(kù)。

但需要說明的是,這些框架都具備以下功能:
- 支持在自定義數(shù)據(jù)集上運(yùn)行評(píng)估;
- 可用于多輪對(duì)話、RAG 和智能體評(píng)估;
- 支持 LLM-as-a-judge;
- 允許設(shè)置自定義指標(biāo);
- 兼容持續(xù)集成(CI)流程。
正如前面提到的,它們的區(qū)別主要在功能全面性上:

- MLFlow 最初是為評(píng)估傳統(tǒng)機(jī)器學(xué)習(xí)管道設(shè)計(jì)的,因此針對(duì) LLM 應(yīng)用的指標(biāo)數(shù)量較少;
- OpenAI 的 Evals 框架非常輕量化,需要用戶自行設(shè)置指標(biāo),不過它提供了示例庫(kù)幫助入門;
- RAGAS 提供了不少指標(biāo),且可與 LangChain 集成,方便運(yùn)行;
- DeepEval 內(nèi)置功能豐富,甚至包含了 RAGAS 的指標(biāo)。
你可以在這個(gè) GitHub 倉(cāng)庫(kù)中查看上述框架的指標(biāo)對(duì)比表。
觀察這些框架提供的指標(biāo),能大致了解它們的功能覆蓋范圍。
需要注意的是:提供指標(biāo)的框架在命名上往往沒有統(tǒng)一標(biāo)準(zhǔn) —— 不同框架中名稱不同的指標(biāo),實(shí)際含義可能一致。
例如:
- 一個(gè)框架中的 “忠誠(chéng)度(Faithfulness)”,可能和另一個(gè)框架中的 “ groundedness(扎根性)” 含義相同;
- “答案相關(guān)性(Answer Relevancy)” 可能等同于 “響應(yīng)相關(guān)性(Response Relevance)”。
這種命名混亂給系統(tǒng)評(píng)估帶來了不必要的麻煩和復(fù)雜性。
不過,DeepEval 的優(yōu)勢(shì)很突出:它提供了 40 多種指標(biāo),還推出了 G-Eval 框架,可幫助快速搭建自定義指標(biāo),是從 “想法” 到 “可運(yùn)行指標(biāo)” 最快的工具。
OpenAI 的 Evals 框架則更適合需要定制邏輯的場(chǎng)景,而非快速評(píng)估需求。
據(jù) DeepEval 團(tuán)隊(duì)介紹,自定義指標(biāo)是開發(fā)者最常搭建的功能。因此,不必糾結(jié)于 “哪個(gè)框架提供了什么指標(biāo)”—— 你的應(yīng)用場(chǎng)景是獨(dú)特的,評(píng)估方式也應(yīng)如此。
那么,不同場(chǎng)景該如何選擇框架呢?
- 若需要針對(duì) RAG 管道的專用指標(biāo),且希望最小化配置工作,選 RAGAS;
- 若需要功能全面、開箱即用的評(píng)估套件,選 DeepEval;
- 若已在使用 MLFlow,或偏好內(nèi)置跟蹤和 UI 功能,MLFlow 是不錯(cuò)的選擇;
- 若依賴 OpenAI 基礎(chǔ)設(shè)施,且需要靈活性,OpenAI 的 Evals 框架(盡管最精簡(jiǎn))更合適。
此外,DeepEval 還通過其 DeepTeam 框架提供 “紅隊(duì)測(cè)試(Red Teaming)” 功能,可自動(dòng)對(duì) LLM 系統(tǒng)進(jìn)行對(duì)抗性測(cè)試。其他框架也有類似功能,但可能不如 DeepEval 全面。
未來,我計(jì)劃專門探討 LLM 系統(tǒng)的對(duì)抗性測(cè)試和提示詞注入問題 —— 這是個(gè)很有意思的話題。
五、注意事項(xiàng)
數(shù)據(jù)集相關(guān)業(yè)務(wù)利潤(rùn)豐厚,因此現(xiàn)在我們能夠用其他 LLM 標(biāo)注數(shù)據(jù)或?yàn)闇y(cè)試打分,這是一個(gè)很好的發(fā)展階段。
但 LLM 評(píng)分器并非 “萬能工具”,你搭建的評(píng)估體系可能會(huì)像其他 LLM 應(yīng)用一樣,存在不穩(wěn)定問題。據(jù)網(wǎng)絡(luò)信息顯示,大多數(shù)團(tuán)隊(duì)和企業(yè)會(huì)每幾周進(jìn)行一次人工抽樣審核,以確保評(píng)估的真實(shí)性。
你為應(yīng)用搭建的指標(biāo)很可能是定制化的,盡管本文介紹了不少通用指標(biāo),但最終你或許還是需要自行開發(fā)適合自己的評(píng)估指標(biāo)。
不過,了解這些標(biāo)準(zhǔn)指標(biāo)仍非常有必要。
希望本文能為你提供有價(jià)值的參考實(shí)現(xiàn)。
好了,這就是我今天想分享的內(nèi)容。
本文轉(zhuǎn)載自???玄姐聊AGI?? 作者:玄姐


















