如何測(cè)試大型語(yǔ)言模型
譯文圍繞使用AI助手來(lái)減少手動(dòng)工作、通過(guò)代碼生成器提高軟件開(kāi)發(fā)者的生產(chǎn)力,以及利用生成式AI進(jìn)行創(chuàng)新,這些話題一直為公眾所熱議。同時(shí),商業(yè)機(jī)會(huì)正推動(dòng)許多開(kāi)發(fā)團(tuán)隊(duì)構(gòu)建知識(shí)庫(kù)、使用向量數(shù)據(jù)庫(kù),并在其應(yīng)用中嵌入大型語(yǔ)言模型(LLMs)。
構(gòu)建具有LLM能力的應(yīng)用程序的一些通用用例,包括搜索體驗(yàn)、內(nèi)容生成、文檔摘要、聊天機(jī)器人和客戶支持應(yīng)用。行業(yè)示例包括在醫(yī)療保健中開(kāi)發(fā)患者門戶、在金融服務(wù)中改善初級(jí)銀行家的工作流程,以及為制造業(yè)的未來(lái)鋪平道路。
投資LLMs的公司面臨一些前期障礙,包括改進(jìn)數(shù)據(jù)治理、提高數(shù)據(jù)質(zhì)量、選擇LLM架構(gòu)、解決安全風(fēng)險(xiǎn),并制定云基礎(chǔ)設(shè)施計(jì)劃。
我對(duì)組織如何測(cè)試他們的LLM模型和應(yīng)用程序有更大的擔(dān)憂。新聞中的問(wèn)題包括一家航空公司兌現(xiàn)其聊天機(jī)器人提供的退款、關(guān)于版權(quán)侵權(quán)的訴訟,以及降低幻覺(jué)風(fēng)險(xiǎn)。
Roadz的聯(lián)合創(chuàng)始人兼首席運(yùn)營(yíng)官Amit Jain表示:“測(cè)試LLM模型需要一種多方面的方法是超越技術(shù)嚴(yán)謹(jǐn)性的。團(tuán)隊(duì)?wèi)?yīng)該進(jìn)行迭代改進(jìn),并創(chuàng)建詳細(xì)的文檔以記錄模型的開(kāi)發(fā)過(guò)程、測(cè)試方法和性能指標(biāo)。與研究社區(qū)進(jìn)行互動(dòng),以基準(zhǔn)測(cè)試和分享最佳實(shí)踐也是有效的?!?/span>
針對(duì)嵌入式LLMs的4種測(cè)試策略
開(kāi)發(fā)團(tuán)隊(duì)需要一個(gè)LLM測(cè)試策略。作為起點(diǎn),考慮以下用于測(cè)試嵌入自定義應(yīng)用程序中的LLMs的做法:
1.創(chuàng)建測(cè)試數(shù)據(jù)以擴(kuò)展軟件QA
2.自動(dòng)化模型質(zhì)量和性能測(cè)試
3.根據(jù)用例評(píng)估RAG質(zhì)量
4.開(kāi)發(fā)質(zhì)量指標(biāo)和基準(zhǔn)
5.創(chuàng)建測(cè)試數(shù)據(jù)以擴(kuò)展軟件QA
大多數(shù)開(kāi)發(fā)團(tuán)隊(duì)不會(huì)創(chuàng)建通用的LLMs,而是為特定的最終用戶和用例開(kāi)發(fā)應(yīng)用程序。為了制定測(cè)試策略,團(tuán)隊(duì)需要了解用戶角色、目標(biāo)、工作流程和涉及的質(zhì)量基準(zhǔn)。
Mindbreeze的首席技術(shù)官Jakob Praher表示:“測(cè)試LLMs的第一個(gè)要求是了解LLM應(yīng)該能夠解決的任務(wù)?!薄皩?duì)于這些任務(wù),人們會(huì)構(gòu)建測(cè)試數(shù)據(jù)集以建立LLM性能的指標(biāo)。然后,人們可以系統(tǒng)地優(yōu)化提示或微調(diào)模型?!?/span>
例如,為客服設(shè)計(jì)的LLM可能包括常見(jiàn)用戶問(wèn)題和最佳響應(yīng)的測(cè)試數(shù)據(jù)集。其他LLM用例可能沒(méi)有直接的方法來(lái)評(píng)估結(jié)果,但開(kāi)發(fā)人員仍然可以使用測(cè)試數(shù)據(jù)進(jìn)行驗(yàn)證。
Solix Technologies的工程副總裁Kishore Gadiraju表示:“測(cè)試LLM最可靠的方法是創(chuàng)建相關(guān)的測(cè)試數(shù)據(jù),但挑戰(zhàn)在于創(chuàng)建這樣一個(gè)數(shù)據(jù)集的成本和時(shí)間?!薄跋袢魏纹渌浖粯?,LLM測(cè)試包括單元、功能、回歸和性能測(cè)試。此外,LLM測(cè)試需要偏見(jiàn)、公平性、安全性、內(nèi)容控制和可解釋性測(cè)試?!?/span>
自動(dòng)化模型質(zhì)量和性能測(cè)試
一旦有了測(cè)試數(shù)據(jù)集,開(kāi)發(fā)團(tuán)隊(duì)?wèi)?yīng)該根據(jù)質(zhì)量目標(biāo)、風(fēng)險(xiǎn)和成本考慮采取幾種測(cè)試方法。Toloka AI的首席執(zhí)行官Olga Megorskaya表示:“公司開(kāi)始向自動(dòng)化評(píng)估方法轉(zhuǎn)變,而不是人類評(píng)估,因?yàn)樗鼈兙哂袝r(shí)間和成本效率。”“然而,在關(guān)鍵情況下,公司仍應(yīng)聘請(qǐng)領(lǐng)域?qū)<?,以捕捉自?dòng)化系統(tǒng)可能忽視的細(xì)微差別?!?/span>
對(duì)于開(kāi)發(fā)人員或數(shù)據(jù)科學(xué)家來(lái)說(shuō),找到自動(dòng)化和人在循環(huán)測(cè)試之間的正確平衡并不容易。Astronomer的數(shù)據(jù)和AI高級(jí)副總裁Steven Hillion表示:“我們建議對(duì)建模過(guò)程的每個(gè)步驟進(jìn)行自動(dòng)化基準(zhǔn)測(cè)試,然后對(duì)端到端系統(tǒng)進(jìn)行自動(dòng)化和手動(dòng)驗(yàn)證的混合”“對(duì)于主要應(yīng)用程序版本,您幾乎總是希望對(duì)測(cè)試集進(jìn)行最后一輪手動(dòng)驗(yàn)證。這在您引入了新的嵌入、新模型或新提示,并且您期望提高總體質(zhì)量水平時(shí)尤其如此,因?yàn)楦倪M(jìn)通常是微妙或主觀的?!?/span>
在有健全的LLM測(cè)試平臺(tái)之前,手動(dòng)測(cè)試是一個(gè)謹(jǐn)慎的措施。Relational AI的研究ML副總裁Nikolaos Vasiloglou表示:“沒(méi)有用于系統(tǒng)測(cè)試的最新測(cè)試平臺(tái)?!薄爱?dāng)涉及到可靠性和幻覺(jué)時(shí),知識(shí)圖譜問(wèn)題生成機(jī)器人是最好的解決方案?!?/span>
Gadiraju分享了以下LLM測(cè)試庫(kù)和工具:
1.AI Fairness 360,一個(gè)開(kāi)源工具包,用于檢查、報(bào)告和減輕機(jī)器學(xué)習(xí)模型中的歧視和偏見(jiàn);
2.DeepEval,一個(gè)開(kāi)源的LLM評(píng)估框架,類似于Pytest,但專門用于單元測(cè)試LLM輸出;
3.Baserun,一個(gè)幫助調(diào)試、測(cè)試和迭代改進(jìn)模型的工具;
4.Nvidia NeMo-Guardrails,一個(gè)開(kāi)源工具包,用于在LLM的輸出上添加可編程約束。
IBM Data and AI的數(shù)據(jù)科學(xué)工具和運(yùn)行時(shí)總監(jiān)Monica Romila分享了企業(yè)用例中LLMs的兩個(gè)測(cè)試領(lǐng)域:
1.模型質(zhì)量評(píng)估使用學(xué)術(shù)和內(nèi)部數(shù)據(jù)集評(píng)估模型質(zhì)量,用于分類、提取、摘要、生成和檢索增強(qiáng)生成(RAG)等用例。
2.模型性能測(cè)試驗(yàn)證模型的延遲(數(shù)據(jù)傳輸?shù)慕?jīng)過(guò)時(shí)間)和吞吐量(在一定時(shí)間范圍內(nèi)處理的數(shù)據(jù)量)。
Romila表示,性能測(cè)試取決于兩個(gè)關(guān)鍵參數(shù):并發(fā)請(qǐng)求的數(shù)量和生成的令牌數(shù)量(模型使用的文本塊)?!爸匾氖且獪y(cè)試各種負(fù)載大小和類型,并與現(xiàn)有模型的性能進(jìn)行比較,以查看是否需要更新?!?/span>
DevOps和云架構(gòu)師應(yīng)考慮基礎(chǔ)設(shè)施要求,以進(jìn)行LLM應(yīng)用程序的性能和負(fù)載測(cè)試。SADA解決方案工程董事Heather Sundheim表示:“為大型語(yǔ)言模型部署測(cè)試基礎(chǔ)設(shè)施涉及設(shè)置強(qiáng)大的計(jì)算資源、存儲(chǔ)解決方案和測(cè)試框架?!薄白詣?dòng)化配置工具如Terraform和版本控制系統(tǒng)如Git在可重復(fù)部署和有效協(xié)作中發(fā)揮關(guān)鍵作用,強(qiáng)調(diào)平衡資源、存儲(chǔ)、部署策略和協(xié)作工具的重要性,以實(shí)現(xiàn)可靠的LLM測(cè)試?!?/span>
根據(jù)用例評(píng)估RAG質(zhì)量
提高LLM準(zhǔn)確性的一些技術(shù)包括集中內(nèi)容、使用最新數(shù)據(jù)更新模型,并在查詢管道中使用RAG。RAG對(duì)于將LLMs的強(qiáng)大功能與公司的專有信息結(jié)合起來(lái)非常重要。
在一個(gè)典型的LLM應(yīng)用程序中,用戶輸入一個(gè)提示,應(yīng)用程序?qū)⑵浒l(fā)送到LLM,然后LLM生成一個(gè)響應(yīng),應(yīng)用程序?qū)⑵浒l(fā)送回用戶。使用RAG時(shí),應(yīng)用程序首先將提示發(fā)送到信息數(shù)據(jù)庫(kù),如搜索引擎或向量數(shù)據(jù)庫(kù),以檢索相關(guān)、主題相關(guān)的信息。應(yīng)用程序?qū)⑻崾竞瓦@些上下文信息發(fā)送到LLM,后者使用這些信息來(lái)制定響應(yīng)。因此,RAG將LLM的響應(yīng)限制在相關(guān)和上下文信息上。
Pryon的首席執(zhí)行官和創(chuàng)始人Igor Jablokov表示:“RAG對(duì)于企業(yè)風(fēng)格的部署更合理,其中對(duì)源內(nèi)容的可驗(yàn)證歸屬是必要的,尤其是在關(guān)鍵基礎(chǔ)設(shè)施中?!?/span>
使用RAG與LLM已經(jīng)顯示出可以減少幻覺(jué)并提高準(zhǔn)確性。然而,使用RAG還增加了一個(gè)需要測(cè)試其相關(guān)性和性能的新組件。測(cè)試類型取決于評(píng)估RAG和LLM響應(yīng)的容易程度,以及開(kāi)發(fā)團(tuán)隊(duì)在多大程度上可以利用最終用戶反饋。
我最近與Forethought的首席執(zhí)行官Deon Nicholas談到了他公司生成型客戶支持AI中使用的RAG評(píng)估選項(xiàng)。他分享了三種不同的方法:
1.黃金標(biāo)準(zhǔn)數(shù)據(jù)集,或人類標(biāo)記的正確答案數(shù)據(jù)集,作為模型性能的基準(zhǔn);
2.強(qiáng)化學(xué)習(xí),或在現(xiàn)實(shí)世界場(chǎng)景中測(cè)試模型,例如在與聊天機(jī)器人互動(dòng)后詢問(wèn)用戶的滿意度;
3.對(duì)抗網(wǎng)絡(luò),或訓(xùn)練一個(gè)次要LLM來(lái)評(píng)估主要的性能,這提供了一種不依賴人類反饋的自動(dòng)化評(píng)估。
Nicholas表示:“每種方法都有權(quán)衡,平衡了人類努力與忽視錯(cuò)誤風(fēng)險(xiǎn)之間的關(guān)系?!薄白詈玫南到y(tǒng)在系統(tǒng)組件中利用這些方法,以最小化錯(cuò)誤,促進(jìn)健全的AI部署?!?/span>
開(kāi)發(fā)質(zhì)量指標(biāo)和基準(zhǔn)
一旦您有了測(cè)試數(shù)據(jù)、一個(gè)新的或更新的LLM和一個(gè)測(cè)試策略,下一步就是根據(jù)既定目標(biāo)驗(yàn)證質(zhì)量。
ContractPodAi的首席產(chǎn)品官Atena Reyhani表示:“為了確保開(kāi)發(fā)安全、可靠和值得信賴的AI,創(chuàng)建具體和可衡量的KPI并建立明確的界限非常重要。”“一些需要考慮的標(biāo)準(zhǔn)包括準(zhǔn)確性、一致性、速度和與特定領(lǐng)域用例的相關(guān)性。開(kāi)發(fā)人員需要評(píng)估目標(biāo)領(lǐng)域中的整個(gè)LLM生態(tài)系統(tǒng)和運(yùn)營(yíng)模型,以確保它提供準(zhǔn)確、相關(guān)和全面的結(jié)果。”
一個(gè)學(xué)習(xí)的工具是Chatbot Arena,一個(gè)比較LLM結(jié)果的開(kāi)放環(huán)境。它使用Elo評(píng)分系統(tǒng),這是一種經(jīng)常用于排名競(jìng)技游戲中玩家的算法,但當(dāng)一個(gè)人評(píng)估來(lái)自不同LLM算法或版本的響應(yīng)時(shí),它效果很好。
Immuta的研究副總裁Joe Regensburger表示:“人類評(píng)估是測(cè)試的核心部分,特別是在‘野外’環(huán)境中強(qiáng)化LLM?!薄癈hatbot Arena是眾包測(cè)試的一個(gè)例子,這些類型的人類評(píng)估研究可以提供一個(gè)重要的反饋循環(huán),以納入用戶反饋?!?nbsp;
IBM Data and AI的Romila根據(jù)LLM的用例分享了三個(gè)需要考慮的指標(biāo)。
1.F1分?jǐn)?shù)是精確度和召回率的綜合分?jǐn)?shù),適用于LLM用于分類或預(yù)測(cè)的情況。例如,客戶支持LLM可以根據(jù)其推薦行動(dòng)方案的能力進(jìn)行評(píng)估。
2.RougeL可用于測(cè)試RAG和LLM的摘要用例,但這通常需要一個(gè)人類創(chuàng)建的摘要來(lái)基準(zhǔn)測(cè)試結(jié)果。
3.sacreBLEU是用于定量評(píng)估LLM響應(yīng)的方法之一,最初用于測(cè)試語(yǔ)言翻譯,現(xiàn)在與其他方法如TER、ChrF和BERTScore一起使用。
一些行業(yè)有質(zhì)量和風(fēng)險(xiǎn)指標(biāo)需要考慮。Aisera的產(chǎn)品管理和市場(chǎng)營(yíng)銷副總裁Karthik Sj表示:“在教育中,評(píng)估適齡性和避免毒性至關(guān)重要,但在面向消費(fèi)者的應(yīng)用程序中,優(yōu)先考慮響應(yīng)的相關(guān)性和延遲?!?/span>
一旦模型部署,測(cè)試就不會(huì)結(jié)束,數(shù)據(jù)科學(xué)家應(yīng)該尋找最終用戶的反應(yīng)、性能指標(biāo)和其他反饋來(lái)改進(jìn)模型。Amplitude的工程和CISO副總裁Dustin Pearce表示:“部署后,將結(jié)果與行為分析集成變得至關(guān)重要,提供快速反饋和更清晰的模型性能度量。”
準(zhǔn)備生產(chǎn)的一個(gè)重要步驟是在應(yīng)用程序中使用功能標(biāo)志。AI技術(shù)公司Anthropic、Character.ai、Notion和Brex在構(gòu)建其產(chǎn)品時(shí)使用功能標(biāo)志,以協(xié)作地測(cè)試應(yīng)用程序,緩慢地向大型群體引入能力,并將實(shí)驗(yàn)針對(duì)不同的用戶細(xì)分。
雖然有新興技術(shù)來(lái)驗(yàn)證LLM應(yīng)用程序,但這些技術(shù)都不容易實(shí)施,也不能提供明確的結(jié)果。就目前而言,僅僅構(gòu)建一個(gè)具有RAG和LLM集成的應(yīng)用程序可能是相對(duì)容易的部分,與測(cè)試它和支持增強(qiáng)所需的工作相比。
原文標(biāo)題:How to test large language models
原文作者: Isaac Sacolick