偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

你的LLM評(píng)估方法過(guò)時(shí)了嗎?這三個(gè)范式轉(zhuǎn)變不容錯(cuò)過(guò) 原創(chuàng)

發(fā)布于 2025-1-26 10:03
瀏覽
0收藏


編者按: 在大語(yǔ)言模型時(shí)代,你是否也在為評(píng)估方法感到困惑?當(dāng)開(kāi)發(fā)周期越來(lái)越快,傳統(tǒng)的評(píng)估思維卻步履維艱 —— 新版本剛上線,評(píng)估指標(biāo)就失效了;想要建立長(zhǎng)期基準(zhǔn)測(cè)試,卻總是事與愿違;人工評(píng)估成本高昂,全自動(dòng)評(píng)估又難盡人意...

我們今天為大家?guī)?lái)的這篇文章,作者認(rèn)為在 LLM 時(shí)代,我們需要對(duì)評(píng)估體系進(jìn)行根本性的范式轉(zhuǎn)變,而不是簡(jiǎn)單地沿用傳統(tǒng)機(jī)器學(xué)習(xí)的評(píng)估方法。

文章從作者在 Quora、Waymo 等公司的一線實(shí)踐經(jīng)驗(yàn)出發(fā),提出了三個(gè)關(guān)鍵的評(píng)估范式轉(zhuǎn)變:首先,評(píng)估工作應(yīng)當(dāng)從開(kāi)發(fā)流程的配角轉(zhuǎn)變?yōu)橹鹘?,因?yàn)?LLM 應(yīng)用開(kāi)發(fā)中可調(diào)整的參數(shù)相對(duì)有限,而輸出的多樣性卻大大增加;其次,我們應(yīng)當(dāng)采用“比較差異”的基準(zhǔn)測(cè)試方法,這種方法雖然無(wú)法得到絕對(duì)的性能指標(biāo),但能更高效地指導(dǎo)迭代方向;最后,我們要正視并優(yōu)化人工評(píng)估的重要性,而不是一味追求完全自動(dòng)化的評(píng)估方案。

作者 | 姜礪礪

編譯 | 岳揚(yáng)

在我的職業(yè)生涯中,我一直致力于為機(jī)器學(xué)習(xí)系統(tǒng)打造評(píng)估體系。在擔(dān)任 Quora 數(shù)據(jù)科學(xué)部門(mén)負(fù)責(zé)人時(shí),我們?yōu)樾侣勗磁判?、廣告投放、內(nèi)容審查等構(gòu)建了評(píng)估機(jī)制。在 Waymo,我們團(tuán)隊(duì)為自動(dòng)駕駛汽車(chē)開(kāi)發(fā)了評(píng)估標(biāo)準(zhǔn)。而在金融科技初創(chuàng)公司 Coverbase,我們利用大語(yǔ)言模型(LLMs)來(lái)簡(jiǎn)化第三方風(fēng)險(xiǎn)管理的流程。這些經(jīng)歷讓我意識(shí)到,在使用大語(yǔ)言模型時(shí),我們需要在評(píng)估思路上做出一些細(xì)微而重要的調(diào)整。

本文的目的不在于為你的 LLM 應(yīng)用提供具體的評(píng)估方法,而是提出以下三種評(píng)估范式的轉(zhuǎn)變:

  1. 評(píng)估應(yīng)當(dāng)是主體而非點(diǎn)綴。
  2. 比較差異的基準(zhǔn)測(cè)試 。
  3. 將人工參與作為評(píng)估不可或缺的一部分。

需要說(shuō)明的是,本文的討論重點(diǎn)是 LLMs 的應(yīng)用,而非基礎(chǔ)模型的研究開(kāi)發(fā)。 同時(shí),盡管文章標(biāo)題如此,但我在本文提到的許多觀點(diǎn)同樣適用于其他生成系統(tǒng)(這得益于我在自動(dòng)駕駛領(lǐng)域的經(jīng)驗(yàn)),而不僅僅是 LLMs 的應(yīng)用。

01 評(píng)估應(yīng)當(dāng)是主體而非點(diǎn)綴

在機(jī)器學(xué)習(xí)的開(kāi)發(fā)過(guò)程中,評(píng)估的重要性不言而喻,這一點(diǎn)對(duì)于 LLM 來(lái)說(shuō)尤為突出。我認(rèn)為 LLM 開(kāi)發(fā)中評(píng)估的重要性提升有兩個(gè)原因:

a) 評(píng)估的比重增加了,因?yàn)樵跇?gòu)建 LLM 應(yīng)用時(shí),可操作的空間相對(duì)有限,導(dǎo)致非評(píng)估工作的耗時(shí)減少。 在 LLM 應(yīng)用的開(kāi)發(fā)過(guò)程中,我們通常是在 OpenAI 的 GPT 或 Anthropic 的 Claude 等基礎(chǔ)模型之上進(jìn)行構(gòu)建,而在應(yīng)用層面可調(diào)整的參數(shù)較少。這些參數(shù)的調(diào)整速度更快(需要注意的是,雖然調(diào)整速度快,但并不意味著能更快地達(dá)到理想效果)。例如,修改輸入提示詞的效率遠(yuǎn)高于為梯度提升決策樹(shù)(Gradient-Boosted Decision Tree)編寫(xiě)新的人工特征。因此,非評(píng)估的工作量減少,評(píng)估所占的時(shí)間比例自然就提高了。

你的LLM評(píng)估方法過(guò)時(shí)了嗎?這三個(gè)范式轉(zhuǎn)變不容錯(cuò)過(guò)-AI.x社區(qū)

Image by author

b) 評(píng)估的絕對(duì)重要性也有所提升,因?yàn)樯墒?AI 的輸出具有極大的多樣性,這使得評(píng)估工作變得更加復(fù)雜。 與分類(lèi)或排序任務(wù)不同,生成式 AI 的任務(wù)(比如撰寫(xiě)關(guān)于某個(gè)主題的文章、制作某張圖像、為自動(dòng)駕駛汽車(chē)規(guī)劃行駛軌跡)可能有無(wú)數(shù)種合理的輸出結(jié)果。因此,評(píng)估實(shí)際上是一個(gè)將高維空間投射到低維空間的過(guò)程。例如,對(duì)于 LLM 任務(wù),我們可以評(píng)估:“輸出內(nèi)容是否真實(shí)可靠?”,“是否含有有害信息?”,“語(yǔ)言表達(dá)是否簡(jiǎn)潔?”,“是否頻繁使用‘當(dāng)然!’等詞匯開(kāi)頭?”,等等。在二元分類(lèi)任務(wù)中,精確率和召回率是對(duì)結(jié)果的無(wú)損度量(直接測(cè)量你所觀察到的結(jié)果),而我提到的 LLM 任務(wù)的評(píng)估指標(biāo)則是對(duì)輸出文本的損失性度量(測(cè)量的是你所觀察結(jié)果的簡(jiǎn)化版)。準(zhǔn)確地進(jìn)行這種評(píng)估要困難得多。

這種評(píng)估范式的轉(zhuǎn)變,對(duì)于 LLM 應(yīng)用項(xiàng)目團(tuán)隊(duì)的建設(shè),包括團(tuán)隊(duì)規(guī)模和人員招聘,都具有實(shí)際的影響。

02 比較差異的基準(zhǔn)測(cè)試

理想狀況是:我們?cè)谝粋€(gè)目標(biāo)指標(biāo)上不斷攀升,并持續(xù)改進(jìn)。

你的LLM評(píng)估方法過(guò)時(shí)了嗎?這三個(gè)范式轉(zhuǎn)變不容錯(cuò)過(guò)-AI.x社區(qū)

Image by author

但現(xiàn)實(shí)情況如何呢?

在圖表上,你幾乎連兩個(gè)連續(xù)的數(shù)據(jù)點(diǎn)都畫(huà)不出來(lái)!

以下場(chǎng)景你可能似曾相識(shí):

第一次產(chǎn)品上線后,我們收集到了更多數(shù)據(jù),導(dǎo)致新的指標(biāo)數(shù)據(jù)與之前的不具備直接可比性。而且,我們無(wú)法在新數(shù)據(jù)集上重新運(yùn)行舊模型 —— 可能是因?yàn)橄到y(tǒng)其他部分已經(jīng)更新升級(jí),無(wú)法回退到舊版本來(lái)復(fù)現(xiàn)模型;又或者是評(píng)估指標(biāo)依賴于 LLM 作為評(píng)判標(biāo)準(zhǔn),而數(shù)據(jù)集龐大,每次評(píng)估的成本過(guò)高,等等。

第二次產(chǎn)品上線后,我們決定改變輸出結(jié)構(gòu)。例如,之前我們指導(dǎo)模型輸出“是”或“否”的答案;現(xiàn)在我們讓模型輸出“是”、“否”、“可能”或“我不知道”。因此,之前精心準(zhǔn)備的基準(zhǔn)測(cè)試數(shù)據(jù)集變得不再適用。

第三次產(chǎn)品上線后,我們決定將單個(gè) LLM 調(diào)用拆分為兩個(gè) LLM 調(diào)用的復(fù)合調(diào)用,并需要評(píng)估這些子組件。為此,我們需要為子組件評(píng)估準(zhǔn)備新的數(shù)據(jù)集。

……

問(wèn)題的核心在于,在 LLM 時(shí)代,開(kāi)發(fā)周期如此之快,以至于很難對(duì)同一指標(biāo)進(jìn)行持續(xù)追蹤。

那么,我們應(yīng)該如何應(yīng)對(duì)?

關(guān)注性能的變動(dòng)。

換句話說(shuō),我們應(yīng)該接受這樣一個(gè)事實(shí):在圖表上,我們通常只能看到兩個(gè)連續(xù)的數(shù)據(jù)點(diǎn)(譯者注:例如,一個(gè)代表當(dāng)前版本的性能,另一個(gè)代表新版本的性能)。關(guān)鍵是要確保每個(gè)模型版本都比前一個(gè)版本有所改進(jìn)(基于你當(dāng)時(shí)所掌握的知識(shí)),盡管我們很難從絕對(duì)意義上了解模型的性能水平。

假設(shè)我有一個(gè)基于 LLM 的語(yǔ)言學(xué)習(xí)輔導(dǎo)程序,它能夠首先判斷輸入內(nèi)容是英語(yǔ)還是西班牙語(yǔ),然后提供語(yǔ)法建議。一個(gè)簡(jiǎn)單的評(píng)估指標(biāo)就是“英語(yǔ)/西班牙語(yǔ)”標(biāo)簽的準(zhǔn)確率。現(xiàn)在,如果我修改了提示詞,并想要知道新的提示詞是否提升了準(zhǔn)確率。除了手動(dòng)標(biāo)注大量數(shù)據(jù)并計(jì)算準(zhǔn)確率之外,還有一種方法,就是只關(guān)注那些舊提示詞和新提示詞給出不同標(biāo)簽的數(shù)據(jù)點(diǎn)。這樣雖然無(wú)法得知兩個(gè)模型的絕對(duì)準(zhǔn)確率,但我可以確定哪個(gè)模型的準(zhǔn)確率更高。

你的LLM評(píng)估方法過(guò)時(shí)了嗎?這三個(gè)范式轉(zhuǎn)變不容錯(cuò)過(guò)-AI.x社區(qū)

Image by author

我想明確一點(diǎn),我并非全盤(pán)否定以絕對(duì)值為基準(zhǔn)的價(jià)值。我的意思是,我們應(yīng)該意識(shí)到這種做法的成本,而比較差異的基準(zhǔn)測(cè)試(雖然它不能完全替代前者),通常是一種更經(jīng)濟(jì)高效的方法來(lái)得出大致的方向性結(jié)論。 這種范式的轉(zhuǎn)變,其根本原因之一在于,如果你是從零開(kāi)始構(gòu)建機(jī)器學(xué)習(xí)模型,那么你通常需要精心準(zhǔn)備一個(gè)大規(guī)模的訓(xùn)練集,評(píng)估數(shù)據(jù)集往往就是這一過(guò)程的自然產(chǎn)物。但這一點(diǎn)在利用預(yù)訓(xùn)練模型進(jìn)行零樣本或小樣本學(xué)習(xí)時(shí)并不適用(例如大語(yǔ)言模型)。

再舉一個(gè)例子,假設(shè)我有一個(gè)基于 LLM 的評(píng)估指標(biāo):我們用一個(gè)獨(dú)立的 LLM 來(lái)判斷 LLM 語(yǔ)言導(dǎo)師所提供的解釋是否足夠清晰。有人可能會(huì)問(wèn):“既然評(píng)估已經(jīng)自動(dòng)化,比較差異的基準(zhǔn)測(cè)試是否仍然比基于絕對(duì)值的基準(zhǔn)測(cè)試更節(jié)省成本?”答案是肯定的。因?yàn)楝F(xiàn)在的評(píng)估指標(biāo)更為復(fù)雜,我們可以不斷優(yōu)化這些指標(biāo)本身(比如對(duì) LLM 的提示詞進(jìn)行工程優(yōu)化)。一方面,我們?nèi)匀恍枰獙?duì)評(píng)估結(jié)果本身進(jìn)行評(píng)估,比較差異的基準(zhǔn)測(cè)試能夠告訴我們新的指標(biāo)版本是否有所改進(jìn)。另一方面,隨著基于 LLM 的評(píng)估指標(biāo)不斷演進(jìn),如果我們只關(guān)注比較 LLM 語(yǔ)言導(dǎo)師模型的相鄰版本,那么就無(wú)需費(fèi)心用新版本的評(píng)估指標(biāo)來(lái)補(bǔ)充所有舊版本模型的基準(zhǔn)測(cè)試結(jié)果。

比較差異的基準(zhǔn)測(cè)試可以作為一種高效的內(nèi)循環(huán)快速迭代機(jī)制,而將成本較高的基于絕對(duì)值的基準(zhǔn)測(cè)試或長(zhǎng)期跟蹤方法留到外循環(huán)的低頻次迭代中使用。

03 將人工參與作為評(píng)估不可或缺的一部分

如上文所述,想要一勞永逸地篩選出一個(gè)完美無(wú)缺的黃金數(shù)據(jù)集,用以長(zhǎng)期作為基準(zhǔn)的想法可能并不現(xiàn)實(shí)。篩選工作將是一個(gè)持續(xù)且必要的開(kāi)發(fā)環(huán)節(jié),無(wú)論是直接對(duì) LLM 的輸出進(jìn)行篩選,還是對(duì)充當(dāng)評(píng)委的 LLM 或其他更復(fù)雜指標(biāo)進(jìn)行篩選。我們應(yīng)該致力于讓評(píng)估工具盡可能具備可擴(kuò)展性;關(guān)鍵在于,即便如此,我們也不應(yīng)幻想能夠完全擺脫人工篩選。 我們?cè)娇旖邮苓@一點(diǎn),就能越早開(kāi)始對(duì)工具進(jìn)行正確的投資。

因此,無(wú)論我們選用何種評(píng)估工具,無(wú)論是自研還是外部采購(gòu),都應(yīng)確保有一個(gè)簡(jiǎn)便易用的人工篩選界面?;镜慕缑婵赡苋缦滤荆航Y(jié)合之前提到的比較差異的基準(zhǔn)測(cè)試,它提供了一個(gè)并排比較的面板,用戶可以輕松瀏覽結(jié)果。同時(shí),該界面還應(yīng)支持用戶輕松記錄篩選筆記,以便這些筆記未來(lái)可以作為黃金標(biāo)簽(golden labels)用于基準(zhǔn)測(cè)試(從而減輕未來(lái)的篩選工作負(fù)擔(dān))。

更高級(jí)的版本應(yīng)當(dāng)是盲測(cè)模式,篩選者不知道哪一邊是哪個(gè)版本。我們的數(shù)據(jù)多次證實(shí),如果不進(jìn)行盲測(cè),即便是開(kāi)發(fā)人員出于好意,也可能會(huì)有下意識(shí)地傾向于自己開(kāi)發(fā)的版本。

這三個(gè)范式的轉(zhuǎn)變,一旦被識(shí)別,適應(yīng)起來(lái)其實(shí)并不復(fù)雜。真正的挑戰(zhàn)在于,如何在興奮和快速的開(kāi)發(fā)節(jié)奏中提前發(fā)現(xiàn)這些轉(zhuǎn)變。我希望分享這些思考能夠幫助那些在工作中面臨類(lèi)似挑戰(zhàn)的人們。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Lili Jiang

Fmr. Eng leadership at Waymo, Head of Data at Quora

END

本期互動(dòng)內(nèi)容 ??

?除了文中提到的三個(gè)范式轉(zhuǎn)變,你覺(jué)得在LLM評(píng)估方面還有什么值得關(guān)注的新趨勢(shì)?

原文鏈接:

??https://towardsdatascience.com/paradigm-shifts-of-eval-in-the-age-of-llm-7afd58e55b29??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦