大模型性能摻水嚴(yán)重?北大交出答卷:交互評估+動(dòng)態(tài)出題,死記硬背也沒用 | ACL 2024
當(dāng)人工智能領(lǐng)域被GPT-4、Claude 3等大語言模型的驚人表現(xiàn)所震撼時(shí),一個(gè)關(guān)鍵問題悄然浮現(xiàn):我們是否真的客觀評估了這些模型的能力?事實(shí)上,當(dāng)前大模型的評估正面臨著數(shù)據(jù)污染的陰霾。
數(shù)據(jù)污染,即模型在訓(xùn)練過程中接觸到評測基準(zhǔn)的測試集數(shù)據(jù),導(dǎo)致其在自動(dòng)評測基準(zhǔn)的表現(xiàn)被高估。這一問題在業(yè)界尚未得到充分重視。許多大模型的訓(xùn)練數(shù)據(jù)來源復(fù)雜,難以完全避免測試數(shù)據(jù)以及答案的泄露。
一些模型甚至直接在測試集上進(jìn)行訓(xùn)練,以獲得更高的評估分?jǐn)?shù)。這不僅人為地夸大了模型的性能,也可能誤導(dǎo)相關(guān)研究的方向。
面對數(shù)據(jù)污染問題,盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測大模型數(shù)據(jù)污染情況的存在性,但這些方法應(yīng)用場景和實(shí)際效果受限,特別是難以檢測大模型在SFT階段的數(shù)據(jù)泄露問題。

北京大學(xué)等發(fā)布的最新實(shí)驗(yàn)結(jié)果表明,這些方法在檢測預(yù)訓(xùn)練階段的數(shù)據(jù)泄露相對有效,但在檢測SFT階段數(shù)據(jù)泄露的準(zhǔn)確率接近隨機(jī),亦有同期工作[3]得到了相似的結(jié)論。因此,構(gòu)建不易受數(shù)據(jù)污染影響的評測方法,對于全面而客觀地評估大模型性能十分重要。

論文鏈接:https://arxiv.org/abs/2402.15043
項(xiàng)目主頁 & 開源代碼:https://zhuohaoyu.github.io/KIEval/
除了數(shù)據(jù)污染,當(dāng)前主流的大模型自動(dòng)評估方法在全面評估模型的真實(shí)能力與泛化性能方面也存在不足。
最為主流的基于靜態(tài)的數(shù)據(jù)集的評估方法,往往只需大模型生成對于QA任務(wù)或選擇題的選項(xiàng)答案,這一點(diǎn)不僅與目前大型語言模型的開放式文本生成的主要用途并不匹配,亦無法考察模型在回答質(zhì)量等方面的表現(xiàn)。
面對這些挑戰(zhàn),需要一種新的評估范式,能夠在排除數(shù)據(jù)污染影響的同時(shí),全面考察模型在知識(shí)理解、推理、生成等方面的真實(shí)水平,判斷模型是具備對于問題的深入理解,還是僅僅「記住」了測試數(shù)據(jù)的答案。
目前,KIEval已被ACL 2024主會(huì)錄用,論文已于arXiv公開,團(tuán)隊(duì)已經(jīng)開源了KIEval的全部代碼并提供了復(fù)現(xiàn)環(huán)境,僅需簡單修改被評估模型的配置即可快速運(yùn)行KIEval的完整流程。
KIEval:動(dòng)態(tài)交互式評估框架
KIEval是一個(gè)基于知識(shí)的動(dòng)態(tài)交互式評估框架,旨在通過引入多輪對話交互,重點(diǎn)考察模型知識(shí)的泛化和應(yīng)用能力,而非簡單的模式匹配或知識(shí)記憶。
KIEval的核心理念是通過大模型生成的動(dòng)態(tài)的多輪對話,考察被評估大模型在知識(shí)泛化和應(yīng)用方面的能力。
與傳統(tǒng)的靜態(tài)數(shù)據(jù)集評估不同,KIEval引入了一個(gè)「交互者」大模型,與被評估模型進(jìn)行多輪對話。在每一輪交互中,「交互者」根據(jù)先前的對話歷史,動(dòng)態(tài)生成新的、更為深入的問題,引導(dǎo)被評估模型靈活運(yùn)用其知識(shí),生成連貫、相關(guān)的回復(fù)。

具體而言,KIEval的評估流程如下:首先,從現(xiàn)有的高質(zhì)量數(shù)據(jù)集中選取一個(gè)初始問題,作為對話的起點(diǎn)。被評估模型需要根據(jù)這個(gè)問題生成一個(gè)回答。
接下來,「交互者」根據(jù)這個(gè)回答和問題,生成一個(gè)后續(xù)問題,進(jìn)一步探究模型在這個(gè)話題上的知識(shí)深度。這個(gè)過程重復(fù)多輪,形成一個(gè)連貫的對話。
在對話過程中,作者引入「評估者」大模型,重點(diǎn)關(guān)注模型回復(fù)的相關(guān)性、連貫性、邏輯性等指標(biāo),而非僅僅考察其回復(fù)是否與參考答案匹配。
這種動(dòng)態(tài)交互的評估方式有幾個(gè)優(yōu)勢:
首先,它能夠有效降低數(shù)據(jù)污染的影響。由于每一輪的問題都是動(dòng)態(tài)生成的,即使模型在訓(xùn)練時(shí)見過了初始問題,它也難以簡單地「背誦」后續(xù)回復(fù)。
其次,多輪對話能夠更全面地考察模型在知識(shí)運(yùn)用、邏輯推理、語言生成等方面的綜合能力,而非僅僅依賴模式匹配。
此外,KIEval可以方便地?cái)U(kuò)展到不同的領(lǐng)域和語言,只需要選取相應(yīng)領(lǐng)域的高質(zhì)量數(shù)據(jù)集作為知識(shí)源即可。
KIEval揭示洞見與實(shí)驗(yàn)分析
通過KIEval框架,作者對大模型的評估有了新的認(rèn)識(shí)。這些認(rèn)識(shí)不僅深化了對現(xiàn)有評估方法的理解,也為未來大模型的評估提供了一些啟發(fā)。


首先,KIEval的實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)的基準(zhǔn)測試往往低估了模型之間的真實(shí)性能差距。
在靜態(tài)數(shù)據(jù)集上,不同模型的得分差異可能并不明顯。但將這些模型置于 KIEval的動(dòng)態(tài)對話場景中時(shí),它們在知識(shí)運(yùn)用、邏輯推理等方面的差距被顯著放大。這提醒我們,僅依賴靜態(tài)數(shù)據(jù)集的評估可能掩蓋了模型的真實(shí)水平。
KIEval的實(shí)驗(yàn)也揭示了數(shù)據(jù)污染對大模型理解和泛化能力的影響。作者構(gòu)造了若干「作弊」模型,將評測數(shù)據(jù)集的一部分測試樣本加入到「作弊」模型的訓(xùn)練集中。
作者發(fā)現(xiàn),這些在訓(xùn)練時(shí)接觸過測試集的模型,雖然在對應(yīng)的測試集上取得了很高的分?jǐn)?shù),但在KIEval的動(dòng)態(tài)對話中卻表現(xiàn)平平,并未在「作弊」訓(xùn)練中得到正向提升。
這說明,數(shù)據(jù)污染可能只是提高了模型對特定答案的記憶,而非真正增強(qiáng)其知識(shí)理解和運(yùn)用的能力。
除此之外,作者亦測試了兩種對大模型數(shù)據(jù)污染檢測的算法[1,2],發(fā)現(xiàn)其雖然可以一定程度上檢測出預(yù)訓(xùn)練階段中引入的數(shù)據(jù)污染問題,其在檢測微調(diào)階段的數(shù)據(jù)泄露準(zhǔn)確率接近隨機(jī)水平。


相比之下,可以通過觀察KIEval分?jǐn)?shù)與靜態(tài)評估數(shù)據(jù)集準(zhǔn)確率的分?jǐn)?shù)關(guān)系,推測數(shù)據(jù)泄露的存在。
當(dāng)模型在數(shù)據(jù)集準(zhǔn)確率上表現(xiàn)十分優(yōu)秀,但在交互過程中無法有效地回答根據(jù)數(shù)據(jù)集題目動(dòng)態(tài)生成的問題時(shí),說明其僅僅掌握了題目的答案而并非具備回答問題所需的知識(shí)或能力。
這表明,在大模型評估中,可以從單純地檢測數(shù)據(jù)泄露的存在性或是單純考察模型回答固定問題的能力,轉(zhuǎn)向更全面地評估模型知識(shí)理解的深度。
為了驗(yàn)證KIEval評估結(jié)果的有效性,作者對比KIEval分?jǐn)?shù)以及若干傳統(tǒng)評估方法結(jié)果,與人類評估結(jié)果的對齊程度。
通過對人類評分與主流的多種自動(dòng)評估方法的相關(guān)性分析,可以得出KIEval的評分與人類評分的相關(guān)性顯著高于其他自動(dòng)評估方法這一結(jié)論。
這表明,KIEval更為貼近人類在多輪對話場景下,針對對話質(zhì)量的主觀判斷。

最后,考慮到大模型本身可能具有一定偏向性(例如GPT系列模型可能更傾向于自身的輸出),作者對大模型本身偏向性對于評估結(jié)果的影響亦進(jìn)行探究。
得益于KIEval設(shè)計(jì)中分開了「交互者」和「評估者」這兩個(gè)角色,只需對于一組相同的被評估模型使用相同的交互者,即可通過貪心解碼,確保交互的雙方輸出保持不變。
針對相同的交互輸出,僅需使用不同的評估者對被評估模型的輸出進(jìn)行重復(fù)評價(jià),即可得到不同模型針對同一被試模型的評估結(jié)果。
實(shí)驗(yàn)表明,盡管在樣本級別上,這一偏向性確實(shí)存在,但在總體評估分?jǐn)?shù)上,不同評估者模型給出的分?jǐn)?shù)具有較強(qiáng)的正相關(guān)性,因此大模型的偏向性不易影響總體的結(jié)論。


FreeEval:靈活高效可靠的大模型評估工具包
為了高效實(shí)現(xiàn)KIEval的動(dòng)態(tài)評估流程,并與其他多種評估方法作出公平的比較,還需要一個(gè)高效、靈活的評估工具。
這就是作者開發(fā)FreeEval的初衷。FreeEval是一個(gè)模塊化的大模型評估工具包,旨在為研究者快速高效構(gòu)建新的評估方法并檢驗(yàn)評估結(jié)果的有效性提供支持。
KIEval就是基于FreeEval構(gòu)建的評估方法,充分利用了FreeEval的靈活性和效率,并在詳盡的實(shí)驗(yàn)基礎(chǔ)上證明其可靠性以及評估結(jié)果的有效性。

FreeEval的設(shè)計(jì)理念可以用四個(gè)關(guān)鍵詞概括:模塊化、高效率、可信任。
FreeEval將評估流程解構(gòu)為「數(shù)據(jù)集」和「評估步驟」兩種類型的自由組合,每個(gè)模塊都有統(tǒng)一的接口定義。這種設(shè)計(jì)使得不同模塊可以靈活自由組合,研究者可通過FreeEval提供的接口快速實(shí)現(xiàn)新的評估步驟或是通過對已有數(shù)據(jù)集和評估步驟的自由組合,輕松定制自己的評估流程。
這樣的模塊化設(shè)計(jì)給予了FreeEval極強(qiáng)的可擴(kuò)展性。FreeEval也提供了完善的開發(fā)文檔和示例代碼,幫助研究者快速上手開發(fā)。
對于評估方法的研發(fā)過程,提高評估效率是降低成本的關(guān)鍵。FreeEval在效率上做了深度優(yōu)化,支持開源模型的高效推理和閉源模型的快速調(diào)用。
對于開源模型,F(xiàn)reeEval支持在多節(jié)點(diǎn)、多GPU上并行評估以及負(fù)載均衡,可以充分利用計(jì)算資源。
對于閉源模型,F(xiàn)reeEval支持快速的并發(fā)調(diào)用。同時(shí),F(xiàn)reeEval還實(shí)現(xiàn)了緩存機(jī)制,避免了不必要的重復(fù)計(jì)算或接口調(diào)用。在完全相同的機(jī)器環(huán)境下,F(xiàn)reeEval的性能較先前工作具有較大提升。

FreeEval還包含了一系列元評估(Meta-evaluation)工具作為「評估步驟」,來確保評估的可信性。它提供了數(shù)據(jù)污染檢測、人類評估標(biāo)注、評估結(jié)果可視化、評估結(jié)果相關(guān)性分析等模塊,幫助研究者判斷評估結(jié)果的有效性、可靠性,識(shí)別和消除評估中的潛在風(fēng)險(xiǎn)。
FreeEval還支持全流程的日志記錄和結(jié)果復(fù)現(xiàn),對于全過程中產(chǎn)生的模型請求和推理結(jié)果、推理參數(shù)等均會(huì)保存,保證了評估的透明性和可復(fù)現(xiàn)性。
目前,F(xiàn)reeEval已經(jīng)開源并將持續(xù)完善:https://github.com/WisdomShell/FreeEval
總結(jié)與展望
在當(dāng)前人工智能和大語言模型快速發(fā)展的背景下,評估模型的真實(shí)能力和泛化性能變得越來越重要。KIEval和FreeEval的提出,正是為了應(yīng)對現(xiàn)有評估方法在數(shù)據(jù)污染和評估全面性方面的挑戰(zhàn),提供一種更加動(dòng)態(tài)、靈活和可信的評估方式。
KIEval是一種新的大模型評估范式,核心理念是通過知識(shí)驅(qū)動(dòng)的多輪對話和交互評估,降低數(shù)據(jù)污染的影響,并深入考察模型在知識(shí)理解、邏輯推理和語言生成等方面的綜合能力。
實(shí)驗(yàn)結(jié)果表明,KIEval不僅揭示了模型在靜態(tài)數(shù)據(jù)集上表現(xiàn)不顯著的性能差距,還可觀察出數(shù)據(jù)污染對模型理解和泛化能力的影響。相比傳統(tǒng)評估方法,KIEval的評估結(jié)果與人類評分的相關(guān)性更高,顯示出更好的評估有效性和可靠性。
FreeEval則提供了一個(gè)高效、靈活和可信任的工具包,用于構(gòu)建和驗(yàn)證新的評估方法。其模塊化設(shè)計(jì)、高效的計(jì)算優(yōu)化和全面的評估工具,使研究者能夠快速構(gòu)建和定制評估流程,并確保評估結(jié)果的有效性和可靠性。
FreeEval的性能優(yōu)化和完善的日志記錄機(jī)制,為大規(guī)模模型評估提供了強(qiáng)有力的支持。
通過KIEval和FreeEval的結(jié)合,可以更加全面地評估大模型的真實(shí)能力,并為未來的模型改進(jìn)和研究提供重要的見解。KIEval通過多輪對話評估模型的綜合能力,揭示了傳統(tǒng)靜態(tài)評估方法的不足;而FreeEval則通過其高效和靈活的設(shè)計(jì),簡化了評估流程,提升了評估效率。















 
 
 













 
 
 
 