偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

大模型走捷徑「刷榜」?數(shù)據(jù)污染問(wèn)題值得重視

人工智能 新聞
近日,我們關(guān)注到朋友圈和知乎社區(qū)對(duì)大模型「刷榜」這一問(wèn)題的討論越來(lái)越多。特別是,知乎一篇帖子:如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

生成式 AI 元年,大家的工作節(jié)奏快了一大截。

特別是,今年大家都在努力卷大模型:最近國(guó)內(nèi)外科技巨頭、創(chuàng)業(yè)公司都在輪番推出大模型,發(fā)布會(huì)一開(kāi),個(gè)個(gè)都是重大突破,每一家都是刷新了重要 Benchmark 榜單,要么排第一,要么第一梯隊(duì)。

在興奮于技術(shù)進(jìn)展速度之快后,很多人發(fā)現(xiàn)似乎也有些不對(duì)味:為什么排行榜第一人人有份?這是個(gè)什么機(jī)制?

于是乎,「刷榜」這個(gè)問(wèn)題也開(kāi)始備受關(guān)注。

近日,我們關(guān)注到朋友圈和知乎社區(qū)對(duì)大模型「刷榜」這一問(wèn)題的討論越來(lái)越多。特別是,知乎一篇帖子:如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

鏈接:https://www.zhihu.com/question/628957425

多家大模型刷榜機(jī)制曝光

該研究來(lái)自昆侖萬(wàn)維的「天工」大模型研究團(tuán)隊(duì),他們上個(gè)月底把一份技術(shù)報(bào)告發(fā)布在了預(yù)印版論文平臺(tái) arXiv 上。

論文鏈接:https://arxiv.org/abs/2310.19341

論文本身是在介紹 Skywork-13B,這是天工的一個(gè)大型語(yǔ)言模型(LLM)系列。作者引入了使用分段語(yǔ)料庫(kù)的兩階段訓(xùn)練方法,分別針對(duì)通用訓(xùn)練和特定領(lǐng)域的增強(qiáng)訓(xùn)練。

和往常有關(guān)大模型的新研究一樣,作者表示在流行的測(cè)試基準(zhǔn)上,他們的模型不僅表現(xiàn)出色,而且在很多中文的分支任務(wù)上取得了 state-of-art 水平(就是業(yè)內(nèi)最佳)。

重點(diǎn)是,該報(bào)告還驗(yàn)證了下很多大模型的真實(shí)效果,指出了一些其他一些國(guó)產(chǎn)大模型存在投機(jī)取巧的嫌疑。說(shuō)的就是這個(gè)表格 8:

圖片

在這里,作者為了驗(yàn)證目前業(yè)內(nèi)幾個(gè)常見(jiàn)大模型在數(shù)學(xué)應(yīng)用問(wèn)題基準(zhǔn) GSM8K 上的過(guò)擬合程度,使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本,人工核對(duì)了正確性,并讓這些模型在生成的數(shù)據(jù)集,和 GSM8K 原本的訓(xùn)練集、測(cè)試集上比了比,計(jì)算了損失。然后還有兩個(gè)指標(biāo):

圖片

Δ1 作為模型訓(xùn)練期間潛在測(cè)試數(shù)據(jù)泄漏的指標(biāo),較低的值表明可能存在泄漏。沒(méi)有用測(cè)試集訓(xùn)練,那數(shù)值應(yīng)該為零。

圖片

Δ2 衡量數(shù)據(jù)集訓(xùn)練分割的過(guò)度擬合程度。較高的 Δ2 值意味著過(guò)擬合。如果沒(méi)有用訓(xùn)練集訓(xùn)練過(guò),那數(shù)值應(yīng)該為零。

用簡(jiǎn)單的話來(lái)解釋就是:如果有模型在訓(xùn)練的時(shí)候,直接拿基準(zhǔn)測(cè)試?yán)锩娴摹刚骖}」和「答案」來(lái)當(dāng)學(xué)習(xí)資料,想以此來(lái)刷分,那么此處就會(huì)有異常。

好的,Δ1 和 Δ2 有問(wèn)題的地方,上面都貼心地以灰色突出顯示了。

網(wǎng)友對(duì)此評(píng)論道,終于有人把「數(shù)據(jù)集污染」這個(gè)公開(kāi)的秘密說(shuō)出來(lái)了。

也有網(wǎng)友表示,大模型的智力水平,還是要看 zero-shot 能力,現(xiàn)有的測(cè)試基準(zhǔn)都做不到。

圖:截圖自知乎網(wǎng)友評(píng)論

在作者與讀者中互動(dòng)中,作者也表示,希望「讓大家更理性看待刷榜這個(gè)事情,很多模型和 GPT4 的差距還很大」。

圖:截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891

數(shù)據(jù)污染問(wèn)題值得重視

其實(shí),這并不是一時(shí)的現(xiàn)象。自從有了 Benchmark,此類問(wèn)題時(shí)常會(huì)有發(fā)生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標(biāo)題指出的一樣 Pretraining on the Test Set Is All You Need。

除此之外,最近人民大學(xué)、伊利諾伊大學(xué)香檳分校一個(gè)正式研究同樣指出了大模型評(píng)估中存在的問(wèn)題。標(biāo)題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

論文鏈接:https://arxiv.org/abs/2311.01964

論文指出,當(dāng)前火熱的大模型領(lǐng)域讓人們關(guān)心基準(zhǔn)測(cè)試的排名,但其公平性和可靠性正在受到質(zhì)疑。其中主要的問(wèn)題就是數(shù)據(jù)污染和泄露,這樣的問(wèn)題可能會(huì)被無(wú)意識(shí)地觸發(fā),因?yàn)槲覀冊(cè)跍?zhǔn)備預(yù)訓(xùn)練語(yǔ)料庫(kù)時(shí)可能不知道未來(lái)的評(píng)估數(shù)據(jù)集。例如,GPT-3 發(fā)現(xiàn)預(yù)訓(xùn)練語(yǔ)料庫(kù)中包含了 Children's Book Test 數(shù)據(jù)集,LLaMA-2 的論文曾提到提取了 BoolQ 數(shù)據(jù)集中的上下文網(wǎng)頁(yè)內(nèi)容。

數(shù)據(jù)集是需要很多人花費(fèi)大量精力收集、整理和標(biāo)注的,優(yōu)質(zhì)的數(shù)據(jù)集如果優(yōu)秀到能被用于評(píng)測(cè),那自然也有可能會(huì)被另一些人用于訓(xùn)練大模型。

另一方面,在使用現(xiàn)有基準(zhǔn)進(jìn)行評(píng)估時(shí),我們?cè)u(píng)測(cè)的大模型的結(jié)果大多是通過(guò)在本地服務(wù)器上運(yùn)行或通過(guò) API 調(diào)用來(lái)獲得的。在此過(guò)程中,沒(méi)有嚴(yán)格檢查任何可能導(dǎo)致評(píng)估績(jī)效異常提高的不當(dāng)方式(例如數(shù)據(jù)污染)。

更糟糕的是,訓(xùn)練語(yǔ)料庫(kù)的詳細(xì)組成(例如數(shù)據(jù)源)通常被視為現(xiàn)有大模型的核心「秘密」。這就更難去探究數(shù)據(jù)污染的問(wèn)題了。

也就是說(shuō),優(yōu)秀數(shù)據(jù)的數(shù)量是有限的,在很多測(cè)試集上,GPT-4 和 Llama-2 也不一定就沒(méi)問(wèn)題。比如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 里提到過(guò)使用了它的訓(xùn)練集。

你不是說(shuō)數(shù)據(jù)很重要嗎,那么用「真題」刷分的大模型,性能會(huì)不會(huì)因?yàn)橛?xùn)練數(shù)據(jù)更優(yōu)秀而變得更好呢?答案是否定的。

研究人員實(shí)驗(yàn)發(fā)現(xiàn),基準(zhǔn)泄漏會(huì)導(dǎo)致大模型跑出夸張的成績(jī):例如 1.3B 的模型可以在某些任務(wù)上超越 10 倍體量的模型。但副作用是,如果我們僅使用這些泄露的數(shù)據(jù)來(lái)微調(diào)或訓(xùn)練模型,這些專門應(yīng)試的大模型在其他正常測(cè)試任務(wù)上的表現(xiàn)可能會(huì)受到不利影響。

因此作者建議,以后研究人員在評(píng)測(cè)大模型,或是研究新技術(shù)時(shí)應(yīng)該:

  • 使用更多來(lái)自不同來(lái)源的基準(zhǔn),涵蓋基本能力(例如文本生成)和高級(jí)能力(例如復(fù)雜推理),以全面評(píng)估 LLM 的能力。
  • 在使用評(píng)估基準(zhǔn)時(shí),在預(yù)訓(xùn)練數(shù)據(jù)和任何相關(guān)數(shù)據(jù)(例如訓(xùn)練和測(cè)試集)之間執(zhí)行數(shù)據(jù)凈化檢查非常重要。此外,還需要報(bào)告評(píng)估基準(zhǔn)的污染分析結(jié)果作為參考。如有可能,建議公開(kāi)預(yù)訓(xùn)練數(shù)據(jù)的詳細(xì)組成。
  • 建議應(yīng)采用多樣化的測(cè)試提示來(lái)減少提示敏感性的影響。在基準(zhǔn)數(shù)據(jù)和現(xiàn)有預(yù)訓(xùn)練語(yǔ)料庫(kù)之間進(jìn)行污染分析,提醒任何潛在的污染風(fēng)險(xiǎn)也很有意義。為了進(jìn)行評(píng)估,建議每次提交都附有一份特殊的污染分析報(bào)告。

最后想說(shuō),好在這個(gè)問(wèn)題開(kāi)始逐漸引起大家的關(guān)注,無(wú)論是技術(shù)報(bào)告、論文研究還是社區(qū)討論,都開(kāi)始重視大模型「刷榜」的問(wèn)題了。

對(duì)此,你有什么看法與有效建議呢?

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-11 08:59:21

2024-04-08 13:29:52

2013-01-10 13:27:32

iOS刷榜Android

2021-04-26 09:58:24

OneDNS

2024-09-12 14:46:03

2023-11-16 12:36:00

AI數(shù)據(jù)

2021-04-13 15:54:07

大數(shù)據(jù)人工智能技術(shù)

2021-11-02 21:24:32

人工智能走捷徑機(jī)器學(xué)習(xí)

2015-06-25 15:51:56

數(shù)據(jù)中心綠色化

2020-09-29 09:58:30

網(wǎng)絡(luò)安全安防行業(yè)技術(shù)

2012-08-08 09:29:41

App Store刷榜

2014-02-10 09:22:41

2012-11-02 09:29:38

2025-04-15 08:00:00

LMArenaLlama 4大模型

2024-10-17 14:10:00

模型訓(xùn)練

2012-03-08 15:49:15

2021-04-19 21:16:18

大數(shù)據(jù)大數(shù)據(jù)動(dòng)向

2013-01-31 16:28:26

App Store刷榜應(yīng)用商店

2012-01-16 10:41:25

安全互聯(lián)網(wǎng)IT部門

2019-10-08 09:49:57

數(shù)據(jù)庫(kù)備份恢復(fù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)