偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<em id="i4bzu"><tt id="i4bzu"></tt></em>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

13B模型全方位碾壓GPT-4？這背后有什么貓膩

作者：機(jī)器之心 2023-11-18 09:37:49

人工智能新聞

如果你細(xì)細(xì)查看圖中的模型，發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞，模型性能都比較高。這背后到底有何貓膩？原來(lái)是數(shù)據(jù)污染了，即測(cè)試集信息在訓(xùn)練集中遭到泄漏，而且這種污染還不易被檢測(cè)到。盡管這一問(wèn)題非常關(guān)鍵，但理解和檢測(cè)污染仍然是一個(gè)開(kāi)放且具有挑戰(zhàn)性的難題。

一個(gè)參數(shù)量為 13B 的模型竟然打敗了頂流 GPT-4？就像下圖所展示的，并且為了確保結(jié)果的有效性，這項(xiàng)測(cè)試還遵循了 OpenAI 的數(shù)據(jù)去污方法，更關(guān)鍵的是沒(méi)有發(fā)現(xiàn)數(shù)據(jù)污染的證據(jù)。

如果你細(xì)細(xì)查看圖中的模型，發(fā)現(xiàn)只要帶有「rephraser」這個(gè)單詞，模型性能都比較高。

這背后到底有何貓膩？原來(lái)是數(shù)據(jù)污染了，即測(cè)試集信息在訓(xùn)練集中遭到泄漏，而且這種污染還不易被檢測(cè)到。盡管這一問(wèn)題非常關(guān)鍵，但理解和檢測(cè)污染仍然是一個(gè)開(kāi)放且具有挑戰(zhàn)性的難題。

現(xiàn)階段，去污最常用的方法是 n-gram 重疊和嵌入相似性搜索：N-gram 重疊依賴于字符串匹配來(lái)檢測(cè)污染，是 GPT-4、PaLM 和 Llama-2 等模型常用方法；嵌入相似性搜索使用預(yù)訓(xùn)練模型（例如 BERT）的嵌入來(lái)查找相似且可能受到污染的示例。

然而，來(lái)自 UC 伯克利、上海交通大學(xué)的研究表明測(cè)試數(shù)據(jù)的簡(jiǎn)單變化（例如，改寫(xiě)、翻譯）就可以輕松繞過(guò)現(xiàn)有的檢測(cè)方法。他們并將測(cè)試用例的此類變體稱為「改寫(xiě)樣本（Rephrased Samples）」。

下面演示了 MMLU 基準(zhǔn)測(cè)試中的改寫(xiě)樣本。結(jié)果證明，如果訓(xùn)練集中包含此類樣本，13B 模型可以達(dá)到極高的性能 (MMLU 85.9)。不幸的是，現(xiàn)有的檢測(cè)方法（例如，n-gram 重疊、嵌入相似性）無(wú)法檢測(cè)到這種污染。比如嵌入相似性方法很難將改寫(xiě)的問(wèn)題與同一主題中的其他問(wèn)題區(qū)分開(kāi)來(lái)。

通過(guò)類似的改寫(xiě)技術(shù)，本文在廣泛使用的編碼和數(shù)學(xué)基準(zhǔn)測(cè)試中觀察到一致的結(jié)果，例如 HumanEval 和 GSM-8K（如文章開(kāi)頭圖中所示）。因此，能夠檢測(cè)此類改寫(xiě)樣本變得至關(guān)重要。

接下來(lái)，我們看看這項(xiàng)研究是如何進(jìn)行的。

論文地址：https://arxiv.org/pdf/2311.04850.pdf
項(xiàng)目地址：https://github.com/lm-sys/llm-decontaminator#detect

論文介紹

文中表示，大模型（LLM）在快速發(fā)展的同時(shí)，關(guān)于測(cè)試集污染的問(wèn)題被越來(lái)越多的重視起來(lái)，很多人對(duì)公共基準(zhǔn)的可信度表示擔(dān)憂。

為了解決這一問(wèn)題，有些人采用傳統(tǒng)的去污方法如字符串匹配（例如，n-gram 重疊）來(lái)刪除基準(zhǔn)數(shù)據(jù)，但這些操作還遠(yuǎn)遠(yuǎn)不夠，因?yàn)閷?duì)測(cè)試數(shù)據(jù)進(jìn)行一些簡(jiǎn)單的更改（例如，改寫(xiě)、翻譯）就可以輕松繞過(guò)這些凈化措施。

更重要的是，如果不消除測(cè)試數(shù)據(jù)的這種更改，13B 模型很容易過(guò)度擬合測(cè)試基準(zhǔn)并實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅?。他們?cè)?MMLU、GSK8k 和 HumanEval 等基準(zhǔn)測(cè)試中驗(yàn)證了這些觀察結(jié)果。

同時(shí)為了解決這些日益增長(zhǎng)的風(fēng)險(xiǎn)，本文還提出了一種更為強(qiáng)大的基于 LLM 的去污方法 LLM decontaminator，并將其應(yīng)用于流行的預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)集，結(jié)果表明，本文提出的 LLM 方法在刪除改寫(xiě)樣本方面明顯優(yōu)于現(xiàn)有方法。

這一做法也揭露了一些先前未知的測(cè)試重疊（test overlap）。例如，在 RedPajamaData-1T 和 StarCoder-Data 等預(yù)訓(xùn)練集中，本文發(fā)現(xiàn) HumanEval 基準(zhǔn)有 8-18% 重疊。此外，本文還在 GPT-3.5/4 生成的合成數(shù)據(jù)集中發(fā)現(xiàn)了這種污染，這也說(shuō)明了在 AI 領(lǐng)域存在潛在的意外污染風(fēng)險(xiǎn)。

本文希望，社區(qū)在使用公共基準(zhǔn)時(shí)采取更強(qiáng)有力的凈化方法，并呼吁社區(qū)積極開(kāi)發(fā)新的一次性測(cè)試（one-time exams）案例來(lái)準(zhǔn)確評(píng)估模型。

改寫(xiě)樣本

本文的目標(biāo)是調(diào)查訓(xùn)練集中包含測(cè)試集的簡(jiǎn)單變化是否會(huì)影響最終的基準(zhǔn)性能，并將測(cè)試用例的這種變化稱為「改寫(xiě)樣本」。實(shí)驗(yàn)中考慮了基準(zhǔn)的各個(gè)領(lǐng)域，包括數(shù)學(xué)、知識(shí)和編碼。示例 1 是來(lái)自 GSM-8k 的改寫(xiě)樣本，其中有 10-gram 重疊無(wú)法檢測(cè)到，修改后和原始文本保持相同的語(yǔ)義。

基準(zhǔn)污染具有不同的形式，因此改寫(xiě)技術(shù)存在一些細(xì)微的差異。對(duì)于基于文本的基準(zhǔn)，本文在不改變語(yǔ)義的情況下改寫(xiě)測(cè)試用例，例如通過(guò)重新排列詞序或用同義術(shù)語(yǔ)替換；對(duì)于基于代碼的基準(zhǔn)測(cè)試，本文改變編碼風(fēng)格、命名方式等。

如下所示，算法 1 中針對(duì)給定的測(cè)試集提出了一種簡(jiǎn)單的算法。該方法可以幫助測(cè)試樣本逃避檢測(cè)。

接下來(lái)本文提出了一種新的污染檢測(cè)方法，可以準(zhǔn)確地從相對(duì)于基準(zhǔn)的數(shù)據(jù)集中刪除改寫(xiě)樣本。

具體而言，本文引入了 LLM decontaminator。首先，對(duì)于每個(gè)測(cè)試用例，它使用嵌入相似度搜索來(lái)識(shí)別具有最高相似度的 top-k 訓(xùn)練項(xiàng)，之后通過(guò) LLM（例如 GPT-4）評(píng)估每一對(duì)是否相同。這種方法有助于確定數(shù)據(jù)集中有多少改寫(xiě)樣本。

圖 4 展示了不同污染以及不同檢測(cè)方法的維恩圖。

實(shí)驗(yàn)

在第 5.1 節(jié)中，實(shí)驗(yàn)證明了在改寫(xiě)樣本上訓(xùn)練的模型可以取得顯著的高分，在三個(gè)廣泛使用的基準(zhǔn)（MMLU、HumanEval 和 GSM-8k）中實(shí)現(xiàn)與 GPT-4 相當(dāng)?shù)男阅?，這表明改寫(xiě)樣本應(yīng)被視為污染，應(yīng)從訓(xùn)練數(shù)據(jù)中刪除。在第 5.2 節(jié)中，本文根據(jù) MMLU/HumanEval 中改寫(xiě)樣本評(píng)估不同的污染檢測(cè)方法。在第 5.3 節(jié)中，本文將 LLM decontaminator 應(yīng)用于廣泛使用的訓(xùn)練集并發(fā)現(xiàn)以前未知的污染。

接下來(lái)我們看看一些主要結(jié)果。

改寫(xiě)樣本污染基準(zhǔn)

如表 2 所示，在改寫(xiě)樣本上訓(xùn)練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分，從 45.3 到 88.5。這表明經(jīng)過(guò)改寫(xiě)的樣本可能會(huì)嚴(yán)重扭曲基準(zhǔn)數(shù)據(jù)，應(yīng)被視為污染。

本文還對(duì) HumanEval 測(cè)試集進(jìn)行了改寫(xiě)，并將其翻譯成五種編程語(yǔ)言：C、JavaScript、Rust、Go 和 Java。結(jié)果顯示，在改寫(xiě)樣本上訓(xùn)練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分?jǐn)?shù)，分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下，GPT-4 在 HumanEval 上只能達(dá)到 67.0。

下表 4 取得了同樣的效果：

對(duì)檢測(cè)污染方法的評(píng)估

如表 5 所示，除 LLM decontaminator 外，所有其他檢測(cè)方法都會(huì)引入一些誤報(bào)。改寫(xiě)和翻譯的樣本都不會(huì)被 n-gram 重疊檢測(cè)到。使用 multi-qa BERT，嵌入相似性搜索被證明對(duì)翻譯樣本完全無(wú)效。

數(shù)據(jù)集污染情況

表 7 顯示了每個(gè)訓(xùn)練數(shù)據(jù)集中不同基準(zhǔn)的數(shù)據(jù)污染百分比。

LLM decontaminator 揭示了 79 個(gè)自改寫(xiě)樣本的實(shí)例，占 MATH 測(cè)試集的 1.58%。示例 5 是 MATH 訓(xùn)練數(shù)據(jù)中 MATH 測(cè)試的改寫(xiě)示例。

了解更多內(nèi)容，請(qǐng)查看原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nav id="h0okb"><menu id="h0okb"><label id="h0okb"></label></menu></nav>