偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

75%預(yù)訓(xùn)練數(shù)據(jù)都能刪!Jeff Dean新作:全自動(dòng)篩除低質(zhì)量數(shù)據(jù)

人工智能 新聞
Google DeepMind團(tuán)隊(duì)開發(fā)的DataRater可以全自動(dòng)評估數(shù)據(jù)質(zhì)量,通過元學(xué)習(xí)自動(dòng)篩選有價(jià)值的數(shù)據(jù),提升模型訓(xùn)練效率。DataRater使用元梯度優(yōu)化,能有效減少訓(xùn)練計(jì)算量,提高模型性能,尤其在低質(zhì)量數(shù)據(jù)集上效果顯著,且能跨不同模型規(guī)模進(jìn)行泛化。

機(jī)器學(xué)習(xí)領(lǐng)域有一條鐵律,「Garbage In, Garbage Out.」,就是說模型的質(zhì)量很大程度上取決于訓(xùn)練數(shù)據(jù)的質(zhì)量。

大模型在預(yù)訓(xùn)練階段會(huì)吸收海量的數(shù)據(jù),其中數(shù)據(jù)的來源非常雜,導(dǎo)致質(zhì)量參差不齊。

大量的實(shí)驗(yàn)和經(jīng)驗(yàn)已經(jīng)證明了,對預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行質(zhì)量篩選是提高模型能力和效率的關(guān)鍵。

常規(guī)做法是直接人工篩選數(shù)據(jù)源,或是對不同數(shù)據(jù)源編寫啟發(fā)式規(guī)則篩選出高質(zhì)量數(shù)據(jù),再手動(dòng)調(diào)整,工作量非常大。

隨著合成數(shù)據(jù)的盛行,把一些偏差、重復(fù)、質(zhì)量低下的數(shù)據(jù)都加入到預(yù)訓(xùn)練數(shù)據(jù)集中,進(jìn)一步擾亂了模型的性能分析。

最近,Google DeepMind的研究人員發(fā)布了一個(gè)數(shù)據(jù)質(zhì)量評估框架DataRater,可用于估計(jì)任意數(shù)據(jù)對最終訓(xùn)練效果的價(jià)值,即數(shù)據(jù)質(zhì)量。

圖片

論文鏈接:https://arxiv.org/pdf/2505.17895

DataRater的核心思路是使用「元學(xué)習(xí)」來自動(dòng)學(xué)習(xí)篩選或混合數(shù)據(jù)流的標(biāo)準(zhǔn),以一種數(shù)據(jù)驅(qū)動(dòng)的方式,讓數(shù)據(jù)展現(xiàn)出本身的價(jià)值。

指定訓(xùn)練目標(biāo)(提高在保留數(shù)據(jù)上的訓(xùn)練效率、更小的驗(yàn)證損失值)后,DataRater使用元梯度(根據(jù)數(shù)據(jù)與性能之間的聯(lián)系進(jìn)行計(jì)算)進(jìn)行訓(xùn)練,可以極大減少訓(xùn)練計(jì)算量以匹配性能,提升樣本效率,高效地篩選出低質(zhì)量訓(xùn)練數(shù)據(jù)集。

實(shí)驗(yàn)表明,經(jīng)過DataRater篩選的數(shù)據(jù)大幅減少了訓(xùn)練所需的浮點(diǎn)運(yùn)算次數(shù)(最高可達(dá)46.6%的凈計(jì)算收益),并且可以提高跨多種預(yù)訓(xùn)練語料庫(例如,Pile、C4/noclean)語言模型的最終性能。

在性能分析上,DataRater也能夠?qū)W會(huì)識(shí)別并降低「符合人類對低質(zhì)量數(shù)據(jù)直覺」的數(shù)據(jù)權(quán)重,比如文本編碼錯(cuò)誤、OCR錯(cuò)誤或者無關(guān)內(nèi)容等。

最重要的是,使用固定規(guī)模內(nèi)部模型(4億參數(shù))進(jìn)行元訓(xùn)練的DataRater模型,能夠有效地將其學(xué)到的數(shù)據(jù)估值策略泛化,以對更大規(guī)模模型(5000萬到10億參數(shù))的訓(xùn)練也同樣有效,并且最佳數(shù)據(jù)丟棄比例也是一致的。

數(shù)據(jù)質(zhì)量評估器DataRater

過濾問題

假設(shè)我們的訓(xùn)練目標(biāo)是開發(fā)一個(gè)預(yù)測器,可以根據(jù)輸入數(shù)據(jù)做出預(yù)測,對于大語言模型來說,輸入數(shù)據(jù)是一組token序列,比如一段文本。

構(gòu)造訓(xùn)練集后,需要定義一個(gè)「損失函數(shù)」來衡量其在該數(shù)據(jù)集上預(yù)測的準(zhǔn)確性;

在另一個(gè)不同分布的測試集上,可能需要定義一個(gè)新的損失函數(shù)來評估其性能。

學(xué)習(xí)算法會(huì)從訓(xùn)練集中隨機(jī)選取一批數(shù)據(jù),然后根據(jù)這些數(shù)據(jù)來更新模型參數(shù),經(jīng)過多次迭代后,模型參數(shù)最終確定下來。

模型在該測試集上的表現(xiàn),可以用來衡量算法性能。

過濾過程的目標(biāo)是從訓(xùn)練集中找到最合適的子集,使得最終模型在測試集上的誤差最小。

因?yàn)閷W(xué)習(xí)算法通常無法找到最優(yōu)的參數(shù),所以在精心挑選的數(shù)據(jù)子集上訓(xùn)練速度會(huì)更快。

DataRater算法

研究人員采用了一種連續(xù)的松弛方法,用三步來選擇要保留哪些數(shù)據(jù):

圖片

1. 在每一步的梯度計(jì)算中,決定哪些數(shù)據(jù)點(diǎn)要包括進(jìn)去,類似于給每個(gè)數(shù)據(jù)點(diǎn)分配一個(gè)「重要性」權(quán)重;

2. 將「重要性」權(quán)重從二進(jìn)制(選/不選)變?yōu)檫B續(xù)的值(范圍從0到1),可以用來做梯度加權(quán),同時(shí)確保每個(gè)批次中所有權(quán)重的總和為1,以保持梯度的規(guī)模不變。

3. 用一個(gè)評分函數(shù)來表示權(quán)重,無需為每個(gè)數(shù)據(jù)點(diǎn)單獨(dú)列出一個(gè)權(quán)重,其中評分函數(shù)會(huì)根據(jù)每個(gè)數(shù)據(jù)點(diǎn)的價(jià)值來給出一個(gè)分?jǐn)?shù),然后通過softmax函數(shù)將分?jǐn)?shù)轉(zhuǎn)化為歸一化的權(quán)重。

在每一步,DataRater會(huì)從訓(xùn)練集中隨機(jī)選取一批數(shù)據(jù),然后根據(jù)數(shù)據(jù)的權(quán)重來更新模型的參數(shù),最終可以得到一個(gè)參數(shù)向量。

為了優(yōu)化過濾算法,算法的目標(biāo)是找到一個(gè)評分函數(shù)的參數(shù),使得最終模型在測試集上的預(yù)期誤差最小。

圖片

元優(yōu)化

研究人員采用元梯度方法,通過隨機(jī)梯度法來大致優(yōu)化參數(shù):

計(jì)算損失函數(shù)(外層損失,outer loss)相對于參數(shù)的梯度,其梯度通過反向傳播經(jīng)過多次針對模型參數(shù)的優(yōu)化更新(內(nèi)層損失,inner loss)來計(jì)算。

元學(xué)習(xí)目標(biāo):假設(shè)訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集具有相同的分布,DataRater算法無需針對某個(gè)特定的下游任務(wù)進(jìn)行優(yōu)化,只需要最大化給定數(shù)據(jù)集的訓(xùn)練效率。

數(shù)據(jù)評估的外層損失所依據(jù)的「保留數(shù)據(jù)」是「輸入訓(xùn)練數(shù)據(jù)的一個(gè)不相交的子集」,其目標(biāo)是「生成給定原始數(shù)據(jù)集的一個(gè)精選變體」,實(shí)現(xiàn)更快的學(xué)習(xí)效率。

內(nèi)層和外層損失具有相同的函數(shù)形式,即針對下一個(gè)token預(yù)測的交叉熵?fù)p失。

研究人員使用non-causal Transformer來實(shí)現(xiàn)DataRater模型,基于元梯度下降法來優(yōu)化其參數(shù)。

實(shí)驗(yàn)結(jié)果

為了評估DataRater在構(gòu)造數(shù)據(jù)集方面的有效性,研究人員用三步方法進(jìn)行評估:

1. 為指定輸入數(shù)據(jù)集「元學(xué)習(xí)」出一個(gè)數(shù)據(jù)評分模型(DataRater);

2. 使用訓(xùn)練好的數(shù)據(jù)評分模型來構(gòu)造測試集;

3. 從隨機(jī)初始化開始,在構(gòu)造的數(shù)據(jù)集上訓(xùn)練不同規(guī)模(5000萬、1.5億、4億和10億參數(shù))的語言模型,隨后評估其性能。

語言模型和DataRater模型都基于Chinchilla架構(gòu),模型從隨機(jī)初始化開始訓(xùn)練,遵循Chinchilla的訓(xùn)練協(xié)議和token預(yù)算。

研究人員在C4、C4/noclean和Pile驗(yàn)證集以及英文維基百科上測量負(fù)對數(shù)似然(NLL)值,在HellaSwag、SIQA、PIQA、ARC Easy和Commonsense QA下游任務(wù)上測量準(zhǔn)確率。

圖片

達(dá)到10億參數(shù)模型基線性能所需的計(jì)算量的比例,以在DataRater模型篩選后的數(shù)據(jù)集上達(dá)到最終基線性能所需的訓(xùn)練步數(shù)為指標(biāo)

DataRater模型能否加速學(xué)習(xí)?

對于像Pile和C4/noclean這樣質(zhì)量較差的數(shù)據(jù)集,節(jié)省了大量的浮點(diǎn)運(yùn)算(FLOPS)。

對于10億參數(shù)的模型,下圖展現(xiàn)了使用DataRater模型相比基線訓(xùn)練節(jié)省的計(jì)算量,包含了數(shù)據(jù)篩選過程的計(jì)算開銷。

圖片

10億參數(shù)模型訓(xùn)練過程中的性能指標(biāo)

結(jié)果表明,使用數(shù)據(jù)評分模型篩選后的數(shù)據(jù)集不僅加快了學(xué)習(xí)速度,還能提高模型的最終性能。

元訓(xùn)練一個(gè)DataRater模型大約需要訓(xùn)練一個(gè)單個(gè)10億參數(shù)的大型語言模型(LLM)所需的58.4%的浮點(diǎn)運(yùn)算。

不過,DataRater模型篩選后的數(shù)據(jù)集可以用于訓(xùn)練更大規(guī)模的模型,可以分?jǐn)傆?xùn)練成本。

應(yīng)該移除多少數(shù)據(jù)?

為了確定每個(gè)數(shù)據(jù)集的最佳丟棄比例,研究人員測試了5種候選丟棄比例(10%、25%、50%、75%和90%),使用最小的模型(5000萬參數(shù)),并選擇了在驗(yàn)證集上負(fù)對數(shù)似然(NLL)表現(xiàn)最佳的丟棄比例。

圖片

結(jié)果顯示,使用最小尺寸模型是足夠的,因?yàn)樽罴褋G棄比例在不同模型大小之間是共享的。

最優(yōu)值取決于底層數(shù)據(jù)的質(zhì)量:對于C4,丟棄10%;對于C4/noclean,丟棄50%;對于Pile,丟棄75%

DataRater是否穩(wěn)健?

研究人員為每個(gè)數(shù)據(jù)集訓(xùn)練了一個(gè)數(shù)據(jù)評分模型,內(nèi)部模型尺寸固定為4億參數(shù)。

DataRater模型能夠跨模型規(guī)模泛化:在對3個(gè)輸入數(shù)據(jù)集、4種模型規(guī)模和7種指標(biāo)的實(shí)驗(yàn)中,73/84個(gè)實(shí)驗(yàn)都展現(xiàn)出了性能提升。

圖片

對于質(zhì)量較低的數(shù)據(jù)集,如C4/noclean和Pile,在NLL指標(biāo)和HellaSwag任務(wù)上,性能提升在不同尺寸模型上是一致的,但在下游評估中的差異則更多。

DataRater模型學(xué)到了什么?

DataRater可以為不同的數(shù)據(jù)子集分配細(xì)致的評分,左長尾效應(yīng)代表了「在很低丟棄比例下也仍然應(yīng)該被丟棄的數(shù)據(jù)點(diǎn)」。

圖片

隨著丟棄比例的增加,DataRater模型還學(xué)會(huì)了在混合層面上重新加權(quán)數(shù)據(jù)。

DataRater模型能夠識(shí)別低質(zhì)量的數(shù)據(jù),比如Pile數(shù)據(jù)集上被分配低評分的樣本往往是低質(zhì)量的。

圖片

上圖顯示的例子中,錯(cuò)誤的文本編碼、光學(xué)字符識(shí)別(OCR)錯(cuò)誤、大量空白符、非打印字符、高熵文本(如數(shù)字或字符串?dāng)?shù)據(jù)的列表和表格)以及私有SSH密鑰、全大寫的英文、多語言數(shù)據(jù)(Pile包含超過97%的英文數(shù)據(jù))等都被識(shí)別出來了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-06-09 15:28:33

數(shù)據(jù)質(zhì)量數(shù)據(jù)價(jià)值

2022-06-17 14:33:01

模型AI

2023-07-28 14:29:00

數(shù)據(jù)訓(xùn)練

2024-06-11 08:40:00

2023-01-31 15:46:40

數(shù)據(jù)質(zhì)量大數(shù)據(jù)數(shù)據(jù)庫

2025-02-21 13:45:00

2022-01-06 09:57:02

數(shù)據(jù)計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)

2022-01-12 17:27:57

AI 谷歌人工智能

2018-04-03 11:44:47

人工智能業(yè)務(wù)

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2025-01-03 11:35:42

2023-09-07 13:25:09

2024-08-16 11:49:56

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2021-06-28 22:43:20

安全自動(dòng)化安全運(yùn)營中心SOC

2020-12-18 09:51:33

Google AI技術(shù)

2022-02-28 11:26:40

模型深度學(xué)習(xí)谷歌
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)