偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

少用33%數(shù)據(jù),模型性能不變,陳丹琦團(tuán)隊用元數(shù)據(jù)來做降本增效

人工智能
我們知道,語言模型通過在大量網(wǎng)絡(luò)語料庫上進(jìn)行訓(xùn)練來實現(xiàn)卓越的通用能力。多樣性訓(xùn)練數(shù)據(jù)凸顯了一個根本性挑戰(zhàn):人們自然地根據(jù)數(shù)據(jù)源來調(diào)整他們的理解,與之不同,語言模型將所有內(nèi)容作為等效樣本來處理。

除了提升數(shù)據(jù)效率之外,本文方法 MeCo 保證了計算開銷與復(fù)雜性也幾乎不會增加。


普林斯頓大學(xué)計算機(jī)科學(xué)系助理教授陳丹琦團(tuán)隊又有了新論文,這次將重點(diǎn)放在了「使用元數(shù)據(jù)來加速預(yù)訓(xùn)練」上來。

我們知道,語言模型通過在大量網(wǎng)絡(luò)語料庫上進(jìn)行訓(xùn)練來實現(xiàn)卓越的通用能力。多樣性訓(xùn)練數(shù)據(jù)凸顯了一個根本性挑戰(zhàn):人們自然地根據(jù)數(shù)據(jù)源來調(diào)整他們的理解,與之不同,語言模型將所有內(nèi)容作為等效樣本來處理。

這種以相同方式處理異構(gòu)源數(shù)據(jù)的做法會帶來兩個問題:一是忽略了有助于理解的重要上下文信號,二是在專門的下游任務(wù)中阻礙模型可靠地展示適當(dāng)?shù)男袨?,比如幽默或事實?/p>

面對以上這些挑戰(zhàn),并為了提供每個文檔來源的更多信息,陳丹琦團(tuán)隊在本文中提出通過在每個文檔之前添加廣泛可用的源 URL,從而在預(yù)訓(xùn)練期間使用文檔相應(yīng)的元數(shù)據(jù)進(jìn)行調(diào)節(jié)。并且為了確保模型在推理過程中無論有無元數(shù)據(jù)都能高效地運(yùn)行,在最后 10% 的訓(xùn)練中實施了冷卻(cooldown)。他們將這種預(yù)訓(xùn)練方法稱為 Metadata Conditioning then Cooldown(MeCo)。

先前的工作中已經(jīng)有人使用元數(shù)據(jù)條件來引導(dǎo)模型生成并提高模型對惡意提示的穩(wěn)健性,但研究者通過關(guān)鍵的兩點(diǎn)確認(rèn)了所提方法的通用實用性。首先,他們證明這一范式可以直接加速語言模型的預(yù)訓(xùn)練并提高下游任務(wù)性能。其次,MeCo 的冷卻階段確保模型在沒有元數(shù)據(jù)的情況下可以執(zhí)行推理,這點(diǎn)與以往的方法不同。

本文的主要貢獻(xiàn)包括如下:

一、MeCo 大大加速了預(yù)訓(xùn)練過程。研究者證明,MeCo 使得 1.6B 的模型在少用 33%訓(xùn)練數(shù)據(jù)的情況下,實現(xiàn)與標(biāo)準(zhǔn)預(yù)訓(xùn)練模型相同的平均下游性能。MeCo 在模型規(guī)模(600M、1.6B、3B 和 8B)和數(shù)據(jù)源(C4、RefinedWeb 和 DCLM)表現(xiàn)出了一致的增益。

二、MeCo 開辟了一種引導(dǎo)模型的新方法。在推理過程中,在提示之前添加合適的真實或合成 URL 可以誘導(dǎo)期望的模型行為。舉個例子,使用「factquizmaster.com」(并非真實 URL)可以增強(qiáng)常識知識任務(wù)的性能,比如零樣本常識問題絕對性能可以提升 6%。相反,使用「wikipedia.org」(真實 URL)可以將有毒生成的可能性比標(biāo)準(zhǔn)無條件推理降低數(shù)倍。

三、MeCo 設(shè)計選擇的消融實驗表明,它能與不同類型的元數(shù)據(jù)兼容。使用散列 URL 和模型生成主題的消融實驗表明,元數(shù)據(jù)的主要作用是按照來源對文檔進(jìn)行分組。因此,即使沒有 URL,MeCo 也可以有效地合并不同類型的元數(shù)據(jù),包括更細(xì)粒度的選項。

研究結(jié)果表明,MeCo 可以顯著提高語言模型的數(shù)據(jù)效率,同時幾乎不會增加預(yù)訓(xùn)練過程的計算開銷和復(fù)雜性。此外,MeCo 提供了增強(qiáng)可控性,有望創(chuàng)建更可控的語言模型,并且它與更細(xì)粒度和創(chuàng)造性的元數(shù)據(jù)的普遍兼容性值得進(jìn)一步探索。

總之,作為一種簡單、靈活、有效的訓(xùn)練范式,MeCo 可以同時提高語言模型的實用性和可控性。

圖片

  • 論文標(biāo)題:Metadata Conditioning Accelerates Language Model Pre-training
  • 論文地址:https://arxiv.org/pdf/2501.01956v1
  • 代碼地址:https://github.com/princeton-pli/MeCo

論文一作高天宇(Tianyu Gao)還在評論區(qū)與讀者展開了互動,并回答了一個問題「MeCo 是否需要平衡過擬合和欠擬合」。他表示,本文的一個假設(shè)是 MeCo 進(jìn)行隱式數(shù)據(jù)混合優(yōu)化(DoReMi、ADO)并上采樣欠擬合和更多有用域。

圖片

OpenAI 一位研究人員 Lucas Beyer 表示,他很久之前就對視覺語言模型(VLM)做過類似的研究,很有趣,但最終用處不大。

圖片


方法概覽

本文方法包括以下兩個訓(xùn)練階段,如下圖 1 所示。

圖片

使用元數(shù)據(jù)條件進(jìn)行預(yù)訓(xùn)練(前 90%):模型在串接的元數(shù)據(jù)和文檔上進(jìn)行訓(xùn)練,并遵循以下模板「URL: en.wikipedia.org\n\n [document]」。使用其他類型的元數(shù)據(jù)時,URL 替換為相應(yīng)的元數(shù)據(jù)名稱。研究者僅計算文檔 token 的交叉熵?fù)p失,而忽略出自模板或元數(shù)據(jù)的 token。他們在初步實驗中發(fā)現(xiàn):使用這些 token 訓(xùn)練會損害下游任務(wù)性能。

使用標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行冷卻(后 10%):對于僅使用元數(shù)據(jù)增強(qiáng)的數(shù)據(jù)進(jìn)行訓(xùn)練的模型,在沒有元數(shù)據(jù)的情況下性能會下降(具體可見下表 4)。為了確保通用性,研究者在冷卻階段,使用了沒有任何元數(shù)據(jù)的標(biāo)準(zhǔn)預(yù)訓(xùn)練文檔來訓(xùn)練模型,該階段涵蓋了預(yù)訓(xùn)練過程最后 10% 的步驟。

冷卻階段繼承了來自元數(shù)據(jù)條件階段的學(xué)習(xí)率計劃和優(yōu)化器狀態(tài),即它從上一個階段的最后一個檢查點(diǎn)初始化學(xué)習(xí)率、模型參數(shù)和優(yōu)化器狀態(tài),并繼續(xù)根據(jù)計劃來調(diào)整學(xué)習(xí)率。

圖片

研究者還在所有實驗中采用了以下兩項技術(shù),并且初步實驗表明它們提高了基線預(yù)訓(xùn)練模型的性能:

  • 禁用了跨文檔注意力,此舉既加快了訓(xùn)練速度(1.6B 模型的速度提升了 25%),又提高了下游任務(wù)的性能;
  • 將多個文檔打包成一個序列時,確保每個序列都從一個新文檔開始,而不是從一個文檔的中間開始,這可能會導(dǎo)致在將文檔打包為一個固定長度時丟棄一些數(shù)據(jù),但被證明有利于提高下游任務(wù)性能。

實驗結(jié)果

研究者在所有實驗中使用了 Llama 系列模型使用的 Transformer 架構(gòu)和 Llama-3tokenizer,使用了四種規(guī)模的模型大小,分別是 600M、1.6B、3B 和 8B。他們對語言模型采用了標(biāo)準(zhǔn)優(yōu)化設(shè)置,即 AdamW 優(yōu)化器和余弦學(xué)習(xí)率計劃。

少用 33% 數(shù)據(jù),MeCo 性能與標(biāo)準(zhǔn)預(yù)訓(xùn)練方法相當(dāng) 

下表 1 顯示了研究者在 DCLM 上的 160B token 上,對 1.6B 語言模型進(jìn)行預(yù)訓(xùn)練的主要結(jié)果。他們首先觀察到,在大多數(shù)任務(wù)中,MeCo 的性能顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練方法。MeCo 還超越了數(shù)據(jù)挑選基線。并且與數(shù)據(jù)挑選方法不同的是,MeCo 不會產(chǎn)生任何計算開銷,它利用了預(yù)訓(xùn)練數(shù)據(jù)中隨時可用的 URL 信息。

圖片

更重要的是,MeCo 實現(xiàn)了與標(biāo)準(zhǔn)預(yù)訓(xùn)練方法相當(dāng)?shù)男阅埽瑫r使用的數(shù)據(jù)和計算量減少了 33%,代表了數(shù)據(jù)效率的顯著提高。

下表 1 為困惑度指標(biāo),表明了驗證困惑度與下游性能無關(guān)。值得注意的是,當(dāng)將 240B 基線模型與 160B MeCo 模型比較時,由于數(shù)據(jù)量較大,基線模型表現(xiàn)出的困惑度要低得多,但這兩個模型實現(xiàn)了類似的平均性能。

研究者在下圖 2 中展示了整個預(yù)訓(xùn)練過程中下游任務(wù)的性能變化。對于 MeCo,圖中的每個檢查點(diǎn)都包含使用 16B token(占總訓(xùn)練 token 的 10%)的冷卻階段。例如,80B 檢查點(diǎn)包含了 64B token 的條件訓(xùn)練和 16B token 的冷卻。他們觀察到,MeCo 始終超越了基線模型,尤其是在訓(xùn)練后期。

圖片

MeCo 在所有模型規(guī)模下均提升了性能

下圖 3 顯示了不同模型規(guī)模(600 M、1.6B、3B 和 8B)的結(jié)果。研究者使用相同的優(yōu)化超參數(shù)和相同的數(shù)據(jù)量(DCLM 上的 160B)來訓(xùn)練所有模型,其中 8B 模型是個個例,它使用 80B token 進(jìn)行訓(xùn)練,由于資源限制和訓(xùn)練不穩(wěn)定而導(dǎo)致學(xué)習(xí)率較低。

研究者觀察到,MeCo 在所有規(guī)模下均提升了模型性能。并且 MeCo 看起來可以為更大的模型帶來更多的改進(jìn),十億級參數(shù)的模型與 600M 相比顯示出更顯著的收益。不過需要注意,這是一個定性觀察,與預(yù)訓(xùn)練損失相比,下游任務(wù)性能的擴(kuò)展不太平穩(wěn)。

圖片

MeCo 提升了不同訓(xùn)練語料庫的性能

研究者基于三個不同的數(shù)據(jù)源(C4、RefinedWeb 和 DCLM),在 160B token 上訓(xùn)練了 1.6B 模型,結(jié)果如下圖 4 所示。如果將平均下游性能作為數(shù)據(jù)質(zhì)量指標(biāo),三個數(shù)據(jù)源的排序為 DCLM > RefinedWeb > C4。他們觀察到,MeCo 在不同數(shù)據(jù)源上實現(xiàn)了一致且顯著的增益,平均準(zhǔn)確率和單個任務(wù)均是如此。

圖片

更多技術(shù)細(xì)節(jié)請參閱原論文。

責(zé)任編輯:姜華 來源: 機(jī)器之心
相關(guān)推薦

2024-09-30 08:47:07

數(shù)據(jù)分析降本增效覆蓋用戶

2024-03-27 12:31:54

數(shù)據(jù)分析降本增效促銷活動

2024-09-20 08:20:20

2025-01-07 12:55:00

訓(xùn)練數(shù)據(jù)模型

2022-07-26 09:56:48

模型AI

2016-08-10 21:22:34

大數(shù)據(jù)運(yùn)營商

2024-08-07 11:06:49

2022-06-02 14:39:11

混沌工程實驗微服務(wù)

2024-02-19 14:14:02

云計算人工智能大語言模型

2023-10-12 12:13:16

AI訓(xùn)練

2023-07-28 09:48:37

2022-11-16 22:30:06

大數(shù)據(jù)

2025-06-25 09:15:38

AI模型LLM

2025-10-16 09:00:00

大模型

2022-07-13 14:54:52

邊緣計算人工智能機(jī)器學(xué)習(xí)

2024-02-20 13:29:04

網(wǎng)絡(luò)安全研發(fā)

2010-11-09 10:52:02

數(shù)據(jù)中心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號