偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dfn id="ayt1g"><form id="ayt1g"></form></dfn>

<code id="ayt1g"></code>

<dfn id="ayt1g"></dfn>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

少用33％數(shù)據(jù)，模型性能不變，陳丹琦團隊用元數(shù)據(jù)來做降本增效

2025-01-08 13:05:56

我們知道，語言模型通過在大量網(wǎng)絡(luò)語料庫上進行訓(xùn)練來實現(xiàn)卓越的通用能力。多樣性訓(xùn)練數(shù)據(jù)凸顯了一個根本性挑戰(zhàn)：人們自然地根據(jù)數(shù)據(jù)源來調(diào)整他們的理解，與之不同，語言模型將所有內(nèi)容作為等效樣本來處理。

除了提升數(shù)據(jù)效率之外，本文方法 MeCo 保證了計算開銷與復(fù)雜性也幾乎不會增加。

普林斯頓大學(xué)計算機科學(xué)系助理教授陳丹琦團隊又有了新論文，這次將重點放在了「使用元數(shù)據(jù)來加速預(yù)訓(xùn)練」上來。

我們知道，語言模型通過在大量網(wǎng)絡(luò)語料庫上進行訓(xùn)練來實現(xiàn)卓越的通用能力。多樣性訓(xùn)練數(shù)據(jù)凸顯了一個根本性挑戰(zhàn)：人們自然地根據(jù)數(shù)據(jù)源來調(diào)整他們的理解，與之不同，語言模型將所有內(nèi)容作為等效樣本來處理。

這種以相同方式處理異構(gòu)源數(shù)據(jù)的做法會帶來兩個問題：一是忽略了有助于理解的重要上下文信號，二是在專門的下游任務(wù)中阻礙模型可靠地展示適當(dāng)?shù)男袨?，比如幽默或事實?/p>

面對以上這些挑戰(zhàn)，并為了提供每個文檔來源的更多信息，陳丹琦團隊在本文中提出通過在每個文檔之前添加廣泛可用的源 URL，從而在預(yù)訓(xùn)練期間使用文檔相應(yīng)的元數(shù)據(jù)進行調(diào)節(jié)。并且為了確保模型在推理過程中無論有無元數(shù)據(jù)都能高效地運行，在最后 10% 的訓(xùn)練中實施了冷卻（cooldown）。他們將這種預(yù)訓(xùn)練方法稱為 Metadata Conditioning then Cooldown（MeCo）。

先前的工作中已經(jīng)有人使用元數(shù)據(jù)條件來引導(dǎo)模型生成并提高模型對惡意提示的穩(wěn)健性，但研究者通過關(guān)鍵的兩點確認(rèn)了所提方法的通用實用性。首先，他們證明這一范式可以直接加速語言模型的預(yù)訓(xùn)練并提高下游任務(wù)性能。其次，MeCo 的冷卻階段確保模型在沒有元數(shù)據(jù)的情況下可以執(zhí)行推理，這點與以往的方法不同。

本文的主要貢獻包括如下：

一、MeCo 大大加速了預(yù)訓(xùn)練過程。研究者證明，MeCo 使得 1.6B 的模型在少用 33％訓(xùn)練數(shù)據(jù)的情況下，實現(xiàn)與標(biāo)準(zhǔn)預(yù)訓(xùn)練模型相同的平均下游性能。MeCo 在模型規(guī)模（600M、1.6B、3B 和 8B）和數(shù)據(jù)源（C4、RefinedWeb 和 DCLM）表現(xiàn)出了一致的增益。

二、MeCo 開辟了一種引導(dǎo)模型的新方法。在推理過程中，在提示之前添加合適的真實或合成 URL 可以誘導(dǎo)期望的模型行為。舉個例子，使用「factquizmaster.com」（并非真實 URL）可以增強常識知識任務(wù)的性能，比如零樣本常識問題絕對性能可以提升 6%。相反，使用「wikipedia.org」（真實 URL）可以將有毒生成的可能性比標(biāo)準(zhǔn)無條件推理降低數(shù)倍。

三、MeCo 設(shè)計選擇的消融實驗表明，它能與不同類型的元數(shù)據(jù)兼容。使用散列 URL 和模型生成主題的消融實驗表明，元數(shù)據(jù)的主要作用是按照來源對文檔進行分組。因此，即使沒有 URL，MeCo 也可以有效地合并不同類型的元數(shù)據(jù)，包括更細粒度的選項。

研究結(jié)果表明，MeCo 可以顯著提高語言模型的數(shù)據(jù)效率，同時幾乎不會增加預(yù)訓(xùn)練過程的計算開銷和復(fù)雜性。此外，MeCo 提供了增強可控性，有望創(chuàng)建更可控的語言模型，并且它與更細粒度和創(chuàng)造性的元數(shù)據(jù)的普遍兼容性值得進一步探索。

總之，作為一種簡單、靈活、有效的訓(xùn)練范式，MeCo 可以同時提高語言模型的實用性和可控性。

論文標(biāo)題：Metadata Conditioning Accelerates Language Model Pre-training
論文地址：https://arxiv.org/pdf/2501.01956v1
代碼地址：https://github.com/princeton-pli/MeCo

論文一作高天宇（Tianyu Gao）還在評論區(qū)與讀者展開了互動，并回答了一個問題「MeCo 是否需要平衡過擬合和欠擬合」。他表示，本文的一個假設(shè)是 MeCo 進行隱式數(shù)據(jù)混合優(yōu)化（DoReMi、ADO）并上采樣欠擬合和更多有用域。

OpenAI 一位研究人員 Lucas Beyer 表示，他很久之前就對視覺語言模型（VLM）做過類似的研究，很有趣，但最終用處不大。

方法概覽

本文方法包括以下兩個訓(xùn)練階段，如下圖 1 所示。

使用元數(shù)據(jù)條件進行預(yù)訓(xùn)練（前 90%）：模型在串接的元數(shù)據(jù)和文檔上進行訓(xùn)練，并遵循以下模板「URL: en.wikipedia.org\n\n [document]」。使用其他類型的元數(shù)據(jù)時，URL 替換為相應(yīng)的元數(shù)據(jù)名稱。研究者僅計算文檔 token 的交叉熵損失，而忽略出自模板或元數(shù)據(jù)的 token。他們在初步實驗中發(fā)現(xiàn)：使用這些 token 訓(xùn)練會損害下游任務(wù)性能。

使用標(biāo)準(zhǔn)數(shù)據(jù)進行冷卻（后 10%）：對于僅使用元數(shù)據(jù)增強的數(shù)據(jù)進行訓(xùn)練的模型，在沒有元數(shù)據(jù)的情況下性能會下降（具體可見下表 4）。為了確保通用性，研究者在冷卻階段，使用了沒有任何元數(shù)據(jù)的標(biāo)準(zhǔn)預(yù)訓(xùn)練文檔來訓(xùn)練模型，該階段涵蓋了預(yù)訓(xùn)練過程最后 10% 的步驟。

冷卻階段繼承了來自元數(shù)據(jù)條件階段的學(xué)習(xí)率計劃和優(yōu)化器狀態(tài)，即它從上一個階段的最后一個檢查點初始化學(xué)習(xí)率、模型參數(shù)和優(yōu)化器狀態(tài)，并繼續(xù)根據(jù)計劃來調(diào)整學(xué)習(xí)率。

研究者還在所有實驗中采用了以下兩項技術(shù)，并且初步實驗表明它們提高了基線預(yù)訓(xùn)練模型的性能：

禁用了跨文檔注意力，此舉既加快了訓(xùn)練速度（1.6B 模型的速度提升了 25％），又提高了下游任務(wù)的性能；
將多個文檔打包成一個序列時，確保每個序列都從一個新文檔開始，而不是從一個文檔的中間開始，這可能會導(dǎo)致在將文檔打包為一個固定長度時丟棄一些數(shù)據(jù)，但被證明有利于提高下游任務(wù)性能。

實驗結(jié)果

研究者在所有實驗中使用了 Llama 系列模型使用的 Transformer 架構(gòu)和 Llama-3tokenizer，使用了四種規(guī)模的模型大小，分別是 600M、1.6B、3B 和 8B。他們對語言模型采用了標(biāo)準(zhǔn)優(yōu)化設(shè)置，即 AdamW 優(yōu)化器和余弦學(xué)習(xí)率計劃。

少用 33% 數(shù)據(jù)，MeCo 性能與標(biāo)準(zhǔn)預(yù)訓(xùn)練方法相當(dāng)

下表 1 顯示了研究者在 DCLM 上的 160B token 上，對 1.6B 語言模型進行預(yù)訓(xùn)練的主要結(jié)果。他們首先觀察到，在大多數(shù)任務(wù)中，MeCo 的性能顯著優(yōu)于標(biāo)準(zhǔn)預(yù)訓(xùn)練方法。MeCo 還超越了數(shù)據(jù)挑選基線。并且與數(shù)據(jù)挑選方法不同的是，MeCo 不會產(chǎn)生任何計算開銷，它利用了預(yù)訓(xùn)練數(shù)據(jù)中隨時可用的 URL 信息。

更重要的是，MeCo 實現(xiàn)了與標(biāo)準(zhǔn)預(yù)訓(xùn)練方法相當(dāng)?shù)男阅埽瑫r使用的數(shù)據(jù)和計算量減少了 33%，代表了數(shù)據(jù)效率的顯著提高。

下表 1 為困惑度指標(biāo)，表明了驗證困惑度與下游性能無關(guān)。值得注意的是，當(dāng)將 240B 基線模型與 160B MeCo 模型比較時，由于數(shù)據(jù)量較大，基線模型表現(xiàn)出的困惑度要低得多，但這兩個模型實現(xiàn)了類似的平均性能。

研究者在下圖 2 中展示了整個預(yù)訓(xùn)練過程中下游任務(wù)的性能變化。對于 MeCo，圖中的每個檢查點都包含使用 16B token（占總訓(xùn)練 token 的 10％）的冷卻階段。例如，80B 檢查點包含了 64B token 的條件訓(xùn)練和 16B token 的冷卻。他們觀察到，MeCo 始終超越了基線模型，尤其是在訓(xùn)練后期。

MeCo 在所有模型規(guī)模下均提升了性能

下圖 3 顯示了不同模型規(guī)模（600 M、1.6B、3B 和 8B）的結(jié)果。研究者使用相同的優(yōu)化超參數(shù)和相同的數(shù)據(jù)量（DCLM 上的 160B）來訓(xùn)練所有模型，其中 8B 模型是個個例，它使用 80B token 進行訓(xùn)練，由于資源限制和訓(xùn)練不穩(wěn)定而導(dǎo)致學(xué)習(xí)率較低。

研究者觀察到，MeCo 在所有規(guī)模下均提升了模型性能。并且 MeCo 看起來可以為更大的模型帶來更多的改進，十億級參數(shù)的模型與 600M 相比顯示出更顯著的收益。不過需要注意，這是一個定性觀察，與預(yù)訓(xùn)練損失相比，下游任務(wù)性能的擴展不太平穩(wěn)。

MeCo 提升了不同訓(xùn)練語料庫的性能

研究者基于三個不同的數(shù)據(jù)源（C4、RefinedWeb 和 DCLM），在 160B token 上訓(xùn)練了 1.6B 模型，結(jié)果如下圖 4 所示。如果將平均下游性能作為數(shù)據(jù)質(zhì)量指標(biāo)，三個數(shù)據(jù)源的排序為 DCLM > RefinedWeb > C4。他們觀察到，MeCo 在不同數(shù)據(jù)源上實現(xiàn)了一致且顯著的增益，平均準(zhǔn)確率和單個任務(wù)均是如此。

更多技術(shù)細節(jié)請參閱原論文。

責(zé)任編輯：姜華來源：機器之心

人工智能元數(shù)據(jù)降本增效

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="guu18"></sub>

<abbr id="guu18"></abbr>