偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

token危機解決?擴散模型數(shù)據(jù)潛力3倍于自回歸,重訓480次性能仍攀升

人工智能 新聞
擴散語言模型(DLMs)是超強的數(shù)據(jù)學習者。

token 危機終于要不存在了嗎?

近日,新加坡國立大學 AI 研究者 Jinjie Ni 及其團隊向著解決 token 危機邁出了關鍵一步。

在當前大語言模型(LLM)的持續(xù)發(fā)展中,面臨的挑戰(zhàn)之一是可用的高質量訓練文本數(shù)據(jù)(tokens)即將枯竭,并成為限制模型性能持續(xù)提升的關鍵瓶頸。另外,新增的高質量數(shù)據(jù)來源少,獲取成本高,去重后更加稀缺。因此,當模型規(guī)模繼續(xù)擴大,所需數(shù)據(jù)量按 Scaling Laws 成倍增加時,就出現(xiàn)了「優(yōu)質 token 不夠訓練」的危機。

針對這一現(xiàn)象,該團隊從零開始預訓練了擴散語言模型(DLMs)與自回歸(AR)模型,其中規(guī)模最高至 80 億參數(shù)、4800 億 tokens、480 個 epoch。

研究有以下三項重要發(fā)現(xiàn):

  • 在 token 數(shù)量受限的情況下,DLMs 優(yōu)于 AR,并且具有超過 3 倍的數(shù)據(jù)潛力;
  • 一個僅用 10 億 tokens 訓練的 10 億參數(shù) DLM,在 HellaSwag(常識推理基準) 上可達 56%,在 MMLU(綜合多任務語言理解基準) 上可達 33%,無任何技巧、無挑選數(shù)據(jù);
  • 未出現(xiàn)性能飽和:重復訓練次數(shù)越多,提升越明顯。

此外,團隊還剖析了并行研究《Diffusion Beats Autoregressive in Data-Constrained Settings》中的嚴重方法論缺陷 —— 以共同提升開放評審的標準!

Jinjie Ni 在社媒 X 上詳細介紹了其團隊的研究結論、研究方法,接下來我們一一來看。

圖片

結論 1:擴散語言模型(DLMs)是超強的數(shù)據(jù)學習者。

如上所述,團隊從零開始預訓練了一系列 DLMs,規(guī)模最高達 80 億參數(shù)、4800 億 tokens。結果提供了有力證據(jù):在普通網(wǎng)頁數(shù)據(jù)上進行重復訓練時,DLMs 在數(shù)據(jù)受限場景下無論模型規(guī)模如何,都優(yōu)于自回歸(AR)模型,展現(xiàn)出顯著更高的潛力且未出現(xiàn)性能飽和。

總體而言,DLMs 的最終數(shù)據(jù)潛力比 AR 模型高出三倍以上。

圖片

結論 2:重復越多,收獲更多。

為了研究 DLM 訓練中 token 的全部潛力,團隊進行了額外實驗:將同一份 10 億 token 的數(shù)據(jù)集重復訓練 480 個 epoch,總訓練量達到 4800 億 tokens。結果顯示,模型在 HellaSwag 上取得約 56% 的準確率,在 MMLU 上取得約 33%,顯著優(yōu)于 AR 的約 41% 和約 29%。

令人驚訝的是,即使在如此極端的重復條件下,性能依然未出現(xiàn)飽和,這表明 DLMs 能夠從固定的 10 億 token 語料中提取到遠超預期的有效信息。

圖片

「在驗證集上出現(xiàn)過擬合的模型,在下游任務上的表現(xiàn)卻持續(xù)提升?!篂槭裁磿@樣呢?

圖片

團隊可視化了多選評測中,真實答案與其他選項的平均負對數(shù)似然(NLL),以及它們之間的差值(△NLL)。即使在驗證集上出現(xiàn)「過擬合」后,真實答案與其他選項的 NLL 差距(△NLL)依然持續(xù)擴大,這表明盡管驗證損失在上升,模型的底層判別能力仍在不斷提升。這一現(xiàn)象在域內數(shù)據(jù)和域外數(shù)據(jù)的訓練中都同樣存在。

圖片

雖然 DLMs 對數(shù)據(jù)重復具有較強的魯棒性,但在訓練足夠長的 epoch 后,它們同樣會發(fā)生過擬合。更大的唯一數(shù)據(jù)量可以延緩過擬合的出現(xiàn),而更大的模型規(guī)模則會加速過擬合的到來。

圖片

為什么 DLMs 是超強的數(shù)據(jù)學習者呢?原因有二。

其一,如下圖所示,網(wǎng)頁文本數(shù)據(jù)并非完全因果結構!雖然用非因果方向建模會導致更高的損失,但它仍然是可行的。這意味著僅用純因果方式來建模網(wǎng)頁數(shù)據(jù)是一種浪費!借助擴散目標和雙向注意力,DLMs 能夠對數(shù)據(jù)進行雙向建模,從網(wǎng)頁數(shù)據(jù)中提取到更多信息。

圖片

其二,DLMs 是「超密集模型」,它們在計算上的超高密度(每個任務需要更多的 FLOPs)直接轉化為更強的智能。

圖片

相比之下,AR 模型更優(yōu)先考慮計算效率,而非數(shù)據(jù)潛力。它們的 Transformer 設計(包括教師強制和因果掩碼)最大化 GPU 的使用效率,但限制了建模能力。隨著計算成本下降,數(shù)據(jù)可得性反而成為關鍵瓶頸 —— 這正是團隊研究 DLMs 的動力所在。

擴散目標要求在有效訓練中,將預訓練數(shù)據(jù)集中的每個數(shù)據(jù)點在多個掩碼比例和組合下進行損壞,以便更精確估計期望值。這進一步解釋了為什么數(shù)據(jù)重復訓練能帶來如此顯著的收益。

圖片

巧合的是,一項同期研究「Diffusion Beats Autoregressive in Data-Constrained Settings」[1] 也探討了類似主題。然而,團隊在細致分析后,揭示了其中存在的若干方法論問題,可能導致結論存在偏差。

圖片

[1] 地址:https://arxiv.org/abs/2507.15857

在 [1] 的所有實驗中,研究者使用了損失函數(shù) (1),但未做出明確的理論解釋。然而,這個損失函數(shù)與理論基礎更扎實、被廣泛采用的掩碼擴散語言建模損失 (2) 有顯著差異。從理論上可以證明損失函數(shù) (1) 并不能忠實地表示模型似然,這可能會對其結論造成嚴重影響。

團隊還注意到,[1] 在最新的 arXiv v3 版本中對原始草稿進行了修改,增加了一個線性時間依賴的重新加權項。但仍假設其所有實驗均使用了公式 (1),因為論文中圖 4 (b) 的損失范圍與公式 (1) 的預期表現(xiàn)高度吻合。團隊期待 [1] 的代碼庫(在本文撰寫時仍為空倉庫)以及社區(qū)對相關實驗的復現(xiàn)。

圖片

問題來了:驗證集損失是比較 AR 和 DLM 的好指標嗎?簡短來說:當損失函數(shù)的形式本身有問題時,當然不是。它們并不代表相同的含義;即使損失函數(shù)形式正確,也依然不是好指標。

原因包括如下:

  • AR 測量的是精確的負似然,而 DLM 測量的是一個上界;
  • 更低的損失并不意味著更強的能力,這一點在上文的討論中已有體現(xiàn)。

此外,[1] 報告的 AR 基準測試結果距離最佳水平相差甚遠。換句話說,[1] 實際上是在拿一個尚未訓練到最佳狀態(tài)的 AR 檢查點,與一個最佳的擴散模型檢查點進行比較。這是不公平的。

圖片

此外,[1] 在比較 AR 與擴散模型的過擬合趨勢時,為 AR 使用了更大的模型規(guī)模和更少的唯一訓練 token 數(shù)量。這種設置并不公平,因為更大的模型在訓練數(shù)據(jù)多樣性不足的情況下,本身就更容易更早出現(xiàn)過擬合。

圖片

最后,[1] 中使用的 scaling law 公式假設驗證集損失不會下降,但這一假設在實際中并不成立,因為過擬合會導致驗證損失上升。這個有缺陷的假設會導致擬合效果不佳,并使基于其預測得出的任何結論產(chǎn)生偏差。

目前,團隊正在用一種瘋狂的設置訓練一個大模型,并在之后發(fā)布完整論文。

更多細節(jié)內容請參考博客和即將發(fā)布的論文。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-14 09:10:00

2024-06-13 20:20:46

2025-07-10 14:54:13

AI模型圖像生成

2021-05-28 12:59:23

數(shù)據(jù)庫工具技術

2024-04-26 12:51:48

2023-05-26 07:47:41

ChatGPT模型AI

2023-05-24 07:47:23

ChatGPT參數(shù)模型

2025-03-25 12:44:24

2010-03-24 09:12:02

IE9性能測試

2025-05-27 15:28:11

模型訓練AI

2025-08-12 09:08:00

2019-12-18 16:17:56

自動駕駛數(shù)據(jù)人工智能

2025-05-30 15:54:16

模型AI生成

2023-09-04 10:05:01

GPT-4AI模型

2025-02-27 13:45:00

2025-08-04 08:23:00

2024-01-18 10:57:35

AIM模型NLP

2023-10-30 18:58:57

芯片

2024-11-12 13:10:49

2025-03-25 09:04:12

點贊
收藏

51CTO技術棧公眾號