偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

d1:通過GRPO在擴散LLM中縮放推理

發(fā)布于 2025-4-30 06:40
瀏覽
0收藏

加州大學洛杉磯分校與Meta AI的研究團隊聯(lián)合發(fā)布了革命性的強化學習框架d1【文獻1】。

該框架顯著提升了基于擴散原理的LLM(dLLM)的推理性能——在某些場景下將響應時間從超過30秒縮短至僅需3秒。

當AI界普遍聚焦于GPT這類逐詞生成結果的自回歸模型時,dLLM另辟蹊徑,其設計靈感源自DALL·E 2和Stable Diffusion等圖像生成模型。

這類模型并非順序構建答案,而是通過多輪迭代優(yōu)化被遮蔽的文本版本,在每一階段都能實現(xiàn)更快速的并行化處理及完整上下文感知。

顛覆傳統(tǒng)的AI架構

與GPT-4o或LLaMA等根據(jù)上文預測下一個詞的傳統(tǒng)LLM不同,擴散LLM從含噪聲的遮蔽輸入中逆向推導出連貫文本。

這就像從模糊的句子出發(fā),通過逐步修正使其變得清晰。雖然該方法在速度和并行處理上潛力巨大,但其推理能力始終是短板。

d1框架的誕生正是為了攻克這一瓶頸。

據(jù)論文合著者、UCLA計算機科學助理教授Aditya Grover介紹,當前能執(zhí)行復雜推理的頂尖自回歸LLM普遍存在嚴重延遲問題,單個響應耗時常超30秒。而Mercury等前沿dLLM的響應速度可達前者的10倍。

d1秘訣:微調(diào)+智能訓練

d1的核心在于兩階段訓練法:

1.監(jiān)督微調(diào)(SFT):使用s1k數(shù)據(jù)集,通過分步解題的高質(zhì)量示例訓練模型。

這些案例包含詳細推理、修正與回溯過程,幫助模型建立基礎推理能力。

2.基于diffu-GRPO的強化學習:研究團隊將自回歸模型采用的組相對策略優(yōu)化(GRPO)技術適配于dLLM的非連續(xù)特性。

diffu-GRPO方法能以極低計算成本有效評估輸出可能性,其核心是隨機提示遮蔽技術——通過每次訓練時微調(diào)輸入內(nèi)容來提升模型泛化能力。


d1:通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

diffu-GRPO 的 loss function

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

diffu-GRPO中的對數(shù)概率估計方法

首先通過完整擴散去噪過程從提示q生成完整輸出o(左圖),隨后針對每種遮蔽模式執(zhí)行單次前向傳播計算詞元級對數(shù)概率(中圖),并以單步解遮蔽的對數(shù)概率作為最終估計值。

在進行策略梯度更新時,我們對提示施加隨機遮蔽模式生成q′,同時保持輸出文本完全遮蔽狀態(tài)(右圖)。圖中詞元對數(shù)概率的顏色漸變表明:每種獨特的遮蔽模式都會產(chǎn)生不同的詞元級對數(shù)概率估計。

這種機制形成了策略優(yōu)化的正則化手段——既能實現(xiàn)單批次內(nèi)更多梯度更新,又可減少強化學習訓練所需的在線生成次數(shù)。

實證效果

研究團隊在開源模型LLaDA-8B-Instruct上應用d1框架,并在數(shù)學基準測試(GSM8K、MATH500)及4×4數(shù)獨、倒計時數(shù)字游戲等邏輯任務中進行驗證。

結果顯示:完整訓練的d1-LLaDA全面超越僅用SFT或diffu-GRPO的版本,新RL技術單獨使用也成效顯著。

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

在四項數(shù)學與邏輯推理任務中,經(jīng)過監(jiān)督微調(diào)(SFT)和diffu-GRPO強化學習訓練的d1-LLaDA模型,其表現(xiàn)始終優(yōu)于基礎LLaDA-8B-Instruct模型。采用了各任務和模型對應的最佳生成序列長度進行結果統(tǒng)計。

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

?與同類規(guī)模頂尖dLLM及自回歸LLM的對比, d1-LLaDA在GSM8K測試中奪得最高分, MATH500 測評位列第二。

LLaDA數(shù)據(jù)來自我們采用相同的零樣本(0-shot)評估協(xié)議所得結果,其他模型分數(shù)引自Ye等人(2025a)的Dream研究(GSM8K使用8樣本提示,MATH采用4樣本提示)。

需特別說明,d1-LLaDA針對每個基準測試都進行了任務專屬的強化學習訓練。?

除分數(shù)提升外,模型更展現(xiàn)出深度理解跡象。在長文本輸出中,它會像人類解題者那樣突然頓悟,主動修正錯誤并回溯推理路徑。

企業(yè)級應用前景

Grover認為這是企業(yè)AI應用的轉折點:"d1這類增強推理的dLLM能驅(qū)動多種智能體",從即時響應編程助手到戰(zhàn)略咨詢實時研究代理皆可勝任。

該技術兼具性能與靈活性:對受成本或延遲限制的企業(yè),d1賦能后的dLLM即插即用,在保持傳統(tǒng)非推理模型速度的同時輸出更優(yōu)質(zhì)結果;對算力充裕者,d1能生成更詳盡的推理軌跡以追求極致質(zhì)量。

用Grover的話說:"d1類dLLM實現(xiàn)了對自回歸LLM的帕累托超越——同時提供更優(yōu)質(zhì)量、更快速度和更低成本。"

隨著企業(yè)對響應敏捷、智能高效的AI需求增長,d1這類創(chuàng)新有潛力顛覆自回歸模型的主導地位,或?qū)㈤_啟基于擴散原理的新一代智能推理引擎時代。

文獻1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

本文轉載自???????清熙???,作者:王慶法

收藏
回復
舉報
回復
相關推薦