偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<sup id="fhx9q"><thead id="fhx9q"><progress id="fhx9q"></progress></thead></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

d1：通過GRPO在擴散LLM中縮放推理

發(fā)布于 2025-4-30 06:40

瀏覽

0收藏

加州大學洛杉磯分校與Meta AI的研究團隊聯(lián)合發(fā)布了革命性的強化學習框架d1【文獻1】。

該框架顯著提升了基于擴散原理的LLM（dLLM）的推理性能——在某些場景下將響應時間從超過30秒縮短至僅需3秒。

當AI界普遍聚焦于GPT這類逐詞生成結果的自回歸模型時，dLLM另辟蹊徑，其設計靈感源自DALL·E 2和Stable Diffusion等圖像生成模型。

這類模型并非順序構建答案，而是通過多輪迭代優(yōu)化被遮蔽的文本版本，在每一階段都能實現(xiàn)更快速的并行化處理及完整上下文感知。

顛覆傳統(tǒng)的AI架構

與GPT-4o或LLaMA等根據(jù)上文預測下一個詞的傳統(tǒng)LLM不同，擴散LLM從含噪聲的遮蔽輸入中逆向推導出連貫文本。

這就像從模糊的句子出發(fā)，通過逐步修正使其變得清晰。雖然該方法在速度和并行處理上潛力巨大，但其推理能力始終是短板。

d1框架的誕生正是為了攻克這一瓶頸。

據(jù)論文合著者、UCLA計算機科學助理教授Aditya Grover介紹，當前能執(zhí)行復雜推理的頂尖自回歸LLM普遍存在嚴重延遲問題，單個響應耗時常超30秒。而Mercury等前沿dLLM的響應速度可達前者的10倍。

d1秘訣：微調+智能訓練

d1的核心在于兩階段訓練法：

1.監(jiān)督微調（SFT）：使用s1k數(shù)據(jù)集，通過分步解題的高質量示例訓練模型。

這些案例包含詳細推理、修正與回溯過程，幫助模型建立基礎推理能力。

2.基于diffu-GRPO的強化學習：研究團隊將自回歸模型采用的組相對策略優(yōu)化（GRPO）技術適配于dLLM的非連續(xù)特性。

diffu-GRPO方法能以極低計算成本有效評估輸出可能性，其核心是隨機提示遮蔽技術——通過每次訓練時微調輸入內容來提升模型泛化能力。

d1：通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

diffu-GRPO 的 loss function

d1：通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

d1：通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

diffu-GRPO中的對數(shù)概率估計方法

首先通過完整擴散去噪過程從提示q生成完整輸出o（左圖），隨后針對每種遮蔽模式執(zhí)行單次前向傳播計算詞元級對數(shù)概率（中圖），并以單步解遮蔽的對數(shù)概率作為最終估計值。

在進行策略梯度更新時，我們對提示施加隨機遮蔽模式生成q′，同時保持輸出文本完全遮蔽狀態(tài)（右圖）。圖中詞元對數(shù)概率的顏色漸變表明：每種獨特的遮蔽模式都會產(chǎn)生不同的詞元級對數(shù)概率估計。

這種機制形成了策略優(yōu)化的正則化手段——既能實現(xiàn)單批次內更多梯度更新，又可減少強化學習訓練所需的在線生成次數(shù)。

實證效果

研究團隊在開源模型LLaDA-8B-Instruct上應用d1框架，并在數(shù)學基準測試（GSM8K、MATH500）及4×4數(shù)獨、倒計時數(shù)字游戲等邏輯任務中進行驗證。

結果顯示：完整訓練的d1-LLaDA全面超越僅用SFT或diffu-GRPO的版本，新RL技術單獨使用也成效顯著。

d1：通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

在四項數(shù)學與邏輯推理任務中，經(jīng)過監(jiān)督微調(SFT)和diffu-GRPO強化學習訓練的d1-LLaDA模型，其表現(xiàn)始終優(yōu)于基礎LLaDA-8B-Instruct模型。采用了各任務和模型對應的最佳生成序列長度進行結果統(tǒng)計。

d1：通過GRPO在擴散LLM中縮放推理-AI.x社區(qū)

?與同類規(guī)模頂尖dLLM及自回歸LLM的對比, d1-LLaDA在GSM8K測試中奪得最高分, MATH500 測評位列第二。

LLaDA數(shù)據(jù)來自我們采用相同的零樣本（0-shot）評估協(xié)議所得結果，其他模型分數(shù)引自Ye等人(2025a)的Dream研究（GSM8K使用8樣本提示，MATH采用4樣本提示）。

需特別說明，d1-LLaDA針對每個基準測試都進行了任務專屬的強化學習訓練。?

除分數(shù)提升外，模型更展現(xiàn)出深度理解跡象。在長文本輸出中，它會像人類解題者那樣突然頓悟，主動修正錯誤并回溯推理路徑。

企業(yè)級應用前景

Grover認為這是企業(yè)AI應用的轉折點："d1這類增強推理的dLLM能驅動多種智能體"，從即時響應編程助手到戰(zhàn)略咨詢實時研究代理皆可勝任。

該技術兼具性能與靈活性：對受成本或延遲限制的企業(yè)，d1賦能后的dLLM即插即用，在保持傳統(tǒng)非推理模型速度的同時輸出更優(yōu)質結果；對算力充裕者，d1能生成更詳盡的推理軌跡以追求極致質量。

用Grover的話說："d1類dLLM實現(xiàn)了對自回歸LLM的帕累托超越——同時提供更優(yōu)質量、更快速度和更低成本。"

隨著企業(yè)對響應敏捷、智能高效的AI需求增長，d1這類創(chuàng)新有潛力顛覆自回歸模型的主導地位，或將開啟基于擴散原理的新一代智能推理引擎時代。

文獻1，https://arxiv.org/pdf/2504.12216，d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

本文轉載自???????清熙???，作者：王慶法

標簽

贊

收藏

回復

舉報

回復

相關推薦

使用Quarkus和LangChain4j，LLM在Java中可以實現(xiàn)哪些功能？

51CTO內容精選 ? 5757瀏覽 ? 0回復
Transformer在復雜推理任務中的新進展：多步邏輯推理中的匹配策略

xuxiangda ? 7248瀏覽 ? 0回復
超越Magic3D、ProlificDreamer，更靈活更可控的Text-to-3D擴散

angel ? 3456瀏覽 ? 0回復
多模態(tài)思維鏈推理在語言模型中的應用

AIRoobt ? 6327瀏覽 ? 0回復
如何高效定制視頻擴散模型？卡內基梅隆提出VADER：通過獎勵梯度進行視頻擴散對齊

angel ? 3734瀏覽 ? 0回復
一文總結擴散模型（Diffusion Model）在時間序列中的應用

海因斯DK ? 1.3w瀏覽 ? 0回復
麻省理工創(chuàng)新模型：用2D視頻擴散，生成 3D 視頻

Aceryt ? 4539瀏覽 ? 0回復
使用MCTS顯著提升LLM在復雜任務的推理能力

arnoldzhw ? 9405瀏覽 ? 0回復
DeepSeek-R1-Distill-Qwen-1.5B 在某些基準測試中超越了 GPT-4o

Halo咯咯 ? 1.4w瀏覽 ? 0回復
手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建議收藏！

玄姐聊AGI ? 1.4w瀏覽 ? 0回復
DeepSeek-R1：通過強化學習激發(fā)大語言模型的推理潛能

柏企閱文 ? 6278瀏覽 ? 0回復
一文讀懂 PPO 與 GRPO：LLM 訓練的關鍵算法

鴻煊的學習筆記 ? 1.1w瀏覽 ? 0回復
1B模型如何通過測試時優(yōu)化逆襲405B LLM？

arnoldzhw ? 3673瀏覽 ? 0回復
從PPO到GRPO：算力減半的大模型推理能力訓練革命

Baihai_IDP ? 6911瀏覽 ? 0回復
白話DeepSeek R1的GRPO強化學習算法：原理、圖解、視頻

后向傳播 ? 8688瀏覽 ? 0回復
Fin-R1：通過強化學習實現(xiàn)金融推理的大語言模型

AIRoobt ? 4264瀏覽 ? 0回復
GRPO教會DeepSeek R1高智商推理，但GRPO可能不完美且有偏見 | Dr. GRPO簡化之，消除偏見帶來改進

后向傳播 ? 4202瀏覽 ? 0回復
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學習筆記 ? 6512瀏覽 ? 0回復
數(shù)據(jù)組成決定效率：LLM微調中的令牌效率縮放新定律

頓數(shù)AI ? 2010瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

維特根斯坦 -> 格羅滕迪克 -> 大語言模型 2025-10-20 07:45:42發(fā)布
沒有上下文的 Agentic AI，會搞砸你的業(yè)務 2025-10-16 07:12:03發(fā)布

熱門推薦

別再怪AI“聽不懂人話”了，90%的返工和錯誤，都錯在你下達指令的第一句話 0回復

阿里新一代企業(yè)級多 AI 智能體開發(fā)框架 AgentScope 技術架構全解析 0回復

Deepseek發(fā)布最新OCR模型在實測中展現(xiàn)出驚人效率，僅用15秒便將百頁PDF完整轉換為Markdown格式 0回復

關于RAG系統(tǒng)在多輪對話中的問題改寫(優(yōu)化)方法—使用歷史記錄改寫問題 0回復

代碼41%由AI生成！2025七大編程工具深度對比，你的選擇是？ 0回復

上一篇：語言與擴散模型的精準控制

下一篇：沿最優(yōu)輸運方向的重整化可能是世界演化的核心方式

社區(qū)精華內容

目錄

<legend id="hae1q"><track id="hae1q"></track></legend>