偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

dLLM的「Free Lunch」!浙大&螞蟻利用中間結(jié)果顯著提升擴(kuò)散語言模型

人工智能 新聞
這項(xiàng)工作揭示了 dLLM 生成過程中的「先對后錯(cuò)」現(xiàn)象,并提出了兩種創(chuàng)新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。

本文第一作者王文,浙江大學(xué)博士生,研究方向是多模態(tài)理解與生成等。本文通訊作者沈春華,浙江大學(xué)求是講席教授,主要研究課題包括具身智能、大模型推理增強(qiáng)、強(qiáng)化學(xué)習(xí)、通用感知模型等。

近年來,擴(kuò)散大語言模型(Diffusion Large Language Models, dLLMs)正迅速嶄露頭角,成為文本生成領(lǐng)域的一股新勢力。與傳統(tǒng)自回歸(Autoregressive, AR)模型從左到右逐字生成不同,dLLM 依托迭代去噪的生成機(jī)制,不僅能夠一次性生成多個(gè) token,還能在對話、推理、創(chuàng)作等任務(wù)中展現(xiàn)出獨(dú)特的優(yōu)勢。當(dāng)你還在等傳統(tǒng) LLM「一個(gè)字一個(gè)字」地憋出答案時(shí),dLLM 早已通過幾輪迭代「秒」出完整結(jié)果,帶來前所未有的生成效率。

然而,速度的提升并不意味著完美的答案?,F(xiàn)有 dLLM 的解碼策略往往只關(guān)注最后一次迭代的生成結(jié)果,直接舍棄了中間多輪迭代中蘊(yùn)含的豐富語義與推理信息。這些被忽視的中間預(yù)測,實(shí)際上可能暗藏著更準(zhǔn)確、更接近真相的答案。一旦被丟棄,不僅造成信息浪費(fèi),還可能讓模型錯(cuò)失做對題目的最佳時(shí)機(jī)。

更令人意外的是,研究團(tuán)隊(duì)在數(shù)學(xué)推理任務(wù)中觀察到了一種「先對后錯(cuò)」的現(xiàn)象:模型先是得出了正確答案,卻在隨后的迭代中將其「推翻」,轉(zhuǎn)而采用錯(cuò)誤答案,最終導(dǎo)致整體回答錯(cuò)誤。以下圖為例,模型在第 55 步時(shí)明明已經(jīng)得到正確的 25,卻在后續(xù)生成中改成了 2,并一直堅(jiān)持到最后也未能修正。

正是基于這一關(guān)鍵觀察,來自浙江大學(xué)的研究團(tuán)隊(duì)從時(shí)序視角切入,提出了 Temporal Self-Consistency Voting 與 Temporal Consistency Reinforcement 兩種方法,對模型的性能進(jìn)行優(yōu)化與提升。


  • 論文標(biāo)題:Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models
  • 論文地址:https://arxiv.org/abs/2508.09138
  • 項(xiàng)目主頁:https://aim-uofa.github.io/dLLM-MidTruth/
  • Github:https://github.com/aim-uofa/dLLM-MidTruth
  • Huggingface Paper:https://huggingface.co/papers/2508.0913

Temporal Self-Consistency Voting:從時(shí)間維度「抓住」模型最靠譜的答案

在傳統(tǒng)的自回歸(AR)模型中,majority vote 通常需要針對同一個(gè) prompt 多次生成完整回答,再根據(jù)出現(xiàn)頻率選出最高票的答案。雖然這種方法在提升準(zhǔn)確率方面有效,但代價(jià)是成倍增加計(jì)算開銷,往往需要耗費(fèi)數(shù)倍的推理時(shí)間與資源。

而研究團(tuán)隊(duì)結(jié)合 dLLM 的迭代生成特性,提出了 Temporal Self-Consistency Voting (TCV) 方法。它不必額外生成多條回答,而是直接利用 dLLM 在去噪過程中每個(gè)時(shí)間步的中間結(jié)果,進(jìn)行一次「時(shí)間軸上的投票」來選出最終答案??紤]到 dLLM 在迭代去噪中理論上會逐漸趨于穩(wěn)定與確定,TCV 還為不同時(shí)間步的結(jié)果分配了不同權(quán)重,從而更精準(zhǔn)地捕捉最可靠的預(yù)測。

該方法的主要?jiǎng)?chuàng)新之處在于,它巧妙地將「多數(shù)投票」理念與 dLLM 的時(shí)間維度信息結(jié)合起來,實(shí)現(xiàn)了幾乎零額外計(jì)算成本的性能提升,同時(shí)充分挖掘了中間預(yù)測中的潛在價(jià)值。

Temporal Consistency Reinforcement:用時(shí)序一致性訓(xùn)練出更穩(wěn)的 dLLM

研究團(tuán)隊(duì)針對 dLLM 的中間預(yù)測結(jié)果,創(chuàng)造性地提出了 Temporal Semantic Entropy (TSE) 這一概念。TSE 通過計(jì)算模型在不同迭代步驟中預(yù)測結(jié)果的語義熵,來衡量生成過程中的一致性程度。直觀來說,熵越低,說明模型在迭代中越穩(wěn)定、越堅(jiān)定自己的選擇;熵越高,則意味著生成路徑搖擺不定、易于被干擾。

在實(shí)驗(yàn)分析中,他們發(fā)現(xiàn)了一些頗具規(guī)律性的現(xiàn)象:在相對簡單、模型準(zhǔn)確率較高的數(shù)據(jù)集(如 GSM8K 和 SVAMP)上,TSE 值普遍較低;而在同一個(gè)數(shù)據(jù)集中,模型答對的問題的 TSE 往往顯著低于答錯(cuò)的問題。這一發(fā)現(xiàn)表明,穩(wěn)定的生成路徑往往與更好的任務(wù)表現(xiàn)高度相關(guān)。

基于這一洞察,研究團(tuán)隊(duì)提出了 Temporal Consistency Reinforcement (TCR) 方法,將 TSE 直接作為獎(jiǎng)勵(lì)信號,引導(dǎo)模型在訓(xùn)練中主動(dòng)降低 TSE,從而提升生成路徑的穩(wěn)定性。進(jìn)一步地,他們還利用 scoring rule,將 TSE 與傳統(tǒng)的正確性獎(jiǎng)勵(lì)相結(jié)合,實(shí)現(xiàn)「雙重監(jiān)督」——既讓模型追求正確答案,又保持推理過程的一致性,最終訓(xùn)練出更穩(wěn)定、性能更優(yōu)的 dLLM。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在三個(gè)主流數(shù)學(xué)推理數(shù)據(jù)集(GSM8K、MATH500、SVAMP)以及一個(gè)邏輯推理數(shù)據(jù)集(Countdown)上進(jìn)行了系統(tǒng)測試。結(jié)果顯示,Temporal Self-Consistency Voting 幾乎不增加額外計(jì)算成本,就能在多個(gè)數(shù)據(jù)集上穩(wěn)定帶來性能提升,驗(yàn)證了從中間迭代中挖掘信息的有效性。

與此同時(shí),Temporal Consistency Reinforcement 的表現(xiàn)同樣令人驚艷——僅僅利用 Temporal Semantic Entropy (TSE) 作為唯一獎(jiǎng)勵(lì)信號,就能在 Countdown 數(shù)據(jù)集上實(shí)現(xiàn) 24.7% 的顯著提升。更進(jìn)一步,當(dāng)將 TSE 與傳統(tǒng)的正確性獎(jiǎng)勵(lì)結(jié)合時(shí),不僅在 Countdown 上提升至 25.3%,在 GSM8K、MATH500、SVAMP 上也分別取得了 +2.0%、+4.3%、+6.6% 的絕對增幅,全面超越了僅依賴正確性獎(jiǎng)勵(lì)的效果。

訓(xùn)練后模型性質(zhì)分析

研究團(tuán)隊(duì)對訓(xùn)練后模型進(jìn)行分析發(fā)現(xiàn):模型生成更穩(wěn)定、輸出更簡潔。具體表現(xiàn)為:

  • 時(shí)間一致性提升:生成過程更穩(wěn),中間預(yù)測波動(dòng)減少;
  • 仍有提升空間:雖然表現(xiàn)更好,但模型在中間預(yù)測上仍有可優(yōu)化空間;
  • 輸出更精煉:有效 token 數(shù)下降,答案更簡短,可能也更不容易「自打臉」。

這表明,通過 Temporal Consistency Reinforcement,不僅讓模型跑得快,也更能穩(wěn)穩(wěn)抓住正確答案。

總結(jié)

總體來看,這項(xiàng)工作揭示了 dLLM 生成過程中的「先對后錯(cuò)」現(xiàn)象,并提出了兩種創(chuàng)新方法——Temporal Self-Consistency Voting 和 Temporal Consistency Reinforcement。它們利用中間預(yù)測的時(shí)間一致性和語義穩(wěn)定性,不僅顯著提升了模型在數(shù)學(xué)與邏輯推理任務(wù)上的表現(xiàn),也為未來挖掘 dLLM 潛力提供了全新的思路。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-10-14 08:58:00

2025-05-30 15:52:05

訓(xùn)練代碼推理

2017-10-09 16:51:34

機(jī)器學(xué)習(xí)No Free Lun

2024-03-14 09:57:35

華為模型

2024-09-12 13:50:00

模型訓(xùn)練

2024-11-04 10:05:00

AI模型

2024-03-11 12:20:56

AI訓(xùn)練

2025-06-11 09:21:28

2025-05-28 03:30:00

AI人工智能大數(shù)據(jù)

2025-06-09 08:47:00

2025-10-28 08:50:00

AI模型訓(xùn)練

2022-04-12 14:36:58

達(dá)摩院訓(xùn)練模型

2025-02-18 13:00:00

2025-02-27 13:45:00

2025-03-17 11:35:36

LLaDALLM大型語言模型

2025-06-18 16:39:02

視頻生成AI模型

2025-06-04 08:35:00

2025-03-25 09:04:12

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2024-01-24 13:17:00

AI技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號