偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴(kuò)散語(yǔ)言模型新發(fā)現(xiàn):其計(jì)算潛力正在被浪費(fèi)?

人工智能 新聞
最近的一篇論文有了一些意外發(fā)現(xiàn):在數(shù)學(xué)和編碼任務(wù)中,任意順序算法的性能往往不如從左到右采樣,或者表現(xiàn)與之相似,而標(biāo)準(zhǔn)的多 token 解碼會(huì)顯著降低性能。即使僅在兩個(gè) token 上進(jìn)行并行解碼,模型在主流基準(zhǔn)任務(wù)上的性能也會(huì)顯著下降。

按從左到右的順序依次生成下一個(gè) token 真的是大模型生成方式的最優(yōu)解嗎?最近,越來(lái)越多的研究者對(duì)此提出質(zhì)疑。其中,有些研究者已經(jīng)轉(zhuǎn)向一個(gè)新的方向 —— 掩碼擴(kuò)散語(yǔ)言模型(MDLM)。

和自回歸(AR)語(yǔ)言模型不同,MDLM 的訓(xùn)練目標(biāo)是隨機(jī)遮蔽序列中的若干位置,模型學(xué)習(xí)去 in-fill(填充)這些被遮蔽位置。這樣訓(xùn)練出來(lái)的模型存在諸多優(yōu)勢(shì),如支持任意順序解碼、多 token 并行解碼等。此前有研究表明,MDLM 的這些優(yōu)勢(shì)使其在數(shù)獨(dú)等邏輯謎題上的表現(xiàn)得到顯著提升。

然而,最近的一篇論文有了一些意外發(fā)現(xiàn):在數(shù)學(xué)和編碼任務(wù)中,任意順序算法的性能往往不如從左到右采樣,或者表現(xiàn)與之相似,而標(biāo)準(zhǔn)的多 token 解碼會(huì)顯著降低性能。即使僅在兩個(gè) token 上進(jìn)行并行解碼,模型在主流基準(zhǔn)任務(wù)上的性能也會(huì)顯著下降。

使用 MDLM 進(jìn)行從左到右的采樣是一種適用于推理和編碼的高效采樣算法。如果沒(méi)有 [Arriola et al., 2025] 提出的塊大?。╞lock sizes)來(lái)強(qiáng)制形成半自回歸(AR)的從左到右結(jié)構(gòu),任意順序會(huì)顯著影響性能。

MDLM 能夠并行生成多個(gè)固定 token,但這會(huì)降低準(zhǔn)確性。作者使用塊任意順序熵解碼,并行解碼 1 個(gè)、2 個(gè)、4 個(gè) token??梢钥吹?,除數(shù)獨(dú)外,在所有任務(wù)中,即使并行解碼兩個(gè) token 也會(huì)導(dǎo)致性能顯著下降。

這一結(jié)果引發(fā)了一個(gè)問(wèn)題:既然 MDLM 在訓(xùn)練時(shí)投入了大量額外計(jì)算資源以建模所有被掩碼位置的聯(lián)合分布,那么這些額外的計(jì)算是否真的物有所值?

為了回答這個(gè)問(wèn)題,研究者探究了如何將這些計(jì)算資源重新利用為有意義的推理與采樣能力。他們證明,MDLM 提供了對(duì)所有掩碼位置的條件分布的訪(fǎng)問(wèn)權(quán)限,并具備填充(in-filling)能力,這一特性解鎖了傳統(tǒng) NTP 模型無(wú)法輕易實(shí)現(xiàn)的新型采樣與后訓(xùn)練(post-training)機(jī)制。

首先,研究者展示了 MDLM 的填充能力如何開(kāi)啟新的模型提示范式。在本文中,他們提出了「提示即填充」(prompting-as-infilling) 的方法。與 NTP 模型僅能在序列起始位置添加提示不同,這種方法允許在多個(gè)位置添加由用戶(hù)指定的上下文。

更具體地,他們提出了「推理即填充」(reasoning-as-infilling) 的框架。在該框架中,研究者預(yù)先構(gòu)造了一個(gè)顯式的「推理模板」(reasoning template),其中包含特定的推理位置與答案位置(參見(jiàn)圖 1)。這一模板結(jié)構(gòu)使得模型能夠基于給定的推理預(yù)算和格式,對(duì)推理軌跡進(jìn)行采樣。

研究者發(fā)現(xiàn),基于填充的模板帶來(lái)了多項(xiàng)優(yōu)勢(shì)。通過(guò)顯式區(qū)分 token 答案的位置,模型可以利用 MDLM 提供的被掩碼位置的條件分布,在推理過(guò)程中量化答案的不確定性。由此,模型一旦在答案上收斂,就能夠提前退出(early exit),從而降低推理計(jì)算成本。例如,在 GSM8k 數(shù)據(jù)集上,這種方法減少了 24% 的函數(shù)調(diào)用,且模型準(zhǔn)確率沒(méi)有任何下降。

「推理即填充」不僅帶來(lái)新的推理方式,也對(duì)模型行為分析與性能提升具有重要意義。給定一個(gè)答案,研究者就可以從 MDLM 的后驗(yàn)分布中采樣,該后驗(yàn)分布是以答案為條件的推理軌跡,即 p_θ (r | c, a)。

這種在 MDLM 框架下對(duì)后驗(yàn)分布進(jìn)行便捷采樣的能力,使得研究者能夠生成高質(zhì)量的「事后推理(post-hoc reasoning)軌跡」,并將其用于模型微調(diào),從而提升整體性能。

隨后,研究者重新審視了多 token 解碼問(wèn)題。他們指出,在同一步驟中同時(shí)解碼多個(gè)位置,會(huì)導(dǎo)致生成樣本偏離模型學(xué)習(xí)到的真實(shí)分布,因?yàn)槁?lián)合分布與分解分布通常不一致:

為了解決這一偏差,研究者提出利用被掩碼位置的熵值來(lái)指導(dǎo)解碼過(guò)程,從而控制多 token 解碼相對(duì)于單 token 解碼的偏離程度。

基于這一思路,他們提出了一種自適應(yīng)多 token 解碼器 —— 多 token 熵解碼(MED)。該方法僅在附加位置的條件熵低于設(shè)定閾值時(shí),才進(jìn)行并行解碼。

實(shí)驗(yàn)結(jié)果表明,MED 方法能夠在保持性能幾乎不變(或僅有輕微下降)的情況下,實(shí)現(xiàn) 2–3 倍的函數(shù)調(diào)用減少,顯著降低推理計(jì)算量。

  • 論文標(biāo)題:No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models
  • 論文鏈接:https://arxiv.org/pdf/2510.19990

重新思考 MDLM 的推理與采樣

MDLM 通過(guò)建模被掩碼位置 j ∈ MASK-SET 的條件分布來(lái)學(xué)習(xí)對(duì)序列進(jìn)行填充,其中 x_UNMASKED 表示未被掩碼的文本,c 表示上下文。

通常情況下,MDLM 的提示方式與 NTP 模型類(lèi)似,而被掩碼位置的分布僅被用于在少量固定的位置進(jìn)行采樣,其余位置的分布會(huì)被直接丟棄。

在本研究中,研究者表明,MDLM 所具備的填充能力,以及其對(duì)所有被掩碼位置的分布的訪(fǎng)問(wèn)能力,開(kāi)啟了許多新的采樣與后訓(xùn)練潛能。

  • 推理即填充:用于控制、早退出與后訓(xùn)練優(yōu)勢(shì)。 研究者提出在序列的多個(gè)部分預(yù)先填充用戶(hù)指定的提示。對(duì)于推理任務(wù),他們首先預(yù)填一個(gè)區(qū)分推理位置與答案位置的推理模板,然后使用 MDLM 模型對(duì)其進(jìn)行填充。這種提示方式使得研究者能夠在推理過(guò)程中控制推理長(zhǎng)度,并在生成推理軌跡的同時(shí)衡量答案區(qū)塊的不確定性,以支持早退出機(jī)制。此外,他們還展示了這種方法如何為 MDLM 的后訓(xùn)練提供新的研究方向。
  • 多 Token 熵解碼(MED)。研究者提出了一種自適應(yīng)的多 token 解碼算法 MED。該方法通過(guò)僅在解碼位置的條件熵低于某一閾值時(shí)才同時(shí)解碼多個(gè)位置,從而控制多 token 解碼引入的誤差。

假設(shè):研究者假設(shè),MDLM 模型所學(xué)習(xí)到的掩碼條件分布能夠定義出一致的聯(lián)合分布。

推理即填充

一般而言,NTP 模型在推理階段的控制方式是:在序列的開(kāi)頭插入一個(gè)提示前綴(prompt prefix)。然而,對(duì)于 MDLM,研究者提出可以在輸出序列中預(yù)先填充用戶(hù)指定的 token。

在推理任務(wù)中,當(dāng)模型在生成最終答案之前會(huì)輸出一段推理軌跡時(shí),研究者可以在輸出序列中預(yù)填一個(gè)區(qū)分推理 token 與答案 token 的推理模板:

其中,答案分隔符(answer delimiter) 由用戶(hù)自行指定,例如在數(shù)學(xué)任務(wù)中可以是「The answer is: 」,而在代碼生成任務(wù)中可以是函數(shù)定義等。在這種提示方式的重新表述中,上下文 c 現(xiàn)在包含了提示和答案分隔符,如圖 1 所示。通過(guò)區(qū)分推理位置與答案位置,「推理即填充」在采樣與后訓(xùn)練方面都提供了多項(xiàng)優(yōu)勢(shì)。

1、提早停止

通過(guò)顯式指定答案區(qū)塊的位置,「推理即填充」使得研究者能夠在生成推理軌跡的過(guò)程中測(cè)量答案的不確定性。衡量不確定性的一種方法是:給定未被掩碼的推理位置時(shí),計(jì)算答案區(qū)塊的熵。

然而,由于 MDLM 只能訪(fǎng)問(wèn)每個(gè)答案 token 的邊緣分布 

因此聯(lián)合熵的計(jì)算需要額外的估計(jì)。研究者指出,這些邊緣分布可以用于對(duì)聯(lián)合熵進(jìn)行上界估計(jì):

基于該結(jié)果,研究者提出了一種基于答案不確定性上界 H_UB 的早退出機(jī)制。具體而言,給定部分推理軌跡 r_UNMASKED,如果答案熵上界低于用戶(hù)設(shè)定的閾值 γ,即 H_UB< γ,則跳過(guò)剩余推理 token 的填充步驟,從而提前終止推理過(guò)程。

2、使用「推理即填充」對(duì) MDLM 進(jìn)行后訓(xùn)練

通常,對(duì)模型進(jìn)行推理類(lèi)后訓(xùn)練需要大量昂貴的人類(lèi)示范數(shù)據(jù)。有人證明基于模型自身生成的推理軌跡進(jìn)行后訓(xùn)練也可以提升性能。這類(lèi)方法的核心思想是:從后驗(yàn)分布 p_θ (r | c, a)  中采樣推理軌跡,再用這些樣本進(jìn)行訓(xùn)練,從而提升模型生成正確答案的概率。

然而,對(duì)于標(biāo)準(zhǔn)的 NTP 模型,從后驗(yàn)分布采樣是不可行的。因此,部分研究者采用了近似采樣方法,這些方法要么需要復(fù)雜的提示設(shè)計(jì),要么需要額外訓(xùn)練一個(gè)模型來(lái)根據(jù)答案提示生成推理軌跡。

相比之下,借助 MDLM 的「推理即填充」方法,只需在輸出序列中預(yù)先填充答案塊位置,即可實(shí)現(xiàn)從后驗(yàn)分布中采樣,而無(wú)需復(fù)雜提示設(shè)計(jì)或額外訓(xùn)練模型。這些后驗(yàn)采樣得到的推理軌跡可以用于多種后訓(xùn)練方法。

3、在后訓(xùn)練中對(duì)部分推理軌跡進(jìn)行評(píng)分

現(xiàn)有的微調(diào)算法(如 GRPO 和 RLOO )通常不使用后驗(yàn)樣本,而是僅在生成完成后對(duì)結(jié)果進(jìn)行打分。這些算法可以從中間獎(jiǎng)勵(lì)中獲益。近期研究表明,在生成過(guò)程中引入中間獎(jiǎng)勵(lì)有助于模型采樣出更有利于微調(diào)的樣本。這些中間獎(jiǎng)勵(lì)一般由外部的預(yù)訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型提供。而通過(guò)「推理即填充」,在已知答案的情況下,MDLM 可以在中間步驟對(duì)任意部分推理軌跡進(jìn)行評(píng)分。給定部分推理軌跡 r_UNMASKED 和一個(gè)答案 a^*,可以計(jì)算其得分:

直觀(guān)上,當(dāng)對(duì)于某個(gè)推理軌跡 r_UNMASKED,其生成的答案各個(gè) token 的似然值更高時(shí),該推理軌跡往往更有可能產(chǎn)生正確答案。

多 Token 熵解碼

由于 MDLM 學(xué)習(xí)了所有被遮蔽位置的條件分布,因此它能夠并行解碼多個(gè) token。然而,同時(shí)并行解碼兩個(gè)位置(如 x_i 和 x_j)可能會(huì)導(dǎo)致生成的樣本不符合模型的聯(lián)合分布 pθ(x),因?yàn)橐话銇?lái)說(shuō):

從表 1 中可以觀(guān)察到:即便同時(shí)并行解碼兩個(gè) token,也會(huì)損害任務(wù)性能。

然而,對(duì)于任意位置集合 A?MASK-SET?{1,…,L},可以用被遮蔽 token 的熵之和,來(lái)上界聯(lián)合分布 與因子化分布之間的 KL 散度:

在本研究中,作者提出了多 Token 熵解碼方法,它利用被遮蔽位置 x^j 的熵值,來(lái)決定是否并行解碼多個(gè)位置。給定未遮蔽文本 x_UNMASKED、一個(gè)解碼閾值 λ,以及最大并行解碼數(shù) k_max,作者提出了兩種選擇解碼位置集 A 的策略:

  • MED:按熵值升序排序,選擇滿(mǎn)足λ 的位置進(jìn)行解碼,最多選擇 k_max 個(gè) token。若沒(méi)有位置的熵低于閾值,則選擇熵值最低的那個(gè)位置。
  • AR-MED(自回歸多 Token 熵解碼):按從左到右的順序,選擇滿(mǎn)足 的連續(xù)位置,最多解碼 k_max token。若沒(méi)有位置滿(mǎn)足條件,則選擇最左側(cè)的那個(gè)位置進(jìn)行解碼。

MED 和 AR-MED 都允許通過(guò) λk_max 對(duì)式(5)中的 kullback - Leibler 散度進(jìn)行上界限制,從而控制多 token 解碼所產(chǎn)生的誤差。

實(shí)驗(yàn)結(jié)果

使用多 token 熵解碼的加速采樣

如圖 3 所示,對(duì)于 LLaDA 和 Dream,僅并行解碼 k=2 個(gè) token 會(huì)導(dǎo)致它們?cè)?GSM8k 上的準(zhǔn)確率大幅下降(超過(guò) 40%)。作者發(fā)現(xiàn),解碼 k=2 還會(huì)導(dǎo)致 KL 散度顯著增加。使用 λ=0.2 的 MED 方法,能為 LLaDA 和 Dream 帶來(lái)顯著的速度提升,且不會(huì)損失準(zhǔn)確率。在 HUMANEVAL 上,MED 方法在實(shí)現(xiàn) 2.2 倍速度提升的同時(shí),準(zhǔn)確率保持不變;而在 GSM8k 上,可以觀(guān)察到其實(shí)現(xiàn)了 1.5 倍的速度提升,且性能沒(méi)有損失。

此外,在表 6 中,作者還測(cè)量了單 token 解碼方案與多 token 解碼方案的似然值之間的 KL 散度。

推理即填充的好處

在表 2 中,可以觀(guān)察到:對(duì)于 Dream 和 LLaDA 兩種模型而言,提前退出都能減少總的 NFE。隨著提前退出閾值 γ 的提高,模型能夠在犧牲一定任務(wù)精度的情況下?lián)Q取更快的推理速度。當(dāng)提前退出與 MED 或 AR-MED 結(jié)合使用時(shí),可獲得進(jìn)一步的計(jì)算節(jié)省。

值得注意的是,提前退出帶來(lái)的收益在 LLaDA 模型上比 Dream 模型更顯著。Dream 模型要實(shí)現(xiàn)相似的加速效果,通常需要設(shè)定更高的退出閾值。這一差異可能源于 Dream 模型的結(jié)構(gòu)與來(lái)源 —— 它是由 NTP 模型改編而來(lái)。

通過(guò)表 4 可以觀(guān)察到,在由基礎(chǔ)模型生成的后驗(yàn)數(shù)據(jù)上對(duì)模型進(jìn)行微調(diào),顯著提升了性能(提升 14.9%)。在 GSM8k 人工標(biāo)注的推理軌跡上進(jìn)行微調(diào)能產(chǎn)生相似的結(jié)果。這些結(jié)果證明,最大化后驗(yàn)推理軌跡上的對(duì)數(shù)似然可提高推理任務(wù)的準(zhǔn)確率。

之前有研究發(fā)現(xiàn),中間過(guò)程獎(jiǎng)勵(lì)能提升模型微調(diào)效果,但通常需要額外訓(xùn)練外部模型。在圖 4 中,作者比較了在給定中間獎(jiǎng)勵(lì)的情況下,用于估計(jì)部分推理軌跡最終正確性的各種策略。

使用 LLaDA-8B Instruct 模型,作者在 GSM8k 測(cè)試集上采用貪心采樣策略,從左到右、逐 token 生成答案。隨后,他們計(jì)算了中間獎(jiǎng)勵(lì)與最終輸出正確性之間的 Pearson 相關(guān)系數(shù)。

在推理過(guò)程中,利用答案的對(duì)數(shù)概率定義的中間推理過(guò)程,與最終答案正確性在中間步驟上的相關(guān)性,比一個(gè)擁有 70 億參數(shù)的預(yù)訓(xùn)練過(guò)程獎(jiǎng)勵(lì)模型更強(qiáng)。

值得注意的是,作者還發(fā)現(xiàn),測(cè)量答案塊的對(duì)數(shù)概率有助于過(guò)濾通過(guò)后驗(yàn)采樣生成的低質(zhì)量推理鏈。對(duì)于一個(gè)未預(yù)填答案的后驗(yàn)推理鏈,其 MDLM 平均答案概率能夠預(yù)測(cè) GPT-4o 的推理鏈正確性得分。

這些結(jié)果表明,MDLM 預(yù)訓(xùn)練帶來(lái)了新的后訓(xùn)練能力:

  • 可以提前終止或過(guò)濾低質(zhì)量的推理鏈;
  • 可以引導(dǎo)推理過(guò)程朝正確解方向發(fā)展;
  • 可以在推理失敗處自動(dòng)插入「反思」token;
  • 還可以將新的密集反饋信號(hào)納入微調(diào)目標(biāo)中。
責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2016-10-09 13:19:43

2010-03-26 17:50:17

Python設(shè)計(jì)理念

2025-06-04 13:56:51

模型AI數(shù)據(jù)

2019-04-04 13:00:19

Linuxshell命令

2021-10-18 13:10:41

勒索軟件攻擊信息安全

2016-07-06 11:38:10

移動(dòng) 出海

2022-08-16 08:35:45

Black Hat網(wǎng)絡(luò)安全

2013-02-28 10:24:18

2012-06-20 09:39:02

惡意網(wǎng)站

2025-02-20 09:21:51

2019-03-25 22:04:19

編程PythonJava

2021-10-15 10:11:00

遠(yuǎn)程管理監(jiān)控數(shù)據(jù)中心

2023-02-21 21:50:07

2021-03-03 11:13:30

APP手機(jī)打車(chē)軟件

2021-01-15 07:22:51

APP時(shí)間規(guī)劃局證件照相機(jī)

2013-03-05 09:04:38

Java 60day

2021-06-06 16:19:46

微軟Windows 10Windows

2014-09-25 09:59:00

2021-07-01 14:52:17

Windows 11操作系統(tǒng)微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)