新范式來了!新能量模型打破Transformer++擴(kuò)展上限,訓(xùn)練擴(kuò)展率快35%
在心理學(xué)領(lǐng)域,人類思維通常被劃分為兩種不同類型:系統(tǒng) 1(快速思維)和系統(tǒng) 2(慢速思維)。
當(dāng)面對(duì)復(fù)雜問題如數(shù)學(xué)運(yùn)算、多步驟推理等任務(wù)時(shí),系統(tǒng) 2 思維(System 2 Thinking)顯得至關(guān)重要。然而,當(dāng)前的大語言模型可能在適合系統(tǒng) 1 思維的任務(wù)上表現(xiàn)良好,但在需要系統(tǒng) 2 思維能力的任務(wù)方面仍存在明顯不足。
因此,很多研究者開始對(duì)系統(tǒng) 2 思維展開研究,這推動(dòng)了 o1、R1、Grok3 和 Claude 3.7 Sonnet 等基礎(chǔ)模型的崛起。
但據(jù)公開訓(xùn)練資料(特別是開源模型 R1)顯示,這些模型采用的強(qiáng)化學(xué)習(xí)訓(xùn)練方法僅適用于答案可通過規(guī)則化獎(jiǎng)勵(lì)驗(yàn)證的領(lǐng)域(如數(shù)學(xué)和編程),這種局限性導(dǎo)致其適用范圍狹窄。
另一方面與人類系統(tǒng) 2 思維類似的推理時(shí)計(jì)算,近期成為提升模型性能的熱門方法。
然而,現(xiàn)有方法存在三大局限性:模態(tài)依賴性(如僅適用于文本)、問題依賴性(如局限于數(shù)學(xué) / 編程等可驗(yàn)證領(lǐng)域),或需要額外監(jiān)督訓(xùn)練(如驗(yàn)證器或可驗(yàn)證獎(jiǎng)勵(lì)機(jī)制)。
因此,來自弗吉尼亞大學(xué)、亞馬遜 GenAI、斯坦福大學(xué)、哈佛大學(xué)的研究者探討了這樣一個(gè)問題:「能否泛化這類系統(tǒng) 2 思維方法,開發(fā)僅通過無監(jiān)督學(xué)習(xí)就能自主思考的模型?」
答案是肯定的。
具體來說,該研究訓(xùn)練了一類新的能量模型 —— 基于能量的 Transformer(Energy-Based Transformers, EBTs),它可以為每一對(duì)輸入和候選預(yù)測分配一個(gè)能量值(即非規(guī)范化的概率); 然后從一個(gè)隨機(jī)初始化的預(yù)測開始,通過梯度下降不斷優(yōu)化,直到找到最低能量的預(yù)測; 這一優(yōu)化過程就模擬了思考過程。與傳統(tǒng) Transformer 僅單次前向推理不同,EBT 允許每個(gè)預(yù)測思考多步。
這一建模方式使得系統(tǒng)二思維能夠在無監(jiān)督學(xué)習(xí)中自然涌現(xiàn),從而具備跨模態(tài)、跨任務(wù)的通用性。
在離散模態(tài)(如文本)和連續(xù)模態(tài)(如圖像)中,本文發(fā)現(xiàn) EBT 在訓(xùn)練過程中比主流的 Transformer++ 方法具備更快的擴(kuò)展速度 —— 在數(shù)據(jù)量、批次大小、參數(shù)規(guī)模、FLOPs 和網(wǎng)絡(luò)深度等方面,EBT 的擴(kuò)展速率最高可提升 35%。
在推理階段,通過引入系統(tǒng)二思維(即增加計(jì)算量),EBT 在語言任務(wù)中的性能提升比 Transformer++ 高出 29%。
在圖像去噪任務(wù)中,EBTs 也優(yōu)于擴(kuò)散 Transformer(Diffusion Transformers),且所需的前向傳播次數(shù)更少。
此外,本文還發(fā)現(xiàn),當(dāng)處理分布外數(shù)據(jù)時(shí),引入系統(tǒng)二思維的 EBT 帶來的性能提升更為顯著;即便在預(yù)訓(xùn)練效果相同或更差的情況下,EBT 在大多數(shù)下游任務(wù)上的表現(xiàn)仍優(yōu)于現(xiàn)有模型,表明其具備更強(qiáng)的泛化能力。
因此,EBT 為擴(kuò)展模型的學(xué)習(xí)能力與思維能力提供了一種極具前景的新范式。

- 論文地址:https://arxiv.org/pdf/2507.02092
- 論文主頁:https://energy-based-transformers.github.io/
- 論文標(biāo)題:Energy-Based Transformers are Scalable Learners and Thinkers
基于能量的 Transformers (EBT)
能量模型(EBMs,Energy-Based Models)背后的核心思想是:能量越低的配置,其概率越高、彼此之間越兼容;而能量越高的配置,其出現(xiàn)的可能性越低、彼此之間越不協(xié)調(diào)。
更具體地說,EBM 的目標(biāo)是學(xué)習(xí)一個(gè)能量函數(shù)(即將輸入映射為一個(gè)標(biāo)量能量值;在本文中,能量函數(shù)就是整個(gè)神經(jīng)網(wǎng)絡(luò)本身),這個(gè)函數(shù)會(huì)為正確或理想的配置(例如真實(shí)數(shù)據(jù)點(diǎn))分配較低的能量,而為錯(cuò)誤或不理想的配置(例如噪聲)分配較高的能量。
例如,如果給定的上下文是一段狗奔跑著去接飛盤的視頻,那么高能量的延續(xù)可能是一段狗在啃玩具的視頻,而低能量的延續(xù)則可能是狗成功接住飛盤的片段。狗接住飛盤的場景與前面的上下文更為契合,因此對(duì)應(yīng)的能量更低。

在這些 EBM 中,思考過程可以通過從一個(gè)初始的(隨機(jī)的)預(yù)測開始,并通過梯度下降不斷最小化其能量來優(yōu)化這個(gè)預(yù)測(如上圖所示)來實(shí)現(xiàn)。
為了實(shí)現(xiàn)高度可擴(kuò)展性,本文設(shè)計(jì)了一種結(jié)合 Transformer 架構(gòu)和可擴(kuò)展訓(xùn)練算法的特定類型的能量模型,稱為 EBT。EBT 具備高效的訓(xùn)練性能、良好的穩(wěn)定性以及并行處理能力。

可擴(kuò)展的 EBM Thinking
本文發(fā)現(xiàn)有三種關(guān)鍵的能量曲面正則化技術(shù)在訓(xùn)練過程中至關(guān)重要,它們能夠有效確保所學(xué)習(xí)到的能量曲面具有足夠的平滑性與凸性,從而使模型在訓(xùn)練階段具備強(qiáng)大的思考能力。
首先,本文發(fā)現(xiàn)重放緩沖區(qū)(replay buffer)有助于模擬更長的優(yōu)化軌跡,使得能量 landscapes 在其最小值附近得到良好定義。
其次,一種 Langevin 動(dòng)力學(xué)變體(隨機(jī)噪聲),被發(fā)現(xiàn)有助于鼓勵(lì)能量 landscapes 的探索。
第三,通過隨機(jī)化梯度下降步長 α 和優(yōu)化步數(shù),改變通向預(yù)測解決方案的路徑,顯著提高了泛化能力。
這些技術(shù)共同提高了模型的系統(tǒng) 2 思維能力,這一點(diǎn)通過表 2 中的消融實(shí)驗(yàn)得到了證實(shí)。
EBT 架構(gòu)
Transformer 在眾多領(lǐng)域中展現(xiàn)出卓越性能,其包括三大優(yōu)勢:高度可并行化、訓(xùn)練過程穩(wěn)定性,以及良好的可擴(kuò)展性。
而 EBM 在這三個(gè)方面一直面臨挑戰(zhàn),因此,Transformer 架構(gòu)為提升 EBM 的可擴(kuò)展性提供了理想的基礎(chǔ)。
為推動(dòng) EBM 范式的發(fā)展,本文引入了 EBT,即專為能量模型設(shè)計(jì)的 Transformer 架構(gòu)實(shí)現(xiàn)。本文設(shè)計(jì)了兩種變體:
- 一種是僅使用解碼器的 EBT,受 GPT 架構(gòu)啟發(fā),適用于自回歸建模;
- 另一種是雙向 EBT,在序列中使用雙向注意力機(jī)制,支持 infilling 和掩碼建模等任務(wù)。
實(shí)現(xiàn)細(xì)節(jié)可以參考 C.3 節(jié)。
實(shí)驗(yàn)及結(jié)果
本文實(shí)驗(yàn)關(guān)注兩類核心結(jié)果:
- 首先是學(xué)習(xí)的可擴(kuò)展性,即模型擬合預(yù)訓(xùn)練數(shù)據(jù)的速度,這也是預(yù)訓(xùn)練研究中的標(biāo)準(zhǔn)評(píng)估方式;
- 其次是思考的可擴(kuò)展性,即隨著系統(tǒng) 2 思維能力的增強(qiáng),模型性能的變化趨勢。
與模型學(xué)習(xí)速度相關(guān)的規(guī)?;厔?,通常被稱為擴(kuò)展律(Scaling Law),是比較難以測量的。
最近一項(xiàng)調(diào)查發(fā)現(xiàn),觀察到的擴(kuò)展率取決于多種實(shí)現(xiàn)細(xì)節(jié)和測量維度,往往導(dǎo)致多個(gè)不同的結(jié)論。
因此,為了盡可能全面地確定 EBT 與 Transformer++ 的擴(kuò)展方式,該研究針對(duì)六個(gè)不同測量維度 —— 包括數(shù)據(jù)、批處理大小、深度、參數(shù)、FLOPs,以及嵌入維度。

圖 4:語言學(xué)習(xí)擴(kuò)展性 —— 數(shù)據(jù)、批大小和深度。
該研究對(duì)比了 Transformer++ 方法與 EBT 模型在預(yù)訓(xùn)練階段的可擴(kuò)展性表現(xiàn),考察維度包括訓(xùn)練數(shù)據(jù)量、批大小及模型深度。
結(jié)果表明,在上述所有維度上,EBT 的擴(kuò)展能力均顯著優(yōu)于 Transformer++,顯示出更高的數(shù)據(jù)利用效率,并表明其在泛化能力方面具有潛在優(yōu)勢。
此外,EBT 在模型深度上的擴(kuò)展性能提升,亦為其在推理任務(wù)中的表現(xiàn)提供了可能性支持。
綜上結(jié)果表明,若這一擴(kuò)展趨勢持續(xù)存在,則在基礎(chǔ)模型所需的數(shù)據(jù)規(guī)模下,EBT 有望全面超越 Transformer++ 模型。

圖 5:語言學(xué)習(xí)可擴(kuò)展性 —— 參數(shù)、FLOPs 和寬度。
Transformer++ 方法與 EBT 在模型大小(參數(shù))、計(jì)算(FLOPs)和寬度(嵌入維度)上的預(yù)訓(xùn)練擴(kuò)展性比較。EBT 在 FLOPs 和參數(shù)擴(kuò)展性上略微優(yōu)于 Transformer++,成為首個(gè)在不修改分詞器的情況下實(shí)現(xiàn)更高擴(kuò)展率的方法。結(jié)果表明,隨著規(guī)模的增加,EBT 在參數(shù)和 FLOPs 效率方面作為預(yù)訓(xùn)練范式具有很高的潛力。
在所有測量維度上,EBT 的擴(kuò)展性能始終優(yōu)于 Transformer++ 方法(即具有更高的擴(kuò)展率),并成為首個(gè)在不更換分詞器的前提下實(shí)現(xiàn)這一突破的模型。
這些結(jié)果表明,與 Transformer++ 方法相比,EBT 在數(shù)據(jù)效率、批大小效率、參數(shù)效率、深度效率和計(jì)算效率方面都更高。
因此,在使用規(guī)模擴(kuò)大 1,000 倍的數(shù)據(jù)和參數(shù)量擴(kuò)大 1,000 倍的模型訓(xùn)練現(xiàn)代基礎(chǔ)模型的情境下,預(yù)期 EBT 的預(yù)訓(xùn)練性能將顯著優(yōu)于 Transformer++ 方法。
在已有學(xué)習(xí)結(jié)果的基礎(chǔ)上,該研究進(jìn)一步探討了 EBT 模型在推理階段的思考能力。研究發(fā)現(xiàn),EBT 的思維能力在足夠大規(guī)模的數(shù)據(jù)訓(xùn)練下開始顯現(xiàn)。鑒于資源限制,該研究主要在小規(guī)模模型(但訓(xùn)練數(shù)據(jù)量充足)上開展相關(guān)思維能力實(shí)驗(yàn)。
該研究從兩個(gè)維度評(píng)估模型的「思考能力」:一是延長思考時(shí)間,即增加優(yōu)化步數(shù);二是自我驗(yàn)證,即生成多個(gè)候選預(yù)測,并從中選擇能量最小的預(yù)測結(jié)果。
在表 2 中,通過消融實(shí)驗(yàn)驗(yàn)證了該研究提出的能量 Landscape 正則化技術(shù)(Energy Landscape Regularization techniques)在 BigBench Dyck Languages 基準(zhǔn)測試的分布外數(shù)據(jù)上提升系統(tǒng) 2 思維能力的有效性。
實(shí)驗(yàn)結(jié)果表明,當(dāng)結(jié)合延長思考和自我驗(yàn)證機(jī)制時(shí),應(yīng)用全部正則化技術(shù)可以獲得最優(yōu)的系統(tǒng) 2 思維表現(xiàn)。
此外,實(shí)驗(yàn)還發(fā)現(xiàn):步長隨機(jī)化是關(guān)鍵因素之一 —— 若移除該機(jī)制,模型的思維能力幾乎完全喪失;而關(guān)閉 Langevin 動(dòng)力學(xué)則會(huì)削弱組合性能,但在無自我驗(yàn)證條件下反而表現(xiàn)更佳,體現(xiàn)出性能與計(jì)算資源之間的權(quán)衡關(guān)系。

表 2:系統(tǒng) 2 思維消融實(shí)驗(yàn)。
Thinking Longer 指更多優(yōu)化步驟,Self-Verification 指優(yōu)化多個(gè)預(yù)測并選擇最佳結(jié)果。加粗部分突出顯示默認(rèn)系統(tǒng) 2 超參數(shù),利用所有在 3.3 節(jié)中描述的能量 Landscape 正則化技術(shù)。
這種配置在 Thinking Longer 和 Self-Verification 時(shí)性能最佳。移除正則化,如 Langevin 動(dòng)力學(xué),會(huì)導(dǎo)致更少的能量 Landscape 探索,從而在犧牲 Self-Verification 性能的情況下提升單路徑性能(Thinking Longer)。
在驗(yàn)證了上述能量 Landscape 正則化技術(shù)的重要性后,該研究進(jìn)一步分析了 EBT 模型在思考能力方面的可擴(kuò)展性。結(jié)果帶來了兩個(gè)主要發(fā)現(xiàn):
首先,如圖 6 (a) 所示,EBT 模型通過增加前向傳播次數(shù)(即延長思考時(shí)間)可實(shí)現(xiàn)高達(dá) 29% 的性能提升,而 Transformer++ 在相同條件下的性能幾乎沒有任何提升。
這一現(xiàn)象驗(yàn)證了傳統(tǒng)的前饋式 Transformer 無法根據(jù)每個(gè)預(yù)測任務(wù)動(dòng)態(tài)分配額外的計(jì)算資源,因此也就無法通過「延長思考時(shí)間」來提升每個(gè) token 的預(yù)測性能。

圖 6:EBT 思維分析。
其次,如圖 6 (b) 所示,EBT 的「思考能力」具有良好的可擴(kuò)展性。具體而言,隨著訓(xùn)練時(shí)間的增加,EBT 從自我驗(yàn)證中獲得的性能提升也在持續(xù)增長:自我驗(yàn)證帶來的增益從原先的 4%–8% 提升至 10%–14%。
這表明,若將 EBT 模型擴(kuò)展到與當(dāng)前主流基礎(chǔ)模型相同的訓(xùn)練規(guī)模(例如 Llama3 所使用的 15 萬億 tokens,約為當(dāng)前數(shù)據(jù)規(guī)模的 1000 倍),其自我驗(yàn)證機(jī)制所帶來的性能提升將更為顯著。
最后,該研究可視化了 EBT 在預(yù)測 token 時(shí)對(duì)不確定性的表達(dá)能力。結(jié)果表明:對(duì)于預(yù)測難度較低的 token(如 the 或 but),EBT 能更快地優(yōu)化至較低能量;而對(duì)于預(yù)測難度較高的 token(如 fox 或 problem),其對(duì)應(yīng)的能量更高,且在多個(gè)步驟中未能收斂。
這說明在預(yù)訓(xùn)練過程中,EBT 能夠?qū)W習(xí)并捕捉 token 預(yù)測難度的不確定性,從而實(shí)現(xiàn)對(duì)系統(tǒng) 2 中方面 2 的有效建模。

圖 8:文本中的不確定性學(xué)習(xí)結(jié)果。
EBT 模型在無任何顯式監(jiān)督的情況下,能夠自動(dòng)學(xué)習(xí)在不同文本 token 上的不確定性差異。例如,在圖 (a) 和 (b) 中可以觀察到,諸如 is、a、but 和 the 等簡單 token 在推理階段的優(yōu)化過程中(即「思考」步驟)表現(xiàn)出較低的能量值,表明模型對(duì)此類 token 的不確定性較低。相比之下,諸如 quick、brown、research 和 problem 等難以預(yù)測的 token 在多個(gè)優(yōu)化步驟中具有更高的能量,且能量難以收斂,說明模型對(duì)這些 token 的預(yù)測存在更高的不確定性。
鑒于人類的系統(tǒng) 2 思維與在新場景中的泛化能力密切相關(guān),該研究設(shè)計(jì)了一組實(shí)驗(yàn),旨在直接評(píng)估 EBT 模型的系統(tǒng) 2 思維機(jī)制對(duì)泛化能力的影響。
如圖 7 所示,該研究可視化了 EBT 在多個(gè)數(shù)據(jù)集上的表現(xiàn),這些數(shù)據(jù)集具有不同程度的分布外(OOD)偏移,該偏移通過下游任務(wù)困惑度與預(yù)訓(xùn)練困惑度的比值進(jìn)行量化。
實(shí)驗(yàn)結(jié)果顯示出明顯的線性趨勢:隨著數(shù)據(jù)的分布偏移程度增加,思考機(jī)制帶來的性能提升也越顯著。因此,這一發(fā)現(xiàn)表明,EBT 的「思考」優(yōu)勢并非在所有數(shù)據(jù)上均勻表現(xiàn),而是隨著分布偏移程度的增強(qiáng)而增強(qiáng),凸顯了「思考」機(jī)制在跨分布泛化任務(wù)中作為關(guān)鍵能力的作用。
這一發(fā)現(xiàn)亦與心理學(xué)中的觀察一致:人類在應(yīng)對(duì)復(fù)雜的分布外任務(wù)時(shí),通常依賴于更為深度和刻意的系統(tǒng) 2 思維過程。

圖 7:OOD 思考性能。隨著數(shù)據(jù)變得越來越 OOD,思考帶來的性能提升更加顯著,呈現(xiàn)大致線性的趨勢。
由于已在圖 4 和圖 5 中驗(yàn)證了 EBT 模型相較于 Transformer++ 擁有更優(yōu)的擴(kuò)展性,因此有理由推測,EBT 在大規(guī)模訓(xùn)練條件下也可能在下游任務(wù)中表現(xiàn)更佳。
為驗(yàn)證這一假設(shè),該研究對(duì)訓(xùn)練設(shè)置完全相同的模型進(jìn)行了比較,其中 EBT 模型在預(yù)訓(xùn)練階段的困惑度略高于 Transformer++。然而,如表 3 所示,盡管 EBT 的預(yù)訓(xùn)練困惑度稍差,但其在大多數(shù)下游任務(wù)上的困惑度更低(即性能更優(yōu)),表明其具有更強(qiáng)的泛化能力,尤其是在應(yīng)對(duì)分布外(OOD)數(shù)據(jù)方面表現(xiàn)更為突出。
結(jié)合此前關(guān)于學(xué)習(xí)可擴(kuò)展性的優(yōu)勢結(jié)果,以及已有研究表明,更好的預(yù)訓(xùn)練表現(xiàn)通常會(huì)轉(zhuǎn)化為更優(yōu)的下游任務(wù)性能,上述實(shí)驗(yàn)證據(jù)共同表明,在大規(guī)模訓(xùn)練情境下,EBT 會(huì)全面超越 Transformer++。

表 3:語言模型任務(wù)泛化比較。
盡管在預(yù)訓(xùn)練階段困惑度略高,EBTs 在下游任務(wù)上的困惑度通常低于 Transformer++。這表明 EBT 比 Transformer++ 泛化能力更強(qiáng)。此外,由于 EBT 在預(yù)訓(xùn)練階段比 Transformer++ 擴(kuò)展性更好(圖 4),這些發(fā)現(xiàn)表明 EBT 在基礎(chǔ)模型規(guī)模上會(huì)優(yōu)于 Transformer++。
圖 9 展示了嵌入維度(embedding dimension)和非嵌入?yún)?shù)量(non-embedding parameter count)兩個(gè)維度上的擴(kuò)展性結(jié)果,這兩個(gè)維度表現(xiàn)出最為線性的擴(kuò)展趨勢。實(shí)驗(yàn)結(jié)果表明,盡管 EBT 模型在初始階段的損失值更高,但其擴(kuò)展速度比 Transformer++ 快超過 33%。這一發(fā)現(xiàn)表明,在基礎(chǔ)模型規(guī)模下,EBT 會(huì)獲得顯著優(yōu)于 Transformer++ 的性能表現(xiàn)。

圖 9:視頻學(xué)習(xí)可擴(kuò)展性 —— 寬度與參數(shù)。在 Something Something V2(SSV2)數(shù)據(jù)集上達(dá)到的最小驗(yàn)證損失。
雖然 EBT 在較小規(guī)模時(shí)驗(yàn)證損失高于 Transformer++,但擴(kuò)展率提高 33% ,表明在擁有數(shù)百億參數(shù)的基礎(chǔ)模型規(guī)模上,EBT 的表現(xiàn)將遠(yuǎn)優(yōu)于 Transformer++。值得注意的是,相對(duì)于參數(shù)數(shù)量,嵌入維度的擴(kuò)展行為更接近線性,這可能是嵌入維度成為圖像表示的瓶頸所致。
為進(jìn)一步驗(yàn)證上述觀點(diǎn),該研究在圖 11 中可視化了 EBT 模型在預(yù)測視頻幀時(shí)的能量變化結(jié)果。實(shí)驗(yàn)結(jié)果表明,EBT 能夠有效學(xué)習(xí)并表征預(yù)測過程中的不確定性:在視頻的早期幀中,由于畫面中尚未出現(xiàn)主要物體,模型預(yù)測的能量較高(即不確定性較強(qiáng));隨著場景中的主要物體逐漸顯現(xiàn),EBT 對(duì)后續(xù)幀的預(yù)測能量顯著降低,表明模型不確定性隨之減少。

圖 11:視頻結(jié)果中的學(xué)習(xí)不確定性。與認(rèn)知方面 2 一致,EBT 能夠在沒有監(jiān)督的情況下,在連續(xù)視頻幀中表達(dá)不確定性。
在視頻開始時(shí),不確定性較高(高能量),因?yàn)閹蟛糠质强盏?,場景高度不可預(yù)測。當(dāng)一件藍(lán)色服裝被放置到幀中時(shí),不確定性降低(低能量),反映了場景的可預(yù)測性增加。當(dāng)藍(lán)色服裝從場景中移除時(shí),不確定性再次增加,表明不可預(yù)測性恢復(fù)到較高水平。這種能力在沒有離散化方案的傳統(tǒng)前饋 Transformer 的連續(xù)空間中實(shí)現(xiàn)起來要困難得多。
表 4 展示了 EBT 與 DiT 模型在圖像去噪任務(wù)中的性能對(duì)比結(jié)果。觀察到,在分布內(nèi)與分布外圖像去噪的多個(gè)評(píng)價(jià)指標(biāo)上,EBT 均優(yōu)于 DiT,峰值信噪比(PSNR)最高提升可達(dá) 3.5。

表 4:圖像去噪與分類對(duì)比。
在圖像去噪方面,EBTs 在分布內(nèi)(in-distribution)和分布外(OOD)數(shù)據(jù)上的峰值信噪比(PSNR)以及均方誤差(MSE)上均顯著優(yōu)于 DiT ,同時(shí)使用減少 99% 的正向傳遞次數(shù)。
這表明 EBT 比 DiT 泛化能力更強(qiáng),同時(shí)計(jì)算量更少。在圖像分類方面,EBT 的表現(xiàn)也優(yōu)于 DiT ,準(zhǔn)確率提高了 10 倍 ,這表明 EBT 學(xué)習(xí)到的圖像表征更好,比 DiT 更理解圖像。
該研究還在圖 12 中繪制了不同前向傳播次數(shù)(即函數(shù)評(píng)估次數(shù),Number of Function Evaluations, NFEs)下的模型性能曲線。結(jié)果表明,EBT 在使用比 DiT 少 99% 的去噪步驟的情況下,仍實(shí)現(xiàn)了更優(yōu)的去噪效果,并且其系統(tǒng) 2 思維的擴(kuò)展速率也明顯高于 DiT。

圖 12:圖像去噪任務(wù)中的思考可擴(kuò)展性分析。
該研究比較了 EBT 與 DiT 在圖像去噪任務(wù)中,在不同前向傳播次數(shù)下的表現(xiàn)。結(jié)果顯示,EBT 僅需 DiT 所用前向傳播次數(shù)的 1%,即可達(dá)到相當(dāng)甚至更優(yōu)的峰值信噪比(PSNR)水平。
此外,隨著前向傳播次數(shù)增加,EBT 在 PSNR 上的性能提升速率遠(yuǎn)高于 DiT。這一結(jié)果表明,在處理分布外(OOD)圖像去噪任務(wù)時(shí),EBT 的思考能力明顯優(yōu)于 DiT。

圖 10:定性 OOD 圖像去噪。
圖 10 展示了 EBT 與 DiT 基線模型在分布外圖像去噪任務(wù)中的視覺效果對(duì)比。結(jié)果進(jìn)一步表明,EBT 所生成的去噪圖像在視覺質(zhì)量上明顯優(yōu)于 DiT,同時(shí)計(jì)算成本更低。
在推理階段,EBT 模型在每使用 1 次去噪步驟的情況下,便可達(dá)到與 DiT 需執(zhí)行 100 次去噪步驟相當(dāng)甚至更優(yōu)的效果。整體而言,EBT 所生成的去噪圖像質(zhì)量更高,圖像更清晰,模糊程度明顯低于 DiT 去噪結(jié)果。
了解更多內(nèi)容,請(qǐng)參考原論文。



































