偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

擴(kuò)散語言模型真的會(huì)比自回歸好?理論分析結(jié)果可能恰恰相反

人工智能 新聞
來自北京大學(xué)和螞蟻集團(tuán)的最新研究表明,答案遠(yuǎn)非簡(jiǎn)單的 “是” 或 “否”,在某些關(guān)鍵場(chǎng)景下,結(jié)論甚至可能恰恰相反。

本工作來自北京大學(xué)智能學(xué)院賀笛老師課題組與螞蟻集團(tuán)武威團(tuán)隊(duì)。賀笛老師在機(jī)器學(xué)習(xí)領(lǐng)域獲得過多項(xiàng)榮譽(yù),包括 ICLR 2023 杰出論文獎(jiǎng)與 ICLR 2024 杰出論文獎(jiǎng)提名。

擴(kuò)散模型近年來在圖像生成領(lǐng)域取得了令人矚目的成就,其生成圖像的質(zhì)量和多樣性令人驚嘆。這自然引發(fā)了人們的思考:這種強(qiáng)大的生成范式能否遷移到文本領(lǐng)域,挑戰(zhàn)甚至取代目前主流的自回歸語言模型?擴(kuò)散語言模型(Diffusion Language Models)憑借其并行生成多個(gè)詞元的潛力,似乎預(yù)示著文本生成領(lǐng)域的一場(chǎng)效率革命。然而,這一前景是否真的如此美好?來自北京大學(xué)和螞蟻集團(tuán)的最新研究表明,答案遠(yuǎn)非簡(jiǎn)單的 “是” 或 “否”,在某些關(guān)鍵場(chǎng)景下,結(jié)論甚至可能恰恰相反。

圖片


擴(kuò)散模型 vs. 自回歸:效率神話面臨拷問

自回歸模型,作為語言生成領(lǐng)域的主流范式,以其逐詞元(token-by-token)的順序生成方式著稱。盡管在生成質(zhì)量上取得了巨大成功,但其固有的串行機(jī)制限制了推理速度,尤其是在處理長序列時(shí)。與之相對(duì),擴(kuò)散語言模型,特別是其中的掩碼擴(kuò)散模型(Masked Diffusion Models, MDMs),允許在每個(gè)擴(kuò)散步驟中并行采樣多個(gè)詞元,這從理論上為提升生成效率提供了可能。

然而,理論上的優(yōu)勢(shì)在實(shí)踐中似乎遭遇了 “效率悖論”。研究人員觀察到,目前開源的擴(kuò)散語言模型在某些任務(wù)上需要更多的采樣步驟才能達(dá)到與自回歸模型相當(dāng)?shù)臏?zhǔn)確率,導(dǎo)致了比自回歸模型更高的推理成本。這一悖論在實(shí)驗(yàn)中得到了印證。下圖直觀展示了這一現(xiàn)象:在數(shù)學(xué)推理基準(zhǔn)測(cè)試 GSM8K(8-shot)上,當(dāng)與同等規(guī)模的自回歸模型 Qwen2.5-7B 對(duì)比時(shí),兩款最近發(fā)布的大型掩碼擴(kuò)散模型 Dream-v0-7B 和 LLaDA-8B,在不同的采樣步數(shù)下,其性能和效率均落后于自回歸基線,處于左圖中的第三象限(代表更低效率和更低性能)。

鑒于不同模型可能使用了不同的訓(xùn)練數(shù)據(jù),研究人員意識(shí)到這可能對(duì)性能評(píng)估造成天然偏差。為消除該因素帶來的影響,團(tuán)隊(duì)設(shè)計(jì)了更加客觀、公平的對(duì)比實(shí)驗(yàn):給定一個(gè)預(yù)訓(xùn)練好的擴(kuò)散語言模型,我們強(qiáng)制約束其在推理中采用從左到右的逐詞生成方式,并以這種"偽自回歸式"的解碼性能與效率作為基線,重新進(jìn)行對(duì)比分析。理論上,在消除訓(xùn)練數(shù)據(jù)差異的前提下,相對(duì)這種偽自回歸式的解碼方式,擴(kuò)散語言模型理應(yīng)在效率與性能之間取得更優(yōu)平衡,表現(xiàn)應(yīng)進(jìn)入第一象限。然而,實(shí)驗(yàn)結(jié)果卻出人意料 —— 即使與這種被約束的模型對(duì)比,擴(kuò)散語言模型仍未展現(xiàn)出任何優(yōu)勢(shì),未能同時(shí)實(shí)現(xiàn)更高的生成效率與更優(yōu)的輸出質(zhì)量。

圖片

圖 1:MDMs 在 GSM8K (8-shot) 上的效率和準(zhǔn)確率。(左) MDMs 相對(duì)于 Qwen2.5-7B 的表現(xiàn)。(右) MDMs 相對(duì)于其自身自回歸式解碼的表現(xiàn)。

這些觀察結(jié)果引出了一個(gè)核心問題:“離散擴(kuò)散模型是否真的能提供比自回歸模型更好的權(quán)衡,即在保持高質(zhì)量生成內(nèi)容的同時(shí)實(shí)現(xiàn)更高的效率?” 這正是這項(xiàng)新研究試圖解答的關(guān)鍵。

北大團(tuán)隊(duì)新研究:撥開迷霧,關(guān)鍵在評(píng)估指標(biāo)

針對(duì)上述疑問,研究團(tuán)隊(duì)對(duì)此進(jìn)行了深入的理論剖析。他們的研究目標(biāo)是 “對(duì)一種廣泛采用的變體 —— 掩碼擴(kuò)散模型(MDM)進(jìn)行嚴(yán)格的理論分析”,以探究觀測(cè)到的效率限制是否是其固有的缺陷。

這項(xiàng)研究的核心結(jié)論是,關(guān)于擴(kuò)散模型與自回歸模型優(yōu)劣的 “結(jié)論高度依賴于評(píng)估指標(biāo)的選擇”。研究團(tuán)隊(duì)采用了兩種互補(bǔ)的評(píng)估指標(biāo)來全面衡量 MDM 的性能:

詞元錯(cuò)誤率(TER):該指標(biāo)量化了詞元級(jí)別的準(zhǔn)確性,通常與生成文本的流暢度相關(guān)。在實(shí)踐中,困惑度(Perplexity)是衡量語言模型詞元級(jí)別錯(cuò)誤的常用指標(biāo),因此論文中 TER 由困惑度定義。較低的 TER 通常意味著模型能生成更流暢、連貫的文本。

序列錯(cuò)誤率(SER):該指標(biāo)評(píng)估整個(gè)序列的正確性,這對(duì)于需要邏輯上完全正確的序列的推理任務(wù)(如解決數(shù)學(xué)問題、代碼生成)至關(guān)重要。

研究團(tuán)隊(duì)首先分析了擴(kuò)散語言模型以詞元錯(cuò)誤率(TER)為主要衡量標(biāo)準(zhǔn)時(shí)的效率,即評(píng)估的重點(diǎn)在于生成文本的流暢度和連貫性。研究團(tuán)隊(duì)證明目標(biāo)是接近最優(yōu)的困惑度時(shí),MDM 可以在與序列長度無關(guān)的恒定采樣步數(shù)內(nèi)實(shí)現(xiàn)這一目標(biāo)。換而言之,為了達(dá)到理想的困惑度,MDM 所需的采樣步數(shù)并不隨序列長度的增加而增長,而是一個(gè)常數(shù)。這與自回歸模型形成了鮮明對(duì)比,后者必須執(zhí)行序列長度的次數(shù)才能生成整個(gè)序列。因此,在生成長篇流暢文本等任務(wù)中,MDM 具備顯著的效率提升潛力。

然而,當(dāng)將評(píng)估的標(biāo)準(zhǔn)從流暢度轉(zhuǎn)向序列級(jí)別的完全正確性,即采用序列錯(cuò)誤率(SER)作為衡量標(biāo)準(zhǔn)時(shí),擴(kuò)散語言模型將不再高效。相較于困惑度,SER 評(píng)估的是整個(gè)序列的正確性,而非單個(gè)詞元,其定義為圖片,其中圖片為所有正確序列的集合,因此,SER 也就是擴(kuò)散語言模型生成錯(cuò)誤序列的概率。SER 特別適用于那些要求邏輯一致性或推理的任務(wù),在這些任務(wù)中,完整正確的思維鏈至關(guān)重要。研究團(tuán)隊(duì)證明:當(dāng)目標(biāo)是低序列錯(cuò)誤率時(shí),在最壞情況下,擴(kuò)散語言模型所需的采樣步數(shù)必須與序列長度線性相關(guān)。然而在相同架構(gòu)下,MDM 的每個(gè)采樣步驟通常比自回歸步驟產(chǎn)生更高的計(jì)算成本,從而失去了效率優(yōu)勢(shì)。

這一定程度上解釋了為何 MDM 在 GSM8K 這類數(shù)學(xué)推理基準(zhǔn)測(cè)試中表現(xiàn)不佳(如圖 1 所示)。數(shù)學(xué)推理要求思維鏈條的每一步都完美正確。SER 與 MDM 解決數(shù)學(xué)問題的準(zhǔn)確性密切相關(guān),因?yàn)殄e(cuò)誤的思維鏈通常會(huì)導(dǎo)致錯(cuò)誤的答案。因此,MDM 難以在這類數(shù)學(xué)推理任務(wù)上取得效率優(yōu)勢(shì),從而解釋了觀察到的實(shí)驗(yàn)現(xiàn)象。

除了理論分析,研究團(tuán)隊(duì)又進(jìn)一步在一些形式語言上驗(yàn)證了這些理論結(jié)果,如下圖 2 所示。這些實(shí)驗(yàn)結(jié)果再一次證明,當(dāng)考慮詞元級(jí)別的錯(cuò)誤率時(shí),MDM 能夠展現(xiàn)出效率優(yōu)勢(shì),然而當(dāng)使用序列級(jí)別錯(cuò)誤率作為衡量指標(biāo)時(shí),MDM 則不如 AR 模型高效。

圖片

圖 2:MDMs 在形式語言上的表現(xiàn)。(上) MDMs 的困惑度與采樣步數(shù)的關(guān)系。(右) MDMs 序列錯(cuò)誤率與采樣步數(shù)的關(guān)系。

結(jié)論:擴(kuò)散語言模型,何時(shí)才是更優(yōu)選?

那么,回到最初的問題:擴(kuò)散語言模型真的會(huì)比自回歸模型更好嗎?這項(xiàng)研究給出的答案是:視情況而定,關(guān)鍵在于用什么樣的指標(biāo)去衡量。 基于這項(xiàng)研究的理論分析和實(shí)驗(yàn)結(jié)果,我們可以為實(shí)踐者提供以下的指導(dǎo)方針 。

當(dāng)任務(wù)優(yōu)先考慮生成文本的流暢性、高吞吐量,并且能夠容忍一定程度的序列級(jí)別不完美時(shí),例如:長篇幅的創(chuàng)意寫作,其中整體的可讀性和連貫性比每一句話的絕對(duì)事實(shí)準(zhǔn)確性更重要,在這些場(chǎng)景下,擴(kuò)散語言模型能夠展現(xiàn)出效率的優(yōu)勢(shì)。然而,當(dāng)任務(wù)對(duì)序列級(jí)別的準(zhǔn)確性和邏輯正確性有極高要求時(shí),擴(kuò)散語言模型為達(dá)到低 SER 所需的采樣步數(shù)隨序列長度線性增長,這抵消了其潛在的并行效率優(yōu)勢(shì),甚至可能因單步計(jì)算成本更高而變得更慢。此時(shí),自回歸模型是更好的選擇。

這項(xiàng)研究為理解 MDM 的比較優(yōu)勢(shì)和局限性奠定了首個(gè)堅(jiān)實(shí)的理論基礎(chǔ)。當(dāng)然,研究團(tuán)隊(duì)也指出了當(dāng)前工作的一些局限性,例如分析主要集中在形式語言上,未來需要將其擴(kuò)展到更復(fù)雜的現(xiàn)代大語言模型;同時(shí),分析主要針對(duì)掩碼擴(kuò)散模型,其他類型的擴(kuò)散模型的表現(xiàn)仍有待探索。

總而言之,擴(kuò)散技術(shù)在圖像生成領(lǐng)域的巨大成功,并不意味著其優(yōu)勢(shì)可以直接、簡(jiǎn)單地平移到語言領(lǐng)域。語言的離散性和序列性帶來了獨(dú)特的挑戰(zhàn),需要更細(xì)致和針對(duì)性的評(píng)估。這項(xiàng)研究以其嚴(yán)謹(jǐn)?shù)睦碚摵颓逦膶?shí)驗(yàn),為我們揭示了擴(kuò)散語言模型在效率與質(zhì)量權(quán)衡上的復(fù)雜性,為整個(gè)領(lǐng)域的發(fā)展注入了重要的理性思考。對(duì)于追求特定目標(biāo)的模型部署而言,理解這種權(quán)衡對(duì)于成本控制和用戶體驗(yàn)都至關(guān)重要,錯(cuò)誤的選擇可能導(dǎo)致用戶體驗(yàn)不佳或不必要的計(jì)算資源浪費(fèi)。最終,沒有絕對(duì) “最好” 的模型,只有最適合特定任務(wù)和特定評(píng)估標(biāo)準(zhǔn)的模型。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2012-11-05 10:12:24

云計(jì)算開源

2025-07-10 14:54:13

AI模型圖像生成

2025-02-27 13:45:00

2024-04-26 12:51:48

2025-08-12 09:08:00

2025-05-27 15:28:11

模型訓(xùn)練AI

2025-07-17 09:16:20

AI模型視覺

2025-05-30 15:54:16

模型AI生成

2024-11-12 13:10:49

2025-03-25 09:04:12

2021-09-22 22:57:41

手機(jī)流量通信

2024-12-23 13:30:00

2025-06-04 13:55:03

AI模型技術(shù)

2025-08-14 09:10:00

2025-08-04 08:23:00

2023-02-21 16:18:14

ChatGPT谷歌

2025-08-20 12:38:26

2024-01-29 00:24:07

圖像模型預(yù)訓(xùn)練

2024-10-23 14:04:24

2017-06-14 17:18:43

機(jī)器學(xué)習(xí)數(shù)據(jù)研究回歸
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)