偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?

發(fā)布于 2025-3-14 07:45
瀏覽
0收藏

核心要點(diǎn)速覽

機(jī)器學(xué)習(xí)中的擴(kuò)散模型是什么?

擴(kuò)散模型屬于生成模型(它們生成的數(shù)據(jù)與訓(xùn)練數(shù)據(jù)相似)。擴(kuò)散模型的運(yùn)作遵循兩個(gè)簡(jiǎn)單步驟:首先,通過(guò)逐步添加高斯噪聲來(lái)破壞訓(xùn)練數(shù)據(jù);而訓(xùn)練過(guò)程則是通過(guò)逆向這個(gè)添加噪聲的過(guò)程來(lái)恢復(fù)數(shù)據(jù)。一個(gè)訓(xùn)練良好的擴(kuò)散模型能夠從隨機(jī)噪聲中生成我們想要的任何內(nèi)容。如果把噪聲替換為嵌入空間,你可能就能理解其中的原理了。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

擴(kuò)散模型的優(yōu)勢(shì)

擴(kuò)散模型有 4 個(gè)主要優(yōu)點(diǎn),使其在基于文本的生成領(lǐng)域具有很大的投資潛力:

  • 高質(zhì)量生成:擴(kuò)散模型生成的輸出質(zhì)量和真實(shí)感都非常出色,在許多任務(wù)中都超越了以往的生成模型。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

  • 通用性強(qiáng):它們適用于多種數(shù)據(jù)模態(tài),包括圖像、音頻、分子等。深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)
  • 可控性高:擴(kuò)散模型在生成過(guò)程中具有一定的可控性,用戶可以根據(jù)特定需求或條件引導(dǎo)輸出。而且,它們還可以在生成過(guò)程中中途停止,比傳統(tǒng)設(shè)置更加靈活。
  • 反饋信號(hào)更佳:評(píng)估一個(gè)有缺陷的輸出比評(píng)估一個(gè)不完整的輸出要容易(給一段有錯(cuò)誤或結(jié)構(gòu)低效的代碼提供反饋,比給邏輯缺失一半且結(jié)尾邏輯也不完整的代碼提供反饋要容易)。這使得擴(kuò)散大語(yǔ)言模型在生成過(guò)程中能夠進(jìn)行 “思考”,而不是像現(xiàn)在普遍的那樣,僅在生成前(規(guī)劃)或生成后(批評(píng)和迭代)進(jìn)行思考。

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models[2]

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

擴(kuò)散語(yǔ)言模型中的思維鏈推理

擴(kuò)散模型的缺點(diǎn)

從其設(shè)計(jì)原理可以明顯看出,擴(kuò)散模型的計(jì)算成本非常高。雖然有研究致力于降低成本,但這仍然是擴(kuò)散模型的一大痛點(diǎn)。

擴(kuò)散模型表現(xiàn)出色的原因

就其本質(zhì)而言,擴(kuò)散模型在每次推理步驟中都會(huì)全面地審視數(shù)據(jù)點(diǎn)。在這個(gè)過(guò)程中,它們結(jié)合了兩種優(yōu)秀生成器的優(yōu)點(diǎn):

  • 與生成對(duì)抗網(wǎng)絡(luò)(GANs)這樣的生成器相比,擴(kuò)散模型可以分多個(gè)步驟生成輸出,讓我們能夠更精細(xì)地控制(想想一次性完成復(fù)雜任務(wù)有多難)。
  • 與自回歸模型(像 ChatGPT 這樣的大語(yǔ)言模型使用的模型)相比,擴(kuò)散模型具有更大的靈活性(我們可以在任何時(shí)候停止生成,并且得到的結(jié)果在一定程度上是可用的)。
  • 最后,添加噪聲和去除噪聲的過(guò)程類(lèi)似于強(qiáng)大的數(shù)據(jù)增強(qiáng),模型在這個(gè)過(guò)程中被迫建立特征之間更深層次的聯(lián)系,從而確保更好的安全性。

生成式學(xué)習(xí)因其在數(shù)據(jù)分布建模方面的有效性而受到認(rèn)可,在處理分布外實(shí)例方面具有內(nèi)在優(yōu)勢(shì),特別是在增強(qiáng)對(duì)抗攻擊的魯棒性方面。在這些方法中,利用強(qiáng)大擴(kuò)散模型的擴(kuò)散分類(lèi)器已證明具有卓越的實(shí)證魯棒性……實(shí)驗(yàn)結(jié)果表明,這些加噪擴(kuò)散分類(lèi)器(NDCs)具有卓越的可證明魯棒性。值得注意的是,在對(duì)抗擾動(dòng)的(\ell_2)范數(shù)小于 0.25 和 0.5 的情況下,使用單個(gè)現(xiàn)成的擴(kuò)散模型,無(wú)需任何額外數(shù)據(jù),我們?cè)?CIFAR-10 數(shù)據(jù)集上分別實(shí)現(xiàn)了超過(guò) 80%和 70%的可證明魯棒性?!?摘自論文《Your Diffusion Model is Secretly a Certifiably Robust Classifier[3]》。

我們還可以將擴(kuò)散模型與其他模型很好地結(jié)合,從而產(chǎn)生非??犰诺膽?yīng)用(以及我們喜歡的備受贊譽(yù)的智能體架構(gòu))。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

還有一個(gè)雖然顯而易見(jiàn)但仍然重要的事實(shí)是,擴(kuò)散模型的并行化能力更強(qiáng),因?yàn)樗鼈兛梢圆⑿羞\(yùn)行去噪鏈,而自回歸模型必須等待最后一個(gè)令牌生成完成(不過(guò),Spec Decoding 技術(shù)可能對(duì)此有不同的影響)。這使得像 Mercury 這樣的模型速度大幅提升:

真正讓基于擴(kuò)散的大語(yǔ)言模型(dLLMs)脫穎而出的是它們的速度。即使是經(jīng)過(guò)速度優(yōu)化的自回歸模型,每秒最多也只能處理 200 個(gè)令牌,而我們可以在商用 NVIDIA H100 上以每秒超過(guò) 1000 個(gè)令牌的速度運(yùn)行 Mercury Coder,速度提升了 5 倍。與一些前沿模型相比,這些模型每秒處理的令牌數(shù)不到 50 個(gè),我們的速度提升超過(guò) 20 倍。

基于擴(kuò)散的大語(yǔ)言模型所實(shí)現(xiàn)的吞吐量,以前只有使用 Groq、Cerebras 和 SambaNova 等專(zhuān)用硬件才能達(dá)到。我們的算法改進(jìn)與硬件加速相互獨(dú)立,并且在更快的芯片上使用時(shí),速度提升效果會(huì)更加顯著。

一旦我們了解了這些背景知識(shí),那么我們就必須進(jìn)一步思考擴(kuò)散模型未來(lái)的發(fā)展方向。下面是一些深入的思考,這些思考或許應(yīng)該被陳列在博物館中,以見(jiàn)證人類(lèi)智慧的高度:

  • 短期:降低成本并證明價(jià)值 擴(kuò)散模型的計(jì)算成本很高。Mercury 展示的較少迭代次數(shù)和較高吞吐量并不能直接說(shuō)明問(wèn)題(因?yàn)閿U(kuò)散模型每次推理的成本要高得多,抵消了迭代次數(shù)減少帶來(lái)的優(yōu)勢(shì))。我們需要一些新的合理成本指標(biāo),才能公平地將 dLLMs 與自回歸模型進(jìn)行比較。 - 開(kāi)發(fā)更好的成本指標(biāo)(如浮點(diǎn)運(yùn)算次數(shù)、并行化能力、延遲),并與自回歸模型進(jìn)行基準(zhǔn)測(cè)試對(duì)比。 - 通過(guò)自適應(yīng)步長(zhǎng)縮減、可學(xué)習(xí)的停止準(zhǔn)則和高效的調(diào)度來(lái)優(yōu)化去噪過(guò)程,以減少計(jì)算開(kāi)銷(xiāo)。 - 完善用于評(píng)估全局連貫性、約束一致性和推理質(zhì)量的評(píng)估指標(biāo),以便更好地評(píng)估模型性能。
  • 中期:突破硬令牌限制 兩個(gè)特別重要的發(fā)展趨勢(shì): - 朝著連續(xù)語(yǔ)言空間發(fā)展,消除分詞限制,基于概念實(shí)現(xiàn)對(duì)語(yǔ)言更 “穩(wěn)健” 的理解,從而生成更自然的文本。 - 實(shí)現(xiàn)生成過(guò)程中的推理,讓人工智能在最終確定輸出之前進(jìn)行模擬和優(yōu)化,提高邏輯一致性和連貫性。
  • 長(zhǎng)期:實(shí)現(xiàn)終身學(xué)習(xí)和自我進(jìn)化的個(gè)性化大語(yǔ)言模型

dLLMs 可以模糊訓(xùn)練和推理之間的界限,實(shí)現(xiàn)實(shí)時(shí)模型自適應(yīng),使模型能夠持續(xù)改進(jìn)。這基于它們?cè)谏蛇^(guò)程中進(jìn)行自適應(yīng)的能力,最終也應(yīng)該能讓我們根據(jù)用戶反饋和行為進(jìn)行訓(xùn)練。 - 為每個(gè)用戶個(gè)性化定制擴(kuò)散空間,動(dòng)態(tài)地優(yōu)化人工智能的行為,以滿足特定的需求和偏好。 - 在潛在空間中進(jìn)行個(gè)性化定制/修改比微調(diào)等技術(shù)成本更低,這可以實(shí)現(xiàn)高度的個(gè)性化。我們?cè)?IQIDIS(我們的法律人工智能初創(chuàng)公司)進(jìn)行了測(cè)試,到目前為止,每一位使用過(guò)的律師都對(duì)此印象深刻。雖然還處于早期階段,但如果能夠合理利用潛在空間,其潛力巨大。

然而,在實(shí)現(xiàn)個(gè)性化/自學(xué)習(xí)方面,仍然存在兩個(gè)主要問(wèn)題:

  • 遺忘舊信息:鑒于潛在空間的相互關(guān)聯(lián)性,可能會(huì)產(chǎn)生很多連鎖反應(yīng),就我目前所知,精確地遺忘特定信息似乎是不可能的(但也可能是我想象力不夠)。
  • 注入新信息(尤其是在信息來(lái)源稀少的情況下):就模型本身而言,還沒(méi)有找到很好的解決辦法(可能需要使用像檢索增強(qiáng)生成(RAG)這樣的外部設(shè)置)?;蛟S改進(jìn)模型交互方式并提取外部保存的上下文信息就足夠了,但我很想聽(tīng)聽(tīng)你的想法。大家有沒(méi)有研究過(guò)或遇到過(guò)什么有趣的思路呢?

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

具體來(lái)說(shuō),我們?cè)O(shè)計(jì)了一種幾何蛋白質(zhì) - 分子相互作用網(wǎng)絡(luò)(PMINet),并使用結(jié)合親和力信號(hào)對(duì)其進(jìn)行預(yù)訓(xùn)練,以:(i)檢索與目標(biāo)具有高結(jié)合親和力的配體分子作為參考,(ii)通過(guò)兩種有效的增強(qiáng)機(jī)制,即檢索增強(qiáng)和自我增強(qiáng),整合關(guān)鍵的蛋白質(zhì) - 配體結(jié)合結(jié)構(gòu),以指導(dǎo)分子擴(kuò)散生成。在CrossDocked2020數(shù)據(jù)集上的實(shí)證研究表明,IRDIFF可以生成具有更逼真3D結(jié)構(gòu)的分子,并在保持適當(dāng)分子特性的同時(shí),實(shí)現(xiàn)對(duì)蛋白質(zhì)靶點(diǎn)的最先進(jìn)結(jié)合親和力。

這些想法中有些可能不會(huì)成功。但即使只有一小部分想法得以實(shí)現(xiàn) —— 比如連續(xù)語(yǔ)言空間、自我改進(jìn)的推理能力和人工智能的終身學(xué)習(xí),都可能重新定義我們所熟知的人工智能。這不僅僅是對(duì)大語(yǔ)言模型的漸進(jìn)式升級(jí)。

與現(xiàn)有的代碼模型相比,開(kāi)發(fā)者更喜歡 Mercury 的代碼補(bǔ)全功能。在 Copilot Arena 的基準(zhǔn)測(cè)試中,Mercury Coder Mini 并列第二名,超過(guò)了像 GPT-4o Mini 和 Gemini-1.5-Flash 這樣經(jīng)過(guò)速度優(yōu)化的模型,甚至超過(guò)了像 GPT-4o 這樣更大的模型。同時(shí),它也是速度最快的模型,比 GPT-4o Mini 快約 4 倍?!?摘自 Mercury 發(fā)布的信息

深入探討:擴(kuò)散模型為何值得研究

什么是擴(kuò)散模型

正如前面所討論的,擴(kuò)散模型基于對(duì)輸入進(jìn)行添加噪聲和去除噪聲的過(guò)程。雖然具體細(xì)節(jié)有所不同,但我們可以將基于擴(kuò)散的生成過(guò)程歸結(jié)為兩個(gè)步驟:

  • 正向擴(kuò)散:我們選取一個(gè)數(shù)據(jù)樣本,比如一張圖片,在每一步迭代中逐步添加少量高斯噪聲。這個(gè)過(guò)程會(huì)逐漸破壞圖片,直到它變成無(wú)法辨認(rèn)的噪聲。模型會(huì)學(xué)習(xí)每一步添加的噪聲模式,這對(duì)反向過(guò)程至關(guān)重要。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

  • 反向擴(kuò)散:我們將第一步得到的純?cè)肼曌鳛檩斎搿DP皖A(yù)測(cè)正向過(guò)程中每一步添加的噪聲并將其去除,這個(gè)過(guò)程會(huì)逐步對(duì)輸入進(jìn)行去噪,使其逐漸轉(zhuǎn)變?yōu)橛幸饬x的數(shù)據(jù)樣本。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

既然存在其他技術(shù),為什么還要使用擴(kuò)散模型呢(尤其是考慮到其成本)?對(duì)于這個(gè)問(wèn)題,我們可以從兩個(gè)方面來(lái)回答。首先,我們將探討擴(kuò)散模型的實(shí)際優(yōu)勢(shì),然后,推測(cè)其生成效果更好的原因。

擴(kuò)散模型的優(yōu)勢(shì)

從本質(zhì)上講,整個(gè)擴(kuò)散過(guò)程為我們帶來(lái)了 4 個(gè)方面的優(yōu)勢(shì):

  • 高質(zhì)量生成:擴(kuò)散模型生成的數(shù)據(jù)質(zhì)量和真實(shí)感都非常出色,在許多任務(wù)中往往超越了以往的生成模型。這得益于它們能夠通過(guò)迭代去噪過(guò)程細(xì)致地學(xué)習(xí)潛在的數(shù)據(jù)分布。從純?cè)肼曋饾u穩(wěn)定地優(yōu)化為連貫的數(shù)據(jù)樣本,這一過(guò)程使得輸出結(jié)果高度逼真。最近的一篇論文表明,在各種基準(zhǔn)測(cè)試中,擴(kuò)散大語(yǔ)言模型在相同的浮點(diǎn)運(yùn)算次數(shù)范圍內(nèi),表現(xiàn)優(yōu)于或與自回歸基準(zhǔn)模型相當(dāng)。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

自回歸模型(ARMs)被廣泛認(rèn)為是大語(yǔ)言模型(LLMs)的基石。我們通過(guò)引入LLaDA來(lái)挑戰(zhàn)這一觀點(diǎn),LLaDA是一種在預(yù)訓(xùn)練和監(jiān)督微調(diào)(SFT)范式下從頭開(kāi)始訓(xùn)練的擴(kuò)散模型。LLaDA通過(guò)正向數(shù)據(jù)掩碼過(guò)程和反向過(guò)程對(duì)分布進(jìn)行建模,由一個(gè)普通的Transformer參數(shù)化來(lái)預(yù)測(cè)掩碼令牌。通過(guò)優(yōu)化似然邊界,它為概率推理提供了一種有原則的生成方法。在廣泛的基準(zhǔn)測(cè)試中,LLaDA展示出了強(qiáng)大的可擴(kuò)展性,優(yōu)于我們自建的自回歸模型基線。值得注意的是,LLaDA 8B在上下文學(xué)習(xí)方面與強(qiáng)大的LLMs(如LLaMA3 8B)具有競(jìng)爭(zhēng)力,并且在經(jīng)過(guò)監(jiān)督微調(diào)后,在多輪對(duì)話等案例研究中表現(xiàn)出令人印象深刻的指令遵循能力。此外,LLaDA解決了反轉(zhuǎn)詛咒問(wèn)題,在反轉(zhuǎn)詩(shī)歌完成任務(wù)中超越了GPT-4o。我們的研究結(jié)果表明,擴(kuò)散模型是自回歸模型的可行且有前途的替代方案,挑戰(zhàn)了上述關(guān)鍵大語(yǔ)言模型能力與自回歸模型固有聯(lián)系的假設(shè)。

  • 通用性:擴(kuò)散模型非常靈活,可廣泛應(yīng)用于多種數(shù)據(jù)模態(tài),包括圖像、音頻、分子等。這種通用性源于模型操縱噪聲的核心機(jī)制,該概念可應(yīng)用于任何以數(shù)字形式表示的數(shù)據(jù)類(lèi)型。無(wú)論是圖像中的像素、聲波中的振幅,還是分子中的原子,擴(kuò)散模型都能學(xué)習(xí)生成和操縱它們。此外,擴(kuò)散模型還可根據(jù)不同的應(yīng)用場(chǎng)景進(jìn)行調(diào)整,使其非常適合多模態(tài)設(shè)置。
  • 逐步控制:擴(kuò)散模型的逐步生成過(guò)程讓用戶能夠更好地控制最終輸出。與傳統(tǒng)的一次性生成輸出的生成模型不同,擴(kuò)散模型從噪聲逐步優(yōu)化生成數(shù)據(jù)樣本。這不僅提高了透明度,還讓我們能夠在生成過(guò)程中進(jìn)行干預(yù),嘗試新的方向。
  • 與其他工具結(jié)合用于智能體擴(kuò)散模型更完整的逐步生成過(guò)程有助于更好地分析模型當(dāng)前狀態(tài),從而實(shí)現(xiàn)更強(qiáng)大的思維模型和評(píng)估器。這可能就是為什么 Mercury 盡管在人才和模型訓(xùn)練方面投入的資金可能較少(而且關(guān)于基于擴(kuò)散的文本生成器的信息也相對(duì)較少),但仍能與傳統(tǒng)的行業(yè)巨頭相媲美的原因。我認(rèn)為很多人都忽視了這一點(diǎn)。這也是擴(kuò)散引導(dǎo)語(yǔ)言建模(DGLM)在文本生成的屬性控制方面(甚至是同時(shí)控制多個(gè)屬性)優(yōu)于其他技術(shù)的原因之一,因?yàn)閷傩钥刂破髯饔糜谕暾傻臄U(kuò)散引導(dǎo)(而不是不完整的自回歸解碼設(shè)置)。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

與之對(duì)比,Anthropic 的憲法分類(lèi)器旨在實(shí)現(xiàn)部分類(lèi)似功能(防止模型被惡意利用)。它需要對(duì)完整文本(包括用戶輸入和模型生成的完整輸出)使用分類(lèi)器。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

但這會(huì)顯著降低你輸出內(nèi)容的屬性控制和細(xì)微差別。

但為什么擴(kuò)散模型能有這么好的效果呢?我覺(jué)得目前還沒(méi)有太多正式的解釋?zhuān)宰屛覀儊?lái)進(jìn)行一些理論探討。

為什么擴(kuò)散模型如此出色

以撰寫(xiě)本文這樣的復(fù)雜生成任務(wù)為例。像生成對(duì)抗網(wǎng)絡(luò)(GANs)這樣的傳統(tǒng)生成器會(huì)一次性生成所有內(nèi)容。隨著任務(wù)復(fù)雜度的增加,這變得極其困難。想象一下,往畫(huà)布上潑一次顏料就畫(huà)出一幅細(xì)節(jié)豐富的場(chǎng)景有多難,這基本上就是 GAN 所做的事情。

自回歸的擴(kuò)展性更好,能讓我們的模型處理更復(fù)雜的任務(wù)。由于自回歸是逐步進(jìn)行的,你還可以在中途停止生成或者改變方向。這是自回歸相對(duì)于傳統(tǒng)生成器的兩個(gè)優(yōu)勢(shì)。然而,自回歸模型也可能會(huì)陷入困境(我相信我們都有過(guò)這樣的體驗(yàn))。回到寫(xiě)文章的例子,在沒(méi)有清晰規(guī)劃的情況下,僅靠自動(dòng)補(bǔ)全功能很難寫(xiě)出好文章。純粹的自回歸也會(huì)很快出現(xiàn)問(wèn)題,因?yàn)槲覀儫o(wú)法回過(guò)頭去編輯之前生成的內(nèi)容。

擴(kuò)散模型和自回歸一樣有逐步生成的優(yōu)勢(shì),但又有所不同。因?yàn)樵诿總€(gè)時(shí)間步我們都對(duì)整個(gè)輸入進(jìn)行去噪,擴(kuò)散模型讓我們能更好地結(jié)合上下文。與傳統(tǒng)的大語(yǔ)言模型不同,它不會(huì)在錯(cuò)誤的基礎(chǔ)上繼續(xù)生成,因?yàn)槊看蔚紩?huì)進(jìn)行去噪步驟。

擴(kuò)散大語(yǔ)言模型的未來(lái)走向

短期挑戰(zhàn):成本、效率與證明實(shí)際價(jià)值

將擴(kuò)散大語(yǔ)言模型(dLLMs)與自回歸(AR)模型進(jìn)行比較并不像看起來(lái)那么簡(jiǎn)單。Mercury 發(fā)布的成果強(qiáng)調(diào)更高的吞吐量和更少的迭代次數(shù),以此作為效率的標(biāo)志,但這并不能說(shuō)明全部情況。擴(kuò)散模型每次推理的成本仍然高得多,這抵消了許多看似提高的速度優(yōu)勢(shì)。為了取得進(jìn)展,我們需要更好的性能衡量方法,既要考慮原始計(jì)算成本,也要考慮實(shí)際可用性。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

計(jì)算效率不僅僅關(guān)乎浮點(diǎn)運(yùn)算次數(shù)(FLOPs)。雖然 FLOPs 能大致反映工作量,但它并不能告訴我們模型對(duì)現(xiàn)代硬件的利用程度。擴(kuò)散模型具有巨大的并行化潛力,而這是自回歸模型根本缺乏的(有趣的是,這就是早期大語(yǔ)言模型能擊敗循環(huán)神經(jīng)網(wǎng)絡(luò)的原因,因?yàn)榇笳Z(yǔ)言模型可以并行訓(xùn)練,而循環(huán)神經(jīng)網(wǎng)絡(luò)不行)。

由于 dLLMs 能一次性處理整個(gè)序列,理論上它們可以充分利用張量核心和高內(nèi)存帶寬。如果優(yōu)化得當(dāng),在大規(guī)模部署中,擴(kuò)散模型實(shí)際上可以更高效地運(yùn)行,因?yàn)榕刻幚砗筒⑿型评碓谶@種場(chǎng)景下至關(guān)重要。但這是個(gè)很大的“如果” 。研究界需要在實(shí)際場(chǎng)景中進(jìn)行基準(zhǔn)測(cè)試,以檢驗(yàn)這種優(yōu)勢(shì)是否能轉(zhuǎn)化為有意義的吞吐量提升。

延遲是 dLLMs 需要更好評(píng)估的另一個(gè)方面。目前,基準(zhǔn)測(cè)試通常比較首個(gè)令牌生成時(shí)間,這對(duì)自回歸模型有利,因?yàn)樗鼈兪前错樞蜉敵鰡卧~的。但這并不能反映全貌。如果擴(kuò)散模型生成完整、連貫草稿的速度比自回歸模型生成前幾個(gè)單詞的速度還快呢?這可能會(huì)帶來(lái)全新的交互模式,用戶可以立即得到完整的回復(fù)進(jìn)行評(píng)估,而不是看著人工智能實(shí)時(shí)逐字輸出答案。用質(zhì)量與時(shí)間的曲線來(lái)衡量這種權(quán)衡,比依賴(lài)單一時(shí)間點(diǎn)的延遲比較更好。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

短期內(nèi)最大的挑戰(zhàn)是優(yōu)化。自適應(yīng)去噪調(diào)度可以根據(jù)內(nèi)容的復(fù)雜程度調(diào)整細(xì)化步驟的數(shù)量,從而減少不必要的計(jì)算。這可以通過(guò)兩種方式實(shí)現(xiàn):

  • 簡(jiǎn)單的輸出需要較少的迭代次數(shù),而復(fù)雜的推理任務(wù)則需要額外的處理。
  • 構(gòu)建可學(xué)習(xí)的停止標(biāo)準(zhǔn),即模型一旦達(dá)到高置信度閾值就停止生成,而不是遵循固定的步數(shù)。

這些技術(shù)可以在不犧牲質(zhì)量的前提下顯著降低成本。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

除了效率,我們還需要更好的評(píng)估指標(biāo)。目前,大多數(shù)基準(zhǔn)測(cè)試都側(cè)重于令牌級(jí)別的準(zhǔn)確性,但擴(kuò)散模型帶來(lái)了全新的優(yōu)勢(shì),這些優(yōu)勢(shì)并沒(méi)有得到恰當(dāng)?shù)暮饬俊?/p>

  • 全局連貫性:模型在長(zhǎng)篇內(nèi)容中保持邏輯一致性的能力,這是 dLLMs 可能真正具有優(yōu)勢(shì)的一個(gè)方面。與自回歸模型不同,自回歸模型在生成每個(gè)令牌時(shí)就確定下來(lái),而擴(kuò)散模型可以在生成過(guò)程中完善前面的部分,有可能產(chǎn)生內(nèi)部更加一致的輸出。
  • 約束對(duì)齊:遵循特定指令、嚴(yán)格的格式規(guī)則并保持事實(shí)準(zhǔn)確性。擴(kuò)散模型的迭代特性可能使其比自回歸模型更擅長(zhǎng)遵守復(fù)雜的約束,自回歸模型經(jīng)常會(huì)偏離軌道。

這些短期優(yōu)化不僅僅是為了讓擴(kuò)散模型運(yùn)行得更快。它們?yōu)楦甏蟮哪繕?biāo)奠定了基礎(chǔ)。如果我們能夠準(zhǔn)確量化成本效益的權(quán)衡,dLLMs 就不僅僅是自回歸模型的一個(gè)有趣替代方案,我們將能夠更好地分析何時(shí)/如何選擇使用其中一種模型,或者如何將它們結(jié)合起來(lái)。

在這個(gè)階段取得的突破,無(wú)論是在硬件利用、效率策略還是更好的評(píng)估指標(biāo)方面,都將直接塑造下一代人工智能模型。

中期目標(biāo):擁抱連續(xù)潛在空間

這是 dLLM 革命真正能夠發(fā)力的地方。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

我們可以讓 dLLMs 在流暢、連續(xù)的潛在空間中運(yùn)行,而不是使用 “硬令牌”。Meta 已經(jīng)廣泛討論了這種做法的好處。

Large Concept Models: Language Modeling in a Sentence Representation Space[4]“大語(yǔ)言模型已經(jīng)徹底改變了人工智能領(lǐng)域,并已成為許多任務(wù)的事實(shí)上的工具。目前大語(yǔ)言模型的成熟技術(shù)是在令牌級(jí)別處理輸入和生成輸出。這與人類(lèi)的處理方式形成鮮明對(duì)比,人類(lèi)在多個(gè)抽象層次上進(jìn)行操作,遠(yuǎn)遠(yuǎn)超越單個(gè)單詞,以分析信息并生成創(chuàng)造性?xún)?nèi)容。在本文中,我們嘗試構(gòu)建一種基于明確的高級(jí)語(yǔ)義表示進(jìn)行操作的架構(gòu),我們將其命名為‘概念’。概念與語(yǔ)言和模態(tài)無(wú)關(guān),代表流程中的更高級(jí)的想法或行動(dòng)。因此,我們構(gòu)建了一個(gè)‘大型概念模型’。在本研究中,為了證明可行性,我們假設(shè)一個(gè)概念對(duì)應(yīng)一個(gè)句子,并使用現(xiàn)有的句子嵌入空間 SONAR,它支持多達(dá) 200 種語(yǔ)言的文本和語(yǔ)音模態(tài)。大型概念模型經(jīng)過(guò)訓(xùn)練,在嵌入空間中執(zhí)行自回歸句子預(yù)測(cè)。我們探索了多種方法,即均方誤差回歸、基于擴(kuò)散的生成變體,以及在量化的 SONAR 空間中運(yùn)行的模型。這些探索使用了 16 億參數(shù)的模型和大約 1300 億令牌的訓(xùn)練數(shù)據(jù)。然后,我們將一種架構(gòu)擴(kuò)展到 70 億參數(shù)的模型和大約 7700 億令牌的訓(xùn)練數(shù)據(jù)。我們對(duì)幾個(gè)生成任務(wù)進(jìn)行了實(shí)驗(yàn)評(píng)估,即摘要生成和一個(gè)新的任務(wù)——摘要擴(kuò)展。最后,我們展示了我們的模型在許多語(yǔ)言上展現(xiàn)出令人印象深刻的零樣本泛化性能,優(yōu)于相同規(guī)模的現(xiàn)有大語(yǔ)言模型。我們模型的訓(xùn)練代碼是免費(fèi)提供的。”

這不僅僅是一個(gè)技術(shù)細(xì)節(jié),而是一種范式轉(zhuǎn)變。我們正從將語(yǔ)言表示為離散符號(hào)序列,轉(zhuǎn)向?qū)⑵渚幋a為豐富、微妙的意義圖景。使用更柔和的決策邊界可以實(shí)現(xiàn)更好的穩(wěn)定性,減少突兀感,如果你的模型能夠?qū)崿F(xiàn),就能提高性能:

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

稀疏MoE層(左)中的路由器學(xué)習(xí)將單個(gè)輸入令牌分配給每個(gè)可用插槽,而在軟MoE層(右)中,每個(gè)插槽是所有輸入令牌的(不同)加權(quán)平均值的結(jié)果

在這個(gè)連續(xù)空間中,微妙的變化代表了令牌根本無(wú)法捕捉的細(xì)微差別。這可以使 dLLMs 變得極其強(qiáng)大,更不容易出錯(cuò),更擅長(zhǎng)理解釋義,并且對(duì)各種寫(xiě)作風(fēng)格的適應(yīng)性更強(qiáng)。這個(gè)潛在空間可能是解鎖更好概念理解的關(guān)鍵。dLLMs 不再將單詞作為孤立的單元進(jìn)行處理,而是可以操縱潛在的概念,在更深、更抽象的層面上理解意義。就像在圖像生成中一樣,這個(gè)連續(xù)空間允許無(wú)縫插值,以基于令牌的模型無(wú)法做到的方式融合想法、風(fēng)格和概念。

真正改變游戲規(guī)則的是生成過(guò)程中的推理。我們已經(jīng)多次提到這一點(diǎn),所以在這里就不再過(guò)多重復(fù)。一旦我們有了良好的評(píng)估方法,就可以開(kāi)始串聯(lián)多個(gè)評(píng)分器、評(píng)估器和 “探索器”,它們可以在生成過(guò)程的特定步驟進(jìn)行觀察,并決定即時(shí)切換路徑或重寫(xiě)計(jì)劃。這將開(kāi)啟當(dāng)前系統(tǒng)中不存在的新的靈活性水平。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

一旦你開(kāi)始在潛在空間中很好地表示概念,就可以實(shí)現(xiàn)當(dāng)前環(huán)境中不存在的、令人驚嘆的個(gè)性化程度(這可能就是為什么 Meta 如此大力推動(dòng)基于潛在空間的推理)。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

長(zhǎng)期愿景:在潛在空間中發(fā)展人工智能

擴(kuò)散大語(yǔ)言模型的真正潛力不僅僅在于更好的文本生成或推理。隨著它們的成熟,它們可能會(huì)從根本上改變?nèi)斯ぶ悄艿膶W(xué)習(xí)和適應(yīng)方式。目前訓(xùn)練和推理之間的界限,這是當(dāng)今模型的一個(gè)決定性限制,可能會(huì)消失,從而產(chǎn)生通過(guò)交互不斷進(jìn)化的系統(tǒng)。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

擴(kuò)散模型特別適合這一點(diǎn),因?yàn)樗鼈儾粌H僅是逐步生成文本,還會(huì)對(duì)其進(jìn)行修訂和完善。與按順序確定每個(gè)令牌的自回歸模型不同,擴(kuò)散模型可以重新處理其輸出的前面部分,在生成過(guò)程中整合新信息(很抱歉,你可能已經(jīng)聽(tīng)膩了我反復(fù)強(qiáng)調(diào)這一點(diǎn),但這真的很重要)。這為無(wú)需昂貴的重新訓(xùn)練就能實(shí)時(shí)適應(yīng)的人工智能打開(kāi)了大門(mén)。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

具有潛在擴(kuò)散模型的高分辨率圖像合成

High-Resolution Image Synthesis with Latent Diffusion Models[5]

這種適應(yīng)性最直接的影響就是個(gè)性化。目前,調(diào)整人工智能的行為需要提示工程(重復(fù)繁瑣)或微調(diào)(計(jì)算成本高且有過(guò)擬合風(fēng)險(xiǎn))。擴(kuò)散模型提供了一種更高效的替代方案,即修改潛在空間表示,而不是重新訓(xùn)練整個(gè)模型。這將使人工智能能夠以低得多的計(jì)算開(kāi)銷(xiāo)形成特定用戶的風(fēng)格、偏好和推理方式。

自回歸模型也可以做到這一點(diǎn)(最簡(jiǎn)單的方法是通過(guò)提示,但擴(kuò)散模型在這方面的額外優(yōu)勢(shì)將使其實(shí)現(xiàn)更加嚴(yán)格和完整)。

深度剖析:為何擴(kuò)散模型會(huì)成為語(yǔ)言模型的未來(lái)?-AI.x社區(qū)

Reference

[1] 加群鏈接: ??https://docs.qq.com/doc/DS3VGS0NFVHNRR0Ru#??

[2] Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models: ??https://arxiv.org/abs/2402.07754??

[3] Your Diffusion Model is Secretly a Certifiably Robust Classifier: ??https://arxiv.org/abs/2402.02316??

[4] Large Concept Models: Language Modeling in a Sentence Representation Space: ??https://ai.meta.com/research/publications/large-concept-models-language-modeling-in-a-sentence-representation-space/??

[5] High-Resolution Image Synthesis with Latent Diffusion Models: ???https://arxiv.org/abs/2112.10752??

本文轉(zhuǎn)載自??柏企科技圈??,作者:柏企 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦