偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

逐個(gè)token太慢!大模型原生并行出token,CMU、英偉達(dá)新作Multiverse

人工智能 新聞
原生并行生成不僅僅是加速,它是我們對(duì) LLM 推理思考方式的根本轉(zhuǎn)變。

眾所周知,大語言模型的參數(shù)量越來越大,算力需求也越來越可怕,然而因?yàn)椤缸孀谥ā?,推理只能一個(gè)一個(gè) token 按順序來。

對(duì)此,卡耐基梅隆大學(xué)(CMU)Infini-Al-Lab 的研究人員拿出了「多元宇宙」Multiverse,這是一個(gè)全新的生成式建模框架,支持原生的并行生成。

參與這項(xiàng)研究的機(jī)器學(xué)習(xí)大佬,CMU 助理教授陳天奇表示,這是一個(gè)有前途的大方向。

tianqi chen.png

該研究的一作 Xinyu Yang 表示,Multiverse 的原生并行生成不僅僅是加速——它是我們對(duì) LLM 推理思考方式的根本轉(zhuǎn)變。更讓人興奮的是,除了優(yōu)化現(xiàn)有模型之外,他們發(fā)現(xiàn)還可以借助系統(tǒng)級(jí)洞察來發(fā)現(xiàn)更好的模型架構(gòu)。

當(dāng)前主流的大語言模型(如 GPT 系列等)大多采用自回歸(Autoregressive)生成方式。這種方式通過逐個(gè)生成下一個(gè) token,依賴于之前生成的所有內(nèi)容,從而保證生成的連貫性和邏輯性。然而,這種順序生成的方式存在明顯的局限性,比如無法利用現(xiàn)代硬件(如 GPU)的并行計(jì)算能力,導(dǎo)致生成速度較慢。

與自回歸生成不同,并行生成可以同時(shí)處理多個(gè)子任務(wù),顯著提高生成效率和速度。例如,擴(kuò)散模型(Diffusion Models)和一致性模型(Consistency Models)等非自回歸架構(gòu)能夠并行生成多個(gè)詞,從而大幅減少生成時(shí)間。

然而,現(xiàn)有的并行生成模型(如擴(kuò)散模型)通常采用暴力并行化方法,忽略了生成過程中的邏輯依賴關(guān)系,導(dǎo)致生成結(jié)果可能缺乏連貫性或邏輯性。部分原因在于缺乏現(xiàn)實(shí)訓(xùn)練數(shù)據(jù)來指導(dǎo)何時(shí)及如何進(jìn)行并行生成。

這就引出了一個(gè)核心問題:如何設(shè)計(jì)能同時(shí)滿足 1)自適應(yīng)任務(wù)拆分合并、2)無損保留內(nèi)部狀態(tài)、3)普適適配多種并行模式的 LLM 建??蚣??

由于自回歸大語言模型(AR-LLMs)現(xiàn)在占據(jù)主導(dǎo)地位,并且 AR-LLMs 在順序生成過程中經(jīng)常表現(xiàn)出隱含的并行性。

因此,來自 CMU、英偉達(dá)的研究者們通過揭示這些模型序列化輸出中蘊(yùn)含的豐富內(nèi)在并行性來展開研究。

image.png

  • 論文地址:https://arxiv.org/pdf/2506.09991v2
  • 項(xiàng)目地址:https://github.com/Multiverse4FM/Multiverse
  • 項(xiàng)目主頁(yè):https://multiverse4fm.github.io/
  • 論文標(biāo)題: Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation 

本文提出了 Multiverse,這是一個(gè)能夠?qū)崿F(xiàn)原生并行生成的新型生成模型。

隨后,本文通過數(shù)據(jù)、算法和系統(tǒng)的協(xié)同設(shè)計(jì)構(gòu)建了一個(gè)現(xiàn)實(shí)世界的 Multiverse 推理模型,從而能夠快速且無縫地從前沿的 AR-LLMs 進(jìn)行轉(zhuǎn)換。

預(yù)算控制實(shí)驗(yàn)表明,Multiverse-32B 在使用相同上下文長(zhǎng)度的情況下,平均性能比 AR-LLMs 高出 1.87%,展現(xiàn)出更優(yōu)越的擴(kuò)展性。這種擴(kuò)展性進(jìn)一步帶來了實(shí)際的效率提升,在不同 batch size 下實(shí)現(xiàn)了高達(dá)兩倍的速度提升。

此外,作者已經(jīng)開源了整個(gè) Multiverse 生態(tài)系統(tǒng),包括數(shù)據(jù)、模型權(quán)重、引擎、支持工具,以及完整的訓(xùn)練細(xì)節(jié)與評(píng)估方案。

 長(zhǎng) CoT 生成:邏輯上是順序的還是并行的?

本文首先基于 s1K-1.1 數(shù)據(jù)集,對(duì) Deepseek R1 和 Gemini 2.0 Flash Thinking 等自回歸大語言模型(AR-LLM)的長(zhǎng) CoT 展開分析。

結(jié)果發(fā)現(xiàn)可并行分支的存在。

這些分支揭示了 AR-LLM 內(nèi)在的并行特性。如圖 2 所示,它們被劃分為集體型與選擇型兩類,能以連續(xù)或遞歸結(jié)構(gòu)靈活呈現(xiàn)。

image.png

更進(jìn)一步的,表 1 統(tǒng)計(jì)數(shù)據(jù)顯示:在 AR-LLM 生成的長(zhǎng) CoT 軌跡中,并行分支普遍存在。

image.png

Multiverse 框架

根據(jù)上述發(fā)現(xiàn),本文提出了 Multiverse,這是一個(gè)基于 MapReduce 范式構(gòu)建的新型生成建模框架,它自適應(yīng)地并行化并無損合并其生成以超越 AR 模型。

如圖 4 所示,該框架采用 MapReduce 結(jié)構(gòu),內(nèi)部包含三個(gè)階段:

image.png

Multiverse 內(nèi)部集成了 MapReduce 范式,通過三個(gè)階段自動(dòng)完成生成:

(i)Map 階段,用于自適應(yīng)的任務(wù)分解;

(ii)Process 階段,用于并行的子任務(wù)執(zhí)行;

(iii)Reduce 階段,用于無損的結(jié)果合成。

為實(shí)現(xiàn)對(duì)生成流的自動(dòng)化控制,Multiverse 進(jìn)一步采用了一套結(jié)構(gòu)化專用控制標(biāo)簽來明確定義每個(gè) MapReduce 模塊。如圖 5 所示。

image.png

 構(gòu)建一個(gè)真實(shí)世界 Multiverse 模型

為了將 Multiverse 部署到實(shí)際場(chǎng)景中,該工作提供了一套完整的套件,其中包括 Multiverse Curator(數(shù)據(jù)生成器)、Multiverse Attention(核心算法)和 Multiverse Engine(優(yōu)化系統(tǒng))。該套件能夠?qū)崿F(xiàn)從領(lǐng)先的 AR 模型到 Multiverse 模型的平滑快速遷移。

image.png

數(shù)據(jù)。本文開發(fā)了 Multiverse Curator,這是一個(gè)自動(dòng)化的 LLM 輔助流程,它通過五個(gè)步驟將順序推理鏈轉(zhuǎn)換為并行結(jié)構(gòu)。

算法設(shè)計(jì)。本文設(shè)計(jì)了 Multiverse Attention,以實(shí)現(xiàn)并行生成,同時(shí)保持訓(xùn)練效率。這是通過修改注意力掩碼和位置嵌入來實(shí)現(xiàn)的,從而在注意力計(jì)算中嚴(yán)格區(qū)分獨(dú)立的推理分支,這些分支可以并行訓(xùn)練,類似于因果注意力機(jī)制。

系統(tǒng)實(shí)現(xiàn)。本文實(shí)現(xiàn)了 Multiverse Engine,它配備了一個(gè)專門的解釋器來支持 MapReduce 的執(zhí)行。通過解釋 Multiverse 模型生成的控制標(biāo)簽, Multiverse Engine 可以在順序生成和并行生成之間動(dòng)態(tài)切換,且不會(huì)產(chǎn)生任何開銷,從而實(shí)現(xiàn)靈活的工作流程。

實(shí)驗(yàn)

真實(shí)世界推理性能

如表 2 所示,本文報(bào)告了 Multiverse-32B 模型在 32K 上下文長(zhǎng)度下的復(fù)雜推理任務(wù)表現(xiàn)。在經(jīng)過微調(diào)后,該模型在各項(xiàng)基準(zhǔn)測(cè)試中相較 Qwen2.5-32B-Instruct 模型分別提升了 38%、35%、11% 和 14%。值得注意的是,與 Autoregressive-32B 的對(duì)比實(shí)驗(yàn)表明,Multiverse-32B 達(dá)到甚至超越了自回歸模型的性能水平。

本文還評(píng)估了 Multiverse-32B-Zero 結(jié)果,這是一個(gè)未使用并行思考指令提示的變體。比較這兩個(gè)變體,可以發(fā)現(xiàn)截然不同的性能模式:Multiverse-32B 在 AIME 任務(wù)上實(shí)現(xiàn)了更高的并行性,從而略微提升了性能;而 Multiverse-32B-Zero 在需要較短生成序列的任務(wù)上表現(xiàn)更佳。

image.png

擴(kuò)展性能

為了凸顯并行生成的優(yōu)勢(shì),本文在 GPQA-Diamond 和 MATH500 上進(jìn)行了預(yù)算控制實(shí)驗(yàn)。如圖 7 所示,雖然更長(zhǎng)的上下文提升了兩個(gè)模型的性能,但 Multiverse-32B 在相同的上下文長(zhǎng)度內(nèi)生成了更多 Token。這種并行擴(kuò)展使 GPQA-Diamond 的性能提升了 2.23%(并行數(shù)量 = 1.17),MATH500 的性能提升了 1.51%(并行數(shù)量 = 1.15)。

image.png

效率分析

 圖 8a 結(jié)果表明,Multiverse 通過提升并行度顯著增強(qiáng)了生成效率。 

圖 8b 結(jié)果表明,隨著 batch size 從 1 增加到 128,生成過程依然受限于內(nèi)存帶寬。因此,Multiverse 的加速比隨著并行度的提升呈線性增長(zhǎng),在多種配置下都展現(xiàn)出出色的可擴(kuò)展性。 

image.png

更多細(xì)節(jié)請(qǐng)查看論文原文。


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-31 00:33:00

2023-10-06 20:30:33

大模型LLMtoken

2025-07-22 10:40:00

2023-10-31 19:20:29

語言模型英偉達(dá)芯片

2025-01-14 16:12:54

2025-08-27 09:00:00

英偉達(dá)開源模型

2025-05-23 13:50:39

英偉達(dá)AI推理

2025-02-27 09:09:45

2025-04-14 09:40:00

2025-04-07 09:45:00

2024-02-20 13:31:26

AI訓(xùn)練

2023-03-06 21:43:29

token失效服務(wù)器

2025-05-06 00:45:00

2023-10-13 13:11:58

數(shù)據(jù)智能

2024-08-28 13:34:13

2025-08-19 09:14:44

2025-06-05 11:49:21

AI模型數(shù)據(jù)

2025-09-10 09:38:56

2025-06-06 09:13:00

2025-03-21 09:46:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)