策略學(xué)習(xí)助力LLM推理效率：MIT與谷歌團(tuán)隊(duì)提出異步并行生成新范式

2025-05-21 13:52:39

金天，麻省理工學(xué)院（MIT）計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室（CSAIL）博士五年級(jí)學(xué)生，師從 Michael Carbin 和 Jonathan Ragan-Kelley。他主要研究機(jī)器學(xué)習(xí)與編程系統(tǒng)的結(jié)合。此前曾在 IBM Research 主導(dǎo)實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)在 IBM 主機(jī)上的推理部署。本科畢業(yè)于 Haverford College，獲計(jì)算機(jī)科學(xué)與數(shù)學(xué)雙學(xué)位。

鄭鈺熹，麻省理工學(xué)院 CSAIL 博士三年級(jí)學(xué)生，師從 Michael Carbin。她的研究方向?yàn)榫幊陶Z(yǔ)言與機(jī)器學(xué)習(xí)的交叉領(lǐng)域。

大語(yǔ)言模型（LLM）的生成范式正在從傳統(tǒng)的「單人書(shū)寫(xiě)」向「分身協(xié)作」轉(zhuǎn)變。傳統(tǒng)自回歸解碼按順序生成內(nèi)容，而新興的異步生成范式通過(guò)識(shí)別語(yǔ)義獨(dú)立的內(nèi)容塊，實(shí)現(xiàn)并行生成。

如圖所示，傳統(tǒng)方法（下）按順序生成所有內(nèi)容，而異步生成（上）同時(shí)處理多個(gè)互不依賴(lài)的內(nèi)容塊。對(duì)比順序生成，異步生成在 AlpacaEval 長(zhǎng)度控制評(píng)測(cè)中實(shí)現(xiàn) 1.21-1.93× 的幾何平均提速，對(duì)應(yīng)生成質(zhì)量變化（勝率）為 +2.2% 至 -7.1%。

MIT 與谷歌研究團(tuán)隊(duì)在最新研究 PASTA（PArallel STructure Annotation）中首次從策略學(xué)習(xí)（policy learning）角度探索異步生成范式的可能。

論文標(biāo)題：Learning to Keep a Promise: Scaling Language Model Decoding Parallelism with Learned Asynchronous Decoding
論文地址：https://arxiv.org/abs/2502.11517

研究團(tuán)隊(duì)不依賴(lài)人工設(shè)計(jì)規(guī)則來(lái)識(shí)別異步生成機(jī)會(huì)，而通過(guò)策略學(xué)習(xí)讓模型自主發(fā)現(xiàn)并標(biāo)注這些機(jī)會(huì)，系統(tǒng)地優(yōu)化質(zhì)量與速度的平衡。這種方法使 LLM 根據(jù)內(nèi)容特點(diǎn)自適應(yīng)地確定最佳異步生成策略，為生成效率優(yōu)化開(kāi)創(chuàng)學(xué)習(xí)驅(qū)動(dòng)的全新路徑。

PASTA-LANG：劃分獨(dú)立內(nèi)容的標(biāo)記語(yǔ)言

研究人員首先開(kāi)發(fā)了一種新的標(biāo)記語(yǔ)言 PASTA-LANG，專(zhuān)為異步生成而設(shè)計(jì)。大模型使用它在生成過(guò)程中標(biāo)記語(yǔ)義獨(dú)立塊，指示并行生成機(jī)會(huì)。這種語(yǔ)言包含三種核心標(biāo)記：

<promise topic="..."/>：標(biāo)記語(yǔ)義獨(dú)立的內(nèi)容塊，通過(guò) topic 屬性總結(jié)內(nèi)容主題，大模型用它表明「這部分將會(huì)由一個(gè)獨(dú)立子線(xiàn)程異步生成」。
<async>...</async>：在 <promise> 后標(biāo)識(shí)對(duì)應(yīng)的異步生成的內(nèi)容，表示這一部分由獨(dú)立子線(xiàn)程負(fù)責(zé)生成。
<sync/>：在主線(xiàn)程標(biāo)記同步點(diǎn)，表明后續(xù)內(nèi)容生成將會(huì)依賴(lài)于之前的異步生成，主線(xiàn)程需等待所有異步線(xiàn)程完成后才能繼續(xù)。

這些標(biāo)記共同構(gòu)成了一種「承諾-履行」的生成模式：大模型首先通過(guò) <promise/> 標(biāo)記「承諾」生成某些內(nèi)容，推理系統(tǒng)再創(chuàng)建異步線(xiàn)程來(lái)「履行」這些承諾，最后在 <sync/> 處將異步內(nèi)容組合。

如圖所示的線(xiàn)段長(zhǎng)度計(jì)算案例展示了這一機(jī)制：面對(duì)計(jì)算任務(wù)（A），大模型首先識(shí)別出「坐標(biāo)提取」和「長(zhǎng)度公式」兩個(gè)可并行的獨(dú)立部分，生成相應(yīng)的 <promise/> 標(biāo)記（B），隨后用 <sync/> 標(biāo)記（E）表明需要等待這些內(nèi)容完成。圖中紅色和綠色區(qū)域（C、D）顯示了兩個(gè)異步線(xiàn)程并行生成的內(nèi)容，最終在（F）處組合成完整解答。

這個(gè)新的標(biāo)記語(yǔ)言簡(jiǎn)單，可擴(kuò)展性強(qiáng)，開(kāi)啟了新的未來(lái)研究范式。

PASTA 訓(xùn)練：從標(biāo)注到優(yōu)化的雙階段學(xué)習(xí)

如圖所示，PASTA 系統(tǒng)采用雙階段訓(xùn)練流程，使大模型自主學(xué)習(xí)使用上述標(biāo)記語(yǔ)言，完成異步生成。

第一階段：監(jiān)督微調(diào)。研究團(tuán)隊(duì)首先選取 SlimOrca 指令跟隨數(shù)據(jù)集，用 Gemini 1.5 Flash 為 100K 條樣本添加 PASTA-LANG 標(biāo)記，在樣本回答中插入 <promise/>、<async> 和 <sync/> 標(biāo)記，創(chuàng)建 PASTA 微調(diào)數(shù)據(jù)集。團(tuán)隊(duì)隨后對(duì) Gemma 7B 進(jìn)行監(jiān)督微調(diào)，得到能插入 PASTA-LANG 標(biāo)記的 PASTA-SFT 模型。

第二階段：偏好優(yōu)化。為優(yōu)化標(biāo)注策略，團(tuán)隊(duì)設(shè)計(jì)了策略學(xué)習(xí)方案。團(tuán)隊(duì)對(duì)每個(gè)樣本從 PASTA-SFT 模型采樣多種標(biāo)注方案，然后基于兩項(xiàng)指標(biāo)評(píng)估這些方案：理論加速比和內(nèi)容質(zhì)量（由 Gemini 1.5 Pro 評(píng)估）。根據(jù)評(píng)估結(jié)果，團(tuán)隊(duì)構(gòu)建「拒絕采樣數(shù)據(jù)集」，該數(shù)據(jù)集包含每個(gè)輸入的最佳和最差標(biāo)注方案。最后，團(tuán)隊(duì)用 BoNBoN 算法對(duì) PASTA-SFT 模型進(jìn)行偏好優(yōu)化，得到最終的 PASTA 模型。

PASTA 推理系統(tǒng)：并行生成與緩存管理

推理系統(tǒng)設(shè)計(jì)難點(diǎn)。異步并行生成的主要挑戰(zhàn)在于如何協(xié)調(diào)多個(gè)線(xiàn)程高效協(xié)作。傳統(tǒng)方法通常需要為每個(gè)線(xiàn)程創(chuàng)建獨(dú)立的 KV 緩存池——?jiǎng)?chuàng)建新線(xiàn)程時(shí)必須復(fù)制主線(xiàn)程的前綴內(nèi)容到子線(xiàn)程緩存池，完成后再?gòu)?fù)制結(jié)果回主線(xiàn)程。這兩次大規(guī)模矩陣復(fù)制操作嚴(yán)重限制了系統(tǒng)性能，使理論加速難以轉(zhuǎn)化為實(shí)際收益。

KV 緩存的存儲(chǔ)布局。PASTA 設(shè)計(jì)了交錯(cuò)式 KV 緩存布局，所有線(xiàn)程共享單一連續(xù)內(nèi)存池。系統(tǒng)初始以連續(xù)方式存儲(chǔ)用戶(hù)輸入，在推理過(guò)程中動(dòng)態(tài)將不同線(xiàn)程在同一時(shí)間點(diǎn)生成的 token 交錯(cuò)存儲(chǔ)在相鄰位置。

注意力控制與位置編碼。PASTA 通過(guò)兩個(gè)機(jī)制確保大模型正確理解多線(xiàn)程交錯(cuò)存儲(chǔ)的 KV 緩存：

注意力掩碼控制：限制子線(xiàn)程只能訪(fǎng)問(wèn)與自己相關(guān)的內(nèi)容，在<sync/>后通過(guò)移除掩碼使主線(xiàn)程能訪(fǎng)問(wèn)所有子線(xiàn)程生成的內(nèi)容。
位置編碼調(diào)整：每個(gè)線(xiàn)程都使用獨(dú)立且連續(xù)的位置編碼，使線(xiàn)程處理自己的內(nèi)容時(shí)，將交錯(cuò)存儲(chǔ)的內(nèi)容視為邏輯上連續(xù)的序列，確保模型能正確理解上下文。

這些設(shè)計(jì)共同確保 PASTA 能在提高速度的同時(shí)保持輸出質(zhì)量。

實(shí)驗(yàn)結(jié)果：Pareto 最優(yōu)與可擴(kuò)展性

PASTA 在性能與質(zhì)量的平衡上取得了突破性成果，實(shí)驗(yàn)結(jié)果表明它不僅實(shí)現(xiàn)了顯著加速，還在某些情況下提高了輸出質(zhì)量。研究團(tuán)隊(duì)在 AlpacaEval 基準(zhǔn)上進(jìn)行了全面評(píng)估，該基準(zhǔn)包含 805 個(gè)具有代表性的指令跟隨任務(wù)。

質(zhì)量-速度平衡的 Pareto 前沿。如圖所示，PASTA 通過(guò)調(diào)節(jié)質(zhì)量權(quán)重參數(shù)生成了一系列的模型。在不同的生成質(zhì)量的情況下，PASTA 均能提供非常可觀(guān)的加速。結(jié)果顯示，即使最注重質(zhì)量的 PASTA 模型也能提供顯著加速，而最快的模型則以一定的質(zhì)量犧牲換取接近 2 倍的速度提升。與基于手動(dòng)設(shè)計(jì)的異步生成方案（Skeleton-of-Thought, APAR）相比，PASTA 模型展現(xiàn)出全面優(yōu)勢(shì)。

可擴(kuò)展性。研究結(jié)果展示了 PASTA 方法出色的可擴(kuò)展性，如圖所示。隨著偏好優(yōu)化不斷推進(jìn)，PASTA 模型的性能持續(xù)提升。圖中清晰展示了從第一輪開(kāi)始到第一輪結(jié)束，再到第二輪開(kāi)始和第二輪后半程的整個(gè)優(yōu)化過(guò)程，質(zhì)量-速度的 Pareto 前沿大體持續(xù)向右上方推進(jìn)。

這種穩(wěn)定的改進(jìn)趨勢(shì)表明，PASTA 方法具有良好的可擴(kuò)展性——隨著投入更多計(jì)算資源，仍未飽和。與傳統(tǒng)依賴(lài)固定規(guī)則的異步解碼方法不同，PASTA 通過(guò)策略學(xué)習(xí)驅(qū)動(dòng)的訓(xùn)練算法提供了可持續(xù)的優(yōu)化路徑，能夠有效地將額外計(jì)算資源轉(zhuǎn)化為更高的推理效率。

總結(jié)與展望

PASTA 首次證明，通過(guò)策略學(xué)習(xí)讓 LLM 自主優(yōu)化生成策略，能夠突破傳統(tǒng)自回歸和基于規(guī)則的異步生成的效率極限。這一工作不僅為實(shí)時(shí)大模型應(yīng)用提供了實(shí)用加速方案，更印證了未來(lái) LLM 可能具備推理時(shí)自我優(yōu)化能力的發(fā)展方向。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心