HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼
論文(Not-a-Bandit: Provably No-Regret Drafter Selection in Speculative Decoding for LLMs)通過推測解碼為大語言模型推理加速創(chuàng)造了新的SOTA。通過協(xié)調(diào)一組專家drafters,論文在Llama-3.1-8B-Instruct上實現(xiàn)了4.99倍加速,在Qwen-32B上實現(xiàn)了4.93倍加速——比EAGLE3快了近2倍。
那么它是如何工作的?大語言模型會收到各種各樣的請求:數(shù)學(xué)、編程、科學(xué)、論文寫作等。EAGLE3草稿器是一個試圖在整體上表現(xiàn)良好的通才。但在每個領(lǐng)域中,專家會更好。論文的方法——HedgeSpec——幾乎能為每個查詢匹配到最佳專家!

論文在每輪推測解碼后添加了一個評估階段,在這個階段論文在那些未被選擇的草稿器上"重放"生成的token。這能夠動態(tài)更新"押注"。最佳drafters通常在幾輪內(nèi)就會脫穎而出。
一個自然的替代想法是使用賭博機(jī)算法( bandits algorithms)。BanditSpec平衡了"探索"和"利用"。lunwen 的洞察是"探索"實際上是不必要的,因此可以實現(xiàn)更快的學(xué)習(xí)。

HedgeSpec享有可證明的遺憾保證。而且它在專家數(shù)量方面以指數(shù)級優(yōu)勢擊敗BanditSpec(見下圖)。

唯一剩下的障礙是工程挑戰(zhàn)——以低開銷為所有專家實現(xiàn)評估階段。

結(jié)果:在論文測試的7個領(lǐng)域中,HedgeSpec在每一個領(lǐng)域都占主導(dǎo)地位。

本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

















