偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼

發(fā)布于 2025-10-31 07:45
瀏覽
0收藏

論文(Not-a-Bandit: Provably No-Regret Drafter Selection in Speculative Decoding for LLMs)通過推測解碼為大語言模型推理加速創(chuàng)造了新的SOTA。通過協(xié)調(diào)一組專家drafters,論文在Llama-3.1-8B-Instruct上實現(xiàn)了4.99倍加速,在Qwen-32B上實現(xiàn)了4.93倍加速——比EAGLE3快了近2倍。

那么它是如何工作的?大語言模型會收到各種各樣的請求:數(shù)學(xué)、編程、科學(xué)、論文寫作等。EAGLE3草稿器是一個試圖在整體上表現(xiàn)良好的通才。但在每個領(lǐng)域中,專家會更好。論文的方法——HedgeSpec——幾乎能為每個查詢匹配到最佳專家!

HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼-AI.x社區(qū)

論文在每輪推測解碼后添加了一個評估階段,在這個階段論文在那些未被選擇的草稿器上"重放"生成的token。這能夠動態(tài)更新"押注"。最佳drafters通常在幾輪內(nèi)就會脫穎而出。

一個自然的替代想法是使用賭博機(jī)算法( bandits algorithms)。BanditSpec平衡了"探索"和"利用"。lunwen 的洞察是"探索"實際上是不必要的,因此可以實現(xiàn)更快的學(xué)習(xí)。

HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼-AI.x社區(qū)

HedgeSpec享有可證明的遺憾保證。而且它在專家數(shù)量方面以指數(shù)級優(yōu)勢擊敗BanditSpec(見下圖)。

HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼-AI.x社區(qū)

唯一剩下的障礙是工程挑戰(zhàn)——以低開銷為所有專家實現(xiàn)評估階段。

HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼-AI.x社區(qū)

結(jié)果:在論文測試的7個領(lǐng)域中,HedgeSpec在每一個領(lǐng)域都占主導(dǎo)地位。

HedgeSpec:比EAGLE3推理速度快2倍的LLM推測解碼-AI.x社區(qū)

本文轉(zhuǎn)載自??AI帝國??,作者:無影寺






標(biāo)簽
已于2025-10-31 07:45:46修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦