偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%

發(fā)布于 2024-5-6 09:28
瀏覽
0收藏

“預(yù)測(cè)下一個(gè)token”被認(rèn)為是大模型的基本范式,一次預(yù)測(cè)多個(gè)tokens又會(huì)怎樣?


Meta AI法國團(tuán)隊(duì)推出“基于多token預(yù)測(cè)的更快&更好大模型”。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

多token預(yù)測(cè)模型,在編程類任務(wù)上表現(xiàn)尤其突出。


與單token預(yù)測(cè)相比,13B參數(shù)模型在HumanEval上多解決了12%的問題,在MBPP上多解決了17%。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

小型算法推理任務(wù)上,多token預(yù)測(cè)也在分布外泛化方面帶來了令人印象深刻的收益。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

不過在自然語言任務(wù)上,多token預(yù)測(cè)方法并不能顯著提高7B模型在數(shù)學(xué)選擇題上的表現(xiàn)了。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

另外一個(gè)好處是,即使batch size較大,使用4-token預(yù)測(cè)訓(xùn)練的模型,推理速度也可提高3倍。

多token預(yù)測(cè)更適合編程

具體來說,團(tuán)隊(duì)設(shè)計(jì)了一種新的多token預(yù)測(cè)架構(gòu),通過n個(gè)獨(dú)立的輸出頭并行預(yù)測(cè)n個(gè)未來token。


使用大量文本數(shù)據(jù)進(jìn)行模型訓(xùn)練,包括代碼和自然語言數(shù)據(jù)集。


再通過實(shí)驗(yàn)比較多token預(yù)測(cè)和單token預(yù)測(cè)在多個(gè)下游任務(wù)上的性能。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

為啥多token預(yù)測(cè)在編程任務(wù)和小型算法推理任務(wù)上提升更明顯?


團(tuán)隊(duì)猜測(cè)可能有兩個(gè)原因:


第一,編程語言的邏輯結(jié)構(gòu)更嚴(yán)謹(jǐn),知識(shí)的內(nèi)在聯(lián)系更緊密。一個(gè)關(guān)鍵節(jié)點(diǎn)可能影響到后續(xù)整個(gè)代碼塊的走向。多Token預(yù)測(cè)能更好捕捉這種長(zhǎng)距離依賴。


第二,相比自然語言,編程語言的詞匯量更小。因此即便每次預(yù)測(cè)多個(gè)Token,難度也沒那么大。反而能迫使模型從局部細(xì)節(jié)中抽身,著眼全局優(yōu)化。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

除了在token層面的實(shí)驗(yàn),團(tuán)隊(duì)還在更細(xì)粒度的字節(jié)級(jí)模型上做了嘗試。


他們發(fā)現(xiàn),用8字節(jié)預(yù)測(cè)替代下一個(gè)字節(jié)預(yù)測(cè)后,模型在MBPP上的Pass@1指標(biāo)暴增67%,在HumanEval上也提升了20%。


而且推理速度還能再快6倍,簡(jiǎn)直不要太香。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

對(duì)于背后原理,團(tuán)隊(duì)認(rèn)為多token預(yù)測(cè)緩解了訓(xùn)練時(shí)Teacher Forcing和推理時(shí)自回歸生成之間的分布差異


也就是說,在訓(xùn)練的時(shí)候,模型看到的都是標(biāo)準(zhǔn)答案,生成的時(shí)候卻得靠自己。好比人類在家做練習(xí)冊(cè)時(shí)有答案,考試時(shí)卻啥也沒有,就會(huì)不適應(yīng)。


而多token預(yù)測(cè)相當(dāng)于訓(xùn)練時(shí)就逼著模型多想幾步,這樣到了考場(chǎng)上,才能應(yīng)對(duì)自如。


從信息論的角度,團(tuán)隊(duì)還給出了一個(gè)更精確的論證。

?

傳統(tǒng)的下一個(gè)Token預(yù)測(cè),目標(biāo)是最小化當(dāng)前位置的信息熵。而2-Token預(yù)測(cè)實(shí)際上最小化的是當(dāng)前和下一位置的信息熵之和。


數(shù)學(xué)推導(dǎo)表明,后者其實(shí)隱含了更大的互信息權(quán)重,也就是更看重當(dāng)前Token和未來Token的相關(guān)性。這就是為什么多Token預(yù)測(cè)更”有遠(yuǎn)見”。


不過在這篇論文中,還有幾個(gè)未解決的問題。

?

比如沒有探討如何自動(dòng)選擇最佳的預(yù)測(cè)token數(shù)量n,作者提出,未來可以研究使用損失權(quán)重調(diào)整或動(dòng)態(tài)調(diào)整n來解決最佳n的選擇問題。


此外最佳的詞表大小也可能與單token預(yù)測(cè)時(shí)不同。


總之,看過這篇論文之后,大家都更期待Llama-4了。

一次預(yù)測(cè)多個(gè)token,Meta新模型推理加速3倍,編程任務(wù)提高17%-AI.x社區(qū)

論文地址:???https://arxiv.org/abs/2404.19737??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/GuIqBdj4MteR9eBlTesdBA?poc_token=HKExOGajTyMBxP3FMXkCt7skHNxyXVBljVHxyLI-??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦