偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%

發(fā)布于 2024-5-6 09:28

瀏覽

0收藏

“預(yù)測(cè)下一個(gè)token”被認(rèn)為是大模型的基本范式，一次預(yù)測(cè)多個(gè)tokens又會(huì)怎樣？

Meta AI法國團(tuán)隊(duì)推出“基于多token預(yù)測(cè)的更快&更好大模型”。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

多token預(yù)測(cè)模型，在編程類任務(wù)上表現(xiàn)尤其突出。

與單token預(yù)測(cè)相比，13B參數(shù)模型在HumanEval上多解決了12%的問題，在MBPP上多解決了17%。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

小型算法推理任務(wù)上，多token預(yù)測(cè)也在分布外泛化方面帶來了令人印象深刻的收益。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

不過在自然語言任務(wù)上，多token預(yù)測(cè)方法并不能顯著提高7B模型在數(shù)學(xué)選擇題上的表現(xiàn)了。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

另外一個(gè)好處是，即使batch size較大，使用4-token預(yù)測(cè)訓(xùn)練的模型，推理速度也可提高3倍。

多token預(yù)測(cè)更適合編程

具體來說，團(tuán)隊(duì)設(shè)計(jì)了一種新的多token預(yù)測(cè)架構(gòu)，通過n個(gè)獨(dú)立的輸出頭并行預(yù)測(cè)n個(gè)未來token。

使用大量文本數(shù)據(jù)進(jìn)行模型訓(xùn)練，包括代碼和自然語言數(shù)據(jù)集。

再通過實(shí)驗(yàn)比較多token預(yù)測(cè)和單token預(yù)測(cè)在多個(gè)下游任務(wù)上的性能。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

為啥多token預(yù)測(cè)在編程任務(wù)和小型算法推理任務(wù)上提升更明顯？

團(tuán)隊(duì)猜測(cè)可能有兩個(gè)原因:

第一，編程語言的邏輯結(jié)構(gòu)更嚴(yán)謹(jǐn)，知識(shí)的內(nèi)在聯(lián)系更緊密。一個(gè)關(guān)鍵節(jié)點(diǎn)可能影響到后續(xù)整個(gè)代碼塊的走向。多Token預(yù)測(cè)能更好捕捉這種長(zhǎng)距離依賴。

第二，相比自然語言，編程語言的詞匯量更小。因此即便每次預(yù)測(cè)多個(gè)Token，難度也沒那么大。反而能迫使模型從局部細(xì)節(jié)中抽身，著眼全局優(yōu)化。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

除了在token層面的實(shí)驗(yàn)，團(tuán)隊(duì)還在更細(xì)粒度的字節(jié)級(jí)模型上做了嘗試。

他們發(fā)現(xiàn)，用8字節(jié)預(yù)測(cè)替代下一個(gè)字節(jié)預(yù)測(cè)后，模型在MBPP上的Pass@1指標(biāo)暴增67%，在HumanEval上也提升了20%。

而且推理速度還能再快6倍，簡(jiǎn)直不要太香。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

對(duì)于背后原理，團(tuán)隊(duì)認(rèn)為多token預(yù)測(cè)緩解了訓(xùn)練時(shí)Teacher Forcing和推理時(shí)自回歸生成之間的分布差異。

也就是說，在訓(xùn)練的時(shí)候，模型看到的都是標(biāo)準(zhǔn)答案，生成的時(shí)候卻得靠自己。好比人類在家做練習(xí)冊(cè)時(shí)有答案，考試時(shí)卻啥也沒有，就會(huì)不適應(yīng)。

而多token預(yù)測(cè)相當(dāng)于訓(xùn)練時(shí)就逼著模型多想幾步，這樣到了考場(chǎng)上，才能應(yīng)對(duì)自如。

從信息論的角度，團(tuán)隊(duì)還給出了一個(gè)更精確的論證。

?

傳統(tǒng)的下一個(gè)Token預(yù)測(cè)，目標(biāo)是最小化當(dāng)前位置的信息熵。而2-Token預(yù)測(cè)實(shí)際上最小化的是當(dāng)前和下一位置的信息熵之和。

數(shù)學(xué)推導(dǎo)表明，后者其實(shí)隱含了更大的互信息權(quán)重，也就是更看重當(dāng)前Token和未來Token的相關(guān)性。這就是為什么多Token預(yù)測(cè)更”有遠(yuǎn)見”。

不過在這篇論文中，還有幾個(gè)未解決的問題。

?

比如沒有探討如何自動(dòng)選擇最佳的預(yù)測(cè)token數(shù)量n，作者提出，未來可以研究使用損失權(quán)重調(diào)整或動(dòng)態(tài)調(diào)整n來解決最佳n的選擇問題。

此外最佳的詞表大小也可能與單token預(yù)測(cè)時(shí)不同。

總之，看過這篇論文之后，大家都更期待Llama-4了。

一次預(yù)測(cè)多個(gè)token，Meta新模型推理加速3倍，編程任務(wù)提高17%-AI.x社區(qū)

論文地址：???https://arxiv.org/abs/2404.19737??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/GuIqBdj4MteR9eBlTesdBA?poc_token=HKExOGajTyMBxP3FMXkCt7skHNxyXVBljVHxyLI-??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

快3倍！Meta 違背經(jīng)典模型結(jié)構(gòu)，一次預(yù)測(cè)多個(gè)token，路徑可行，大模型大幅提速指日可待！

51CTO技術(shù)棧 ? 3081瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 2995瀏覽 ? 0回復(fù)
KubeAI大模型推理加速實(shí)踐

卓勝微wjp ? 3508瀏覽 ? 0回復(fù)
LoRA數(shù)學(xué)編程任務(wù)不敵全量微調(diào) | 哥大&Databricks新研究

Crystalcxt ? 3012瀏覽 ? 0回復(fù)
Meta等最新研究：多token預(yù)測(cè)，提升大模型推理效率

Aceryt ? 4166瀏覽 ? 0回復(fù)
next-token被淘汰！Meta實(shí)測(cè)「多token」訓(xùn)練方法，推理提速3倍，性能大漲10%+

duhorse ? 3443瀏覽 ? 0回復(fù)
AI技術(shù)新前沿本地LLM模型推理訓(xùn)練加速

AIGC觀察者 ? 3634瀏覽 ? 0回復(fù)
TensorRT模型推理加速實(shí)踐

zhcs333 ? 4564瀏覽 ? 0回復(fù)
Meta最新成果：前所未有的加速Emu推理 | Imagine Flash：新型蒸餾框架發(fā)布

angel ? 2265瀏覽 ? 0回復(fù)
記一次關(guān)于人工智能應(yīng)用方向的面試以及帶來的思考

AI探索時(shí)代 ? 2620瀏覽 ? 0回復(fù)
不走尋常路的面壁智能，又一次“掀桌子”了！

51CTO技術(shù)棧 ? 2579瀏覽 ? 0回復(fù)
科普神文，一次性講透AI大模型的核心概念

ermulong ? 3295瀏覽 ? 0回復(fù)
OpenAI 發(fā)布新模型 o1，能夠推理復(fù)雜任務(wù)，在科學(xué)、編程和數(shù)學(xué)等領(lǐng)域更牛

AI洞察Insight ? 2689瀏覽 ? 0回復(fù)
記一次ComfyUI工作流bug查找過程

AI探索時(shí)代 ? 3046瀏覽 ? 0回復(fù)
Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 2796瀏覽 ? 0回復(fù)
一次多模態(tài)大模型表格識(shí)別解析探索小實(shí)踐記錄

大模型自然語言處理 ? 2842瀏覽 ? 0回復(fù)
Meta公布BLT新架構(gòu)：告別token，擁抱patch

51CTO內(nèi)容精選 ? 2025瀏覽 ? 0回復(fù)
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鴻煊的學(xué)習(xí)筆記 ? 2929瀏覽 ? 0回復(fù)
阿里Qwen3一夜封神！開源模型跑出3倍推理速度，OpenAI沉默

AI博物院 ? 3041瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩 2025-02-14 13:02:21發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇：奧特曼承認(rèn)了神秘gpt2！哈佛MIT巡演繼續(xù)，斯坦福演講完整版公開

下一篇：人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產(chǎn)業(yè)峰會(huì)

社區(qū)精華內(nèi)容

目錄

<abbr id="kska1"></abbr>
<abbr id="kska1"><rp id="kska1"></rp></abbr>

<li id="kska1"></li>

<tfoot id="kska1"></tfoot>

<bdo id="kska1"></bdo>

<samp id="kska1"></samp><sup id="kska1"><tfoot id="kska1"></tfoot></sup>

<abbr id="kska1"><li id="kska1"></li></abbr>