偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<dl id="zxgaj"></dl>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

快3倍！Meta 違背經(jīng)典模型結(jié)構(gòu)，一次預(yù)測多個token，路徑可行，大模型大幅提速指日可待！

作者：伊風(fēng) 2024-05-07 14:09:54

根據(jù)研究人員的說法，多標(biāo)記預(yù)測還使模型在跨廣泛批量大小的推理時間上快了多達三倍?！笆褂枚鄻?biāo)記預(yù)測進行預(yù)訓(xùn)練，額外的頭部（Head）比簡單的下一個標(biāo)記預(yù)測模型的微調(diào)更準(zhǔn)確，我們讓模型可以釋放自我推測解碼的全部潛力，”研究人員寫道。

編譯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

眾所周知，LLMs的工作原理是對下一個token進行預(yù)測。

讀者朋友們有沒有曾這樣想過：如果LLM一次預(yù)測n個token呢？那是不是就快n倍？Meta也是這樣想的！并且付諸實踐。

在最近的一項研究中，Meta、以及巴黎高科橋路學(xué)院和巴黎-薩克雷大學(xué)的研究人員建議，通過讓人工智能大型語言模型（LLMs）同時預(yù)測多個token，來提高大模型的準(zhǔn)確性和速度。

這個大膽的設(shè)想，跳出了自回歸語言模型的經(jīng)典結(jié)構(gòu)——一次僅僅預(yù)測一個token。

在某些領(lǐng)域，這一方法呈現(xiàn)了顯著的優(yōu)勢，速度提高了三倍，生成任務(wù)的性能也更好！

雖然多標(biāo)記預(yù)測并不一定成為每種模型和語言任務(wù)的通用解決方案，且該方法還存在很大的改進空間。但Meta的研究驗證了該思路的可行性，這項技術(shù)可能讓某些LLM應(yīng)用大幅進化，例如時下熱議的AI編程。

1.只預(yù)測下一個token的局限性

訓(xùn)練LLMs的經(jīng)典方法是所謂的“下一個token預(yù)測”，這是一種自監(jiān)督學(xué)習(xí)技術(shù)，模型被給予一系列token，并預(yù)測下一個。

然后大模型會將預(yù)測的標(biāo)記添加到輸入中，并重復(fù)這個過程，一次一個token。通過在大量文本語料庫上一遍又一遍地這樣做，模型學(xué)習(xí)到一般模式，使其能夠輸出連貫的文本段落。

研究人員已經(jīng)研究并記錄了下一個標(biāo)記預(yù)測在獲取語言、世界知識和推理能力方面的局限性：例如，僅僅關(guān)注一個標(biāo)記，模型變得對局部模式過于敏感，忽略了需要對更長視野進行推理的預(yù)測。在下一個標(biāo)記預(yù)測上訓(xùn)練的模型還需要大量的數(shù)據(jù)才能達到人類用更少文本就能獲得的流暢度。

Meta的新研究正基于這樣的假設(shè)：“訓(xùn)練語言模型一次預(yù)測多個token，可以提高樣本效率?！?/p>

2.新技術(shù)：一次預(yù)測多個token

多標(biāo)記預(yù)測指示LLM從訓(xùn)練語料庫中的每個位置同時預(yù)測多個未來的token。研究人員提出了一個簡單的多標(biāo)記預(yù)測架構(gòu)，不需要額外的訓(xùn)練時間或內(nèi)存開銷。

多標(biāo)記預(yù)測語言模型基于大多數(shù)LLMs使用的Transformer架構(gòu)，盡管有一些修改。模型使用Transformer的主要結(jié)構(gòu)，雖然不再輸出單個token，但每個token都有獨立的輸出頭，每個要預(yù)測的標(biāo)記一個。

圖片

在推理過程中，模型使用每個預(yù)測頭去做基本的下一個token預(yù)測方案，并使用額外的輸出頭來加速解碼過程。該模型綜合利用了該領(lǐng)域中的幾項相關(guān)的成果。

“在不增加額外成本且保持簡單的同時，多標(biāo)記預(yù)測是對訓(xùn)練更強大、更快的Transformer模型的有效調(diào)整，”研究人員寫道。

3.多標(biāo)記預(yù)測技術(shù)的改進效果

研究人員在300百萬到130億參數(shù)的各種任務(wù)上測試了新的多標(biāo)記預(yù)測方案。

他們的發(fā)現(xiàn)包括幾個有趣的觀測結(jié)果。例如，在較小的模型上，多標(biāo)記預(yù)測會導(dǎo)致更差的結(jié)果，但隨著模型大小的增加，它變得越來越有用。例如，在訓(xùn)練4個標(biāo)記預(yù)測時，6.7億和130億參數(shù)的模型在MBPP編碼基準(zhǔn)測試上比基線單標(biāo)記預(yù)測提高了幾個百分點?！霸谙嗤挠嬎泐A(yù)算下，使用多標(biāo)記預(yù)測，可以在固定數(shù)據(jù)集上從大型語言模型中擠出更多的性能，”研究人員寫道。

根據(jù)研究人員的說法，多標(biāo)記預(yù)測還使模型在跨廣泛批量大小的推理時間上快了多達三倍?！笆褂枚鄻?biāo)記預(yù)測進行預(yù)訓(xùn)練，額外的頭部（Head）比簡單的下一個標(biāo)記預(yù)測模型的微調(diào)更準(zhǔn)確，我們讓模型可以釋放自我推測解碼的全部潛力，”研究人員寫道。

該研究還表明，多標(biāo)記預(yù)測促進了學(xué)習(xí)長期模式，特別是在模型被訓(xùn)練在“字節(jié)級標(biāo)記化”（byte-level tokenization）上的實驗中，其中每個字節(jié)都被視為一個單獨的標(biāo)記。在這些實驗中，多字節(jié)預(yù)測以很大的優(yōu)勢超過了基線單字節(jié)預(yù)測模型。

這對于沒有預(yù)定義詞匯表并且模型必須學(xué)習(xí)使用非常小的信息塊的應(yīng)用尤其重要。

多標(biāo)記預(yù)測仍有改進空間。例如，要預(yù)測的標(biāo)記的最優(yōu)數(shù)量取決于任務(wù)類型和模型大小。科學(xué)家們正在考慮多個未來的研究方向，包括自動選擇要預(yù)測的標(biāo)記的最優(yōu)數(shù)量的技術(shù)，以及研究詞匯表大小和多標(biāo)記預(yù)測之間的動態(tài)。

這項研究及其未來的迭代可能對企業(yè)應(yīng)用有用，因為它們有潛力為生成任務(wù)（如代碼完成）提供更快的推理和更高的準(zhǔn)確性，而幾乎沒有或沒有額外的成本。由于它還保留了大部分LLM架構(gòu)，因此可以與Transformer塊的其他優(yōu)化技術(shù)兼容，具備很強的迭代潛力。

參考鏈接：https://venturebeat.com/ai/metas-new-multi-token-prediction-makes-ai-models-up-to-3x-faster/

想了解更多AIGC的內(nèi)容，請訪問：

51CTO AI.x社區(qū)

http://www.szyisi.cn/aigc/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

Meta 模型 token

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<del id="qrsoa"></del><table id="qrsoa"></table>

<del id="qrsoa"><option id="qrsoa"></option></del>