偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<ruby id="4m14f"><tt id="4m14f"><pre id="4m14f"></pre></tt></ruby>

<sub id="4m14f"></sub>

^{<thead id="4m14f"></thead>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！原創(chuàng)

發(fā)布于 2024-5-7 09:52

瀏覽

0收藏

在與語(yǔ)言模型花費(fèi)了很多時(shí)間后，我得出結(jié)論，總的來(lái)說(shuō)，tokenization普遍來(lái)說(shuō)是瘋狂的，語(yǔ)言模型能學(xué)到任何東西都是一個(gè)奇跡。為了深入探討最近一直困擾我的一個(gè)愚蠢的例子，讓我們看一下GPT2分詞器（據(jù)我所知，GPT3也使用相同的分詞器）是如何對(duì)整數(shù)進(jìn)行tokenization的。整數(shù)的tokenization是學(xué)習(xí)和表示數(shù)學(xué)事實(shí)的最基本要素，最終，所有GPT的數(shù)學(xué)能力都必須建立在這個(gè)基礎(chǔ)上。

主要問題在于，這個(gè)分詞器沒有以十進(jìn)制或者任何連貫的格式來(lái)表示數(shù)字。理想的十進(jìn)制系統(tǒng)應(yīng)該為整數(shù)0到9分配唯一的token，然后將更大的整數(shù)表示為這些唯一token的組合。十進(jìn)制系統(tǒng)（實(shí)際上，以任何連貫的基數(shù)來(lái)表示整數(shù)）允許定義加法、減法、乘法等直接算法。

然而，GPT2分詞器沒有這樣做，事實(shí)上，它沒有以任何連貫的基數(shù)來(lái)表示整數(shù)。十進(jìn)制數(shù)0到9是硬編碼在其token集中的，以及其余的ASCII字符，但除此之外，BPE算法還將其他常見的數(shù)字塊token化為唯一的token，并且并不總是以連貫的方式。相反，很多整數(shù)都被分配了自己獨(dú)特的token。如下圖所示：

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！-AI.x社區(qū)

在GPT2分詞器中前10000個(gè)整數(shù)的唯一token繪圖。

每一行在這里代表100個(gè)整數(shù)，因此整個(gè)矩陣代表了從1到10000的前10000個(gè)整數(shù)。如果一個(gè)方格被涂成黃色，這意味著該整數(shù)被分配了一個(gè)唯一的token標(biāo)識(shí)符，如果是藍(lán)色，則該整數(shù)由一組組合的token編碼。我們觀察到，直到521為止的每一個(gè)整數(shù)都被分配了自己獨(dú)特的token標(biāo)識(shí)符，而且在此之后也有許多數(shù)字被分配了自己的獨(dú)特標(biāo)記。在前10000個(gè)整數(shù)中，有916個(gè)唯一的token（所以幾乎有1/10的token是唯一的），數(shù)字token占總token空間的約1/50（GPT2的tokenizer大約有50k個(gè)token）。這意味著任何涉及這些整數(shù)的計(jì)算或數(shù)學(xué)問題必須以某種特殊方式處理，并且純粹基于記憶運(yùn)作。例如，當(dāng)給出一個(gè)問題像54 + 72 = 126時(shí)，模型無(wú)法使用正常的加法算法，因?yàn)槊恳粋€(gè)token都是獨(dú)一無(wú)二的。相反，它必須記憶大量的問題及其答案?；旧希瑤缀跛械膬晌粩?shù)和大多數(shù)三位數(shù)的加減法問題都必須通過記憶而不是連貫和通用的算法來(lái)解決。

如果我們更仔細(xì)地檢查這個(gè)圖，我們會(huì)發(fā)現(xiàn)即使在前1000個(gè)數(shù)字之外，仍然有很多獨(dú)特的數(shù)字。由于某種原因在訓(xùn)練集中常見的許多可識(shí)別的數(shù)字被分配了一個(gè)唯一的數(shù)字，這就需要學(xué)習(xí)專門的機(jī)制來(lái)處理涉及這些數(shù)字的任何計(jì)算。還有一個(gè)有趣的特征是在1900-2000區(qū)域分配了唯一token的整數(shù)帶。這些代表了常見的日期 - 即從1930年到2020年的日期都分配了唯一的token，因?yàn)檫@些日期在訓(xùn)練集中出現(xiàn)的頻率最高（有趣的是，唯一的token被分配到了2020年，然后突然停止，這使得您可以將tokenizer的創(chuàng)建日期定位在2019年至2020年）。

tokenization的荒謬之處也不僅僅限于許多唯一的token，還包括非唯一的整數(shù)是如何被token化的。對(duì)于這些數(shù)字，模型肯定不會(huì)采用連貫的十進(jìn)制系統(tǒng)。相反，它將整數(shù)分成塊，然后以臨時(shí)的方式對(duì)它們進(jìn)行token化。整數(shù)被分成塊的方式甚至可以在相鄰的數(shù)字之間變化。例如，數(shù)字2249被token化為“2”和“249”（1-3）。數(shù)字2250被token化為“22”和“50”（2-2），而數(shù)字“2251”則被token化為“225”和“1”（3-1）。

如果我們重復(fù)我們的分析，但為4位數(shù)如何被token化的不同類別著色 - 即作為唯一的、1-3長(zhǎng)度的token、2-2 token或3-1 token，我們得到以下結(jié)果。

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！-AI.x社區(qū)

在 GPT2 分詞器中復(fù)合數(shù)字 token 的構(gòu)成圖。

這里明顯存在不隨機(jī)的不同編碼策略分布，每1000行都有一種略有重復(fù)的編碼模式。但如果你仔細(xì)觀察，你會(huì)發(fā)現(xiàn)其具體細(xì)節(jié)相當(dāng)不一致。最終，這意味著即使是執(zhí)行簡(jiǎn)單的數(shù)值算法，比如多位數(shù)的加法，模型也必須根據(jù)tokenization的具體細(xì)節(jié)學(xué)習(xí)一系列特殊情況，從觀察更大數(shù)字的tokenization來(lái)看，這個(gè)問題似乎永遠(yuǎn)也解決不了，總會(huì)有大數(shù)字被不一致地分割成token和偶爾出現(xiàn)的獨(dú)特token要處理。作為一個(gè)語(yǔ)言模型，真是太難了！

譯自：https://www.beren.io/2023-02-04-Integer-tokenization-is-insane

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！-AI.x社區(qū)

誰(shuí)是Beren Millidge？

Beren Millidge是舊金山灣區(qū)一家初創(chuàng)公司的聯(lián)合創(chuàng)始人。在此之前，Beren花了一段時(shí)間共同創(chuàng)立了 Apollo Research，之前Beren曾擔(dān)任 Conjecture 的研究主管。Beren曾在牛津大學(xué)從事計(jì)算神經(jīng)科學(xué)的博士后研究，與 Rafal Bogacz 合作。Beren在愛丁堡大學(xué)完成了機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)的博士學(xué)位，并在蘇塞克斯大學(xué)作為訪問學(xué)者與 Alexander Tschantz、Chistopher Buckley 和 Anil Seth 合作。

本文轉(zhuǎn)載自公眾號(hào)AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/mny12p1XKzIeCUGaMgg3fA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

語(yǔ)言模型

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

什么是聲望？如何獲取聲望？

AI.x社區(qū)官方賬號(hào) ? 3686瀏覽 ? 0回復(fù)
Codestral瘋狂訓(xùn)練超80種語(yǔ)言，國(guó)內(nèi)通義開發(fā)者請(qǐng)求出戰(zhàn)！

51CTO技術(shù)棧 ? 3313瀏覽 ? 0回復(fù)
麥肯錫：ChatGPT等生成式AI應(yīng)用激增，大中華區(qū)增長(zhǎng)最快

Aceryt ? 3036瀏覽 ? 0回復(fù)
萬(wàn)引大神: 機(jī)器學(xué)習(xí)不存在了

ceesoft ? 3193瀏覽 ? 0回復(fù)
大神Aviral Kumar：價(jià)值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？

AIGC最前線 ? 2925瀏覽 ? 0回復(fù)
ChatGPT等模型瘋狂訓(xùn)練，最快2026年消耗盡公開文本數(shù)據(jù)

Aceryt ? 4470瀏覽 ? 0回復(fù)
不鎖區(qū)、支持手機(jī)、免費(fèi)使用，Moshi來(lái)啦！

Aceryt ? 3231瀏覽 ? 0回復(fù)
RAG 的盡頭是 Agent？

玄姐聊AGI ? 2652瀏覽 ? 0回復(fù)
初創(chuàng)AI公司瘋狂吸金4億美元！Karpathy大佬預(yù)言：未來(lái)編程只需狂按tab鍵，我們整理了風(fēng)頭正盛的5家初創(chuàng)

51CTO技術(shù)棧 ? 2932瀏覽 ? 1回復(fù)
一區(qū)直接寫！基于SSA+Informer-SENet故障診斷模型

Tang_Lan ? 3300瀏覽 ? 0回復(fù)
AI大神吳恩達(dá)教你如何寫出完美的prompt提示詞

AI博物院 ? 3783瀏覽 ? 0回復(fù)
中國(guó)大模型讓國(guó)外陷入瘋狂，成本猛降90%

Aceryt ? 3311瀏覽 ? 0回復(fù)
LLM之后，Agent的未來(lái)是RL！

探索AGI ? 3969瀏覽 ? 0回復(fù)
AI大神Andrej Karpathy：OpenAI Operator預(yù)示著AI智能體的未來(lái)，但仍需突破！

草臺(tái)AI ? 2247瀏覽 ? 0回復(fù)
YC合伙人警告：“僅僅在業(yè)務(wù)中調(diào)用OpenAI API，并不會(huì)改變創(chuàng)業(yè)公司的命運(yùn)！”，建議創(chuàng)始人來(lái)灣區(qū)定居

51CTO技術(shù)棧 ? 2025瀏覽 ? 0回復(fù)
被 DeepSeek 帶火的蒸餾到底是啥

芝士AI吃魚 ? 5718瀏覽 ? 0回復(fù)
照著抄秒變AI大神！

草臺(tái)AI ? 2896瀏覽 ? 0回復(fù)
一區(qū)直接寫！CEEMDAN + SSA-TCN-BiLSTM-Attention預(yù)測(cè)模型

Tang_Lan ? 2672瀏覽 ? 0回復(fù)
代理AI是AI發(fā)展的新前沿

51CTO內(nèi)容精選 ? 2009瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測(cè)未來(lái)模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測(cè)未來(lái)模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

我把DeepSeek微調(diào)參數(shù)扒光了，顯存和性能優(yōu)化的秘密都在這 0回復(fù)

上一篇： ICRA 2024：基于語(yǔ)義增強(qiáng)和動(dòng)作分塊實(shí)現(xiàn)的樣本高效機(jī)械臂操作——RoboAgent

下一篇：萬(wàn)字長(zhǎng)文解析：2024年的機(jī)器消除學(xué)習(xí)

社區(qū)精華內(nèi)容

目錄

^{<em id="2vunx"></em>}