偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

灣區(qū)大神Beren Millidge:整數(shù)tokenization是瘋狂的! 原創(chuàng)

發(fā)布于 2024-5-7 09:52
瀏覽
0收藏

在與語(yǔ)言模型花費(fèi)了很多時(shí)間后,我得出結(jié)論,總的來(lái)說(shuō),tokenization普遍來(lái)說(shuō)是瘋狂的,語(yǔ)言模型能學(xué)到任何東西都是一個(gè)奇跡。為了深入探討最近一直困擾我的一個(gè)愚蠢的例子,讓我們看一下GPT2分詞器(據(jù)我所知,GPT3也使用相同的分詞器)是如何對(duì)整數(shù)進(jìn)行tokenization的。整數(shù)的tokenization是學(xué)習(xí)和表示數(shù)學(xué)事實(shí)的最基本要素,最終,所有GPT的數(shù)學(xué)能力都必須建立在這個(gè)基礎(chǔ)上。

主要問題在于,這個(gè)分詞器沒有以十進(jìn)制或者任何連貫的格式來(lái)表示數(shù)字。理想的十進(jìn)制系統(tǒng)應(yīng)該為整數(shù)0到9分配唯一的token,然后將更大的整數(shù)表示為這些唯一token的組合。十進(jìn)制系統(tǒng)(實(shí)際上,以任何連貫的基數(shù)來(lái)表示整數(shù))允許定義加法、減法、乘法等直接算法。

然而,GPT2分詞器沒有這樣做,事實(shí)上,它沒有以任何連貫的基數(shù)來(lái)表示整數(shù)。十進(jìn)制數(shù)0到9是硬編碼在其token集中的,以及其余的ASCII字符,但除此之外,BPE算法還將其他常見的數(shù)字塊token化為唯一的token,并且并不總是以連貫的方式。相反,很多整數(shù)都被分配了自己獨(dú)特的token。如下圖所示:

灣區(qū)大神Beren Millidge:整數(shù)tokenization是瘋狂的!-AI.x社區(qū)

在GPT2分詞器中前10000個(gè)整數(shù)的唯一token繪圖。

每一行在這里代表100個(gè)整數(shù),因此整個(gè)矩陣代表了從1到10000的前10000個(gè)整數(shù)。如果一個(gè)方格被涂成黃色,這意味著該整數(shù)被分配了一個(gè)唯一的token標(biāo)識(shí)符,如果是藍(lán)色,則該整數(shù)由一組組合的token編碼。我們觀察到,直到521為止的每一個(gè)整數(shù)都被分配了自己獨(dú)特的token標(biāo)識(shí)符,而且在此之后也有許多數(shù)字被分配了自己的獨(dú)特標(biāo)記。在前10000個(gè)整數(shù)中,有916個(gè)唯一的token(所以幾乎有1/10的token是唯一的),數(shù)字token占總token空間的約1/50(GPT2的tokenizer大約有50k個(gè)token)。這意味著任何涉及這些整數(shù)的計(jì)算或數(shù)學(xué)問題必須以某種特殊方式處理,并且純粹基于記憶運(yùn)作。例如,當(dāng)給出一個(gè)問題像54 + 72 = 126時(shí),模型無(wú)法使用正常的加法算法,因?yàn)槊恳粋€(gè)token都是獨(dú)一無(wú)二的。相反,它必須記憶大量的問題及其答案?;旧希瑤缀跛械膬晌粩?shù)和大多數(shù)三位數(shù)的加減法問題都必須通過記憶而不是連貫和通用的算法來(lái)解決。

如果我們更仔細(xì)地檢查這個(gè)圖,我們會(huì)發(fā)現(xiàn)即使在前1000個(gè)數(shù)字之外,仍然有很多獨(dú)特的數(shù)字。由于某種原因在訓(xùn)練集中常見的許多可識(shí)別的數(shù)字被分配了一個(gè)唯一的數(shù)字,這就需要學(xué)習(xí)專門的機(jī)制來(lái)處理涉及這些數(shù)字的任何計(jì)算。還有一個(gè)有趣的特征是在1900-2000區(qū)域分配了唯一token的整數(shù)帶。這些代表了常見的日期 - 即從1930年到2020年的日期都分配了唯一的token,因?yàn)檫@些日期在訓(xùn)練集中出現(xiàn)的頻率最高(有趣的是,唯一的token被分配到了2020年,然后突然停止,這使得您可以將tokenizer的創(chuàng)建日期定位在2019年至2020年)。

tokenization的荒謬之處也不僅僅限于許多唯一的token,還包括非唯一的整數(shù)是如何被token化的。對(duì)于這些數(shù)字,模型肯定不會(huì)采用連貫的十進(jìn)制系統(tǒng)。相反,它將整數(shù)分成塊,然后以臨時(shí)的方式對(duì)它們進(jìn)行token化。整數(shù)被分成塊的方式甚至可以在相鄰的數(shù)字之間變化。例如,數(shù)字2249被token化為“2”和“249”(1-3)。數(shù)字2250被token化為“22”和“50”(2-2),而數(shù)字“2251”則被token化為“225”和“1”(3-1)。

如果我們重復(fù)我們的分析,但為4位數(shù)如何被token化的不同類別著色 - 即作為唯一的、1-3長(zhǎng)度的token、2-2 token或3-1 token,我們得到以下結(jié)果。

灣區(qū)大神Beren Millidge:整數(shù)tokenization是瘋狂的!-AI.x社區(qū)


在 GPT2 分詞器中復(fù)合數(shù)字 token 的構(gòu)成圖。

這里明顯存在不隨機(jī)的不同編碼策略分布,每1000行都有一種略有重復(fù)的編碼模式。但如果你仔細(xì)觀察,你會(huì)發(fā)現(xiàn)其具體細(xì)節(jié)相當(dāng)不一致。最終,這意味著即使是執(zhí)行簡(jiǎn)單的數(shù)值算法,比如多位數(shù)的加法,模型也必須根據(jù)tokenization的具體細(xì)節(jié)學(xué)習(xí)一系列特殊情況,從觀察更大數(shù)字的tokenization來(lái)看,這個(gè)問題似乎永遠(yuǎn)也解決不了,總會(huì)有大數(shù)字被不一致地分割成token和偶爾出現(xiàn)的獨(dú)特token要處理。作為一個(gè)語(yǔ)言模型,真是太難了!

譯自:https://www.beren.io/2023-02-04-Integer-tokenization-is-insane



灣區(qū)大神Beren Millidge:整數(shù)tokenization是瘋狂的!-AI.x社區(qū)

誰(shuí)是Beren Millidge?

Beren Millidge是舊金山灣區(qū)一家初創(chuàng)公司的聯(lián)合創(chuàng)始人。在此之前,Beren花了一段時(shí)間共同創(chuàng)立了 Apollo Research,之前Beren曾擔(dān)任 Conjecture 的研究主管。Beren曾在牛津大學(xué)從事計(jì)算神經(jīng)科學(xué)的博士后研究,與 Rafal Bogacz 合作。Beren在愛丁堡大學(xué)完成了機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)的博士學(xué)位,并在蘇塞克斯大學(xué)作為訪問學(xué)者與 Alexander Tschantz、Chistopher Buckley 和 Anil Seth 合作。


本文轉(zhuǎn)載自公眾號(hào)AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/mny12p1XKzIeCUGaMgg3fA??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦