偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

吳恩達(dá)ChatGPT課爆火:AI放棄了倒寫單詞,但理解了整個(gè)世界

人工智能
今年開始,越來越多大模型發(fā)布時(shí),都會(huì)著重強(qiáng)調(diào)token數(shù)量,比如谷歌PaLM 2曝光細(xì)節(jié)中提到,它訓(xùn)練用到了3.6萬億個(gè)token。

沒想到時(shí)至今日,ChatGPT竟還會(huì)犯低級(jí)錯(cuò)誤?

吳恩達(dá)大神最新開課就指出來了:

ChatGPT不會(huì)反轉(zhuǎn)單詞!

比如讓它反轉(zhuǎn)下lollipop這個(gè)詞,輸出是pilollol,完全混亂。

圖片

哦豁,這確實(shí)有點(diǎn)大跌眼鏡啊。

以至于聽課網(wǎng)友在Reddit上發(fā)帖后,立馬引來大量圍觀,帖子熱度火速?zèng)_到6k。

圖片

而且這不是偶然bug,網(wǎng)友們發(fā)現(xiàn)ChatGPT確實(shí)無法完成這個(gè)任務(wù),我們親測(cè)結(jié)果也同樣如此。

圖片

圖片

△實(shí)測(cè)ChatGPT(GPT-3.5)

甚至包括Bard、Bing、文心一言在內(nèi)等一眾產(chǎn)品都不行。

圖片

△實(shí)測(cè)Bard

圖片

△實(shí)測(cè)文心一言

還有人緊跟著吐槽, ChatGPT在處理這些簡(jiǎn)單的單詞任務(wù)就是很糟糕。

比如玩此前曾爆火的文字游戲Wordle簡(jiǎn)直就是一場(chǎng)災(zāi)難,從來沒有做對(duì)過。

圖片

誒?這到底是為啥?

關(guān)鍵在于token

之所以有這樣的現(xiàn)象,關(guān)鍵在于token。token是文本中最常見的字符序列,而大模型都是用token來處理文本。

它可以是整個(gè)單詞,也可以是單詞一個(gè)片段。大模型了解這些token之間的統(tǒng)計(jì)關(guān)系,并且擅長(zhǎng)生成下一個(gè)token。

因此在處理單詞反轉(zhuǎn)這個(gè)小任務(wù)時(shí),它可能只是將每個(gè)token翻轉(zhuǎn)過來,而不是字母。

圖片

這點(diǎn)放在中文語境下體現(xiàn)就更為明顯:一個(gè)詞是一個(gè)token,也可能是一個(gè)字是一個(gè)token。

圖片

針對(duì)開頭的例子,有人嘗試?yán)斫饬讼翪hatGPT的推理過程。

圖片

為了更直觀的了解,OpenAI甚至還出了個(gè)GPT-3的Tokenizer。

圖片

比如像lollipop這個(gè)詞,GPT-3會(huì)將其理解成I、oll、ipop這三個(gè)部分。

根據(jù)經(jīng)驗(yàn)總結(jié),也就誕生出這樣一些不成文法則。

  • 1個(gè)token≈4個(gè)英文字符≈四分之三個(gè)詞;
  • 100個(gè)token≈75個(gè)單詞;
  • 1-2句話≈30個(gè)token;
  • 一段話≈100個(gè)token,1500個(gè)單詞≈2048個(gè)token;

單詞如何劃分還取決于語言。此前有人統(tǒng)計(jì)過,中文要用的token數(shù)是英文數(shù)量的1.2到2.7倍。

圖片


token-to-char(token到單詞)比例越高,處理成本也就越高。因此處理中文tokenize要比英文更貴。

可以這樣理解,token是大模型認(rèn)識(shí)理解人類現(xiàn)實(shí)世界的方式。它非常簡(jiǎn)單,還能大大降低內(nèi)存和時(shí)間復(fù)雜度。

但將單詞token化存在一個(gè)問題,就會(huì)使模型很難學(xué)習(xí)到有意義的輸入表示,最直觀的表示就是不能理解單詞的含義。

當(dāng)時(shí)Transformers有做過相應(yīng)優(yōu)化,比如一個(gè)復(fù)雜、不常見的單詞分為一個(gè)有意義的token和一個(gè)獨(dú)立token。

就像annoyingly就被分成“annoying”和“l(fā)y”,前者保留了其語義,后者則是頻繁出現(xiàn)。

這也成就了如今ChatGPT及其他大模型產(chǎn)品的驚艷效果,能很好地理解人類的語言。

至于無法處理單詞反轉(zhuǎn)這樣一個(gè)小任務(wù),自然也有解決之道。

最簡(jiǎn)單直接的,就是你先自己把單詞給分開嘍~

圖片

或者也可以讓ChatGPT一步一步來,先tokenize每個(gè)字母。

圖片

又或者讓它寫一個(gè)反轉(zhuǎn)字母的程序,然后程序的結(jié)果對(duì)了。(狗頭)

圖片

不過也可以使用GPT-4,實(shí)測(cè)沒有這樣的問題。

圖片

△實(shí)測(cè)GPT-4

總之,token就是AI理解自然語言的基石。

而作為AI理解人類自然語言的橋梁,token的重要性也越來越明顯。

它已經(jīng)成為AI模型性能優(yōu)劣的關(guān)鍵決定因素,還是大模型的計(jì)費(fèi)標(biāo)準(zhǔn)。

甚至有了token文學(xué)

正如前文所言,token能方便模型捕捉到更細(xì)粒度的語義信息,如詞義、詞序、語法結(jié)構(gòu)等。其順序、位置在序列建模任務(wù)(如語言建模、機(jī)器翻譯、文本生成等)中至關(guān)重要。

模型只有在準(zhǔn)確了解每個(gè)token在序列中的位置和上下文情況,才能更好正確預(yù)測(cè)內(nèi)容,給出合理輸出。

因此,token的質(zhì)量、數(shù)量對(duì)模型效果有直接影響。

今年開始,越來越多大模型發(fā)布時(shí),都會(huì)著重強(qiáng)調(diào)token數(shù)量,比如谷歌PaLM 2曝光細(xì)節(jié)中提到,它訓(xùn)練用到了3.6萬億個(gè)token。

以及很多行業(yè)內(nèi)大佬也紛紛表示,token真的很關(guān)鍵!

今年從特斯拉跳槽到OpenAI的AI科學(xué)家安德烈·卡帕斯(Andrej Karpathy)就曾在演講中表示:

更多token能讓模型更好思考。

圖片

而且他強(qiáng)調(diào),模型的性能并不只由參數(shù)規(guī)模來決定。

比如LLaMA的參數(shù)規(guī)模遠(yuǎn)小于GPT-3(65B vs 175B),但由于它用更多token進(jìn)行訓(xùn)練(1.4T vs 300B),所以LLaMA更強(qiáng)大。

圖片

而憑借著對(duì)模型性能的直接影響,token還是AI模型的計(jì)費(fèi)標(biāo)準(zhǔn)。

以O(shè)penAI的定價(jià)標(biāo)準(zhǔn)為例,他們以1K個(gè)token為單位進(jìn)行計(jì)費(fèi),不同模型、不同類型的token價(jià)格不同。

圖片

總之,踏進(jìn)AI大模型領(lǐng)域的大門后,就會(huì)發(fā)現(xiàn)token是繞不開的知識(shí)點(diǎn)。

嗯,甚至衍生出了token文學(xué)……

圖片

不過值得一提的是,token在中文世界里到底該翻譯成啥,現(xiàn)在還沒有完全定下來。

直譯“令牌”總是有點(diǎn)怪怪的。

GPT-4覺得叫“詞元”或“標(biāo)記”比較好,你覺得呢?

圖片

參考鏈接:
[1]https://www.reddit.com/r/ChatGPT/comments/13xxehx/chatgpt_is_unable_to_reverse_words/
[2]https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them
[3]https://openai.com/pricing

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-09-07 13:22:00

AI訓(xùn)練

2022-02-13 17:27:59

吳恩達(dá)AI小數(shù)據(jù)

2023-03-02 11:44:08

AI技術(shù)

2023-02-09 12:31:20

2019-10-21 09:51:20

AI 數(shù)據(jù)人工智能

2023-06-01 16:42:41

AI課程

2018-12-14 10:35:54

AI數(shù)據(jù)科技

2020-12-25 15:34:35

AI 數(shù)據(jù)人工智能

2024-01-22 12:31:18

模型訓(xùn)練

2023-05-25 13:59:12

ChatGPT模型

2024-04-15 07:30:00

2024-01-08 08:52:33

2023-02-17 08:57:03

2024-01-02 13:17:00

模型訓(xùn)練

2022-02-25 14:22:46

攻擊安全網(wǎng)絡(luò)

2019-12-27 10:06:03

AI 數(shù)據(jù)人工智能

2018-02-02 12:56:58

2025-02-17 14:38:04

2024-09-30 13:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)