偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用最直觀的動(dòng)畫,講解LLM如何存儲(chǔ)事實(shí),3Blue1Brown的這個(gè)視頻又火了

人工智能 新聞
近日,3Blue1Brown 的《深度學(xué)習(xí)》課程第 7 課更新了,其中通過生動(dòng)詳實(shí)的動(dòng)畫展示了 LLM 存儲(chǔ)事實(shí)的方式。視頻瀏覽量高達(dá) 18 萬次。

向大模型輸入「Michael Jordan plays the sport of _____(邁克爾?喬丹從事的體育運(yùn)動(dòng)是……)」,然后讓其預(yù)測(cè)接下來的文本,那么大模型多半能正確預(yù)測(cè)接下來是「basketball(籃球)」。

這說明在其數(shù)以億計(jì)的參數(shù)中潛藏了有關(guān)這個(gè)特定個(gè)人的相關(guān)知識(shí)。用戶甚至?xí)杏X這些模型記憶了大量事實(shí)。

但事實(shí)究竟如何呢?

近日,3Blue1Brown 的《深度學(xué)習(xí)》課程第 7 課更新了,其中通過生動(dòng)詳實(shí)的動(dòng)畫展示了 LLM 存儲(chǔ)事實(shí)的方式。視頻瀏覽量高達(dá) 18 萬次。

去年 12 月,谷歌 DeepMind 的一些研究者發(fā)布了一篇相關(guān)論文,其中的具體案例便是匹配運(yùn)動(dòng)員以及他們各自的運(yùn)動(dòng)項(xiàng)目。

圖片

雖然這篇論文并未完全解答有關(guān) LLM 事實(shí)存儲(chǔ)的問題,但也得到了一些頗為有趣的結(jié)果,其中的一個(gè)重點(diǎn)是:事實(shí)保存在網(wǎng)絡(luò)中的一個(gè)特定部分,這個(gè)部分也就是我們熟知的多層感知器(MLP)。

在 3Blue1Brown 剛剛更新的這期視頻中,他們用 23 分的視頻演示了大型語(yǔ)言模型如何存儲(chǔ)和處理信息,主要包括以下部分:

  • LLM 中隱藏的事實(shí)是什么
  • 快速回顧 Transformers
  • 示例
  • 多層感知器
  • 計(jì)算參數(shù)

視頻地址:https://www.youtube.com/watch?v=9-Jl0dxWQs8

在演示視頻中,3b1b 的作者口齒清晰、語(yǔ)言標(biāo)準(zhǔn),配合著高清畫面,讓讀者很好地理解了 LLM 是如何存儲(chǔ)知識(shí)的。

很多用戶在看完視頻后,都驚訝于 3Blue1Brown 教學(xué)質(zhì)量:

圖片

還有網(wǎng)友表示,坐等更新這期視頻已經(jīng)很久了:

圖片

接下來我們就深入 MLP 的細(xì)節(jié)吧。在這篇文章中,機(jī)器之心簡(jiǎn)要介紹了核心內(nèi)容,感興趣的讀者可以通過原視頻查看完整內(nèi)容。

MLP 在大模型中的占比不小,但其實(shí)結(jié)構(gòu)相比于注意力機(jī)制這些要簡(jiǎn)單許多。盡管如此,理解它也還是有些難度。

為了簡(jiǎn)單,下面繼續(xù)通過「喬丹打籃球」這個(gè)具體示例進(jìn)行說明吧。

首先,我們先簡(jiǎn)單了解一下 Transformer 的工作流程。Transformer 的訓(xùn)練目標(biāo)是基于已有 token 預(yù)測(cè)下一個(gè) token(通常表示詞或詞組),而每個(gè) token 都關(guān)聯(lián)了一個(gè)高維向量。

圖片

這些向量會(huì)反復(fù)通過兩類運(yùn)算:注意力(允許向量之間彼此傳遞信息)與多層感知器(MLP)。當(dāng)然,它們之間還存在一個(gè)特定的歸一化步驟。

在向量經(jīng)過多次如此迭代之后,我們希望每個(gè)向量都已經(jīng)吸收了足夠多的信息。這些信息有的來自訓(xùn)練模型時(shí)植入模型權(quán)重的一般性知識(shí),也有的來自上下文。這些知識(shí)就是模型預(yù)測(cè)下一 token 的依據(jù)。

圖片

需要注意的是,這些向量編碼的并不僅僅是單個(gè)詞匯,而是會(huì)在信息在網(wǎng)絡(luò)中流動(dòng)時(shí)根據(jù)周圍的環(huán)境和模型的知識(shí)吸收更加豐富的含義。

總之,每一個(gè)向量編碼的信息都遠(yuǎn)遠(yuǎn)超過了單個(gè)詞匯的含義,如此模型才能預(yù)測(cè)接下是什么。而存儲(chǔ)這些信息就是 MLP(注意力的作用是將上下文結(jié)合在一起),也因此大模型的大多數(shù)參數(shù)都在 MLP 中(約三分之二)。

圖片

繼續(xù)「喬丹打籃球」這個(gè)示例。MLP 是如何存儲(chǔ)這一事實(shí)的。

圖片

首先我們做一些假設(shè):在高維空間中有這樣三個(gè)不同的向量,它們分別定義了喬丹的姓 Jordan 和名 Michael 以及籃球 Basketball。

圖片

現(xiàn)在,如果該空間中有一個(gè)向量與 Michael 向量的乘積為 1,則我們認(rèn)為該向量編碼了 Michael 這一概念;而如果這個(gè)乘積為 0 甚至負(fù)數(shù),則認(rèn)為該向量與 Michael 沒有關(guān)聯(lián)。

同樣,我們可以計(jì)算該向量與 Jordan 或 Basketball 的乘積,以了解其與這兩個(gè)概念的關(guān)聯(lián)程度。

圖片

而通過訓(xùn)練,可讓該向量與 Michael 和 Jordan 的乘積均為 1,此時(shí)就可以認(rèn)為該向量編碼了 Michael Jordan 這個(gè)整體概念。

MLP 的內(nèi)部細(xì)節(jié)

圖片

當(dāng)這個(gè)編碼了上述文本的向量序列穿過一個(gè) MLP 模塊時(shí),該序列中的每個(gè)向量都會(huì)經(jīng)歷一系列運(yùn)算:

圖片

之后,會(huì)得到一個(gè)與輸入向量同維度的向量。然后再將所得向量與輸入向量相加,得到輸出向量。

序列中的每個(gè)向量都會(huì)經(jīng)歷這樣的操作,此時(shí)這些操作都是并行執(zhí)行的,彼此之間互不影響。

圖片

對(duì)于「喬丹打籃球」,我們希望對(duì)于輸入的「Michael Jordan」,經(jīng)過一系列運(yùn)算之后,能得到「Basketball」的向量。

首先來看這個(gè)過程的第一步。這個(gè)線性投射過程就相當(dāng)于讓輸入向量乘以一個(gè)大型矩陣。這個(gè)矩陣?yán)锩娴臄?shù)據(jù)就是所謂的模型參數(shù)(model parameter)。你可以將其視為一個(gè)布滿控制旋鈕的儀表盤 —— 通過調(diào)整這些參數(shù),我們就能控制模型的行為。

圖片

對(duì)于矩陣乘法,視頻中分享了一個(gè)視角。我們可以將矩陣乘法看作是將矩陣的每一行都視為一個(gè)向量,然后將這些行與被處理的向量(這里用 E 表示,意為 embeding,即嵌入)進(jìn)行一系列點(diǎn)乘。

圖片

如果我們假設(shè)該矩陣的第一行剛好編碼了「First Name Michael」且被處理向量也編碼了它,那么所得的點(diǎn)積就約為 1。

而如果它們同時(shí)編碼了姓和名,那么所得的結(jié)果應(yīng)該約等于 2。

圖片

你可以認(rèn)為該矩陣的其它行正在并行地處理其它問題。

圖片

另外,通常來說,這一步還會(huì)向輸出添加另一個(gè)向量,也就是所謂的偏置向量,其中的參數(shù)是從數(shù)據(jù)中學(xué)習(xí)得到的。

圖片

在這個(gè)例子中,我們可以看到這個(gè)偏置向量的第一個(gè)元素為 -1。也就是說在最終的輸出向量中,之前得到的相關(guān)點(diǎn)積減去了 1。為什么要這樣操作?這是因?yàn)檫@樣一來,當(dāng)且僅當(dāng)向量編碼了全名「Michael Jordan」時(shí),所得向量的第一項(xiàng)為正數(shù),否則就為 0 或負(fù)數(shù)。

在實(shí)踐中,模型矩陣的規(guī)模非常大,比如 GPT-3 的矩陣有 49152 行和 12288 列(這個(gè)列數(shù)就是嵌入空間維度)。

圖片

事實(shí)上,這個(gè)行數(shù)恰好是嵌入空間維數(shù)的四倍。其實(shí)這只是一種設(shè)計(jì)選擇,你可以讓它更多,也可以讓它更少。

圖片

接下來我們用更簡(jiǎn)潔的方式表示這個(gè)矩陣和向量,如下動(dòng)圖所示:

圖片

經(jīng)過上述線性過程之后,需要對(duì)輸出向量進(jìn)行整理。這里通常會(huì)用到一個(gè)非常簡(jiǎn)單的函數(shù):整流線性單元(ReLU)。

深度學(xué)習(xí)社區(qū)傳統(tǒng)上喜歡使用過于花哨的名字,這個(gè)非常簡(jiǎn)單的函數(shù)通常被稱為整流線性單元(ReLU)。

繼續(xù)我們的例子,中間向量的第一個(gè)元素在當(dāng)且僅當(dāng)全名是 Michael Jordan 時(shí)才為 1,否則為零或負(fù)數(shù),在將其通過 ReLU 后,會(huì)得到一個(gè)非常干凈的值,其中所有零和負(fù)值都被截?cái)酁榱?。因此?duì)于全名 Michael Jordan,該輸出為 1,否則為 0。這個(gè)行為和「與門」非常相似。另外 ReLU 還有一個(gè)相對(duì)平滑的版本 GeLU。

圖片

接下來又是一個(gè)線性投射步驟,這一步與第一步非常相似:乘以一個(gè)大型矩陣,加上偏置,得到輸出向量。

圖片

但這一次,對(duì)于這個(gè)大型矩陣,我們不再以行的思路來思考它,而是以列的思路來看。這些列的維度與向量空間一樣。

圖片

如果第一列表示的是「Basketball」且 n_0 為 1(表示該神經(jīng)元已激活),則該結(jié)果就會(huì)被添加到最終結(jié)果中;否則就不會(huì)影響最終結(jié)果。當(dāng)然,這些列也可以表示任何概念。

圖片

類似地,我們將這個(gè)大矩陣簡(jiǎn)化表示為 W ↓,將偏置表示為 B↓,并將其放回到圖中。

圖片

舉例來說,如果輸入向量中同時(shí)編碼了名字 Michael 和姓氏 Jordan,那么觸發(fā)操作序列后,便會(huì)得到指向 Baskerball 方向的輸出向量。

圖片

這個(gè)過程會(huì)并行地針對(duì)所有向量執(zhí)行

圖片

這就是 MLP 的運(yùn)算過程:兩個(gè)矩陣乘積,每個(gè)都添加了偏置。此前這種網(wǎng)絡(luò)曾被用來識(shí)別手寫數(shù)字,效果還算不錯(cuò)。

圖片

GPT-3 中有 1750 億參數(shù)是如何計(jì)算的?

在接下來的章節(jié)中,作者介紹了如何計(jì)算 GPT-3 中的參數(shù),并了解它們的位置。

圖片

對(duì)于 GPT-3 來說,嵌入空間的大小是 12288,將它們相乘,僅該矩陣就有六億多個(gè)參數(shù),而向下投影(第二個(gè)矩陣)具有相同數(shù)量的參數(shù),只是形狀進(jìn)行了轉(zhuǎn)置,所以它們加起來大約有十二億參數(shù)。

圖片

此外,作者表示還需要考慮另外幾個(gè)參數(shù),但這只占總數(shù)的很小一部分,可忽略不計(jì)。嵌入向量序列流經(jīng)的不是一個(gè) MLP,而是 96 個(gè)不同的 MLP,因此用于所有這些塊的參數(shù)高達(dá) 1000 多億,這約占網(wǎng)絡(luò)中總參數(shù)的三分之二。

圖片

最后,將注意力塊、嵌入和 unembedding 等組件的所有參數(shù)加起來,總計(jì)可以得到 1750 億參數(shù)。

圖片


另外值得一提的是,還有另一組與歸一化步驟相關(guān)的參數(shù),不過視頻示例中跳過了這些參數(shù),它們只占總數(shù)的很小一部分。

圖片

視頻最后介紹了疊加(Superposition)這一概念。證據(jù)表明,單個(gè)神經(jīng)元很少像邁克爾?喬丹那樣代表某個(gè)單一特征,實(shí)際上可能有一個(gè)很好的理由,這與目前在可解釋性研究人員中流傳的一個(gè)想法有關(guān),稱為 Superposition,這是一個(gè)假設(shè),可能有助于解釋為什么這些模型特別難以解釋,以及為什么它們的擴(kuò)展性出奇地好。

圖片

感興趣的讀者可以參考原視頻,了解更多內(nèi)容。

3blue1brown 介紹

3blue1brown 是一個(gè)專門制作可視化講解視頻的頻道,其內(nèi)容覆蓋數(shù)學(xué)、人工智能等領(lǐng)域,每門課都配有直觀生動(dòng)的動(dòng)畫演示,幫助觀眾加深對(duì)概念定理的理解。

除了 YouTube 上 640 萬訂閱者之外,3b1b 在 B 站上還有官方賬號(hào),粉絲數(shù)量超過 215 萬,每個(gè)視頻都是 10 萬以上播放量,甚至有老師在課堂上播放該頻道的視頻。對(duì)于一個(gè)硬核教學(xué) UP 主來說,這樣的成績(jī)幾乎是無人可及了。

作為一直以來都十分受歡迎的理解數(shù)學(xué)概念的網(wǎng)站,3blue1brown 的可視化一直都做得非常好。在本期視頻中,我們可以直觀感受到了。

3b1b 的創(chuàng)立者 Grant Sanderson,畢業(yè)于斯坦福大學(xué)數(shù)學(xué)系,他的大部分視頻和動(dòng)畫引擎是獨(dú)立完成的,這是他此前在斯坦福學(xué)習(xí)時(shí)的業(yè)余項(xiàng)目。

在斯坦福,Grant「走了點(diǎn)計(jì)算機(jī)科學(xué)的彎路」,隨后畢業(yè)加入了 Khan Academy 并擔(dān)任了兩年的數(shù)學(xué)講師,在 2016 年之后,他開始全身心投入 3b1b 的工作中。

如果你對(duì)自己的學(xué)習(xí)能力信心不足,或許看看 3b1b 的內(nèi)容會(huì)是一個(gè)好主意,全程動(dòng)畫演示,讓你對(duì)知識(shí)點(diǎn)明白的徹徹底底。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-21 14:07:00

2024-11-28 16:45:50

2013-03-27 14:13:16

Windows Blu

2019-05-25 11:19:03

華為開發(fā)者存儲(chǔ)

2013-03-25 13:56:22

Windows Blu

2023-07-12 13:29:44

2024-12-30 20:32:36

2024-10-16 12:51:56

2021-09-15 14:19:58

電腦軟件設(shè)置

2025-04-22 09:26:00

2021-01-12 09:46:00

深度學(xué)習(xí)編程神經(jīng)網(wǎng)絡(luò)

2024-09-19 17:52:47

2011-10-19 07:58:50

2017-07-12 08:33:04

機(jī)房數(shù)據(jù)中心服務(wù)器

2019-01-02 16:12:17

Linux系統(tǒng) vmstat

2019-10-23 07:00:13

TCP三次握手四次揮手

2021-09-29 09:35:29

Python典型化事實(shí)代碼

2017-12-13 12:58:12

Raid工作原理

2019-12-04 09:18:40

HTTPS協(xié)議HTTP

2013-05-09 14:48:26

Windows Blu
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)