偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Karpathy 4小時AI大課上線,小白看了都會從零構(gòu)建GPT-2!

人工智能
距上次Karpathy AI大課更新之后,又有了1個多月的時間。這次他帶了超詳細(xì)的4小時課程——從零開始實(shí)現(xiàn)1.24億參數(shù)規(guī)模的GPT-2模型。

大神Karpathy新一期AI大課又上線了。

這一次,他講的內(nèi)容是——從頭開始實(shí)現(xiàn)124M大小的GPT-2模型,足足有4個小時。

圖片圖片

Karpathy對這個視頻2個字總結(jié):全面。

我們從空文件開始,以GPT-2(124M)模型結(jié)束。

也就是說,這就是手把手教程,就連AI小白看后,都會搭建GPT-2了。 

Karpathy稱這是從0到英雄(Zero To Hero)的系列中最新的視頻。

翻看以往Zero To Hero系列中的視頻,最長的也不過2小時25分,這次4小時完全創(chuàng)下了最新記錄。

圖片圖片

帖子中,他highlight了最新視頻中的一些重點(diǎn)內(nèi)容:

- 我們首先構(gòu)建GPT-2神經(jīng)網(wǎng)絡(luò)

- 然后對其進(jìn)行優(yōu)化,以實(shí)現(xiàn)快速訓(xùn)練

- 參考GPT-2和GPT-3論文,設(shè)置訓(xùn)練運(yùn)行優(yōu)化和超參數(shù)

- 啟動模型評估

- 祈禱一切順利,上床睡覺

- 等到第二天早上,便可查看模型的結(jié)果,欣賞模型生成的有趣輸出。

發(fā)布短短的幾個小時,視頻已經(jīng)有了11萬次播放量。

圖片圖片

Karpathy表示,這次「過夜」的訓(xùn)練結(jié)果,表現(xiàn)甚至接近GPT-3(124M)模型的水平。

順便提一句,Karpathy自己做的封面配圖,也很有趣,直接把英偉達(dá)GPU點(diǎn)起來了。

圖片圖片

網(wǎng)友在下面評論道,Karpathy就是我的神!

圖片圖片

華裔天才少年Alexandr Wang稱,「你的視頻就相當(dāng)于流行音樂明星發(fā)布的新單曲」。

圖片圖片

「我的生活很簡單,Karpathy上線GPT-2『大片』,看就完事兒了」。

圖片圖片

視頻下方,許多網(wǎng)友紛紛為這個免費(fèi)課程「打賞」。

圖片圖片

圖片圖片

接下來,讓我們一起來看看這節(jié)課講了什么?

4小時大課,干貨滿滿

最開始部分,Karpathy先介紹了下GPT-2的情況。

2019年,OpenAI首次發(fā)布了GPT-2模型,并公布了相關(guān)論文和代碼。

圖片圖片

論文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

而這次的視頻,就是要復(fù)現(xiàn)一個GPT-2模型,共有1.24億參數(shù)的模型。

之所以選擇這一參數(shù),要清楚的是,GPT-2在發(fā)布前會有一個小系列(miniseries),其中有4種參數(shù),而最大的那個稱為GPT-2。

圖片圖片

另外,你可以將模型放在X軸上,各種下游指標(biāo)放在Y軸上,便可以畫出Sacling Law定律的曲線?;旧?,隨著模型規(guī)模擴(kuò)大,下游任務(wù)性能越好。

圖片圖片

1.24億參數(shù)Transformer架構(gòu)共有12層,并且有768個通道(channels)。

GPT-2發(fā)布已經(jīng)是5年前的事了,而現(xiàn)在復(fù)現(xiàn)容易得很多,對GPU計(jì)算需求沒那么大,大概需要1個小時,10美元的成本。

Karpathy表示,自己訓(xùn)練模型的GPU來自Lambda GPU Cloud,因?yàn)樗J(rèn)為這是在云中按需啟動GPU實(shí)例的最佳和最簡單的方法。

接下來,第一步就是加載GPT-2模型,進(jìn)入GitHub源代碼庫,然后點(diǎn)擊modle.py。

可以看到,這個模型使用的Tensorflow編寫的。

圖片圖片

Karpathy尷尬地表示道,「現(xiàn)在我們很少使用了,直接從更友好的Pytorch開始」。

圖片圖片

為了更方便地復(fù)現(xiàn),Karpathy還選擇使用了Hugging Face上的GPT-2代碼,其基于Transformer重新搭建,更容易使用。

圖片圖片

接下來,就是從Hugging Face頁面中,導(dǎo)入GPT-2模型。

在預(yù)訓(xùn)練GPT-2之前,如果想要復(fù)現(xiàn)一個1.5B模型,只需在gpt2后面,加上-xl。

圖片圖片

下面,將Pytorch NN模塊初始化為在如下類中定義,然后打印鍵值。

如下是,GPT-2模型內(nèi)部不同的參數(shù)和形狀,W token嵌入的權(quán)重大小是50257, 768。

圖片圖片

這節(jié)課共分為4個部分,接下來從構(gòu)建到參數(shù)微調(diào),Karpathy都給出了非常詳細(xì)的講解。

第一節(jié)是實(shí)施GPT-2 nn.模塊。

第二節(jié)是速戰(zhàn)速決,混合精度的GPU,1000ms

第三節(jié)是Hyperpamats,AdamW,梯度剪裁

第四節(jié)是等待結(jié)果!GPT-2、GPT-3復(fù)現(xiàn)對比

圖片圖片

最后,睡覺得到的結(jié)果,第二天再看結(jié)果。

圖片圖片

模型的訓(xùn)練損失也在不斷下降,而且與GPT-3的性能相媲美。

圖片圖片

最后,這個4小時的大課,小編放這兒了。

參考資料:

https://x.com/karpathy/status/1799949853289804266

https://www.youtube.com/watch?v=l8pRSuU81PU

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-02-22 09:51:56

代碼AI

2024-06-11 08:37:00

2023-08-17 08:00:00

2024-07-12 12:46:03

2024-04-11 12:47:37

AI模型

2024-05-30 07:02:00

KarpathyGPT-2人工智能

2023-12-15 12:52:17

AI模型

2023-12-16 09:45:56

論文GPT-4AI

2024-02-21 14:07:00

2024-11-21 14:30:00

模型訓(xùn)練

2025-03-26 08:00:00

C#開發(fā)AI

2023-06-05 14:04:59

模型AI

2021-06-25 07:37:33

遞歸函數(shù)算法

2024-02-22 07:29:31

OpenAIKarpathy分詞器

2019-05-09 14:42:41

安吉智能倉庫

2025-04-15 06:13:46

2024-09-24 11:13:14

2023-05-10 17:33:56

2023-11-24 14:05:00

AI訓(xùn)練

2023-11-10 09:48:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號