偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

谷歌超硬核教科書來了!Jeff Dean帶貨揭Gemini訓(xùn)練秘籍:在TPU上scaling

人工智能 新聞
谷歌團(tuán)隊(duì)發(fā)布LLM硬核技術(shù)教科書,從「系統(tǒng)視圖」揭秘LLM Scaling的神秘面紗。Jeff Dean強(qiáng)調(diào)書中藏著谷歌最強(qiáng)AI模型Gemini訓(xùn)練的更多信息。

由于深度學(xué)習(xí)的「黑箱」本性,從業(yè)者自我調(diào)侃道:

如果說深度神經(jīng)網(wǎng)絡(luò)是現(xiàn)代版的「煉金術(shù)」,我們?cè)诠糯褪恰笩捊鹦g(shù)士」。

2018年5月3日, Science發(fā)表新聞,標(biāo)題直指「煉金術(shù)」,強(qiáng)調(diào)加強(qiáng)AI的科學(xué)基礎(chǔ)

但這次的谷歌的團(tuán)隊(duì),卻有不一樣的看法:

在許多方面,深度學(xué)習(xí)仍然帶有一定的「煉金術(shù)」色彩,但理解和優(yōu)化模型性能并不一定如此——即使是在大規(guī)模環(huán)境下!

近日,谷歌DeepMind科學(xué)家Jacob Austint在X上, 發(fā)布了基于JAX和TPU的大模型Scaling教科書《How to Sacle Your Model》。

Jeff Dean轉(zhuǎn)發(fā)原帖,并打起了廣告:

谷歌最強(qiáng)的Gemini模型的訓(xùn)練,重度依賴JAX軟件棧+TPU硬件平臺(tái)。

如果你想了解更多詳情,來看看這本超棒的書:「How to Sacle Your Model」。

進(jìn)入教科書網(wǎng)站,可以看到大寫的標(biāo)題:「如何擴(kuò)大模型規(guī)模(How to  Sacle Your Model)」。

正如小標(biāo)題所言,這本書關(guān)于在張量處理單元(TPU)上大語言模型的的系統(tǒng)觀點(diǎn)。

這是一本關(guān)于LLM底層硬核技術(shù)的教科書,簡(jiǎn)介如下:

訓(xùn)練大語言模型(LLMs)常常讓人感覺就像煉金術(shù),但理解和優(yōu)化模型的性能其實(shí)并不復(fù)雜。

本書的目標(biāo)是揭開在TPU上擴(kuò)展語言模型的科學(xué)謎團(tuán):TPU是如何工作的,它們?nèi)绾蜗嗷ネㄐ?,LLM在實(shí)際硬件上是如何運(yùn)行的,以及在訓(xùn)練和推理過程中如何對(duì)模型進(jìn)行并行化,以便在大規(guī)模運(yùn)行時(shí)實(shí)現(xiàn)高效性。

如果你想知道「訓(xùn)練這個(gè)LLM需要多貴的成本」、「要自己部署這個(gè)模型需要多少內(nèi)存」或者「什么是AllGather」這些問題的答案,希望本書能對(duì)你有所幫助。

教科書鏈接:https://jax-ml.github.io/scaling-book/

模型Scaling,無需恐懼

三四年前,大多數(shù)機(jī)器學(xué)習(xí)研究人員,可能并不需要了解模型擴(kuò)展(model scaling)。

但如今,即便是「較小」的模型,也已經(jīng)逼近硬件極限,因此研究要有真正的創(chuàng)新性,就必須考慮如何在大規(guī)模環(huán)境下提高效率。

作者詳細(xì)解釋了為什么要模型擴(kuò)展及其目標(biāo):

如果某種方法能在基準(zhǔn)測(cè)試中提升20%的性能,但同時(shí)使Roofline效率下降20%,那么這樣的優(yōu)化是沒有意義的。

許多有前景的模型架構(gòu)最終失敗,并不是因?yàn)樗鼈冊(cè)诶碚撋喜豢尚?,而是因?yàn)樗鼈儫o法高效擴(kuò)展,或者沒有人投入足夠的精力去優(yōu)化它們的計(jì)算效率。

模型擴(kuò)展的目標(biāo)是在增加用于訓(xùn)練或推理的芯片數(shù)量時(shí),實(shí)現(xiàn)吞吐量的線性增長(zhǎng),這被稱為 「強(qiáng)擴(kuò)展」(Strong Scaling)。

通常,增加芯片數(shù)量(即「并行計(jì)算」)可以減少計(jì)算時(shí)間,但同時(shí)也會(huì)帶來額外的芯片間通信開銷。如果通信時(shí)間超過了計(jì)算時(shí)間,就會(huì)遇到 「通信瓶頸」,導(dǎo)致無法實(shí)現(xiàn)理想的擴(kuò)展性能。如果對(duì)硬件足夠了解,能夠預(yù)測(cè)這些瓶頸的出現(xiàn)位置,就可以通過調(diào)整模型設(shè)計(jì)或重新配置系統(tǒng)來規(guī)避它們。

看不懂這些,也沒關(guān)系,畢竟這是谷歌最強(qiáng)模型Gemini同款的技術(shù)棧!

但作者誠(chéng)意十足,表示:如果認(rèn)真看完后,有晦澀的地方,請(qǐng)及時(shí)反饋,保證一定改。

作者保證:必有所得

從處理單個(gè)加速器到處理數(shù)萬個(gè)加速器,相對(duì)簡(jiǎn)單的原則無處不在,了解這些原則可以讓你做很多有用的事情:

  • 粗略評(píng)估模型的各個(gè)部分與理論最優(yōu)性能的接近程度。
  • 在不同規(guī)模下,合理選擇并行計(jì)算方案(如何在多個(gè)設(shè)備間分配計(jì)算任務(wù))。
  • 估算訓(xùn)練和運(yùn)行大型Transformer模型所需的成本和時(shí)間。
  • 設(shè)計(jì)能夠充分利用特定硬件特性的算法。
  • 設(shè)計(jì)硬件時(shí),基于對(duì)當(dāng)前算法性能瓶頸的明確理解來進(jìn)行優(yōu)化。

此書的目標(biāo)是解釋TPU(以及 GPU)的工作原理,以及為了當(dāng)前硬件上實(shí)現(xiàn)高效計(jì)算,Transformer架構(gòu)如何不斷演化。

希望這些內(nèi)容既能幫助研究人員設(shè)計(jì)新的模型架構(gòu),也能為工程師提供指導(dǎo),以優(yōu)化當(dāng)前一代的大語言模型(LLM)計(jì)算性能。

作者保證,讀完此書一定有所收獲:

在閱讀完本書后,應(yīng)該能自信地為特定硬件平臺(tái)上的Transformer模型選擇最佳并行方案,并大致估算訓(xùn)練和推理的耗時(shí)。

如果你仍然感到困惑,請(qǐng)告訴我們!我們希望知道如何讓這些內(nèi)容更加清晰易懂。

基礎(chǔ)知識(shí)

要閱讀此書,作者提醒讀者:

對(duì)LLM(大語言模型)和Transformer架構(gòu)有基本的了解,但不一定熟悉它們?cè)诖笠?guī)模計(jì)算中的運(yùn)作方式。

應(yīng)該了解LLM訓(xùn)練的基礎(chǔ)知識(shí),并且最好對(duì)JAX有一定的了解。

下面的背景資料,有助于了解所需的基礎(chǔ)知識(shí):

博客鏈接:https://jalammar.github.io/illustrated-transformer/

JAX講義:https://github.com/rwitten/HighPerfLLMs2024

整體結(jié)構(gòu)

在本書中,將解答以下問題:

  • 矩陣乘法的計(jì)算時(shí)間如何估算?在多大規(guī)模下,它的計(jì)算受限于計(jì)算能力、內(nèi)存帶寬還是通信帶寬?
  • TPU是如何連接在一起組成訓(xùn)練集群的?系統(tǒng)的各個(gè)部分分別具備多少帶寬?
  • 在多個(gè)TPU之間進(jìn)行數(shù)據(jù)收集(gather)、分發(fā)(scatter)或重新分布(re-distribute)需要多少時(shí)間?
  • 如何高效地計(jì)算跨設(shè)備分布的矩陣乘法?

這些內(nèi)容能幫助讀者,深入理解LLM在現(xiàn)代硬件上的運(yùn)行機(jī)制,并學(xué)會(huì)如何優(yōu)化訓(xùn)練和推理的效率。

《第1章》介紹屋頂線分析(Roofline Analysis),并探討限制模型擴(kuò)展的關(guān)鍵因素,包括通信、計(jì)算和內(nèi)存。

《第2章》和《第3章》詳細(xì)講解TPU和現(xiàn)代GPU的工作原理,既包括作為獨(dú)立芯片的運(yùn)行機(jī)制,也涵蓋了更關(guān)鍵的內(nèi)容——它們?nèi)绾瓮ㄟ^芯片間互連(inter-chip links)形成一個(gè)計(jì)算集群,并受到帶寬和延遲的限制。

五年前,機(jī)器學(xué)習(xí)領(lǐng)域的架構(gòu)還十分多樣化包——括卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、多層感知機(jī)和Transformer等。如今,Transformer架構(gòu)一家獨(dú)大

Transformer結(jié)構(gòu)的每一個(gè)細(xì)節(jié),都非常值得深入理解,包括:矩陣的具體尺寸、歸一化(Normalization)發(fā)生的位置、各部分包含多少參數(shù)和FLOPs(浮點(diǎn)運(yùn)算次數(shù))。

《第4章》將詳細(xì)解析Transformer的數(shù)學(xué)計(jì)算,幫助你掌握如何計(jì)算訓(xùn)練和推理過程中的參數(shù)量和FLOPs。

這些計(jì)算將揭示:

  • 模型的內(nèi)存占用有多大?
  • 計(jì)算和通信的時(shí)間消耗分布如何?
  • 注意力機(jī)制(Attention)和前饋網(wǎng)絡(luò)(Feed-Forward Blocks)何時(shí)成為計(jì)算的瓶頸?

通過這些分析,將能夠更精確地優(yōu)化Transformer訓(xùn)練和推理的效率,并更深入地理解其計(jì)算特性。

圖示2:標(biāo)準(zhǔn)Transformer層,每個(gè)矩陣乘法(matmul)以圓圈中的點(diǎn)表示。所有參數(shù)(不包括歸一化層)以紫色顯示。

《第5章:訓(xùn)練》和《第7章:推理》是本書的核心內(nèi)容,在這兩章中將討論一個(gè)根本問題:

給定一個(gè)大小和一定數(shù)量芯片的模型,如何將模型并行化,以保持在「強(qiáng)擴(kuò)展」(strong scaling)范疇內(nèi)?

這個(gè)看似簡(jiǎn)單的問題,其實(shí)有著令人意外的復(fù)雜答案。

從高層次來看,主要有四種并行化技術(shù)用于將模型分布到多個(gè)芯片上:數(shù)據(jù)并行(Data Parallelism)、張量并行(Tensor Parallelism)、流水線并行(Pipeline Parallelism)以及專家并行(Expert Parallelism)。

圖3:純數(shù)據(jù)并行(前向傳播)示意圖。激活(Activations)(左側(cè))完全按照批次維度(batch dimension) 進(jìn)行分片。

這種方法通過將批次分配到多個(gè) TPU 上,實(shí)現(xiàn)了數(shù)據(jù)并行,從而在沒有額外通信負(fù)擔(dān)的情況下,加速模型的計(jì)算。

此外,還有多種技術(shù)可以減少內(nèi)存需求,比如重新計(jì)算(Rematerialization)、優(yōu)化器/模型分片(Optimizer/Model Sharding,也稱為ZeRO)、主機(jī)卸載(Host Offload)、梯度累積(Gradient Accumulation)。

在這兩章中將討論這些技術(shù),并幫助理解如何在新的架構(gòu)或設(shè)置中選擇最適合的并行化策略。

《第6章》和《第8章》是實(shí)際操作教程,應(yīng)用這些概念于LLaMA-3,更直觀地理解如何在實(shí)際應(yīng)用中進(jìn)行操作。

最后,《第9章》和《第10章》將討論如何在JAX中實(shí)現(xiàn)這些想法,并介紹當(dāng)代碼出現(xiàn)問題時(shí)如何進(jìn)行性能分析和調(diào)試。

在《第11章》中,會(huì)給出進(jìn)一步閱讀清單和更深入的參考文獻(xiàn)。

在整個(gè)過程中,會(huì)給出一些需要自己動(dòng)手解決的問題。

作者溫馨提示:

請(qǐng)不要覺得有壓力要按順序閱讀所有章節(jié),也不一定要全部閱讀完。

我們鼓勵(lì)你留下反饋意見。

目前這是草稿版本,未來會(huì)繼續(xù)修訂和改進(jìn)。

當(dāng)前的目錄,翻譯如下:

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-02-03 16:16:29

谷歌

2025-02-06 09:52:12

2018-04-03 11:44:47

人工智能業(yè)務(wù)

2021-04-07 14:36:36

谷歌Android開發(fā)者

2024-10-21 15:50:00

機(jī)器學(xué)習(xí)AI

2013-11-21 13:35:19

程序員牛人

2023-05-24 15:17:21

開發(fā)AI

2020-07-30 14:05:53

谷歌華為芯片

2024-06-17 18:06:17

2021-01-18 10:52:55

谷歌AI人工智能

2022-04-14 18:03:16

深度學(xué)習(xí)AI谷歌

2023-12-23 23:23:37

2025-06-19 08:50:00

模型訓(xùn)練數(shù)據(jù)

2023-09-06 12:58:10

AI訓(xùn)練

2022-01-12 17:27:57

AI 谷歌人工智能

2020-12-08 14:54:15

谷歌AI人工智能

2019-07-18 08:54:42

谷歌Android開發(fā)者

2024-01-29 10:31:00

AI模型

2024-09-23 09:00:00

模型訓(xùn)練

2025-04-18 12:14:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)