五年經(jīng)驗(yàn)的前端社招被問:CPU 和 GPU 有什么區(qū)別?
?CPU 和 GPU 的設(shè)計(jì)目標(biāo)和整體架構(gòu)的區(qū)別分析,并在全文最后使用通俗的例子做比喻幫助理解。
首先來看 CPU 和 GPU 的百科解釋:
CPU(Central ProcessingUnit,中央處理器):功能主要是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)。
圖 1-1 CPU 示意圖
GPU(Graphics ProcessingUnit,圖形處理器;又稱顯示核心、顯卡、視覺處理器、顯示芯片或繪圖芯片):GPU 不同于傳統(tǒng)的 CPU,如Intel i5 或 i7 處理器,其內(nèi)核數(shù)量較少,專為通用計(jì)算而設(shè)計(jì)。相反,GPU是一種特殊類型的處理器,具有數(shù)百或數(shù)千個(gè)內(nèi)核,經(jīng)過優(yōu)化,可并行運(yùn)行大量計(jì)算。雖然 GPU 在游戲中以 3D 渲染而聞名,但它們對(duì)運(yùn)行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法尤其有用。GPU 允許某些計(jì)算比傳統(tǒng) CPU 上運(yùn)行相同的計(jì)算速度快 10 倍至 100 倍。
圖 1- 2 GeForce 6600GT(NV43)GPU 圖片
CPU 和 GPU 之所以大不相同,是由于其設(shè)計(jì)目標(biāo)的不同,它們分別針對(duì)了兩種不同的應(yīng)用場(chǎng)景:
CPU 需要很強(qiáng)的通用性來處理各種不同的數(shù)據(jù)類型,同時(shí)又要邏輯判斷又會(huì)引入大量的分支跳轉(zhuǎn)和中斷的處理。這些都使得 CPU 的內(nèi)部結(jié)構(gòu)異常復(fù)雜
而 GPU 面對(duì)的則是類型高度統(tǒng)一的、相互無依賴的大規(guī)模數(shù)據(jù)和不需要被打斷的純凈的計(jì)算環(huán)境
于是 CPU 和 GPU 就呈現(xiàn)出非常不同的架構(gòu)(如下圖 1-3 所示,圖片來源 Nvidia),其中 GPU 部分的綠色是計(jì)算單元(ALU),橙紅色是存儲(chǔ)單元(Cache),橙黃色是控制單元(Control),DRAM 代表內(nèi)存:
圖 1-3 CPU 和 GPU 的架構(gòu)
由上圖 1-3 可以看出:GPU 采用了數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,但只有非常簡(jiǎn)單的控制邏輯并省去了 Cache。而 CPU 不僅被 Cache 占據(jù)了大量空間,而且還有有復(fù)雜的控制邏輯和諸多優(yōu)化電路,相比之下計(jì)算能力只是 CPU 很小的一部分。
由此我們引出 CPU 和 GPU 的設(shè)計(jì)目標(biāo):
1)CPU 是基于低延遲(Low Latency)的設(shè)計(jì),內(nèi)核數(shù)量較少
Powerful ALU(強(qiáng)大的算術(shù)運(yùn)算單元):它可以在很少的時(shí)鐘周期內(nèi)完成算術(shù)計(jì)算;
Large Caches(大的緩存):將部分?jǐn)?shù)據(jù)保存在緩存中,使得長(zhǎng)延遲的內(nèi)存訪問轉(zhuǎn)換稱短延遲的緩存訪問;
Sophisticated Control(復(fù)雜的邏輯控制單元):當(dāng)程序含有多個(gè)分支的時(shí)候,它通過提供分支預(yù)測(cè)的能力來降低分支延時(shí);并且,當(dāng)一些指令依賴前面的指令結(jié)果時(shí),它通過提供盡可能快的數(shù)據(jù)轉(zhuǎn)發(fā)的能力來減少數(shù)據(jù)延遲。
2)GPU 是基于大吞吐量(Big Throughput)的設(shè)計(jì),內(nèi)核數(shù)量較多
Small Caches(小的緩存):GPU 中緩存的目的不是保存后面需要訪問的數(shù)據(jù)的,這點(diǎn)和 CPU 不同,而是為 Thread 提供服務(wù)的。如果有很多線程需要訪問同一個(gè)相同的數(shù)據(jù),緩存會(huì)合并這些訪問,然后再去訪問內(nèi)存。但是由于需要訪問內(nèi)存,自然會(huì)帶來延時(shí)的問題;
批量讀取/訪問,一個(gè)非常常見的提升吞吐量的設(shè)計(jì),比如 Kafka 中就用到了類似思想
Simple Control(簡(jiǎn)單的邏輯控制單元):把多個(gè)的訪問合并成少的訪問;
Energy efficient ALUs(大量的算術(shù)運(yùn)算單元):如上所述,GPU 雖然有內(nèi)存延時(shí),卻有非常多的 ALU 并支持非常多的 Thread,因此,可以充分利用 ALU 盡可能多地分配線程從而達(dá)到非常大的吞吐量。
總結(jié)來說,作為強(qiáng)大的執(zhí)行引擎,CPU 將它數(shù)量相對(duì)較少的內(nèi)核集中用于處理單個(gè)任務(wù),并快速將其完成。這使它尤其適合用于處理邏輯控制、串行計(jì)算、數(shù)據(jù)庫運(yùn)行等類型的工作。
相比之下,GPU 由數(shù)百個(gè)內(nèi)核組成,可以同時(shí)處理數(shù)千個(gè)線程,所以與 CPU 擅長(zhǎng)、串行的運(yùn)算和通用類型數(shù)據(jù)運(yùn)算不同,GPU 擅長(zhǎng)的是大規(guī)模并發(fā)計(jì)算,將復(fù)雜的問題分解成數(shù)千或數(shù)百萬個(gè)獨(dú)立的任務(wù),并一次性解決它們,比如圖像處理任務(wù),包括紋理、燈光和形狀渲染等子任務(wù)都必須同時(shí)完成,以保持圖像在屏幕上快速呈現(xiàn),除此之外,GPU 還被大量應(yīng)用于深度學(xué)習(xí)、密碼破解等任務(wù)中。
表 1.1 CPU 和 GPU 的區(qū)別
CPU | GPU |
Several cores | Many cores |
Low latency | High throughput |
Good for serial processing | Good for parallel processing |
Can do a handful of operations at once | Can do thousands of operations at once |
下面用一個(gè)通俗的例子來做個(gè)比喻:
注意只是比喻,可能不會(huì)太恰當(dāng),主要是幫助理解
假設(shè)我們需要做一道雞兔同籠的小學(xué)奧數(shù)題(來源 1500 年前的《孫子算經(jīng)》):
- 今有雉兔同籠,上有三十五頭,下有九十四足,問雉兔各幾何?
計(jì)算題目,理解題目并且整理出解題的步驟以及解法,這是 CPU 干的事情,于是 CPU 給出了類似下面的二元一次方程:
解題的過程需要用到的眾多計(jì)算,則需要一幫不需要很高邏輯理解力的計(jì)算者完成,他們只需要負(fù)責(zé)其中很簡(jiǎn)單但是數(shù)量又很大的簡(jiǎn)單運(yùn)算就行了,最后他們把各自運(yùn)算的結(jié)果交出來給 CPU 整理,那么這群計(jì)算者就是 GPU。
簡(jiǎn)單來說就是:
- CPU 力氣大啥事都能干,還要協(xié)調(diào)手下各類小弟;
- GPU 就是 CPU 的其中一個(gè)小弟,老大分配給給他處理圖形或者并行計(jì)算等任務(wù),這方面處理簡(jiǎn)單,但是量大,老大雖然能處理,可是精力有限(指 CPU 內(nèi)核數(shù)量較少),所以不如交給小弟處理了,小弟精力旺盛(指 GPU 擁有大量?jī)?nèi)核),而且專門干這行,非常有經(jīng)驗(yàn),干起活兒來賊快。