五年經(jīng)驗(yàn)的前端社招被問：CPU 和 GPU 有什么區(qū)別？

作者：小牛肉 2022-12-13 08:42:53

CPU（Central ProcessingUnit，中央處理器）：功能主要是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)。

?CPU 和 GPU 的設(shè)計(jì)目標(biāo)和整體架構(gòu)的區(qū)別分析，并在全文最后使用通俗的例子做比喻幫助理解。

首先來看 CPU 和 GPU 的百科解釋：

CPU（Central ProcessingUnit，中央處理器）：功能主要是解釋計(jì)算機(jī)指令以及處理計(jì)算機(jī)軟件中的數(shù)據(jù)。

圖 1-1 CPU 示意圖

GPU（Graphics ProcessingUnit，圖形處理器；又稱顯示核心、顯卡、視覺處理器、顯示芯片或繪圖芯片）：GPU 不同于傳統(tǒng)的 CPU，如Intel i5 或 i7 處理器，其內(nèi)核數(shù)量較少，專為通用計(jì)算而設(shè)計(jì)。相反，GPU是一種特殊類型的處理器，具有數(shù)百或數(shù)千個(gè)內(nèi)核，經(jīng)過優(yōu)化，可并行運(yùn)行大量計(jì)算。雖然 GPU 在游戲中以 3D 渲染而聞名，但它們對運(yùn)行分析、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法尤其有用。GPU 允許某些計(jì)算比傳統(tǒng) CPU 上運(yùn)行相同的計(jì)算速度快 10 倍至 100 倍。

圖 1- 2 GeForce 6600GT（NV43）GPU 圖片

CPU 和 GPU 之所以大不相同，是由于其設(shè)計(jì)目標(biāo)的不同，它們分別針對了兩種不同的應(yīng)用場景：

CPU 需要很強(qiáng)的通用性來處理各種不同的數(shù)據(jù)類型，同時(shí)又要邏輯判斷又會(huì)引入大量的分支跳轉(zhuǎn)和中斷的處理。這些都使得 CPU 的內(nèi)部結(jié)構(gòu)異常復(fù)雜

而 GPU 面對的則是類型高度統(tǒng)一的、相互無依賴的大規(guī)模數(shù)據(jù)和不需要被打斷的純凈的計(jì)算環(huán)境

于是 CPU 和 GPU 就呈現(xiàn)出非常不同的架構(gòu)（如下圖 1-3 所示，圖片來源 Nvidia），其中 GPU 部分的綠色是計(jì)算單元（ALU），橙紅色是存儲(chǔ)單元（Cache），橙黃色是控制單元（Control），DRAM 代表內(nèi)存：

圖 1-3 CPU 和 GPU 的架構(gòu)

由上圖 1-3 可以看出：GPU 采用了數(shù)量眾多的計(jì)算單元和超長的流水線，但只有非常簡單的控制邏輯并省去了 Cache。而 CPU 不僅被 Cache 占據(jù)了大量空間，而且還有有復(fù)雜的控制邏輯和諸多優(yōu)化電路，相比之下計(jì)算能力只是 CPU 很小的一部分。

由此我們引出 CPU 和 GPU 的設(shè)計(jì)目標(biāo)：

1）CPU 是基于低延遲（Low Latency）的設(shè)計(jì)，內(nèi)核數(shù)量較少

Powerful ALU（強(qiáng)大的算術(shù)運(yùn)算單元）：它可以在很少的時(shí)鐘周期內(nèi)完成算術(shù)計(jì)算；

Large Caches（大的緩存）：將部分?jǐn)?shù)據(jù)保存在緩存中，使得長延遲的內(nèi)存訪問轉(zhuǎn)換稱短延遲的緩存訪問；

Sophisticated Control（復(fù)雜的邏輯控制單元）：當(dāng)程序含有多個(gè)分支的時(shí)候，它通過提供分支預(yù)測的能力來降低分支延時(shí)；并且，當(dāng)一些指令依賴前面的指令結(jié)果時(shí)，它通過提供盡可能快的數(shù)據(jù)轉(zhuǎn)發(fā)的能力來減少數(shù)據(jù)延遲。

2）GPU 是基于大吞吐量（Big Throughput）的設(shè)計(jì)，內(nèi)核數(shù)量較多

Small Caches（小的緩存）：GPU 中緩存的目的不是保存后面需要訪問的數(shù)據(jù)的，這點(diǎn)和 CPU 不同，而是為 Thread 提供服務(wù)的。如果有很多線程需要訪問同一個(gè)相同的數(shù)據(jù)，緩存會(huì)合并這些訪問，然后再去訪問內(nèi)存。但是由于需要訪問內(nèi)存，自然會(huì)帶來延時(shí)的問題；

批量讀取/訪問，一個(gè)非常常見的提升吞吐量的設(shè)計(jì)，比如 Kafka 中就用到了類似思想

Simple Control（簡單的邏輯控制單元）：把多個(gè)的訪問合并成少的訪問；

Energy efficient ALUs（大量的算術(shù)運(yùn)算單元）：如上所述，GPU 雖然有內(nèi)存延時(shí)，卻有非常多的 ALU 并支持非常多的 Thread，因此，可以充分利用 ALU 盡可能多地分配線程從而達(dá)到非常大的吞吐量。

總結(jié)來說，作為強(qiáng)大的執(zhí)行引擎，CPU 將它數(shù)量相對較少的內(nèi)核集中用于處理單個(gè)任務(wù)，并快速將其完成。這使它尤其適合用于處理邏輯控制、串行計(jì)算、數(shù)據(jù)庫運(yùn)行等類型的工作。

相比之下，GPU 由數(shù)百個(gè)內(nèi)核組成，可以同時(shí)處理數(shù)千個(gè)線程，所以與 CPU 擅長、串行的運(yùn)算和通用類型數(shù)據(jù)運(yùn)算不同，GPU 擅長的是大規(guī)模并發(fā)計(jì)算，將復(fù)雜的問題分解成數(shù)千或數(shù)百萬個(gè)獨(dú)立的任務(wù)，并一次性解決它們，比如圖像處理任務(wù)，包括紋理、燈光和形狀渲染等子任務(wù)都必須同時(shí)完成，以保持圖像在屏幕上快速呈現(xiàn)，除此之外，GPU 還被大量應(yīng)用于深度學(xué)習(xí)、密碼破解等任務(wù)中。

表 1.1 CPU 和 GPU 的區(qū)別

CPU	GPU
Several cores	Many cores
Low latency	High throughput
Good for serial processing	Good for parallel processing
Can do a handful of operations at once	Can do thousands of operations at once

下面用一個(gè)通俗的例子來做個(gè)比喻：

注意只是比喻，可能不會(huì)太恰當(dāng)，主要是幫助理解

假設(shè)我們需要做一道雞兔同籠的小學(xué)奧數(shù)題（來源 1500 年前的《孫子算經(jīng)》）：

今有雉兔同籠，上有三十五頭，下有九十四足，問雉兔各幾何？

計(jì)算題目，理解題目并且整理出解題的步驟以及解法，這是 CPU 干的事情，于是 CPU 給出了類似下面的二元一次方程：

解題的過程需要用到的眾多計(jì)算，則需要一幫不需要很高邏輯理解力的計(jì)算者完成，他們只需要負(fù)責(zé)其中很簡單但是數(shù)量又很大的簡單運(yùn)算就行了，最后他們把各自運(yùn)算的結(jié)果交出來給 CPU 整理，那么這群計(jì)算者就是 GPU。

簡單來說就是：

CPU 力氣大啥事都能干，還要協(xié)調(diào)手下各類小弟；
GPU 就是 CPU 的其中一個(gè)小弟，老大分配給給他處理圖形或者并行計(jì)算等任務(wù)，這方面處理簡單，但是量大，老大雖然能處理，可是精力有限（指 CPU 內(nèi)核數(shù)量較少），所以不如交給小弟處理了，小弟精力旺盛（指 GPU 擁有大量內(nèi)核），而且專門干這行，非常有經(jīng)驗(yàn)，干起活兒來賊快。

責(zé)任編輯：武曉燕來源：飛天小牛肉