壓榨計(jì)算機(jī)性能—基于Golang并發(fā)編程
作者|李茂,單位:中移物聯(lián)網(wǎng)有限公司
?Labs 導(dǎo)讀
讓我們回到三十年前所能接觸到的計(jì)算機(jī):黑黑的屏幕上顯示著白色的文字,在文字最后閃爍著一個(gè)方塊形的光標(biāo)。除專門用于對外服務(wù)的計(jì)算機(jī)外,那時(shí)候的普通使用者基本上以串行地執(zhí)行指令為基礎(chǔ),同一時(shí)間只運(yùn)行一個(gè)應(yīng)用程序,那時(shí)候的人們打字就是打字,聽歌就專門聽歌。隨著芯片制程和制造能力的提升以及圖形化操作系統(tǒng)在全球鋪開,我們現(xiàn)在通常可以一邊聽著歌,一邊玩著游戲,另一邊還從網(wǎng)絡(luò)上下載最新的電視劇,不僅僅如此,操作系統(tǒng)以及應(yīng)用程序的開發(fā)者也還在極力地壓榨計(jì)算機(jī)硬件性能,使得計(jì)算機(jī)更流暢,計(jì)算機(jī)使用者同一時(shí)間可以處理更多的東西,本文將為大家?guī)響?yīng)用程序并發(fā)相關(guān)的知識(shí)以及基于Golang這門編程語言針對應(yīng)用程序并發(fā)的相關(guān)編碼基礎(chǔ)。
Part 01 并發(fā)的硬件基礎(chǔ)
1.1 內(nèi)存
作為并發(fā)編程一個(gè)基礎(chǔ)硬件知識(shí)儲(chǔ)備,首先要說的就是內(nèi)存了,對于內(nèi)存芯片網(wǎng)上喜歡將其表述為內(nèi)存顆粒,是一堆MOS管的集合,在半導(dǎo)體稱呼里面,很多MOS管組成一個(gè)半導(dǎo)體組(module),很多個(gè)module組成一個(gè)管芯(die),這個(gè)die即是內(nèi)存顆粒,當(dāng)然,更上一級(jí)即很多die組成的東西叫做晶圓(wafer)。
簡單來說,每8個(gè)MOS管組成的電路可以表示一個(gè)字節(jié),比如ASCII的‘A’,我們使用65表示,即0100 0001,那么8個(gè)MOS分別使用低-高-低-低-低-低-低-高電位即可表示字符A。
在對內(nèi)存的寫入和讀取時(shí),通常也是按照8個(gè)字開始作為一組進(jìn)行操作,我們現(xiàn)在常用的CPU是64位,可以一次性處理64/8=8個(gè)字節(jié)的數(shù)據(jù)。
1.2 總線
總線的概念同我們高速公路的概念類似,就像京滬高速的存在不僅僅只是用于北京和上海之間的交通通勤,只要目的地是那個(gè)地理區(qū)間的車輛都可以行駛進(jìn)入京滬高速,從而提升車輛速度節(jié)省時(shí)間??偩€是計(jì)算機(jī)各種功能部件之間傳送信息的公共通信干線,按照分類又地址總線、數(shù)據(jù)總線、控制總線等,他們分辨用來傳輸數(shù)據(jù)地址、輸出以及控制信號(hào),它是計(jì)算機(jī)中用于傳遞信息的公用通道。
一個(gè)CPU要操作內(nèi)存的數(shù)據(jù),也是通過總線來進(jìn)行操作的。通常來說內(nèi)存的讀寫操作不是一個(gè)CPU指令周期能完成的,在這期間如果多個(gè)程序在同時(shí)操作一個(gè)內(nèi)存地址,則有各種意外的讀寫操作。
1.3 CPU
在單核CPU時(shí)期,硬件一次只能處理一個(gè)事情,在多任務(wù)的情況下不同的任務(wù)按需搶占CPU來執(zhí)行它的代碼,這里面就涉及到CPU調(diào)度工作,通常情況下,操作系統(tǒng)已經(jīng)幫我們做了很多事,如果一個(gè)編程語言開啟的并發(fā)操作是交給了操作系統(tǒng)的,那么調(diào)度這塊不需要太關(guān)心,如果像Golang這樣有自己的協(xié)程調(diào)度器,還是需要專門了解下特有的調(diào)度方式。對于多核處理器基本原理也差不多,在對于硬件的理解上也可以完全參考單核。
CPU通過地址總線去尋找內(nèi)存地址,比如0x00004567這種,64位CPU最大能操作的地址長度為264,32位操作系統(tǒng)則是232,所以為什么32位CPU最大只支持4GB內(nèi)存呢?來算一算232是多少(友情提示1GB=1024MB=1024*1024KB=1024*1024*1024B)。
Part 02 并發(fā)的軟件基礎(chǔ)
2.1 多進(jìn)程模型
多進(jìn)程模型是操作系統(tǒng)層面進(jìn)行并發(fā)的最基本模型,要理解它也較為簡單,比如我們需要聽歌便打開了音樂播放器,我們想玩游戲便打開了游戲用用程序,音樂播放器、游戲程序便是一個(gè)個(gè)進(jìn)程,我們可以在計(jì)算機(jī)里讓專門的進(jìn)程負(fù)責(zé)播放聲音,讓專門的進(jìn)程負(fù)責(zé)網(wǎng)絡(luò)連接,讓專門的進(jìn)程展現(xiàn)游戲畫面,讓每個(gè)進(jìn)程做自己專注的事情,互不影響,這樣做的壞處便是系統(tǒng)開銷是最大的,所有的進(jìn)程都由操作系統(tǒng)進(jìn)行管理。
2.2 多線程模型
同多進(jìn)程模型一樣,多線程模型在操作系統(tǒng)看來也屬于系統(tǒng)層面的并發(fā)模式,到目前為止也是程序員們使用最多的一種,就像我們的音樂播放器本職工作是播放音樂,在播放音樂的同時(shí)會(huì)搜索當(dāng)前歌曲的歌詞并通過網(wǎng)絡(luò)下載到計(jì)算機(jī)上,而搜索歌詞并下載這塊功能則是通過音樂播放器進(jìn)程生成一個(gè)歌詞處理線程進(jìn)行處理。對于線程模型的理解可以同理解進(jìn)程模型一樣,每個(gè)線程也可以專注做自己的事情互不影響,這種模型的好處是系統(tǒng)開銷比多進(jìn)程模型要小一些,但是線程過多也會(huì)對操作系統(tǒng)有影響。
2.3 異步IO模型
這種模型的誕生源于多進(jìn)程、多線程導(dǎo)致系統(tǒng)資源快速耗盡的危機(jī),異步IO顧名思義即不會(huì)按照順序一步一步地做事情,在某些比較耗時(shí)的事情的上時(shí)候應(yīng)用的進(jìn)程/線程不會(huì)去等待,而是直接執(zhí)行后面的步驟,直到比較耗時(shí)的事情做完了再通知到進(jìn)程/線程。這種模型的優(yōu)勢是可以開辟少量的線程做更多的事情,但是缺點(diǎn)也顯而易見,由于整個(gè)應(yīng)用程序的執(zhí)行流程上被打散,程序員需要通過更多精力處理這種散亂的執(zhí)行狀態(tài)。
2.4 協(xié)程模型
協(xié)程本質(zhì)上是一種由進(jìn)程自身管理的線程,這種線程不交給操作系統(tǒng)進(jìn)行管理,但是本身又真實(shí)地寄存在操作系統(tǒng)的線程中,系統(tǒng)開銷極小,也避免了異步IO的散亂缺點(diǎn),目前的缺點(diǎn)是支持這種模型的編程語言很少,存在比較早的,被大眾所使用的一些編程語言因?yàn)楦髯缘臍v史原因目前都沒有大規(guī)模地針對這種模型進(jìn)行適配,有一門比較新的編程語言——Golang對于該模型的支持還算不錯(cuò)。接下來我們就通過Golang的幾個(gè)示例代碼來看看并發(fā)編程一些具體操作。
Part 03 幾個(gè)代碼示例
示例一
//非并發(fā)方式計(jì)算變量A從0開始累加100次,最后輸出結(jié)果

示例二
//變量A從0開始累加100次,每次都由單獨(dú)的協(xié)程并發(fā)進(jìn)行加法操作,最后輸出結(jié)果

示例一個(gè)示例二都將輸出什么呢:絕大多數(shù)情況下都是100。
按照正常的理解,示例二不應(yīng)是1-100之間的任意數(shù)字嗎,難不成go的協(xié)程還自動(dòng)處理了變量搶占等一系列問題,從而使我們就完全很開心地編碼了?實(shí)際上先把示例二的100改成10000再看看結(jié)果吧~
我們再看看示例三和示例四:
示例三
//非并發(fā)方式輸出變量i從0-10000每次加1的循環(huán)結(jié)果

示例四
//多協(xié)程方式輸出變量i從0-10000每次加1的循環(huán)結(jié)果

示例三是中規(guī)中矩的單協(xié)程模型,輸出也不會(huì)有什么意外,而示例四大家猜猜是按照1,2,3...9999這樣的順序呢還是其他順序輸出呢?
如果實(shí)驗(yàn)了我們便能較為容易地得出結(jié)果,多協(xié)程模型里面的東西沒有順序性,對變量的操作也沒有原子性,和多線程模型處理東西的方式幾乎一樣。
有些場景下為了保證應(yīng)用程序執(zhí)行有序,我們通常采用加鎖的方式進(jìn)行處理,如示例五。
示例五
//多協(xié)程加鎖處理使之有序:

搬磚例子
假設(shè)在左邊有三堆散亂的磚,我們需要將其從左邊搬運(yùn)到右邊并堆放整齊,這樣的一個(gè)工作我們從并發(fā)模型來看有哪些比較可執(zhí)行的實(shí)現(xiàn)方式呢:
- 每堆磚頭分配固定的人數(shù),堆磚時(shí)為保證堆疊整齊度,采用排隊(duì)的方式一個(gè)一個(gè)按先后順序堆疊
- 拿一個(gè)人專職在左邊遞磚,若干人從左邊的遞磚人處拿磚,搬磚后在右邊排隊(duì)堆疊
- 左邊專人遞磚,右邊專人堆磚,若干搬磚人只負(fù)責(zé)搬磚
這也是并發(fā)編程模型中比較常用的編程思路,在以后遇到類似開發(fā)場景也可以套用這些例子。
一個(gè)實(shí)際案例
我們以一個(gè)實(shí)際的案例作為結(jié)束,這個(gè)案例是導(dǎo)出某云平臺(tái)所屬設(shè)備信息的代碼,里面包含有多協(xié)程拉取數(shù)據(jù)的實(shí)例,整體的流程如下:
- 參數(shù)初始化
- 定義一個(gè)接收協(xié)程結(jié)束的信息通道
- 開啟N個(gè)協(xié)程
- 協(xié)程調(diào)用API獲取信息,按分頁參數(shù)每個(gè)協(xié)程獲?。倲?shù)/N)信息,每次page=X+N
- 每次獲取的信息放入excel緩沖區(qū)
- 當(dāng)最后的分頁獲取不到信息時(shí)向通道寫入東西表示該協(xié)程任務(wù)完成
- 主進(jìn)程循環(huán)獲取每個(gè)協(xié)程結(jié)束的信息,直到所有協(xié)程任務(wù)完成
- 將excel緩沖區(qū)數(shù)據(jù)寫入excel文件
- 結(jié)束

案例鏈接如下(cm-heclouds為物聯(lián)網(wǎng)公司平臺(tái)部存放開源代碼的專用賬戶):
https://github.com/cm-heclouds/onenet_device_export/releases/tag/2018-latest
當(dāng)然,這個(gè)案例在并發(fā)上其實(shí)還存在較大的提升空間,聰明的大家看看結(jié)合搬磚的例子來怎么提升呢。?


























