談?wù)勀銓?duì)IO多路復(fù)用機(jī)制的理解
? 一位工作5年的小伙伴面試時(shí)被問到IO相關(guān)的問題,說,談?wù)勀銓?duì)IO多路復(fù)用機(jī)制的理解。當(dāng)時(shí)他說只是聽過多路復(fù)用,具體細(xì)節(jié)沒有了解過。今天,我給大家分享一下我的理解。
1.IO多路復(fù)用
IO多路復(fù)用是一種同步的IO模型。利用IO多路復(fù)用模型,可以實(shí)現(xiàn)一個(gè)線程監(jiān)視多個(gè)文件句柄;一旦某個(gè)文件句柄就緒,就能夠通知到對(duì)應(yīng)應(yīng)用程序進(jìn)行相應(yīng)的讀寫操作;沒有文件句柄就緒時(shí)就會(huì)阻塞應(yīng)用程序,從而釋放出CPU資源。
IO可以理解為,在操作系統(tǒng)中,數(shù)據(jù)在內(nèi)核態(tài)和用戶態(tài)之間的讀、寫操作,大部分情況下是指網(wǎng)絡(luò)IO;
多路大部分情況下是指多個(gè)TCP連接,也就是多個(gè)Socket 或者多個(gè)Channel;
復(fù)用是指復(fù)用一個(gè)或多個(gè)線程資源。IO多路復(fù)用意思就是說,一個(gè)或多個(gè)線程處理多個(gè) TCP 連接。盡可能地減少系統(tǒng)開銷,無需創(chuàng)建和維護(hù)過多的進(jìn)程/線程。
實(shí)現(xiàn)IO多路復(fù)用的模型有三種,分別是Select、poll 和 epoll。下面詳細(xì)介紹一下三種多路復(fù)用模型的基本原理和優(yōu)缺點(diǎn):
2.select模型
select模型,它的基本原理是,采用輪詢和遍歷的方式。也就是說,在客戶端操作服務(wù)器時(shí),會(huì)創(chuàng)建三種文件描述符,簡(jiǎn)稱FD。分別是writefds(寫描述符)、readfds(讀描述符)和 exceptfds(異常描述符)。
而select會(huì)阻塞監(jiān)視這三種文件描述符,等有數(shù)據(jù)、可讀、可寫、出異常或超時(shí)都會(huì)返回;
返回后通過遍歷fdset,也就是文件描述符的集合,來找到就緒的FD,然后,觸發(fā)相應(yīng)的IO操作。
它的優(yōu)點(diǎn)是跨平臺(tái)支持性好,幾乎在所有的平臺(tái)上支持。
它的缺點(diǎn)也很明顯,由于select是采用輪詢的方式進(jìn)行全盤掃描,因此,隨著FD數(shù)量增多而導(dǎo)致性能下降。
因此,每次調(diào)用select()方法,都需要把FD集合從用戶態(tài)拷貝到內(nèi)核態(tài),并進(jìn)行遍歷。而操作系統(tǒng)對(duì)單個(gè)進(jìn)程打開的FD數(shù)量是有限制的,一般默認(rèn)是1024個(gè)。雖然,可以通過操作系統(tǒng)的宏定義FD_SETSIZE修改最大FD數(shù)量限制,但是,在IO吞吐量巨大的情況下,效率提升仍然有限。
3.poll模型
poll 模型的原理與select模型基本一致,也是采用輪詢加遍歷,唯一的區(qū)別就是 poll 采用鏈表的方式來存儲(chǔ)FD。
所以,它的優(yōu)點(diǎn)點(diǎn)是沒有最大FD的數(shù)量限制。
它的缺點(diǎn)和select一樣,也是采用輪詢方式全盤掃描,同樣也會(huì)隨著FD數(shù)量增多而導(dǎo)致性能下降。
4.epoll模型
由于select和poll都會(huì)因?yàn)橥掏铝吭黾佣鴮?dǎo)致性能下降,因此,才出現(xiàn)了epoll模型。
epoll模型是采用時(shí)間通知機(jī)制來觸發(fā)相關(guān)的IO操作。它沒有FD個(gè)數(shù)限制,而且從用戶態(tài)拷貝到內(nèi)核態(tài)只需要一次。它主要通過系統(tǒng)底層的函數(shù)來注冊(cè)、激活FD,從而觸發(fā)相關(guān)的 IO 操作,這樣大大提高了性能。主要是通過調(diào)用以下三個(gè)系統(tǒng)函數(shù):
(1)epoll_create()函數(shù),在系統(tǒng)啟動(dòng)時(shí),會(huì)在Linux內(nèi)核里面申請(qǐng)一個(gè)B+樹結(jié)構(gòu)的文件系統(tǒng),然后,返回epoll對(duì)象,也是一個(gè)FD。
(2)epoll_ctl()函數(shù),每新建一個(gè)連接的時(shí)候,會(huì)同步更新epoll對(duì)象中的FD,并且綁定一個(gè) callback回調(diào)函數(shù)。
(3)epoll_wait()函數(shù),輪詢所有的callback集合,并觸發(fā)對(duì)應(yīng)的 IO 操作
所以,epoll模型最大的優(yōu)點(diǎn)是將輪詢改成了回調(diào),大大提高了CPU執(zhí)行效率,也不會(huì)隨FD數(shù)量的增加而導(dǎo)致效率下降。當(dāng)然,它也沒有FD數(shù)量限制,也就是說,它能支持的FD上限是操作系統(tǒng)的最大文件句柄數(shù)。一般而言,1G 內(nèi)存大概支持 10 萬個(gè)句柄。分布式系統(tǒng)中常用的組件如Redis、Nginx都是優(yōu)先采用epoll模型。
它的缺點(diǎn)是只能在Linux下工作。
5.綜合對(duì)比
下表是三種多路復(fù)用模型的綜合對(duì)比,有興趣的小伙伴可以截圖保存一下,或者到我的個(gè)人煮葉簡(jiǎn)介中獲取。
好了,以上就是我對(duì)IO多路復(fù)用機(jī)制的理解。