原來這才是 Socket!
之前的計(jì)算機(jī)網(wǎng)絡(luò)系列文章中沒有詳細(xì)介紹 Socket ,這篇文章我們來聊一下 Socket。
關(guān)于對 Socket 的認(rèn)識,大致分為下面幾個主題,Socket 是什么,Socket 是如何創(chuàng)建的,Socket 是如何連接并收發(fā)數(shù)據(jù)的,Socket 套接字的刪除等。
Socket 是什么以及創(chuàng)建過程
一個數(shù)據(jù)包經(jīng)由應(yīng)用程序產(chǎn)生,進(jìn)入到協(xié)議棧中進(jìn)行各種報(bào)文頭的包裝,然后操作系統(tǒng)調(diào)用網(wǎng)卡驅(qū)動程序指揮硬件,把數(shù)據(jù)發(fā)送到對端主機(jī)。整個過程的大體的圖示如下。
我們大家知道,協(xié)議棧其實(shí)是位于操作系統(tǒng)中的一些協(xié)議的堆疊,這些協(xié)議包括 TCP、UDP、ARP、ICMP、IP等。通常某個協(xié)議的設(shè)計(jì)都是為了解決某些問題,比如 TCP 的設(shè)計(jì)就負(fù)責(zé)安全可靠的傳輸數(shù)據(jù),UDP 設(shè)計(jì)就是報(bào)文小,傳輸效率高,ARP 的設(shè)計(jì)是能夠通過 IP 地址查詢物理(Mac)地址,ICMP 的設(shè)計(jì)目的是返回錯誤報(bào)文給主機(jī),IP 設(shè)計(jì)的目的是為了實(shí)現(xiàn)大規(guī)模主機(jī)的互聯(lián)互通。
應(yīng)用程序比如瀏覽器、電子郵件、文件傳輸服務(wù)器等產(chǎn)生的數(shù)據(jù),會通過傳輸層協(xié)議進(jìn)行傳輸,而應(yīng)用程序是不會和傳輸層直接建立聯(lián)系的,而是有一個能夠連接應(yīng)用層和傳輸層之間的套件,這個套件就是 Socket。
在上面這幅圖中,應(yīng)用程序包含 Socket 和解析器,解析器的作用就是向 DNS 服務(wù)器發(fā)起查詢,查詢目標(biāo) IP 地址。
應(yīng)用程序的下面就是操作系統(tǒng)內(nèi)部,操作系統(tǒng)內(nèi)部包括協(xié)議棧,協(xié)議棧是一系列協(xié)議的堆疊。操作系統(tǒng)下面就是網(wǎng)卡驅(qū)動程序,網(wǎng)卡驅(qū)動程序負(fù)責(zé)控制網(wǎng)卡硬件,驅(qū)動程序驅(qū)動網(wǎng)卡硬件完成收發(fā)工作。
在操作系統(tǒng)內(nèi)部有一塊用于存放控制信息的存儲空間,這塊存儲空間記錄了用于控制通信的控制信息。其實(shí)這些控制信息就是 Socket 的實(shí)體,或者說存放控制信息的內(nèi)存空間就是套接字的實(shí)體。
這里大家有可能不太清楚所以然,所以我用了一下 netstat 命令來給大伙看一下套接字是啥玩意。
我們在 Windows 的命令提示符中輸入
- netstat -ano
- # netstat 用于顯示套接字內(nèi)容 , -ano 是可選選項(xiàng)
- # a 不僅顯示正在通信的套接字,還顯示包括尚未開始通信等狀態(tài)的所有套接字
- # n 顯示 IP 地址和端口號
- # o 顯示套接字的程序 PID
我的計(jì)算機(jī)會出現(xiàn)下面結(jié)果。
圖中的每一行都相當(dāng)于一個套接字,每一列也被稱為一個元組,所以一個套接字就是五元組(協(xié)議、本地地址、外部地址、狀態(tài)、PID)。有的時候也被叫做四元組,四元組不包括協(xié)議。
比如圖中的第一行,它的協(xié)議就是 TCP,本地地址和遠(yuǎn)程地址都是 0.0.0.0,這表示通信還沒有開始,IP 地址暫時還未確定,而本地端口已知是 135,但是遠(yuǎn)程端口還未知,此時的狀態(tài)是 LISTENING,LISTENING 表示應(yīng)用程序已經(jīng)打開,正在等待與遠(yuǎn)程主機(jī)建立連接(關(guān)于各種狀態(tài)之間的轉(zhuǎn)換,大家可以閱讀筆者的這篇文章 TCP ,丫的終于來了!!)最后一個元組是 PID,即進(jìn)程標(biāo)識符,PID 就像我們的身份證號碼,能夠精確定位唯一的進(jìn)程。
現(xiàn)在你可能對 Socket 有了一個基本的認(rèn)識,現(xiàn)在喝口水,休息一下,讓我們繼續(xù)探究 Socket。
現(xiàn)在我有個問題,Socket 是如何創(chuàng)建的呢?
Socket 是和應(yīng)用程序一起創(chuàng)建的。應(yīng)用程序中有一個 socket 組件,在應(yīng)用程序啟動時,會調(diào)用 socket 申請創(chuàng)建套接字,協(xié)議棧會根據(jù)應(yīng)用程序的申請創(chuàng)建套接字:首先分配一個套接字所需的內(nèi)存空間,這一步相當(dāng)于是為控制信息準(zhǔn)備一個容器,但只有容器并沒有實(shí)際作用,所以你還需要向容器中放入控制信息;如果你不申請創(chuàng)建套接字所需要的內(nèi)存空間,你創(chuàng)建的控制信息也沒有地方存放,所以分配內(nèi)存空間,放入控制信息缺一不可。至此套接字的創(chuàng)建就已經(jīng)完成了。
套接字創(chuàng)建完成后,會返回一個套接字描述符給應(yīng)用程序,這個描述符相當(dāng)于是區(qū)分不同套接字的號碼牌。根據(jù)這個描述符,應(yīng)用程序在委托協(xié)議棧收發(fā)數(shù)據(jù)時就需要提供這個描述符。
套接字連接
套接字創(chuàng)建完成后,最終還是為數(shù)據(jù)收發(fā)服務(wù)的,在數(shù)據(jù)收發(fā)之前,還需要進(jìn)行一步 connect,也就是建立連接的過程。這個連接并不是真實(shí)的連接:用一根水管插在兩個電腦之間。
而是應(yīng)用程序通過 TCP/IP 協(xié)議標(biāo)準(zhǔn)從一個主機(jī)通過網(wǎng)絡(luò)介質(zhì)傳輸?shù)搅硪粋€主機(jī)的過程。
套接字剛剛創(chuàng)建完成后,還沒有數(shù)據(jù),也不知道通信對象。在這種狀態(tài)下,即使你讓客戶端應(yīng)用程序委托協(xié)議棧發(fā)送數(shù)據(jù),它也不知道發(fā)送到哪里。所以瀏覽器需要根據(jù)網(wǎng)址來查詢服務(wù)器的 IP 地址,做這項(xiàng)工作的協(xié)議是 DNS,查詢到目標(biāo)主機(jī)后,再把目標(biāo)主機(jī)的 IP 告訴協(xié)議棧,至此,客戶端這邊就準(zhǔn)備好了。
在服務(wù)器上,與客戶端一樣也需要創(chuàng)建套接字,但是同樣的它也不知道通信對象是誰,所以我們需要讓客戶端向服務(wù)器告知客戶端的必要信息:IP 地址和端口號。
現(xiàn)在通信雙方建立連接的必要信息已經(jīng)具備,只欠一股東南風(fēng)了。通信雙方收到數(shù)據(jù)之后,還需要一塊位置來存放,這個位置就是緩沖區(qū),它是內(nèi)存的一部分,有了緩沖區(qū),就能夠進(jìn)行數(shù)據(jù)的收發(fā)操作了。
OK,現(xiàn)在客戶端想要給服務(wù)器發(fā)送一條數(shù)據(jù),該進(jìn)行哪些操作呢?
首先,客戶端應(yīng)用程序需要調(diào)用 Socket 庫中的 connect 方法,提供 socket 描述符和服務(wù)器 IP 地址、端口號。
- connect(<描述符>、<服務(wù)器IP地址和端口號>)
這些信息會傳遞給協(xié)議棧中的 TCP 模塊,TCP 模塊會對請求報(bào)文進(jìn)行封裝,再傳遞給 IP 模塊,進(jìn)行 IP 報(bào)文頭的封裝,然后傳遞給物理層,進(jìn)行幀頭封裝,之后通過網(wǎng)絡(luò)介質(zhì)傳遞給服務(wù)器,服務(wù)器上會對幀頭、IP 模塊、TCP 模塊的報(bào)文頭進(jìn)行解析,從而找到對應(yīng)的套接字,套接字收到請求后,會寫入相應(yīng)的信息,并且把狀態(tài)改為正在連接。請求過程完成后,服務(wù)器的 TCP 模塊會返回響應(yīng),這個過程和客戶端是一樣的(如果大家不太清楚報(bào)文頭的封裝過程,可以閱讀筆者的這篇文章 TCP/IP 基礎(chǔ)知識總結(jié))
在一個完整的請求和響應(yīng)過程中,控制信息起到非常關(guān)鍵的作用(具體的作用我們后面會說)。
- SYN 就是同步的縮寫,客戶端會首先發(fā)送 SYN 數(shù)據(jù)包,請求服務(wù)端建立連接。
- ACK 就是相應(yīng)的意思,它是對發(fā)送 SYN 數(shù)據(jù)包的響應(yīng)。
- FIN 是終止的意思,它表示客戶端/服務(wù)器想要終止連接。
由于網(wǎng)絡(luò)環(huán)境的復(fù)雜多變,經(jīng)常會存在數(shù)據(jù)包丟失的情況,所以雙方通信時需要相互確認(rèn)對方的數(shù)據(jù)包是否已經(jīng)到達(dá),而判斷的標(biāo)準(zhǔn)就是 ACK 的值。
(通信雙方連接的建立會經(jīng)過三次握手流程,對三次握手詳細(xì)的介紹可以閱讀筆者的這篇文章 TCP 基礎(chǔ)知識)
當(dāng)所有建立連接的報(bào)文都能夠正常收發(fā)之后,此時套接字就已經(jīng)進(jìn)入可收發(fā)狀態(tài)了,此時可以認(rèn)為用一根管理把兩個套接字連接了起來。當(dāng)然,實(shí)際上并不存在這個管子。建立連接之后,協(xié)議棧的連接操作就結(jié)束了,也就是說 connect 已經(jīng)執(zhí)行完畢,控制流程被交回給應(yīng)用程序。
收發(fā)數(shù)據(jù)
當(dāng)控制流程從 connect 回到應(yīng)用程序之后,接下來就會直接進(jìn)入數(shù)據(jù)收發(fā)階段,數(shù)據(jù)收發(fā)操作是從應(yīng)用程序調(diào)用 write 將要發(fā)送的數(shù)據(jù)交給協(xié)議棧開始的,協(xié)議棧收到數(shù)據(jù)之后執(zhí)行發(fā)送操作。
協(xié)議棧不會關(guān)心應(yīng)用程序傳輸過來的是什么數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)最終都會轉(zhuǎn)換為二進(jìn)制序列,協(xié)議棧在收到數(shù)據(jù)之后并不會馬上把數(shù)據(jù)發(fā)送出去,而是會將數(shù)據(jù)放在發(fā)送緩沖區(qū),再等待應(yīng)用程序發(fā)送下一條數(shù)據(jù)。
為什么收到數(shù)據(jù)包不會直接發(fā)送出去,而是放在緩沖區(qū)中呢?
因?yàn)橹灰坏┦盏綌?shù)據(jù)就會發(fā)送,就有可能發(fā)送大量的小數(shù)據(jù)包,導(dǎo)致網(wǎng)絡(luò)效率下降。所以協(xié)議棧需要將數(shù)據(jù)積攢到一定數(shù)量才能將其發(fā)送出去。至于協(xié)議棧會向緩沖區(qū)放多少數(shù)據(jù),這個不同版本和種類的操作系統(tǒng)有不同的說法,不過,所有的操作系統(tǒng)和種類都會遵循下面這幾個標(biāo)準(zhǔn):
第一個判斷要素是每個網(wǎng)絡(luò)包能夠容納的數(shù)據(jù)長度,判斷的標(biāo)準(zhǔn)是 MTU,它表示的是一個網(wǎng)絡(luò)包的最大長度。最大長度包含頭部,所以如果單論數(shù)據(jù)區(qū)的話,就會用 MTU - 包頭長度,由此的出來的最大數(shù)據(jù)長度被稱為 MSS。
另一個判斷標(biāo)準(zhǔn)是時間,當(dāng)應(yīng)用程序產(chǎn)生的數(shù)據(jù)比較少,協(xié)議棧向緩沖區(qū)放置數(shù)據(jù)效率不高時,如果每次都等到 MSS 再發(fā)送的話,可能因?yàn)榈却龝r間太長造成延遲,在這種情況下,即使數(shù)據(jù)長度沒有到達(dá) MSS,也應(yīng)該把數(shù)據(jù)發(fā)送出去。
協(xié)議棧并沒有告訴我們怎樣平衡這兩個因素,如果數(shù)據(jù)長度優(yōu)先,那么效率有可能比較低;如果時間優(yōu)先,那又會降低網(wǎng)絡(luò)的效率。
經(jīng)過了一段時間。。。。。。
假設(shè)我們使用的是長度有限法則,此時緩沖區(qū)已滿,協(xié)議棧要發(fā)送數(shù)據(jù)了,協(xié)議棧剛要把數(shù)據(jù)發(fā)送出去,卻發(fā)現(xiàn)無法一次性傳輸這么大數(shù)據(jù)量(相對的)的數(shù)據(jù),那怎么辦呢?
在這種情況下,發(fā)送緩沖區(qū)中的數(shù)據(jù)就會超過 MSS 的長度,發(fā)送緩沖區(qū)中的數(shù)據(jù)會以 MSS 大小為一個數(shù)據(jù)包進(jìn)行拆分,拆分出來的每塊數(shù)據(jù)都會加上 TCP,IP,以太網(wǎng)頭部,然后被放進(jìn)單獨(dú)的網(wǎng)絡(luò)包中。
到現(xiàn)在,網(wǎng)絡(luò)包已經(jīng)準(zhǔn)備好發(fā)往服務(wù)器了,但是數(shù)據(jù)發(fā)送操作還沒有結(jié)束,因?yàn)榉?wù)器還未確認(rèn)是否已經(jīng)收到網(wǎng)絡(luò)包。因此在客戶端發(fā)送數(shù)據(jù)包之后,還需要服務(wù)器進(jìn)行確認(rèn)。
TCP 模塊在拆分?jǐn)?shù)據(jù)時,會計(jì)算出網(wǎng)絡(luò)包偏移量,這個偏移量就是相對于數(shù)據(jù)從頭開始計(jì)算的第幾個字節(jié),并將算好的字節(jié)數(shù)寫在 TCP 頭部,TCP 模塊還會生成一個網(wǎng)絡(luò)包的序號(SYN),這個序號是唯一的,這個序號就是用來讓服務(wù)器進(jìn)行確認(rèn)的。
服務(wù)器會對客戶端發(fā)送過來的數(shù)據(jù)包進(jìn)行確認(rèn),確認(rèn)無誤之后,服務(wù)器會生成一個序號和確認(rèn)號(ACK)并一起發(fā)送給客戶端,客戶端確認(rèn)之后再發(fā)送確認(rèn)號給服務(wù)器。
我們來看一下實(shí)際的工作過程。
首先,客戶端在連接時需要計(jì)算出序號初始值,并將這個值發(fā)送給服務(wù)器。接下來,服務(wù)器通過這個初始值計(jì)算出 確認(rèn)號并返回給客戶端。初始值在通信過程中有可能會丟棄,因此當(dāng)服務(wù)器收到初始值后需要返回確認(rèn)號用于確認(rèn)。同時,服務(wù)器也需要計(jì)算出從服務(wù)器到客戶端方向的序號初始值,并將這個值發(fā)送給客戶端。然后,客戶端也需要根據(jù)服務(wù)器發(fā)來的初始值計(jì)算出確認(rèn)號發(fā)送給服務(wù)器,至此,連接建立完成,接下來就可以進(jìn)入數(shù)據(jù)收發(fā)階段了。
數(shù)據(jù)收發(fā)階段中,通信雙方可以同時發(fā)送請求和響應(yīng),雙方也可以同時對請求進(jìn)行確認(rèn)。
請求 - 確認(rèn)機(jī)制非常強(qiáng)大,通過這一機(jī)制,我們可以確認(rèn)接收方有沒有收到某個包,如果沒有收到則重新發(fā)送,這樣一來,但凡網(wǎng)絡(luò)中出現(xiàn)的任何錯誤,我們都可以即使發(fā)現(xiàn)并補(bǔ)救。
網(wǎng)卡、集線器、路由器都沒有錯誤補(bǔ)救機(jī)制,一旦檢測到錯誤就會直接丟棄數(shù)據(jù)包,應(yīng)用程序也沒有這種機(jī)制,起作用的只是 TCP/IP 模塊。
由于網(wǎng)絡(luò)環(huán)境復(fù)雜多變,所以數(shù)據(jù)包會存在丟失情況,因此發(fā)送序號和確認(rèn)號也存在一定規(guī)則,TCP 會通過窗口管理確認(rèn)號,我們這篇文章不再贅述,大家可以閱讀筆者的這篇文章 TCP 基礎(chǔ)知識 來尋找答案。
斷開連接
當(dāng)通信雙方不再需要收發(fā)數(shù)據(jù)時,需要斷開連接。不同的應(yīng)用程序斷開連接的時機(jī)不同。以 Web 為例,瀏覽器向 Web 服務(wù)器發(fā)送請求消息,Web 服務(wù)器再返回響應(yīng)消息,這時收發(fā)數(shù)據(jù)就全部結(jié)束了,服務(wù)器可能會首先發(fā)起斷開響應(yīng),當(dāng)然客戶端也有可能會首先發(fā)起(誰先斷開連接是應(yīng)用程序做出的判斷),與協(xié)議棧無關(guān)。
無論哪一方發(fā)起斷開連接的請求,都會調(diào)用 Socket 庫的 close 程序。我們以服務(wù)器斷開連接為例,服務(wù)器發(fā)起斷開連接請求,協(xié)議棧會生成斷開連接的 TCP 頭部,其實(shí)就是設(shè)置 FIN 位,然后委托 IP 模塊向客戶端發(fā)送數(shù)據(jù),與此同時,服務(wù)器的套接字會記錄下斷開連接的相關(guān)信息。
收到服務(wù)器發(fā)來 FIN 請求后,客戶端協(xié)議棧會將套接字標(biāo)記為斷開連接狀態(tài),然后,客戶端會向服務(wù)器返回一個確認(rèn)號,這是斷開連接的第一步,在這一步之后,應(yīng)用程序還會調(diào)用 read 來讀取數(shù)據(jù)。等到服務(wù)器數(shù)據(jù)發(fā)送完成后,協(xié)議棧會通知客戶端應(yīng)用程序數(shù)據(jù)已經(jīng)接收完畢。
只要收到服務(wù)器返回的所有數(shù)據(jù),客戶端就會調(diào)用 close 程序來結(jié)束收發(fā)操作,這時客戶端會生成一個 FIN 發(fā)送給服務(wù)器,一段時間后服務(wù)器返回 ACK 號,至此,客戶端和服務(wù)器的通信就結(jié)束了。
刪除套接字
通信完成后,用來通信的套接字就不再會使用了,此時我們就可以刪除這個套接字了。不過,這時候套接字不會馬上刪除,而是等過一段時間再刪除。
等待這段時間是為了防止誤操作,最常見的誤操作就是客戶端返回的確認(rèn)號丟失,至于等待多長時間,和數(shù)據(jù)包重傳的方式有關(guān)。
本文轉(zhuǎn)載自微信公眾號「程序員cxuan」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系程序員cxuan公眾號。




































