偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Linux高性能網(wǎng)絡(luò)編程十談 | 網(wǎng)絡(luò)篇

系統(tǒng) Linux
最近又到了面試季,高性能網(wǎng)絡(luò)編程對于后端程序猿是必備的知識考點,于是為了方便大家(也方便自己),整理了高性能網(wǎng)絡(luò)編程十談,本篇是網(wǎng)絡(luò)篇,主要介紹一些通用的網(wǎng)絡(luò)知識,溫故知新。

最近又到了面試季,高性能網(wǎng)絡(luò)編程對于后端程序猿是必備的知識考點,于是為了方便大家(也方便自己),整理了高性能網(wǎng)絡(luò)編程十談,本篇是網(wǎng)絡(luò)篇,主要介紹一些通用的網(wǎng)絡(luò)知識,溫故知新。

第一部分:tcp/ip協(xié)議棧之ip協(xié)議棧詳解

1、tcp/ip協(xié)議棧分為四層

或者七層,但是便于大家理解,基本上都是用四層模型,如:數(shù)據(jù)鏈路層,網(wǎng)絡(luò)層,傳輸層和應(yīng)用層。

其中封包的流程是:

應(yīng)用層數(shù)據(jù) --->  
tcp/udp頭部(20字節(jié)) + 應(yīng)用層數(shù)據(jù) --->  
ip頭部(20字節(jié)) + tcp/udp頭部(20字節(jié)) + 應(yīng)用層數(shù)據(jù) --->  
以太網(wǎng)頭部(18字節(jié)) + ip頭部(20字節(jié)) + tcp/udp頭部(20字節(jié)) + 應(yīng)用層數(shù)據(jù)

這些數(shù)據(jù)每一個頭部都有自己的協(xié)議,并發(fā)送到對端模塊進行解析,其中對于發(fā)送數(shù)據(jù)大小的要求是有相應(yīng)的限制,在以太網(wǎng)這一層數(shù)據(jù)必須46字節(jié)-1500字節(jié)之間,不足的情況下填充數(shù)據(jù),超過的情況下拆分ip包數(shù)據(jù);

2、arp協(xié)議工作原理

主機向自己所在的網(wǎng)絡(luò)廣播一個arp請求,請求獲取目標(biāo)ip地址的物理地址,請求發(fā)出后所在的網(wǎng)絡(luò)(局域網(wǎng))都會收到這個請求,當(dāng)匹配該ip請求的機器就主動回包含自己物理地址;

3、dns解析原理

tcpdump抓包(tcpdump -i eth0 -nt -s 500 port domain):  
08:41:28.266682 IP 192.168.1.100.51468 > 202.96.134.33.53: 42940+ A? www.google.com.hk. (35)  
08:41:28.271805 IP 202.96.134.33.53 > 192.168.1.100.51468: 42940 1/0/0 A 93.46.8.89 (51)  
08:41:29.827625 IP 192.168.1.100.13671 > 202.96.134.33.53: 14422+ A? sp0.baidu.com. (31)  
08:41:29.827843 IP 192.168.1.100.29083 > 202.96.134.33.53: 4498+ A? ss1.baidu.com. (31)  
08:41:29.828060 IP 192.168.1.100.38240 > 202.96.134.33.53: 35663+ A? ss2.baidu.com. (31)  
08:41:29.828341 IP 192.168.1.100.11330 > 202.96.134.33.53: 42502+ A? www.baidu.com. (31)  
08:41:29.828513 IP 192.168.1.100.21489 > 202.96.134.33.53: 20283+ A? ss0.baidu.com. (31)  
08:41:29.828710 IP 192.168.1.100.37763 > 202.96.134.33.53: 6612+ A? ss1.bdstatic.com. (34)  
08:41:29.838009 IP 202.96.134.33.53 > 192.168.1.100.11330: 42502 2/0/0 A 14.215.177.38, A 14.215.177.37 (63) 
08:41:29.839022 IP 202.96.134.33.53 > 192.168.1.100.13671: 14422 2/0/0 A 14.215.177.37, A 14.215.177.38 (63)

dns是udp協(xié)議,192.168.1.100發(fā)送dns解析,42940是dns查詢標(biāo)示,+是采用遞歸查詢,A?是使用A類查詢(A方式是查找ip,CNAME方式是查詢主機別名,PTR是反向查詢)。

202.96.134.33.53回包解析42940是發(fā)送dns解析的標(biāo)示,1/0/0是1個應(yīng)答資源,0個授權(quán)資源記錄和0個額外信息記錄,A是A類查詢返回,93.46.8.89是返回www.google.com.hk域名的ip地址;

4、ip協(xié)議

ip是無連接,無狀態(tài),不可靠的協(xié)議,是tcp/udp的動力,決定了路由和轉(zhuǎn)發(fā)的功能,ipv4的頭部結(jié)構(gòu)如下:

4位版本

4位頭部

8位服務(wù)類型(TOS)

16位總長度

16位標(biāo)識


3位標(biāo)志

13位偏移量


8位生存時間

8位協(xié)議

16位頭部校驗


32位源端地址

32位目標(biāo)地址

最后是選項字段:最多40個字節(jié)

重點介紹字段:

TOS字段分別表示最小延時,最大吞吐量,最高可靠性和最小費用;
16位總長度指整個ip數(shù)據(jù)的長度;

8位的TTL生存時間指數(shù)據(jù)包到目的地之前允許經(jīng)過的路由跳數(shù),數(shù)據(jù)報在轉(zhuǎn)發(fā)的過程中每次經(jīng)過一個路由都會-1,當(dāng)TTL為0時,路由器將其丟棄,并向源端發(fā)送icmp的差錯報文;

5、ip分片和轉(zhuǎn)發(fā)

當(dāng)ip數(shù)據(jù)報的長度超過幀的MTU時,將會被分片,其中分片可能會發(fā)生在發(fā)送端,也可能路由轉(zhuǎn)發(fā)階段;

一個ip數(shù)據(jù)報每個分片具有自己的ip頭部,相同的標(biāo)識值,但是具有不同偏移量,并且了最后一個分片不帶有MF標(biāo)志,其他的分片都帶有MF標(biāo)志。下面看一個抓包的例子,ping的數(shù)據(jù)包,協(xié)議是icmp,命令ping www.baidu.com -s 1473[發(fā)送1473個數(shù)據(jù)信息]:

IP (tos 0x0, ttl 64, id 4454, offset 0, flags [+], proto ICMP (1), length 1500)
    192.168.1.100 > 14.215.177.37: ICMP echo request, id 51842, seq 2, length 1480
IP (tos 0x0, ttl 64, id 4454, offset 1480, flags [none], proto ICMP (1), length 21)
    192.168.1.100 > 14.215.177.37: ip-proto-1

從以上包可以分析:

tos:最小延時;

ttl:64跳;

id:4454標(biāo)識相同;

offset:偏移量分別是0和1480,將icmp分片1500(20個ip報頭,8個icmp報頭,1472數(shù)據(jù))和21(20個ip報頭,1個icmp數(shù)據(jù),由于下一個數(shù)據(jù)報不需要攜帶icmp的數(shù)據(jù)報頭);

本小節(jié)還有一個知識點是ip數(shù)據(jù)報在主機上的轉(zhuǎn)發(fā),主機一般都不轉(zhuǎn)發(fā),不過可以設(shè)置echo 1 > /proc/sys/net/ipv4/ip_forward,那么轉(zhuǎn)發(fā)邏輯如下:

1、檢查數(shù)據(jù)報頭部的ttl,如果為0則丟棄該數(shù)據(jù)包;

2、查看數(shù)據(jù)報頭部的嚴(yán)格路由選擇項,如果該項被設(shè)置,則檢測數(shù)據(jù)報的目標(biāo)地址是否為本機的ip,如果不是,則發(fā)送icmp源站選路失敗報文給發(fā)送端;

3、如果有必要,則給源端發(fā)送icmp的重定向報文,告訴下一跳ip路由器;

4、將ttl值減1,同時處理其他ip頭部選項;

5、如果包超過當(dāng)前路由器的MTU,則進行ip分片操作;

6、ipv6頭部結(jié)構(gòu)

ipv6協(xié)議是為了解決ipv4不夠用的情況,同時增加很多功能,如多播和流功能等,ipv6的頭部結(jié)構(gòu)如下(40字節(jié)+可變頭部):

4位版本

8位頭部協(xié)議

20位流標(biāo)簽

16位長度

8位下一個包頭

8位生存時間

128位源端ip地址

128位目標(biāo)端ip地址

擴展數(shù)據(jù)

重點介紹字段:

20位流標(biāo)簽是ipv6新增字段,用于對于某些對連接服務(wù)質(zhì)量有特殊要求的通信;

ipv6提供了多種擴展數(shù)據(jù),如認(rèn)證頭部和加密頭部等;

第二部分:tcp/ip協(xié)議棧之tcp協(xié)議棧詳解

tcp協(xié)議在我們的應(yīng)用中非常重要,本小節(jié)主要從四方面討論tcp協(xié)議:

1)tcp的頭部協(xié)議,每個tcp報文都包含20字節(jié)的頭部字節(jié),指定四元組(目的ip,目的端口,源ip,源端口);

2)tcp的狀態(tài)轉(zhuǎn)移,tcp從三次握手到四次揮手過程中狀態(tài)跳變,如深入理解有助于排查網(wǎng)絡(luò)問題;

3)tcp的數(shù)據(jù)流,包括交互數(shù)據(jù)流,成塊數(shù)據(jù)和緊急數(shù)據(jù);

4)tcp數(shù)據(jù)流的控制,為了保障可靠傳輸和網(wǎng)絡(luò)質(zhì)量,內(nèi)核對tcp數(shù)據(jù)進行控制,包括超時重傳和擁塞控制;

1、tcp數(shù)據(jù)特點

tcp傳輸是可靠的,首先協(xié)議采用應(yīng)答機制,即對發(fā)送端的每個數(shù)據(jù)報都必須得到對端的應(yīng)答確認(rèn),才認(rèn)為本次報文傳輸成功;
其次tcp采用超時重傳,發(fā)送端在發(fā)送數(shù)據(jù)后就啟動定時器,如果在定時時間內(nèi)未收到應(yīng)答,將重發(fā)該數(shù)據(jù)報;
最后tcp報文最終以ip數(shù)據(jù)報發(fā)送,而ip數(shù)據(jù)報是無序或重復(fù)的,那么tcp協(xié)議需要對ip層來的數(shù)據(jù)進行重排和丟棄等操作;

2、tcp的頭部結(jié)構(gòu)

16位的源端口

16位流標(biāo)簽

32位的序號

32位的確認(rèn)號

4位頭部長度

標(biāo)識位

16位校驗和

16位緊急指針

選項數(shù)據(jù),最多40字節(jié)

32位的序號:一次tcp通訊過程中某個傳輸方向上字節(jié)流的每個字節(jié)的編號,初始化階段為一個隨機值,后續(xù)的tcp報中的序號設(shè)置為初始值+該報文在所攜帶的數(shù)據(jù)的第一個字節(jié)在整個字節(jié)流的偏移量;

32位的確認(rèn)號:是對端的32位的序號+1;

4位頭部長度:標(biāo)識tcp頭部32個字節(jié)的大小,由于只有4位,所以tcp頭部最長位60字節(jié);

6位標(biāo)識:URG(緊急指針),ACK(確認(rèn)包),PSH(數(shù)據(jù)包),SYN(建立連接包),F(xiàn)IN(關(guān)閉連接包);

16位窗口大小:指接受通告窗口大小,告訴對端tcp本端接受緩沖區(qū)的數(shù)據(jù)大小,讓對端控制發(fā)送速度;

16位校驗和:tcp的報文crc校驗;

16位緊急指針:序號字段的值+該值的下一個字節(jié)表示緊急數(shù)據(jù)的偏移量;

選項數(shù)據(jù):在后續(xù)的博客中再詳細(xì)介紹;

具體的數(shù)據(jù)報樣例:

19:23:14.767712 IP 192.168.1.100.61976 > 139.129.212.166.http: Flags [S], seq 2580028945, win 65535, options [mss 1460,nop,wscale 5,nop,nop,TS val 1032935471 ecr 0,sackOK,eol], length 0
19:23:14.823856 IP 139.129.212.166.http > 192.168.1.100.61976: Flags [S.], seq 3491427708, ack 2580028946, win 14480, options [mss 1360,sackOK,TS val 3615337495 ecr 1032935471,nop,wscale 7], length 0
19:23:14.823905 IP 192.168.1.100.61976 > 139.129.212.166.http: Flags [.], ack 1, win 4128, options [nop,nop,TS val 1032935521 ecr 3615337495], length 0
19:23:20.376906 IP 192.168.1.100.61976 > 139.129.212.166.http: Flags [P.], seq 1:14, ack 1, win 4128, options [nop,nop,TS val 1032940499 ecr 3615337495], length 13: HTTP

說明:

上面的報文的第一條請求中看出Flags [S]表示syn包,seq序號2580028945,窗口大小65535*2^5(需要計算options中的wscale 5擴大因子選項),options是選項字段;

第二條請求是回包數(shù)據(jù),F(xiàn)lags [S.]表示syn,ack包,seq序號3491427708,ack確認(rèn)序號2580028945+1,窗口大小14480*2^7(需要計算options中的wscale 7擴大因子選項),options是選項字段;

3、tcp的狀態(tài)轉(zhuǎn)移

tcp在建立連接和斷開連接分別要經(jīng)過三次握手和四次揮手,那么都會有相應(yīng)的服務(wù)器端口狀態(tài),只描述三次握手和四次揮手雙端的狀態(tài),如圖:

server狀態(tài)轉(zhuǎn)移語意:

a.服務(wù)器在listen調(diào)用進入LISTEN狀態(tài),等待客戶端連接;

b.服務(wù)器監(jiān)聽到客戶端連接,就將該連接放入內(nèi)核的等待隊列,并向客戶端發(fā)送SYN,ACK報文,進入SYN_RECVD狀態(tài),此時客戶端處于SYN_SENT階段;

c.服務(wù)器收到客戶端的ACK報文,進入ESTABLISHED狀態(tài);

d.客戶端主動關(guān)閉連接(通過close和shutdown發(fā)送FIN包),服務(wù)器返回ACK報文后進入CLOSE_WAIT狀態(tài);

e.在服務(wù)端發(fā)送完所有數(shù)據(jù)給客戶端以后(客戶端此時只讀不寫,處于半關(guān)閉狀態(tài)),發(fā)送FIN,ACK到客戶端,進入LAST_ACK狀態(tài);

f.最后服務(wù)端收到客戶端發(fā)送ACK包后,進入CLOSED狀態(tài),關(guān)閉連接句柄; 

client狀態(tài)轉(zhuǎn)移語意:

a.客戶端通過connect連接服務(wù)器,connect失敗后直接進入CLOSED狀態(tài),連接成功進入ESTABLISHED狀態(tài);

b.客戶端向服務(wù)端發(fā)送FIN包,進入FIN_WAIT_1狀態(tài),收到服務(wù)端的確認(rèn)包進入FIN_WAIT_2狀態(tài);

c.客戶端處于FIN_WAIT_2狀態(tài),服務(wù)端處于CLOSE_WAIT狀態(tài),此時可能處于半關(guān)閉,此時服務(wù)端可以發(fā)送和接收數(shù)據(jù),但是客戶端只能接受數(shù)據(jù);

d.客戶端收到服務(wù)端的FIN,ACK包后,進入TIME_WAIT,此時客戶端要等待2MSL(報文最大生存時間的2倍,一般2min) ,可能大家比較疑惑,為什么需要TIME_WAIT狀態(tài),而且需要等2MSL呢?

TIME_WAIT狀態(tài)存在原因有兩點:

其一是可靠的中tcp連接;

其二是保證讓延遲的tcp報文有足夠的時間被識別;

客戶端在關(guān)閉連接階段需要處理收到重復(fù)的結(jié)束報文,然后回復(fù)最后的ACK給服務(wù)端,否則客戶端在收到服務(wù)端的FIN就直接回復(fù)ACK,這樣后續(xù)服務(wù)端重傳的FIN包都會被回復(fù)RESET報文,這時服務(wù)端認(rèn)為是錯誤報文,這就是第一點存在的原因;

那么第二點是為了不讓同一個tcp端口被多次打開或者是斷開以后馬上被一個新的連接接管,這樣存在數(shù)據(jù)安全和處理異常等問題,讓tcp最大時間堅持2MSL也是為了確保重發(fā)和延時的tcp包在這段時間內(nèi)被丟棄(使用端口復(fù)用采用socket選項SO_REUSEADDR);

3、tcp的數(shù)據(jù)流

往往按照正常的tcp模型,一個數(shù)據(jù)包回復(fù)一個確認(rèn)包可能不適應(yīng)某些生產(chǎn)環(huán)境,為了更好的優(yōu)化tcp模型,下面討論兩種數(shù)據(jù)交互模型:

1、交互數(shù)據(jù)流:對于實時性比較高的應(yīng)用(如telnet,ssh),每次發(fā)送一個都需要進行數(shù)據(jù)確認(rèn),但是在網(wǎng)絡(luò)不好的情況下,很多微小的數(shù)據(jù)包會導(dǎo)致?lián)砣l(fā)送,因此采用Nagle算法(在后續(xù)章節(jié)介紹)和延時確認(rèn)(即收到對端的數(shù)據(jù)包的時候,先不立即發(fā)送數(shù)據(jù)包,等到需要發(fā)送數(shù)據(jù)時候同時發(fā)出ACK包,當(dāng)然這個控制在一定時間范圍內(nèi));

2、成塊數(shù)據(jù)流:對于類似ftp協(xié)議,多次發(fā)送大量的數(shù)據(jù),接受端為了加快ACK確認(rèn)包的順序,針對多個數(shù)據(jù)包進行一次確認(rèn)或者開啟SACK(針對需要重傳的數(shù)據(jù),回復(fù)對應(yīng)的偏移指針),其中對端發(fā)送數(shù)據(jù)多次發(fā)送數(shù)據(jù)是根據(jù)接受端的窗口大小限制的,如果接受端參數(shù)win 30084,scale 6,表示還能接收3008464個字節(jié),其中一次發(fā)送16384字節(jié),那么接受端還能同時處理(3008464)/16384=106個數(shù)據(jù)包(一般不會發(fā)送這么多);

4、tcp超時重傳和擁塞控制

tcp服務(wù)必須能夠重傳超時時間內(nèi)未收到的tcp報文段。

為此,tcp模塊為每一個tcp報文都維護一個重傳定時器,linux兩個重傳相關(guān)的內(nèi)核參數(shù):/proc/sys/net/ipv4/tcp_retries1和/proc/sys/net/ipv4/tcp_retries2

前者表示tcp最少執(zhí)行重傳次數(shù),默認(rèn)為3;

后者表示tcp最多執(zhí)行重傳次數(shù),默認(rèn)為15;

tcp服務(wù)有重傳必然就會導(dǎo)致?lián)砣?,那么接下來介紹網(wǎng)絡(luò)底層如何進行擁塞控制?

擁塞控制包括四個部分:慢啟動,擁塞避免,快速重傳和快速恢復(fù);

在此之前還需要介紹窗口概念:RNWD(接收窗口,指前面tcp報文中的對端發(fā)送的win窗口),CWND(擁塞窗口,是系統(tǒng)定義的一個狀態(tài)變量大小),SWND(發(fā)送窗口,是RNWD和CWND之間的較小值);

在tcp模塊剛開始發(fā)送數(shù)據(jù)階段并不知道網(wǎng)絡(luò)的實際情況,需要試探性地增加CWND,這一過程稱為慢啟動,CWND初始值設(shè)置為2-4個MSS;然后發(fā)送端每次收到接受端的一個確認(rèn),就按照公式:

CWND += min(N, MSS)

其中N是此次確認(rèn)中包含的之前未確認(rèn)的字節(jié)數(shù);

如果隨著CWND不斷累加,不加控制會造成網(wǎng)絡(luò)擁塞,那么需要進行擁塞避免算法,界定慢啟動和擁塞避免過程通過慢啟動門限(ssthresh)控制,當(dāng)CWND超過ssthresh則進入擁塞避免階段;擁塞避免階段控制CWND是每個RTT時間都計算(如果RTT時間內(nèi)收到多少確認(rèn)包),公式:

CWND += SMSS*SMSS/CWND

這樣就保障了CWND緩慢增長,直到傳輸超時或者tcp重傳定時器溢出,就需要重新調(diào)整ssthresh,再次進入慢啟動階段,那么ssthresh計算公式:

ssthresh = max(FlightSize/2, 2MSS)

其中FlightSize已經(jīng)發(fā)送但是還未收到確認(rèn)的字節(jié)數(shù);

另外一種情況:在接受端接收到重復(fù)的確認(rèn)報文段的時候,tcp模塊如何處理?如果發(fā)送端收到3個重復(fù)的確認(rèn)報文,認(rèn)為擁塞發(fā)生,啟動快速重傳和快速恢復(fù),先計算ssthresh;

然后通過CWND = ssthresh + 3 * SMSS計算出CWND,再次每收到1個重復(fù)確認(rèn)時,設(shè)置CWND += SMSS,最后當(dāng)收到新數(shù)據(jù)的確認(rèn)時,直接設(shè)置CWND = ssthresh,這樣快速重傳和快速恢復(fù)完成,又再次進入擁塞避免階段。

5、補充知識

復(fù)位報文產(chǎn)生條件:

1、訪問不存在的端口;

2、異常中止連接,當(dāng)發(fā)送端回復(fù)一個RST報文給接受端,接受端所有的排隊等待發(fā)送的數(shù)據(jù)都將被丟棄;

3、處于半連接狀態(tài)寫入數(shù)據(jù)時候,也會回復(fù)一個RST報文;


責(zé)任編輯:華軒 來源: 周末程序猿
相關(guān)推薦

2023-11-01 11:40:46

Linux高性能網(wǎng)絡(luò)編程工具

2024-03-18 13:43:20

Linux架構(gòu)

2023-11-01 11:59:13

2023-11-01 10:58:31

系統(tǒng)調(diào)用高性能網(wǎng)絡(luò)編程Linux

2023-11-01 11:27:10

Linux協(xié)程

2023-11-01 11:51:08

Linux性能優(yōu)化

2023-11-01 11:07:05

Linux高性能網(wǎng)絡(luò)編程線程

2023-11-01 11:20:57

2023-11-01 11:13:58

Linux信號處理定時器

2023-11-01 10:43:31

Linux高性能網(wǎng)絡(luò)編程

2025-06-26 01:27:00

2010-12-22 13:19:43

Linux性能監(jiān)測網(wǎng)絡(luò)

2020-11-06 18:51:17

LinuxTCP服務(wù)器

2024-10-16 11:03:30

Linux高性能編程

2024-10-06 14:37:52

2024-08-06 08:22:18

2024-09-03 09:15:37

2025-01-06 00:00:10

2013-11-08 10:12:07

2023-10-31 18:52:29

網(wǎng)絡(luò)框架XDP技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號