Linux網(wǎng)絡(luò) - 數(shù)據(jù)包的發(fā)送過(guò)程
繼上一篇介紹了數(shù)據(jù)包的接收過(guò)程后,本文將介紹在Linux系統(tǒng)中,數(shù)據(jù)包是如何一步一步從應(yīng)用程序到網(wǎng)卡并最終發(fā)送出去的。
如果英文沒(méi)有問(wèn)題,強(qiáng)烈建議閱讀后面參考里的文章,里面介紹的更詳細(xì)。
本文只討論以太網(wǎng)的物理網(wǎng)卡,并且以一個(gè)UDP包的發(fā)送過(guò)程作為示例,由于本人對(duì)協(xié)議棧的代碼不熟,有些地方可能理解有誤,歡迎指正
socket層
- +-------------+
- | Application |
- +-------------+
- |
- |
- ↓
- +------------------------------------------+
- | socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP) |
- +------------------------------------------+
- |
- |
- ↓
- +-------------------+
- | sendto(sock, ...) |
- +-------------------+
- |
- |
- ↓
- +--------------+
- | inet_sendmsg |
- +--------------+
- |
- |
- ↓
- +---------------+
- | inet_autobind |
- +---------------+
- |
- |
- ↓
- +-----------+
- | UDP layer |
- +-----------+
- socket(...): 創(chuàng)建一個(gè)socket結(jié)構(gòu)體,并初始化相應(yīng)的操作函數(shù),由于我們定義的是UDP的socket,所以里面存放的都是跟UDP相關(guān)的函數(shù)
- sendto(sock, ...): 應(yīng)用層的程序(Application)調(diào)用該函數(shù)開(kāi)始發(fā)送數(shù)據(jù)包,該函數(shù)數(shù)會(huì)調(diào)用后面的inet_sendmsg
- inet_sendmsg: 該函數(shù)主要是檢查當(dāng)前socket有沒(méi)有綁定源端口,如果沒(méi)有的話,調(diào)用inet_autobind分配一個(gè),然后調(diào)用UDP層的函數(shù)
- inet_autobind: 該函數(shù)會(huì)調(diào)用socket上綁定的get_port函數(shù)獲取一個(gè)可用的端口,由于該socket是UDP的socket,所以get_port函數(shù)會(huì)調(diào)到UDP代碼里面的相應(yīng)函數(shù)。
UDP層
- |
- |
- ↓
- +-------------+
- | udp_sendmsg |
- +-------------+
- |
- |
- ↓
- +----------------------+
- | ip_route_output_flow |
- +----------------------+
- |
- |
- ↓
- +-------------+
- | ip_make_skb |
- +-------------+
- |
- |
- ↓
- +------------------------+
- | udp_send_skb(skb, fl4) |
- +------------------------+
- |
- |
- ↓
- +----------+
- | IP layer |
- +----------+
- udp_sendmsg: udp模塊發(fā)送數(shù)據(jù)包的入口,該函數(shù)較長(zhǎng),在該函數(shù)中會(huì)先調(diào)用ip_route_output_flow獲取路由信息(主要包括源IP和網(wǎng)卡),然后調(diào)用ip_make_skb構(gòu)造skb結(jié)構(gòu)體,***將網(wǎng)卡的信息和該skb關(guān)聯(lián)。
- ip_route_output_flow: 該函數(shù)會(huì)根據(jù)路由表和目的IP,找到這個(gè)數(shù)據(jù)包應(yīng)該從哪個(gè)設(shè)備發(fā)送出去,如果該socket沒(méi)有綁定源IP,該函數(shù)還會(huì)根據(jù)路由表找到一個(gè)最合適的源IP給它。 如果該socket已經(jīng)綁定了源IP,但根據(jù)路由表,從這個(gè)源IP對(duì)應(yīng)的網(wǎng)卡沒(méi)法到達(dá)目的地址,則該包會(huì)被丟棄,于是數(shù)據(jù)發(fā)送失敗,sendto函數(shù)將返回錯(cuò)誤。該函數(shù)***會(huì)將找到的設(shè)備和源IP塞進(jìn)flowi4結(jié)構(gòu)體并返回給udp_sendmsg
- ip_make_skb: 該函數(shù)的功能是構(gòu)造skb包,構(gòu)造好的skb包里面已經(jīng)分配了IP包頭,并且初始化了部分信息(IP包頭的源IP就在這里被設(shè)置進(jìn)去),同時(shí)該函數(shù)會(huì)調(diào)用__ip_append_dat,如果需要分片的話,會(huì)在__ip_append_data函數(shù)中進(jìn)行分片,同時(shí)還會(huì)在該函數(shù)中檢查socket的send buffer是否已經(jīng)用光,如果被用光的話,返回ENOBUFS
- udp_send_skb(skb, fl4) 主要是往skb里面填充UDP的包頭,同時(shí)處理checksum,然后調(diào)用IP層的相應(yīng)函數(shù)。
IP層
- |
- |
- ↓
- +-------------+
- | ip_send_skb |
- +-------------+
- |
- |
- ↓
- +-------------------+ +-------------------+ +---------------+
- | __ip_local_out_sk |------>| NF_INET_LOCAL_OUT |------>| dst_output_sk |
- +-------------------+ +-------------------+ +---------------+
- |
- |
- ↓
- +------------------+ +----------------------+ +-----------+
- | ip_finish_output |<-------| NF_INET_POST_ROUTING |<------| ip_output |
- +------------------+ +----------------------+ +-----------+
- |
- |
- ↓
- +-------------------+ +------------------+ +----------------------+
- | ip_finish_output2 |----->| dst_neigh_output |------>| neigh_resolve_output |
- +-------------------+ +------------------+ +----------------------+
- |
- |
- ↓
- +----------------+
- | dev_queue_xmit |
- +----------------+
- ip_send_skb: IP模塊發(fā)送數(shù)據(jù)包的入口,該函數(shù)只是簡(jiǎn)單的調(diào)用一下后面的函數(shù)
- __ip_local_out_sk: 設(shè)置IP報(bào)文頭的長(zhǎng)度和checksum,然后調(diào)用下面netfilter的鉤子
- NF_INET_LOCAL_OUT: netfilter的鉤子,可以通過(guò)iptables來(lái)配置怎么處理該數(shù)據(jù)包,如果該數(shù)據(jù)包沒(méi)被丟棄,則繼續(xù)往下走
- dst_output_sk: 該函數(shù)根據(jù)skb里面的信息,調(diào)用相應(yīng)的output函數(shù),在我們UDP IPv4這種情況下,會(huì)調(diào)用ip_output
- ip_output: 將上面udp_sendmsg得到的網(wǎng)卡信息寫(xiě)入skb,然后調(diào)用NF_INET_POST_ROUTING的鉤子
- NF_INET_POST_ROUTING: 在這里,用戶有可能配置了SNAT,從而導(dǎo)致該skb的路由信息發(fā)生變化
- ip_finish_output: 這里會(huì)判斷經(jīng)過(guò)了上一步后,路由信息是否發(fā)生變化,如果發(fā)生變化的話,需要重新調(diào)用dst_output_sk(重新調(diào)用這個(gè)函數(shù)時(shí),可能就不會(huì)再走到ip_output,而是走到被netfilter指定的output函數(shù)里,這里有可能是xfrm4_transport_output),否則往下走
- ip_finish_output2: 根據(jù)目的IP到路由表里面找到下一跳(nexthop)的地址,然后調(diào)用__ipv4_neigh_lookup_noref去arp表里面找下一跳的neigh信息,沒(méi)找到的話會(huì)調(diào)用__neigh_create構(gòu)造一個(gè)空的neigh結(jié)構(gòu)體
- dst_neigh_output: 在該函數(shù)中,如果上一步ip_finish_output2沒(méi)得到neigh信息,那么將會(huì)走到函數(shù)neigh_resolve_output中,否則直接調(diào)用neigh_hh_output,在該函數(shù)中,會(huì)將neigh信息里面的mac地址填到skb中,然后調(diào)用dev_queue_xmit發(fā)送數(shù)據(jù)包
- neigh_resolve_output: 該函數(shù)里面會(huì)發(fā)送arp請(qǐng)求,得到下一跳的mac地址,然后將mac地址填到skb中并調(diào)用dev_queue_xmit
netdevice子系統(tǒng)
- |
- |
- ↓
- +----------------+
- +----------------| dev_queue_xmit |
- | +----------------+
- | |
- | |
- | ↓
- | +-----------------+
- | | Traffic Control |
- | +-----------------+
- | loopback |
- | or +--------------------------------------------------------------+
- | IP tunnels ↓ |
- | ↓ |
- | +---------------------+ Failed +----------------------+ +---------------+
- +----------->| dev_hard_start_xmit |---------->| raise NET_TX_SOFTIRQ |- - - - >| net_tx_action |
- +---------------------+ +----------------------+ +---------------+
- |
- +----------------------------------+
- | |
- ↓ ↓
- +----------------+ +------------------------+
- | ndo_start_xmit | | packet taps(AF_PACKET) |
- +----------------+ +------------------------+
- dev_queue_xmit: netdevice子系統(tǒng)的入口函數(shù),在該函數(shù)中,會(huì)先獲取設(shè)備對(duì)應(yīng)的qdisc,如果沒(méi)有的話(如loopback或者IP tunnels),就直接調(diào)用dev_hard_start_xmit,否則數(shù)據(jù)包將經(jīng)過(guò)Traffic Control模塊進(jìn)行處理
- Traffic Control: 這里主要是進(jìn)行一些過(guò)濾和優(yōu)先級(jí)處理,在這里,如果隊(duì)列滿了的話,數(shù)據(jù)包會(huì)被丟掉,詳情請(qǐng)參考文檔,這步完成后也會(huì)走到dev_hard_start_xmit
- dev_hard_start_xmit: 該函數(shù)中,首先是拷貝一份skb給“packet taps”,tcpdump就是從這里得到數(shù)據(jù)的,然后調(diào)用ndo_start_xmit。如果dev_hard_start_xmit返回錯(cuò)誤的話(大部分情況可能是NETDEV_TX_BUSY),調(diào)用它的函數(shù)會(huì)把skb放到一個(gè)地方,然后拋出軟中斷NET_TX_SOFTIRQ,交給軟中斷處理程序net_tx_action稍后重試(如果是loopback或者IP tunnels的話,失敗后不會(huì)有重試的邏輯)
- ndo_start_xmit: 這是一個(gè)函數(shù)指針,會(huì)指向具體驅(qū)動(dòng)發(fā)送數(shù)據(jù)的函數(shù)
Device Driver
ndo_start_xmit會(huì)綁定到具體網(wǎng)卡驅(qū)動(dòng)的相應(yīng)函數(shù),到這步之后,就歸網(wǎng)卡驅(qū)動(dòng)管了,不同的網(wǎng)卡驅(qū)動(dòng)有不同的處理方式,這里不做詳細(xì)介紹,其大概流程如下:
- 將skb放入網(wǎng)卡自己的發(fā)送隊(duì)列
- 通知網(wǎng)卡發(fā)送數(shù)據(jù)包
- 網(wǎng)卡發(fā)送完成后發(fā)送中斷給CPU
- 收到中斷后進(jìn)行skb的清理工作
在網(wǎng)卡驅(qū)動(dòng)發(fā)送數(shù)據(jù)***程中,會(huì)有一些地方需要和netdevice子系統(tǒng)打交道,比如網(wǎng)卡的隊(duì)列滿了,需要告訴上層不要再發(fā)了,等隊(duì)列有空閑的時(shí)候,再通知上層接著發(fā)數(shù)據(jù)。
其它
- SO_SNDBUF: 從上面的流程中可以看出來(lái),對(duì)于UDP來(lái)說(shuō),沒(méi)有一個(gè)對(duì)應(yīng)send buffer存在,SO_SNDBUF只是一個(gè)限制,當(dāng)這個(gè)socket分配的skb占用的內(nèi)存超過(guò)這個(gè)值的時(shí)候,會(huì)返回ENOBUFS,所以說(shuō)只要不出現(xiàn)ENOBUFS錯(cuò)誤,把這個(gè)值調(diào)大沒(méi)有意義。從sendto函數(shù)的幫助文件里面看到這樣一句話:(Normally, this does not occur in Linux. Packets are just silently dropped when a device queue overflows.)。這里的device queue應(yīng)該指的是Traffic Control里面的queue,說(shuō)明在linux里面,默認(rèn)的SO_SNDBUF值已經(jīng)夠queue用了,疑問(wèn)的地方是,queue的長(zhǎng)度和個(gè)數(shù)是可以配置的,如果配置太大的話,按道理應(yīng)該有可能會(huì)出現(xiàn)ENOBUFS的情況。
- txqueuelen: 很多地方都說(shuō)這個(gè)是控制qdisc里queue的長(zhǎng)度的,但貌似只是部分類型的qdisc用了該配置,如linux默認(rèn)的pfifo_fast。
- hardware RX: 一般網(wǎng)卡都有一個(gè)自己的ring queue,這個(gè)queue的大小可以通過(guò)ethtool來(lái)配置,當(dāng)驅(qū)動(dòng)收到發(fā)送請(qǐng)求時(shí),一般是放到這個(gè)queue里面,然后通知網(wǎng)卡發(fā)送數(shù)據(jù),當(dāng)這個(gè)queue滿的時(shí)候,會(huì)給上層調(diào)用返回NETDEV_TX_BUSY
- packet taps(AF_PACKET): 當(dāng)***次發(fā)送數(shù)據(jù)包和重試發(fā)送數(shù)據(jù)包時(shí),都會(huì)經(jīng)過(guò)這里,如果發(fā)生重試的情況的話,不確定tcpdump是否會(huì)抓到兩次包,按道理應(yīng)該不會(huì),可能是我哪里沒(méi)看懂
參考



























