探秘Linux IO虛擬化:virtio的奇幻之旅
在當(dāng)今數(shù)字化時(shí)代,虛擬化技術(shù)早已成為推動(dòng)計(jì)算機(jī)領(lǐng)域發(fā)展的重要力量。想象一下,一臺(tái)物理主機(jī)上能同時(shí)運(yùn)行多個(gè)相互隔離的虛擬機(jī),每個(gè)虛擬機(jī)都仿佛擁有自己獨(dú)立的硬件資源,這一切是如何實(shí)現(xiàn)的呢?
今天,就讓我們一起踏上這場(chǎng)充滿(mǎn)奧秘的 Linux IO 虛擬化探索之旅,而我們的主角 ——virtio,將為我們揭開(kāi)這層神秘的面紗。它是如何在虛擬化的世界里巧妙運(yùn)作,解決了 I/O 虛擬化中的諸多難題?又有著怎樣獨(dú)特的設(shè)計(jì)和實(shí)現(xiàn),讓眾多開(kāi)發(fā)者為之著迷?接下來(lái),就跟我一同深入 virtio 的奇妙世界,探尋其中的秘密。
一、Linux IO虛擬化簡(jiǎn)介
1.1虛擬化概述
在虛擬化的大家族中,Linux IO 虛擬化占據(jù)著重要的地位。它專(zhuān)注于解決虛擬機(jī)與物理硬件之間輸入 / 輸出(I/O)通信的問(wèn)題,力求打破 I/O 性能瓶頸,讓虛擬機(jī)在數(shù)據(jù)傳輸?shù)母咚俟飞蠒承袩o(wú)阻。想象一下,虛擬機(jī)就像一個(gè)個(gè)繁忙的工廠,不斷地需要原材料(輸入數(shù)據(jù))和輸出產(chǎn)品(輸出數(shù)據(jù)),而 Linux IO 虛擬化就是優(yōu)化工廠運(yùn)輸線路和裝卸流程的關(guān)鍵技術(shù),確保原材料和產(chǎn)品能夠快速、高效地進(jìn)出工廠。
而 virtio,作為 Linux IO 虛擬化領(lǐng)域的璀璨明星,發(fā)揮著舉足輕重的作用。它就像是一座堅(jiān)固的橋梁,連接著虛擬機(jī)和物理設(shè)備,為兩者之間的通信搭建了一條高效、穩(wěn)定的通道。virtio 提供了一套通用的 I/O 設(shè)備虛擬化框架,使得不同的虛擬機(jī)監(jiān)控器(Hypervisor)和設(shè)備驅(qū)動(dòng)能夠基于統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行交互,大大提高了代碼的可重用性和跨平臺(tái)性。無(wú)論你使用的是 KVM、Xen 還是其他虛擬化解決方案,virtio 都能像一位可靠的伙伴,為你提供出色的 I/O 虛擬化支持。
Virtio的好處:
- virtio作為一種Linux內(nèi)部的API,提供了多種前端驅(qū)動(dòng)模塊
- 框架通用,方便模擬各種設(shè)備
- 使用半虛擬化可以大大減少VMEXIT次數(shù),提高性能
1.2Linux IO 虛擬化
在深入了解 virtio 之前,讓我們先來(lái)回顧一下 Linux IO 虛擬化的傳統(tǒng)實(shí)現(xiàn)方式,以及它所面臨的挑戰(zhàn)。傳統(tǒng)的 Linux IO 虛擬化中,Qemu
當(dāng)客戶(hù)機(jī)中的設(shè)備驅(qū)動(dòng)程序發(fā)起 I/O 操作請(qǐng)求時(shí),整個(gè)流程就像一場(chǎng)精心編排的接力賽。KVM 模塊中的 I/O 操作捕獲代碼首先攔截這次 I/O 請(qǐng)求,就像接力賽中的第一棒選手,迅速接過(guò)請(qǐng)求的 “接力棒”。然后,它將本次 I/O 請(qǐng)求的信息存放到 I/O 共享頁(yè),并通知用戶(hù)空間的 Qemu 程序。
Qemu 模擬程序獲得 I/O 操作的具體信息之后,交由硬件模擬代碼來(lái)模擬出本次的 I/O 操作,完成之后,將結(jié)果放回到 I/O 共享頁(yè),并通知 KVM 模塊中的 I/O 操作捕獲代碼。最后,由 KVM 模塊中的捕獲代碼讀取 I/O 共享頁(yè)中的操作結(jié)果,并把結(jié)果返回客戶(hù)機(jī)中。在這個(gè)過(guò)程中,客戶(hù)機(jī)作為一個(gè) Qemu 進(jìn)程在等待 I/O 時(shí)也可能被阻塞,就像接力賽中的選手在傳遞接力棒時(shí)可能會(huì)遇到一些阻礙。
這種模擬方式雖然具有很強(qiáng)的靈活性,能夠通過(guò)軟件模擬出各種各樣的硬件設(shè)備,包括一些不常用的或很老很經(jīng)典的設(shè)備,而且不用修改客戶(hù)機(jī)操作系統(tǒng),就可以使模擬設(shè)備在客戶(hù)機(jī)中正常工作,為解決手上沒(méi)有足夠設(shè)備的軟件開(kāi)發(fā)及調(diào)試提供了很大的幫助。但它的缺點(diǎn)也很明顯,每次 I/O 操作的路徑比較長(zhǎng),有較多的 VMEntry、VMExit 發(fā)生,需要多次上下文切換,就像接力賽中選手頻繁交接接力棒,耗費(fèi)大量時(shí)間和精力。
同時(shí),也需要多次數(shù)據(jù)復(fù)制,這無(wú)疑進(jìn)一步降低了效率,導(dǎo)致其性能較差。在一些對(duì) I/O 性能要求較高的場(chǎng)景中,如大規(guī)模數(shù)據(jù)處理、實(shí)時(shí)通信等,傳統(tǒng)的 Qemu 模擬 I/O 設(shè)備的方式往往難以滿(mǎn)足需求,就像一輛老舊的汽車(chē),在高速公路上無(wú)法達(dá)到預(yù)期的速度。
隨著虛擬化技術(shù)的廣泛應(yīng)用,對(duì) I/O 性能的要求越來(lái)越高,傳統(tǒng)的 IO 虛擬化方式逐漸暴露出其局限性,這也促使了新的技術(shù) ——virtio 的出現(xiàn),它將為我們帶來(lái)怎樣的驚喜呢?讓我們繼續(xù)深入探索。
二、揭開(kāi)virtio神秘面紗
virtio,作為 Linux IO 虛擬化領(lǐng)域的關(guān)鍵技術(shù),究竟是什么呢?簡(jiǎn)單來(lái)說(shuō),virtio 是一種用于虛擬化平臺(tái)的 I/O 虛擬化標(biāo)準(zhǔn) ,它就像是一個(gè)智能的翻譯官,讓虛擬機(jī)和宿主系統(tǒng)能夠順暢地交流。它由 Rusty Russell 開(kāi)發(fā),最初是為了支持自己的虛擬化解決方案 lguest。在半虛擬化的世界里,virtio 扮演著至關(guān)重要的角色,它是對(duì)一組通用模擬設(shè)備的抽象,就像一個(gè)萬(wàn)能的模具,可以根據(jù)不同的需求塑造出各種虛擬設(shè)備。
在半虛擬化的架構(gòu)中,來(lái)賓操作系統(tǒng)(也就是虛擬機(jī)中的操作系統(tǒng))需要與 Hypervisor(虛擬機(jī)監(jiān)視器)進(jìn)行緊密的合作 。而 virtio 就像是一座橋梁,連接著來(lái)賓操作系統(tǒng)和 Hypervisor。它提供了一組通用的接口,讓來(lái)賓操作系統(tǒng)能夠以一種標(biāo)準(zhǔn)化的方式與 Hypervisor 進(jìn)行交互。這樣一來(lái),不同的虛擬化平臺(tái)就可以基于 virtio 實(shí)現(xiàn)統(tǒng)一的 I/O 虛擬化,大大提高了開(kāi)發(fā)效率和兼容性。想象一下,有了 virtio 這座橋梁,不同的虛擬化平臺(tái)就像不同語(yǔ)言的人,通過(guò) virtio 這個(gè)翻譯官,能夠輕松地溝通和協(xié)作,實(shí)現(xiàn)高效的 I/O 虛擬化。
那么,virtio 是如何抽象模擬設(shè)備的呢?它通過(guò)定義一套通用的設(shè)備模型和接口,將各種物理設(shè)備的功能抽象出來(lái) 。無(wú)論是網(wǎng)絡(luò)適配器、磁盤(pán)驅(qū)動(dòng)器還是其他設(shè)備,virtio 都為它們提供了統(tǒng)一的抽象表示。在虛擬化環(huán)境中,虛擬機(jī)中的網(wǎng)絡(luò)設(shè)備可以通過(guò) virtio 接口與 Hypervisor 中的網(wǎng)絡(luò)后端進(jìn)行通信,而不需要關(guān)心具體的物理網(wǎng)絡(luò)設(shè)備是什么。這種抽象模擬的方式,使得 virtio 具有很強(qiáng)的通用性和靈活性,能夠適應(yīng)各種不同的虛擬化場(chǎng)景。就像一個(gè)萬(wàn)能的遙控器,無(wú)論你是控制電視、空調(diào)還是其他電器,都可以通過(guò)這個(gè)遙控器進(jìn)行操作,而不需要為每種電器都配備一個(gè)專(zhuān)門(mén)的遙控器。
2.1virtio 數(shù)據(jù)流交互機(jī)制
圖片
vring 包含三個(gè)部分,描述符數(shù)組 desc,可用的 available ring 和使用過(guò)的 used ring。
desc 用于存儲(chǔ)一些關(guān)聯(lián)的描述符,每個(gè)描述符記錄一個(gè)對(duì) buffer 的描述,available ring 則用于 guest 端表示當(dāng)前有哪些描述符是可用的,而 used ring 則表示 host 端哪些描述符已經(jīng)被使用。
Virtio 使用 virtqueue來(lái)實(shí)現(xiàn) I/O 機(jī)制,每個(gè) virtqueue 就是一個(gè)承載大量數(shù)據(jù)的隊(duì)列,具體使用多少個(gè)隊(duì)列取決于需求,例如,virtio 網(wǎng)絡(luò)驅(qū)動(dòng)程序(virtio-net)使用兩個(gè)隊(duì)列(一個(gè)用于接受,另一個(gè)用于發(fā)送),而 virtio 塊驅(qū)動(dòng)程序(virtio-blk)僅使用一個(gè)隊(duì)列。
具體的,假設(shè) guest 要向 host 發(fā)送數(shù)據(jù),首先,guest 通過(guò)函數(shù) virtqueue_add_buf 將存有數(shù)據(jù)的 buffer 添加到 virtqueue 中,然后調(diào)用 virtqueue_kick 函數(shù),virtqueue_kick 調(diào)用 virtqueue_notify 函數(shù),通過(guò)寫(xiě)入寄存器的方式來(lái)通知到 host。host 調(diào)用 virtqueue_get_buf 來(lái)獲取 virtqueue 中收到的數(shù)據(jù)。
圖片
存放數(shù)據(jù)的 buffer 是一種分散-聚集的數(shù)組,由 desc 結(jié)構(gòu)來(lái)承載,如下是一種常用的 desc 的結(jié)構(gòu):
圖片
- 當(dāng) guest 向 virtqueue 中寫(xiě)數(shù)據(jù)時(shí),實(shí)際上是向 desc 結(jié)構(gòu)指向的 buffer 中填充數(shù)據(jù),完了會(huì)更新 available ring,然后再通知 host。
- 當(dāng) host 收到接收數(shù)據(jù)的通知時(shí),首先從 desc 指向的 buffer 中找到 available ring 中添加的 buffer,映射內(nèi)存,同時(shí)更新 used ring,并通知 guest 接收數(shù)據(jù)完畢。
2.2Virtio 緩沖池
來(lái)賓操作系統(tǒng)(前端)驅(qū)動(dòng)程序通過(guò)緩沖池與 hypervisor 交互。對(duì)于 I/O,來(lái)賓操作系統(tǒng)提供一個(gè)或多個(gè)表示請(qǐng)求的緩沖池。例如,您可以提供 3 個(gè)緩沖池,第一個(gè)表示 Read 請(qǐng)求,后面兩個(gè)表示響應(yīng)數(shù)據(jù)。該配置在內(nèi)部被表示為一個(gè)散集列表(scatter-gather),列表中的每個(gè)條目表示一個(gè)地址和一個(gè)長(zhǎng)度。
2.3核心 API
通過(guò) virtio_device 和 virtqueue(更常見(jiàn))將來(lái)賓操作系統(tǒng)驅(qū)動(dòng)程序與 hypervisor 的驅(qū)動(dòng)程序鏈接起來(lái)。virtqueue 支持它自己的由 5 個(gè)函數(shù)組成的 API。您可以使用第一個(gè)函數(shù) add_buf 來(lái)向 hypervisor 提供請(qǐng)求。如前面所述,該請(qǐng)求以散集列表的形式存在。對(duì)于 add_buf,來(lái)賓操作系統(tǒng)提供用于將請(qǐng)求添加到隊(duì)列的 virtqueue、散集列表(地址和長(zhǎng)度數(shù)組)、用作輸出條目(目標(biāo)是底層 hypervisor)的緩沖池?cái)?shù)量,以及用作輸入條目(hypervisor 將為它們儲(chǔ)存數(shù)據(jù)并返回到來(lái)賓操作系統(tǒng))的緩沖池?cái)?shù)量。當(dāng)通過(guò) add_buf 向 hypervisor 發(fā)出請(qǐng)求時(shí),來(lái)賓操作系統(tǒng)能夠通過(guò) kick 函數(shù)通知 hypervisor 新的請(qǐng)求。為了獲得最佳的性能,來(lái)賓操作系統(tǒng)應(yīng)該在通過(guò) kick 發(fā)出通知之前將盡可能多的緩沖池裝載到 virtqueue。
通過(guò) get_buf 函數(shù)觸發(fā)來(lái)自 hypervisor 的響應(yīng)。來(lái)賓操作系統(tǒng)僅需調(diào)用該函數(shù)或通過(guò)提供的 virtqueue callback 函數(shù)等待通知就可以實(shí)現(xiàn)輪詢(xún)。當(dāng)來(lái)賓操作系統(tǒng)知道緩沖區(qū)可用時(shí),調(diào)用 get_buf 返回完成的緩沖區(qū)。
virtqueue API 的最后兩個(gè)函數(shù)是 enable_cb 和 disable_cb。您可以使用這兩個(gè)函數(shù)來(lái)啟用或禁用回調(diào)進(jìn)程(通過(guò)在 virtqueue 中由 virtqueue 初始化的 callback 函數(shù))。注意,該回調(diào)函數(shù)和 hypervisor 位于獨(dú)立的地址空間中,因此調(diào)用通過(guò)一個(gè)間接的 hypervisor 來(lái)觸發(fā)(比如 kvm_hypercall)。
緩沖區(qū)的格式、順序和內(nèi)容僅對(duì)前端和后端驅(qū)動(dòng)程序有意義。內(nèi)部傳輸(當(dāng)前實(shí)現(xiàn)中的連接點(diǎn))僅移動(dòng)緩沖區(qū),并且不知道它們的內(nèi)部表示。
三、virtio 架構(gòu)剖析
3.1整體架構(gòu)概覽
virtio 的架構(gòu)精妙而復(fù)雜,猶如一座精心設(shè)計(jì)的大廈,主要由四層構(gòu)成,每一層都肩負(fù)著獨(dú)特而重要的使命,它們相互協(xié)作,共同構(gòu)建起高效的 I/O 虛擬化橋梁。
最上層是前端驅(qū)動(dòng),它就像是虛擬機(jī)內(nèi)部的 “大管家”,運(yùn)行在虛擬機(jī)之中,針對(duì)不同類(lèi)型的設(shè)備,如塊設(shè)備(如磁盤(pán))、網(wǎng)絡(luò)設(shè)備、PCI 模擬設(shè)備、balloon 驅(qū)動(dòng)(用于動(dòng)態(tài)管理客戶(hù)機(jī)內(nèi)存使用)和控制臺(tái)驅(qū)動(dòng)等,有著不同的驅(qū)動(dòng)程序,但與后端驅(qū)動(dòng)交互的接口卻是統(tǒng)一的。這些前端驅(qū)動(dòng)主要負(fù)責(zé)接收用戶(hù)態(tài)的請(qǐng)求,就像管家接收家中成員的各種需求,然后按照傳輸協(xié)議將這些請(qǐng)求進(jìn)行封裝,使其能夠在虛擬化環(huán)境中順利傳輸,最后寫(xiě) I/O 端口,發(fā)送一個(gè)通知到 Qemu 的后端設(shè)備,告知后端有任務(wù)需要處理。
最下層是后端處理程序,它位于宿主機(jī)的 Qemu 中,是操作硬件設(shè)備的 “執(zhí)行者”。當(dāng)它接收到前端驅(qū)動(dòng)發(fā)過(guò)來(lái)的 I/O 請(qǐng)求后,會(huì)從接收的數(shù)據(jù)中按照傳輸協(xié)議的格式進(jìn)行解析,理解請(qǐng)求的具體內(nèi)容。對(duì)于網(wǎng)卡等需要與實(shí)際物理設(shè)備交互的請(qǐng)求,后端驅(qū)動(dòng)會(huì)對(duì)物理設(shè)備進(jìn)行操作,比如向內(nèi)核協(xié)議棧發(fā)送一個(gè)網(wǎng)絡(luò)包完成虛擬機(jī)對(duì)于網(wǎng)絡(luò)的操作,從而完成請(qǐng)求,并且會(huì)通過(guò)中斷機(jī)制通知前端驅(qū)動(dòng),告知前端任務(wù)已完成。
中間兩層是 virtio 層和 virtio-ring 層,它們是前后端通信的關(guān)鍵紐帶。virtio 層實(shí)現(xiàn)的是虛擬隊(duì)列接口,是前后端通信的 “橋梁設(shè)計(jì)師”,它在概念上將前端驅(qū)動(dòng)程序附加到后端驅(qū)動(dòng),不同類(lèi)型的設(shè)備使用的虛擬隊(duì)列數(shù)量不同,例如,virtio 網(wǎng)絡(luò)驅(qū)動(dòng)使用兩個(gè)虛擬隊(duì)列,一個(gè)用于接收,一個(gè)用于發(fā)送;而 virtio 塊驅(qū)動(dòng)僅使用一個(gè)隊(duì)列 。虛擬隊(duì)列實(shí)際上被實(shí)現(xiàn)為跨越客戶(hù)機(jī)操作系統(tǒng)和 hypervisor 的銜接點(diǎn),只要客戶(hù)機(jī)操作系統(tǒng)和 virtio 后端程序都遵循一定的標(biāo)準(zhǔn),以相互匹配的方式實(shí)現(xiàn)它,就可以實(shí)現(xiàn)高效通信。
virtio-ring 層則是這座橋梁的 “建筑工人”,它實(shí)現(xiàn)了環(huán)形緩沖區(qū)(ring buffer),用于保存前端驅(qū)動(dòng)和后端處理程序執(zhí)行的信息。它可以一次性保存前端驅(qū)動(dòng)的多次 I/O 請(qǐng)求,并且交由后端去批量處理,最后實(shí)際調(diào)用宿主機(jī)中設(shè)備驅(qū)動(dòng)實(shí)現(xiàn)物理上的 I/O 操作,這樣就可以根據(jù)約定實(shí)現(xiàn)批量處理,而不是客戶(hù)機(jī)中每次 I/O 請(qǐng)求都需要處理一次,從而大大提高了客戶(hù)機(jī)與 hypervisor 信息交換的效率。
3.2關(guān)鍵組件解析
在 virtio 的架構(gòu)中,虛擬隊(duì)列接口和環(huán)形緩沖區(qū)是至關(guān)重要的組件,它們就像是人體的神經(jīng)系統(tǒng)和血液循環(huán)系統(tǒng),確保了數(shù)據(jù)的高效傳輸和系統(tǒng)的正常運(yùn)行。
虛擬隊(duì)列接口是 virtio 實(shí)現(xiàn)前后端通信的核心機(jī)制之一,它定義了一組標(biāo)準(zhǔn)的接口,使得前端驅(qū)動(dòng)和后端處理程序能夠進(jìn)行有效的交互。每個(gè)前端驅(qū)動(dòng)可以根據(jù)需求使用零個(gè)或多個(gè)虛擬隊(duì)列,這些隊(duì)列就像是一條條數(shù)據(jù)傳輸?shù)?“高速公路”,不同類(lèi)型的設(shè)備根據(jù)自身的特點(diǎn)選擇合適數(shù)量的隊(duì)列。virtio 網(wǎng)絡(luò)驅(qū)動(dòng)需要同時(shí)處理數(shù)據(jù)的接收和發(fā)送,因此使用兩個(gè)虛擬隊(duì)列,一個(gè)專(zhuān)門(mén)用于接收數(shù)據(jù),另一個(gè)用于發(fā)送數(shù)據(jù),這樣可以提高數(shù)據(jù)處理的效率,避免接收和發(fā)送數(shù)據(jù)時(shí)的沖突。
而環(huán)形緩沖區(qū)則是虛擬隊(duì)列的具體實(shí)現(xiàn)方式,它是一段共享內(nèi)存,被劃分為三個(gè)主要部分:描述符表(Descriptor Table)、可用描述符表(Available Ring)和已用描述符表(Used Ring) 。描述符表用于存儲(chǔ)一些關(guān)聯(lián)的描述符,每個(gè)描述符記錄一個(gè)對(duì) buffer 的描述,就像一個(gè)個(gè)貨物清單,詳細(xì)記錄了數(shù)據(jù)的位置、大小等信息;可用描述符表用于保存前端驅(qū)動(dòng)提供給后端設(shè)備且后端設(shè)備可以使用的描述符,它就像是一個(gè) “待處理任務(wù)清單”,后端設(shè)備可以從中獲取需要處理的數(shù)據(jù);已用描述符表用于保存后端處理程序已經(jīng)處理過(guò)并且尚未反饋給前端驅(qū)動(dòng)的描述,它就像是一個(gè) “已完成任務(wù)清單”,前端驅(qū)動(dòng)可以從中了解哪些數(shù)據(jù)已經(jīng)被處理完畢。
當(dāng)虛擬機(jī)需要發(fā)送請(qǐng)求到后端設(shè)備時(shí),前端驅(qū)動(dòng)會(huì)將存有數(shù)據(jù)的 buffer 添加到 virtqueue 中,然后更新可用描述符表,將對(duì)應(yīng)的描述符標(biāo)記為可用,并通過(guò)寫(xiě)入寄存器的方式通知后端設(shè)備,就像在 “待處理任務(wù)清單” 上添加了一項(xiàng)任務(wù),并通知后端工作人員。后端設(shè)備接收到通知后,從可用描述符表中讀取請(qǐng)求信息,根據(jù)描述符表中的信息從共享內(nèi)存中讀出數(shù)據(jù)進(jìn)行處理。處理完成后,后端設(shè)備將響應(yīng)狀態(tài)存放在已用描述符表中,并通知前端驅(qū)動(dòng),就像在 “已完成任務(wù)清單” 上記錄下完成的任務(wù),并通知前端工作人員。前端驅(qū)動(dòng)從已用描述符表中得到請(qǐng)求完成信息,并獲取請(qǐng)求的數(shù)據(jù),完成一次數(shù)據(jù)傳輸?shù)倪^(guò)程。
3.3初始化
⑴前端初始化
Virtio設(shè)備遵循linux內(nèi)核通用的設(shè)備模型,bus類(lèi)型為virtio_bus,對(duì)它的理解可以類(lèi)似PCI設(shè)備。設(shè)備模型的實(shí)現(xiàn)主要在driver/virtio/virtio.c文件中。
- 設(shè)備注冊(cè)
int register_virtio_device(struct virtio_device *dev)
-> dev->dev.bus = &virtio_bus; //填寫(xiě)bus類(lèi)型
-> err = ida_simple_get(&virtio_index_ida, 0, 0, GFP_KERNEL);//分配一個(gè)唯一的設(shè)備index標(biāo)示
-> dev->config->reset(dev); //重置config
-> err = device_register(&dev->dev); //在系統(tǒng)中注冊(cè)設(shè)備
- 驅(qū)動(dòng)注冊(cè)
int register_virtio_driver(struct virtio_driver *driver)
-> driver->driver.bus = &virtio_bus; //填寫(xiě)bus類(lèi)型
->driver_register(&driver->driver); //向系統(tǒng)中注冊(cè)driver
- 設(shè)備匹配
virtio_bus. match = virtio_dev_match
//用于甄別總線上設(shè)備是否與virtio對(duì)應(yīng)的設(shè)備匹配,
//方法是查看設(shè)備id是否與driver中保存的id_table中的某個(gè)id匹配。
- 設(shè)備發(fā)現(xiàn)
virtio_bus. probe = virtio_dev_probe
// virtio_dev_probe函數(shù)首先是
-> device_features = dev->config->get_features(dev); //獲得設(shè)備的配置信息
-> // 查找device和driver共同支持的feature,設(shè)置dev->features
-> dev->config->finalize_features(dev); //確認(rèn)需要使用的features
-> drv->probe(dev); //調(diào)用driver的probe函數(shù),通常這個(gè)函數(shù)進(jìn)行具體設(shè)備的初始化,
例如virtio_blk驅(qū)動(dòng)中用于初始化queue,創(chuàng)建磁盤(pán)設(shè)備并初始化一些必要的數(shù)據(jù)結(jié)構(gòu)
當(dāng)virtio后端模擬出virtio_blk設(shè)備后,guest os掃描到此virtio設(shè)備,然后調(diào)用virtio_pci_driver中virtio_pci_probe函數(shù)完成pci設(shè)備的啟動(dòng)。
注冊(cè)一條virtio_bus,同時(shí)在virtio總線進(jìn)行注冊(cè)設(shè)備。當(dāng)virtio總線進(jìn)行注冊(cè)設(shè)備register_virtio_device,將調(diào)用virtio總線的probe函數(shù):virtio_dev_probe()。該函數(shù)遍歷驅(qū)動(dòng),找到支持驅(qū)動(dòng)關(guān)聯(lián)到該設(shè)備并且調(diào)用virtio_driver probe。
virtblk_probe函數(shù)調(diào)用流程如下:
- virtio_config_val:得到硬件上支持多少個(gè)segments(因?yàn)槎际蔷凵O,segment應(yīng)該是指聚散列表的最大項(xiàng)數(shù)),這里需要注意的是頭部和尾部各需要一個(gè)額外的segment
- init_vq:調(diào)用init_vq函數(shù)進(jìn)行virtqueue、vring等相關(guān)的初始化設(shè)置工作。
- alloc_disk:調(diào)用alloc_disk為此虛擬磁盤(pán)分配一個(gè)gendisk類(lèi)型的對(duì)象
- blk_init_queue:注冊(cè)queue的處理函數(shù)為do_virtblk_request
static int __devinit virtblk_probe(struct virtio_device *vdev)
{
...
/* 得到硬件上支持多少個(gè)segments
(因?yàn)槎际蔷凵O,這個(gè)segment應(yīng)該是指聚散列表的最大項(xiàng)數(shù)),
這里需要注意的是頭部和尾部各需要一個(gè)額外的segment */
err = virtio_config_val(vdev, VIRTIO_BLK_F_SEG_MAX,offsetof(struct virtio_blk_config, seg_max),&sg_elems);
...
/* 分配vq,調(diào)用virtio_find_single_vq(vdev, blk_done, "requests");
分配單個(gè)vq,名字為”request”,注冊(cè) 的通知函數(shù)是blk_done */
err = init_vq(vblk);
/* 調(diào)用alloc_disk為此虛擬磁盤(pán)分配一個(gè)gendisk類(lèi)型的對(duì)象,
對(duì)象指針保存在virtio_blk結(jié)構(gòu)的disk 中*/
vblk->disk = alloc_disk(1 << PART_BITS);
/* 分配request_queue結(jié)構(gòu),從屬于virtio-blk的gendisk結(jié)構(gòu)下
初始化gendisk及disk queue,注冊(cè)queue 的處理函數(shù)為do_virtblk_request,
其中queuedata也設(shè)置為virtio_blk結(jié)構(gòu)。*/
q = vblk->disk->queue = blk_init_queue(do_virtblk_request, NULL);
...
add_disk(vblk->disk); //使設(shè)備對(duì)外生效
}
init_vq
完成virtqueue和vring的分配,設(shè)置隊(duì)列的回調(diào)函數(shù),中斷處理函數(shù),流程如下:
-->init_vq
-->virtio_find_single_vq
-->vp_find_vqs
-->vp_try_to_find_vqs
-->setup_vq
-->vring_new_virtqueue
-->request_irq
分配vq的函數(shù)init_vq:
static int init_vq(struct virtio_blk *vblk)
{
...
vblk->vq = virtio_find_single_vq(vblk->vdev, blk_done, "requests");
...
}
struct virtqueue *virtio_find_single_vq(struct virtio_device *vdev,vq_callback_t *c, const char *n)
{
vq_callback_t *callbacks[] = { c };
const char *names[] = { n };
struct virtqueue *vq;
/* 調(diào)用find_vqs回調(diào)函數(shù)(對(duì)應(yīng)vp_find_vqs函數(shù),
在virtio_pci_probe中設(shè)置)進(jìn)行具體的設(shè)置。
會(huì)將相應(yīng)的virtqueue對(duì)象指針存放在vqs這個(gè)臨時(shí)指針數(shù)組中 */
int err = vdev->config->find_vqs(vdev, 1, &vq, callbacks, names);
if (err < 0)
return ERR_PTR(err);
return vq;
}
static int vp_find_vqs(struct virtio_device *vdev, unsigned nvqs,
struct virtqueue *vqs[],
vq_callback_t *callbacks[],
const char *names[])
{
int err;
/* 這個(gè)函數(shù)中只是三次調(diào)用了vp_try_to_find_vqs函數(shù)來(lái)完成操作,
只是每次想起傳送的參數(shù)有些不一樣,該函數(shù)的最后兩個(gè)參數(shù):
use_msix表示是否使用MSI-X機(jī)制的中斷、per_vq_vectors表示是否對(duì)
每一 個(gè)virtqueue使用使用一個(gè)中斷vector */
/* Try MSI-X with one vector per queue. */
err = vp_try_to_find_vqs(vdev, nvqs, vqs, callbacks, names, true, true);
if (!err)
return 0;
err = vp_try_to_find_vqs(vdev, nvqs, vqs, callbacks, names,true, false);
if (!err)
return 0;
return vp_try_to_find_vqs(vdev, nvqs, vqs, callbacks, names,false, false);
}
Virtio設(shè)備中斷,有兩種產(chǎn)生中斷情況:
- 當(dāng)設(shè)備的配置信息發(fā)生改變(config changed),會(huì)產(chǎn)生一個(gè)中斷(稱(chēng)為change中斷),中斷處理程序需要調(diào)用相應(yīng)的處理函數(shù)(需要驅(qū)動(dòng)定義)
- 當(dāng)設(shè)備向隊(duì)列中寫(xiě)入信息時(shí),會(huì)產(chǎn)生一個(gè)中斷(稱(chēng)為vq中斷),中斷處理函數(shù)需要調(diào)用相應(yīng)的隊(duì)列的回調(diào)函數(shù)(需要驅(qū)動(dòng)定義)
三種中斷處理方式:
1). 不用msix中斷,則change中斷和所有vq中斷共用一個(gè)中斷irq。
中斷處理函數(shù):vp_interrupt。
vp_interrupt函數(shù)中包含了對(duì)change中斷和vq中斷的處理。
2). 使用msix中斷,但只有2個(gè)vector;一個(gè)用來(lái)對(duì)應(yīng)change中斷,一個(gè)對(duì)應(yīng)所有隊(duì)列的vq中斷。
change中斷處理函數(shù):vp_config_changed
vq中斷處理函數(shù):vp_vring_interrupt
3). 使用msix中斷,有n+1個(gè)vector;一個(gè)用來(lái)對(duì)應(yīng)change中斷,n個(gè)分別對(duì)應(yīng)n個(gè)隊(duì)列的vq中斷。每個(gè)vq一個(gè)vector。
static int vp_try_to_find_vqs(struct virtio_device *vdev, unsigned nvqs,
struct virtqueue *vqs[],
vq_callback_t *callbacks[],
const char *names[],
bool use_msix,
bool per_vq_vectors)
{
struct virtio_pci_device *vp_dev = to_vp_device(vdev);
u16 msix_vec;
int i, err, nvectors, allocated_vectors;
if (!use_msix) {
/* 不用msix,所有vq共用一個(gè)irq ,設(shè)置中斷處理函數(shù)vp_interrupt*/
err = vp_request_intx(vdev);
} else {
if (per_vq_vectors) {
nvectors = 1;
for (i = 0; i < nvqs; ++i)
if (callbacks[i])
++nvectors;
} else {
/* Second best: one for change, shared for all vqs. */
nvectors = 2;
}
/*per_vq_vectors為0,設(shè)置處理函數(shù)vp_vring_interrupt*/
err = vp_request_msix_vectors(vdev, nvectors, per_vq_vectors);
}
for (i = 0; i < nvqs; ++i) {
if (!callbacks[i] || !vp_dev->msix_enabled)
msix_vec = VIRTIO_MSI_NO_VECTOR;
else if (vp_dev->per_vq_vectors)
msix_vec = allocated_vectors++;
else
msix_vec = VP_MSIX_VQ_VECTOR;
vqs[i] = setup_vq(vdev, i, callbacks[i], names[i], msix_vec);
...
/* 如果per_vq_vectors為1,則為每個(gè)隊(duì)列指定一個(gè)vector,
vq中斷處理函數(shù)為vring_interrupt*/
err = request_irq(vp_dev->msix_entries[msix_vec].vector,
vring_interrupt, 0,
vp_dev->msix_names[msix_vec],
vqs[i]);
}
return 0;
}
setup_vq完成virtqueue(主要用于數(shù)據(jù)的操作)、vring(用于數(shù)據(jù)的存放)的分配和初始化任務(wù):
static struct virtqueue *setup_vq(struct virtio_device *vdev, unsigned index,
void (*callback)(struct virtqueue *vq),
const char *name,u16 msix_vec)
{
struct virtqueue *vq;
/* 寫(xiě)寄存器退出guest,設(shè)置設(shè)備的隊(duì)列序號(hào),
對(duì)于塊設(shè)備就是0(最大只能為VIRTIO_PCI_QUEUE_MAX 64) */
iowrite16(index, vp_dev->ioaddr + VIRTIO_PCI_QUEUE_SEL);
/*得到硬件隊(duì)列的深度num*/
num = ioread16(vp_dev->ioaddr + VIRTIO_PCI_QUEUE_NUM);
...
/* IO同步信息,如虛擬隊(duì)列地址,會(huì)調(diào)用virtio_queue_set_addr進(jìn)行處理*/
iowrite32(virt_to_phys(info->queue) >> VIRTIO_PCI_QUEUE_ADDR_SHIFT,
vp_dev->ioaddr + VIRTIO_PCI_QUEUE_PFN);
...
/* 調(diào)用該函數(shù)分配vring_virtqueue對(duì)象,該結(jié)構(gòu)中既包含了vring、又包含了virtqueue,并且返回 virtqueue對(duì)象指針*/
vq = vring_new_virtqueue(info->num, VIRTIO_PCI_VRING_ALIGN,
vdev, info->queue, vp_notify, callback, name);
...
return vq;
}
IO同步信息,如虛擬隊(duì)列地址,會(huì)調(diào)用virtio_queue_set_addr進(jìn)行處理:
virtio_queue_set_addr(vdev, vdev->queue_sel, addr);
--> vdev->vq[n].pa = addr; //n=vdev->queue_sel,即同步隊(duì)列地址
--> virtqueue_init(&vdev->vq[n]); //初始化后端的虛擬隊(duì)列
--> target_phys_addr_t pa = vq->pa; //主機(jī)vring虛擬首地址
--> vq->vring.desc = pa; //同步desc地址
--> vq->vring.avail = pa + vq->vring.num * sizeof(VRingDesc); //同步avail地址
--> vq->vring.used = vring_align(vq->vring.avail +
offsetof(VRingAvail, ring[vq->vring.num]),
VIRTIO_PCI_VRING_ALIGN); //同步used地址
其中,pa是由客戶(hù)機(jī)傳送過(guò)來(lái)的物理頁(yè)地址,在主機(jī)中就是主機(jī)的虛擬頁(yè)地址,賦值給主機(jī)中對(duì)應(yīng)vq中的vring,則同步了主客機(jī)中虛擬隊(duì)列地址,之后vring中的當(dāng)前可用緩沖描述符avail、已使用緩沖used均得到同步。
分配vring_virtqueue對(duì)象由vring_new_virtqueue函數(shù)完成:
struct virtqueue *vring_new_virtqueue(unsigned int num, unsigned int vring_align,
struct virtio_device *vdev, void *pages, void (*notify)(struct virtqueue *), void (*callback)(struct virtqueue *), const char *name)
{
struct vring_virtqueue *vq;
unsigned int i;
/* We assume num is a power of 2. */
if (num & (num - 1)) {
dev_warn(&vdev->dev, "Bad virtqueue length %u\n", num);
return NULL;
}
/* 調(diào)用vring_init函數(shù)初始化vring對(duì)象,
其desc、avail、used三個(gè)域瓜分了上面的
setup_vp函數(shù)第一步中分配的內(nèi)存頁(yè)面 */
vring_init(&vq->vring, num, pages, vring_align);
/*初始化virtqueue對(duì)象(注意其callback會(huì)被設(shè)置成virtblk_done函數(shù)*/
vq->vq.callback = callback;
vq->vq.vdev = vdev;
vq->vq.name = name;
vq->notify = notify;
vq->broken = false;
vq->last_used_idx = 0;
vq->num_added = 0;
list_add_tail(&vq->vq.list, &vdev->vqs);
/* No callback? Tell other side not to bother us. */
if (!callback)
vq->vring.avail->flags |= VRING_AVAIL_F_NO_INTERRUPT;
/* Put everything in free lists. */
vq->num_free = num;
vq->free_head = 0;
for (i = 0; i < num-1; i++) {
vq->vring.desc[i].next = i+1;
vq->data[i] = NULL;
}
vq->data[i] = NULL;
/*返回virtqueue對(duì)象指針*/
return &vq->vq;
}
調(diào)用vring_init
函數(shù)初始化vring對(duì)象:
static inline void vring_init(struct vring *vr, unsigned int num, void *p,
unsigned long align)
{
vr->num = num;
vr->desc = p;
vr->avail = p + num*sizeof(struct vring_desc);
vr->used = (void *)(((unsigned long)&vr->avail->ring[num] + align-1)& ~(align - 1));
}
⑵后端初始化
后端驅(qū)動(dòng)的初始化流程實(shí)際是后端驅(qū)動(dòng)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行初始化,設(shè)置PCI設(shè)備的信息,并結(jié)合到virtio設(shè)備中,設(shè)置主機(jī)狀態(tài),配置并初始化虛擬隊(duì)列,為每個(gè)塊設(shè)備綁定一個(gè)虛擬隊(duì)列及隊(duì)列處理函數(shù),并綁定設(shè)備處理函數(shù),以處理IO請(qǐng)求。virtio-block后端初始化流程:
type_init(virtio_pci_register_types)
--> type_register_static(&virtio_blk_info) // 注冊(cè)一個(gè)設(shè)備結(jié)構(gòu),為PCI子設(shè)備
--> class_init = virtio_blk_class_init,
--> k->init = virtio_blk_init_pci;
static int virtio_blk_init_pci(PCIDevice *pci_dev)
{
VirtIOPCIProxy *proxy = DO_UPCAST(VirtIOPCIProxy, pci_dev, pci_dev);
VirtIODevice *vdev;
...
vdev = virtio_blk_init(&pci_dev->qdev, &proxy->blk);
...
virtio_init_pci(proxy, vdev);
/* make the actual value visible */
proxy->nvectors = vdev->nvectors;
return 0;
}
調(diào)用virtio_blk_init來(lái)初始化virtio-blk設(shè)備,virtio_blk_init代碼如下:
VirtIODevice *virtio_blk_init(DeviceState *dev, VirtIOBlkConf *blk)
{
VirtIOBlock *s;
static int virtio_blk_id;
...
/* virtio_common_init初始化一個(gè)VirtIOBlock結(jié)構(gòu),
這里主要是分配一個(gè)VirtIODevice 結(jié)構(gòu)并為它賦值,
VirtIODevice結(jié)構(gòu)主要描述IO設(shè)備的一些配置接口和屬性。
VirtIOBlock結(jié)構(gòu)第一個(gè)域是VirtIODevice結(jié)構(gòu),VirtIOBlock結(jié)構(gòu)
還包括一些其他的塊設(shè)備屬性和狀態(tài)參數(shù)。*/
s = (VirtIOBlock *)virtio_common_init("virtio-blk", VIRTIO_ID_BLOCK,
sizeof(struct virtio_blk_config),
sizeof(VirtIOBlock));
/* 對(duì)VirtIOBlock結(jié)構(gòu)中的域賦值,其中比較重要的是對(duì)一些virtio
通用配置接口的賦值(get_config,set_config,get_features,set_status,reset),
如此,virtio_blk便 有了自定義的配置。*/
s->vdev.get_config = virtio_blk_update_config;
s->vdev.set_config = virtio_blk_set_config;
s->vdev.get_features = virtio_blk_get_features;
s->vdev.set_status = virtio_blk_set_status;
s->vdev.reset = virtio_blk_reset;
s->bs = blk->conf.bs;
s->conf = &blk->conf;
s->blk = blk;
s->rq = NULL;
s->sector_mask = (s->conf->logical_block_size / BDRV_SECTOR_SIZE) - 1;
/* 初始化vq,virtio_add_queue為設(shè)置vq的中vring處理的最大個(gè)數(shù)是128,
注冊(cè) handle_output函數(shù)為virtio_blk_handle_output(host端處理函數(shù))*/
s->vq = virtio_add_queue(&s->vdev, 128, virtio_blk_handle_output);
/* qemu_add_vm_change_state_handler(virtio_blk_dma_restart_cb, s);
設(shè)置vm狀態(tài)改 變的處理函數(shù)為virtio_blk_dma_restart_cb*/
qemu_add_vm_change_state_handler(virtio_blk_dma_restart_cb, s);
s->qdev = dev;
/* register_savevm注冊(cè)虛擬機(jī)save和load函數(shù)(熱遷移)*/
register_savevm(dev, "virtio-blk", virtio_blk_id++, 2,
virtio_blk_save, virtio_blk_load, s);
...
return &s->vdev;
}
//初始化vq,調(diào)用virtio_add_queue:
VirtQueue *virtio_add_queue(VirtIODevice *vdev, int queue_size,
void (*handle_output)(VirtIODevice *, VirtQueue *))
{
...
vdev->vq[i].vring.num = queue_size; //設(shè)置隊(duì)列的深度
vdev->vq[i].handle_output = handle_output; //注冊(cè)隊(duì)列的處理函數(shù)
return &vdev->vq[i];
}
初始化virtio-PCI信息,分配bar,注冊(cè)接口以及接口處理函數(shù);設(shè)備綁定virtio-pci的ops,設(shè)置主機(jī)特征,調(diào)用函數(shù)virtio_init_pci來(lái)初始化virtio-blk pci相關(guān)信息:
void virtio_init_pci(VirtIOPCIProxy *proxy, VirtIODevice *vdev)
{
uint8_t *config;
uint32_t size;
...
/* memory_region_init_io():初始化IO內(nèi)存,
并設(shè)置IO內(nèi)存操作和內(nèi)存讀寫(xiě)函數(shù) virtio_pci_config_ops*/
memory_region_init_io(&proxy->bar, &virtio_pci_config_ops, proxy,"virtio-pci", size);
/*將IO內(nèi)存綁定到PCI設(shè)備,即初始化bar,給bar注冊(cè)pci地址*/
pci_register_bar(&proxy->pci_dev, 0, PCI_BASE_ADDRESS_SPACE_IO,
&proxy->bar);
if (!kvm_has_many_ioeventfds()) {
proxy->flags &= ~VIRTIO_PCI_FLAG_USE_IOEVENTFD;
}
/*綁定virtio-pci總線的ops并指向設(shè)備代理proxy*/
virtio_bind_device(vdev, &virtio pci_bindings, proxy);
proxy->host_features |= 0x1 << VIRTIO_F_NOTIFY_ON_EMPTY;
proxy->host_features |= 0x1 << VIRTIO_F_BAD_FEATURE;
proxy->host_features = vdev->get_features(vdev, proxy->host_features);
}
其中,virtio-pic讀寫(xiě)操作為virtio_pci_config_ops:
static const MemoryRegionPortio virtio_portio[] = {
{ 0, 0x10000, 2, .write = virtio_pci_config_writew, },
...
{ 0, 0x10000, 2, .read = virtio_pci_config_readw, },
};
在設(shè)備注冊(cè)完成后,qemu調(diào)用io_region_add進(jìn)行io端口注冊(cè):
static void io_region_add(MemoryListener *listener,MemoryRegionSection *section)
{
...
/*io端口信息初始化*/
iorange_init(&mrio->iorange, &memory_region_iorange_ops,
section->offset_within_address_space, section->size);
/*io端口注冊(cè)*/
ioport_register(&mrio->iorange);
}
ioport_register調(diào)用register_ioport_read及register_ioport_write將io端口對(duì)應(yīng)的回調(diào)函數(shù)保存到ioport_write_table數(shù)組中:
int register_ioport_write(pio_addr_t start, int length, int size,IOPortWriteFunc *func, void *opaque)
{
...
for(i = start; i < start + length; ++i) {
/*設(shè)置對(duì)應(yīng)端口的回調(diào)函數(shù)*/
ioport_write_table[bsize][i] = func;
...
}
return 0;
}
四、virtio 代碼深度探索
4.1數(shù)據(jù)結(jié)構(gòu)探秘
在 virtio 的代碼世界里,vring 和 virtqueue 是最為關(guān)鍵的數(shù)據(jù)結(jié)構(gòu),它們就像是代碼大廈的基石,支撐著整個(gè) virtio 的功能實(shí)現(xiàn)。
vring 是 virtio 前端驅(qū)動(dòng)和后端 Hypervisor 虛擬設(shè)備之間傳輸數(shù)據(jù)的核心載體 ,它主要由描述符表(Descriptor Table)、可用描述符表(Available Ring)和已用描述符表(Used Ring)這三個(gè)部分組成。在早期的 virtio 1.0 版本及之前,這三個(gè)部分是相互分離的,形成了所謂的 Split Virtqueue。在這種模式下,每個(gè)部分都有其特定的讀寫(xiě)權(quán)限,并且通過(guò) next 字段將多個(gè)描述符串接成描述符鏈表的形式來(lái)描述一個(gè) IO 請(qǐng)求,這種方式雖然能夠?qū)崿F(xiàn)基本的數(shù)據(jù)傳輸功能,但在數(shù)據(jù)管理和處理效率上存在一定的局限性。
隨著技術(shù)的發(fā)展,virtio 1.1 版本引入了 Packed Virtqueue,它將描述符表、可用描述符表和已用描述符表合并在一起,形成了一個(gè)更加緊湊的結(jié)構(gòu)。在這種結(jié)構(gòu)中,增加了 Flag 的相關(guān)標(biāo)記值,去除了 next 字段,同時(shí)增加了 Buffer ID,對(duì) entries 支持進(jìn)行了增強(qiáng)。這樣的設(shè)計(jì)使得數(shù)據(jù)管理更加高效,也更容易增加與硬件的親和性并更好地利用 Cache。就像重新規(guī)劃了倉(cāng)庫(kù)的布局,使得貨物的存放和取用更加方便快捷。
而 virtqueue 則是對(duì) vring 的進(jìn)一步封裝和管理,它包含了 vring 以及其他一些與隊(duì)列相關(guān)的信息和操作函數(shù) 。在實(shí)際運(yùn)行中,Client 會(huì)把 Buffers 插入到 virtqueue 中,隊(duì)列會(huì)根據(jù)不同設(shè)備安排不同的數(shù)量。網(wǎng)絡(luò)設(shè)備通常有兩個(gè)隊(duì)列,一個(gè)用于接收數(shù)據(jù),一個(gè)用于發(fā)送數(shù)據(jù),這樣可以實(shí)現(xiàn)數(shù)據(jù)的高效處理,避免接收和發(fā)送數(shù)據(jù)時(shí)的沖突。virtqueue 還提供了一些對(duì) vring 進(jìn)行操作的函數(shù),如 add_buf 用于將數(shù)據(jù)緩沖區(qū)添加到隊(duì)列中,get_buf 用于從隊(duì)列中獲取數(shù)據(jù)緩沖區(qū),kick 用于通知對(duì)端有新的數(shù)據(jù)到來(lái)等。這些函數(shù)就像是倉(cāng)庫(kù)管理員的工具,幫助管理員高效地管理倉(cāng)庫(kù)中的貨物。
4.2核心流程解讀
以網(wǎng)絡(luò)設(shè)備為例,virtio 的數(shù)據(jù)收發(fā)流程是其核心功能的具體體現(xiàn),這個(gè)流程就像是一場(chǎng)緊張有序的接力賽,各個(gè)環(huán)節(jié)緊密配合,確保數(shù)據(jù)的高效傳輸。
當(dāng)網(wǎng)絡(luò)設(shè)備發(fā)送數(shù)據(jù)時(shí),前端驅(qū)動(dòng)首先會(huì)通過(guò) start_xmit 函數(shù)開(kāi)始數(shù)據(jù)傳輸?shù)穆贸獭T谶@個(gè)函數(shù)中,會(huì)調(diào)用 xmit_skb 函數(shù)來(lái)具體處理數(shù)據(jù)的發(fā)送。xmit_skb 函數(shù)會(huì)先使用 sg_init_table 初始化 sg 列表,這個(gè) sg 列表就像是一個(gè)貨物清單,記錄了要發(fā)送的數(shù)據(jù)的相關(guān)信息。然后,sg_set_buf 將 sg 指向特定的 buffer,skb_to_sgvec 將 socket buffer 中的數(shù)據(jù)填充到 sg 中,就像是將貨物裝載到運(yùn)輸工具上。
接著,通過(guò) virtqueue_add_outbuf 將 sg 添加到 Virtqueue 中,并更新 Avail 隊(duì)列中描述符的索引值,這一步就像是將裝滿(mǎn)貨物的運(yùn)輸工具放入倉(cāng)庫(kù)的待發(fā)貨區(qū)域,并記錄下貨物的位置信息。最后,virtqueue_notify 通知 Device,可以過(guò)來(lái)取數(shù)據(jù)了,就像是通知快遞員來(lái)取貨。
在數(shù)據(jù)接收方面,當(dāng) Qemu 收到 tap 發(fā)送過(guò)來(lái)的數(shù)據(jù)包后,會(huì)在 virtio_net_receive 函數(shù)中把數(shù)據(jù)拷貝到虛擬機(jī)的 virtio 網(wǎng)卡接收隊(duì)列 。這個(gè)過(guò)程就像是快遞員將包裹送到倉(cāng)庫(kù)的接收區(qū)域。然后,會(huì)向虛擬機(jī)注入一個(gè)中斷,這樣虛擬機(jī)便感知到有網(wǎng)絡(luò)數(shù)據(jù)報(bào)文的到來(lái)。在虛擬機(jī)內(nèi)部,數(shù)據(jù)接收流程從 napi_gro_receive 函數(shù)開(kāi)始,它會(huì)將接收到的數(shù)據(jù)傳輸給網(wǎng)絡(luò)層。接著,netif_receive_skb 函數(shù)會(huì)將 skb(套接字緩沖區(qū))傳遞給網(wǎng)絡(luò)層進(jìn)行處理。在驅(qū)動(dòng)的 poll 方法中,會(huì)調(diào)用 napi_poll 函數(shù),具體到 virtio_net.c 中就是 virtnet_poll 函數(shù)。
在這個(gè)函數(shù)中,會(huì)調(diào)用 receive_buf 函數(shù)將接收到的數(shù)據(jù)轉(zhuǎn)換成 skb,然后根據(jù)接收類(lèi)型(如 XDP_PASS、XDP_TX 等)對(duì) virtqueue 中的數(shù)據(jù)進(jìn)行不同的處理。如果檢測(cè)到本次中斷接收數(shù)據(jù)完成,則會(huì)重新開(kāi)啟中斷,等待下一次中斷接收數(shù)據(jù)。在整個(gè)過(guò)程中,還會(huì)涉及到一些其他的函數(shù)和操作,如 skb_recv_done 函數(shù)用于數(shù)據(jù)接收完成后的回調(diào),virtqueue_napi_schedule 函數(shù)用于調(diào)度 NAPI(網(wǎng)絡(luò)接口輪詢(xún))等。這些函數(shù)和操作相互配合,確保了數(shù)據(jù)接收的高效和穩(wěn)定。