Linux內(nèi)核中的DeviceMapper機(jī)制
本文結(jié)合具體代碼對(duì) Linux 內(nèi)核中的 device mapper 映射機(jī)制進(jìn)行了介紹。Device mapper 是 Linux 2.6 內(nèi)核中提供的一種從邏輯設(shè)備到物理設(shè)備的映射框架機(jī)制,在該機(jī)制下,用戶可以很方便的根據(jù)自己的需要制定實(shí)現(xiàn)存儲(chǔ)資源的管理策略,當(dāng)前比較流行的 Linux 下的邏輯卷管理器如 LVM2(Linux Volume Manager 2 version)、EVMS(Enterprise Volume Management System)、dmraid(Device Mapper Raid Tool)等都是基于該機(jī)制實(shí)現(xiàn)的。理解該機(jī)制是進(jìn)一步分析、理解這些卷管理器的實(shí)現(xiàn)及設(shè)計(jì)的基礎(chǔ)。通過本文也可以進(jìn)一步理解 Linux 系統(tǒng)塊一級(jí) IO的設(shè)計(jì)和實(shí)現(xiàn)。
Device Mapper 是 Linux2.6 內(nèi)核中支持邏輯卷管理的通用設(shè)備映射機(jī)制,它為實(shí)現(xiàn)用于存儲(chǔ)資源管理的塊設(shè)備驅(qū)動(dòng)提供了一個(gè)高度模塊化的內(nèi)核架構(gòu),如圖 1。
在內(nèi)核中它通過一個(gè)一個(gè)模塊化的 target driver 插件實(shí)現(xiàn)對(duì) IO 請(qǐng)求的過濾或者重新定向等工作,當(dāng)前已經(jīng)實(shí)現(xiàn)的 target driver 插件包括軟 raid、軟加密、邏輯卷?xiàng)l帶、多路徑、鏡像、快照等,圖中 linear、mirror、snapshot、multipath 表示的就是這些 target driver。Device mapper 進(jìn)一步體現(xiàn)了在 Linux 內(nèi)核設(shè)計(jì)中策略和機(jī)制分離的原則,將所有與策略相關(guān)的工作放到用戶空間完成,內(nèi)核中主要提供完成這些策略所需要的機(jī)制。Device mapper 用戶空間相關(guān)部分主要負(fù)責(zé)配置具體的策略和控制邏輯,比如邏輯設(shè)備和哪些物理設(shè)備建立映射,怎么建立這些映射關(guān)系等等,而具體過濾和重定向 IO 請(qǐng)求的工作由內(nèi)核中相關(guān)代碼完成。因此整個(gè) device mapper 機(jī)制由兩部分組成--內(nèi)核空間的 device mapper 驅(qū)動(dòng)、用戶空間的device mapper 庫以及它提供的 dmsetup 工具。在下文中,我們分內(nèi)核和用戶空間兩部分進(jìn)行介紹。
內(nèi)核部分
Device mapper 的內(nèi)核相關(guān)代碼已經(jīng)作為 Linux 2.6 內(nèi)核發(fā)布版的一部分集成到內(nèi)核源碼中了,相關(guān)代碼在內(nèi)核源碼的 driver/md/ 目錄中,其代碼文件可以劃分為實(shí)現(xiàn) device mapper 內(nèi)核中基本架構(gòu)的文件和實(shí)現(xiàn)具體映射工作的 target driver 插件文件兩部分。文章下面的分析結(jié)果主要是基于上述源碼文件得到的。
用戶空間部分
Device mapper在用戶空間相對(duì)簡單,主要包括device mapper庫和dmsetup工具。Device mapper庫就是對(duì)ioctl、用戶空間創(chuàng)建刪除device mapper邏輯設(shè)備所需必要操作的封裝,dmsetup是一個(gè)提供給用戶直接可用的創(chuàng)建刪除device mapper設(shè)備的命令行工具。因?yàn)樗鼈兊墓δ芎土鞒滔鄬?duì)簡單,在本文中對(duì)它們的細(xì)節(jié)就不介紹了,用戶空間主要負(fù)責(zé)如下工作:
1、 發(fā)現(xiàn)每個(gè)mapped device相關(guān)的target device;
2、 根據(jù)配置信息創(chuàng)建映射表;
3、 將用戶空間構(gòu)建好的映射表傳入內(nèi)核,讓內(nèi)核構(gòu)建該mapped device對(duì)應(yīng)的dm_table結(jié)構(gòu);
4、 保存當(dāng)前的映射信息,以便未來重新構(gòu)建。
以下我們主要通過實(shí)例來說明dmsetup的使用,同時(shí)進(jìn)一步說明device mapper這種映射機(jī)制。用戶空間中最主要的工作就是構(gòu)建并保存映射表,下面給出一些映射表的例子:
1)
0 1024 linear /dev/sda 204
1024 512 linear /dev/sdb 766
1536 128 linear /dev/sdc 0
2) 0 2048 striped 2 64 /dev/sda 1024 /dev/sdb 0
3) 0 4711 mirror core 2 64 nosync 2 /dev/sda 2048 /dev/sdb 1024
例子1中將邏輯設(shè)備0~1023扇區(qū)、1024~1535扇區(qū)以及1536~1663三個(gè)地址范圍分別以線形映射的方式映射到/dev/sda設(shè)備第204號(hào)扇區(qū)、/dev/sdb設(shè)備第766號(hào)扇區(qū)和/dev/sdc設(shè)備的第0號(hào)扇區(qū)開始的區(qū)域。
例子2中將邏輯設(shè)備從0號(hào)扇區(qū)開始的,長度為2048個(gè)扇區(qū)的段以條帶的方式映射的到/dev/sda設(shè)備的第 1024號(hào)扇區(qū)以及/dev/sdb設(shè)備的第0號(hào)扇區(qū)開始的區(qū)域。同時(shí)告訴內(nèi)核這個(gè)條帶類型的target driver存在2個(gè)條帶設(shè)備與邏輯設(shè)備做映射,并且條帶的大小是64個(gè)扇區(qū),使得驅(qū)動(dòng)可以該值來拆分跨設(shè)備的IO請(qǐng)求。
例子3中將邏輯設(shè)備從0號(hào)扇區(qū)開始的,長度為4711個(gè)扇區(qū)的段以鏡像的方式映射到/dev/sda設(shè)備的第2048個(gè)扇區(qū)以及/dev/sdb設(shè)備的第1024號(hào)扇區(qū)開始的區(qū)域。
映射表確定后,創(chuàng)建、刪除邏輯設(shè)備的操作就相對(duì)簡單,通過dmsetup如下命令就可以完成相應(yīng)的操作。
dmsetup create 設(shè)備名 映射表文件 /* 根據(jù)指定的映射表創(chuàng)建一個(gè)邏輯設(shè)備 */
dmsetup reload 設(shè)備名 映射表文件 /* 為指定設(shè)備從磁盤中讀取映射文件,重新構(gòu)建映射關(guān)系 */
dmsetup remove 設(shè)備名 /* 刪除指定的邏輯設(shè)備 */

當(dāng)用戶空間根據(jù)映射表下達(dá)創(chuàng)建邏輯設(shè)備命令后,device mapper在內(nèi)核中就根據(jù)傳入的參數(shù)和映射關(guān)系建立邏輯地址到物理地址的映射關(guān)系。根據(jù)映射表例子1中的映射關(guān)系建立的設(shè)備如圖4所示,圖中的下半部分就抽象地描繪出了按照該映射表在內(nèi)核中建立的邏輯地址到物理地址的映射關(guān)系。
【編輯推薦】






























