偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

我們一起聊聊 Linux 的文件系統(tǒng)（File System）架構(gòu)

作者：SunnyZhang 2024-03-11 10:30:31

系統(tǒng) Linux

數(shù)據(jù)預(yù)讀也是有一定的算法的，預(yù)讀算法通過(guò)識(shí)別IO模式方式來(lái)提前將數(shù)據(jù)從磁盤(pán)讀到緩存中。這樣，應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù)，從而極大的提高讀數(shù)據(jù)的性能。

本文重點(diǎn)介紹一下虛擬文件系統(tǒng)。Linux整個(gè)文件系統(tǒng)的架構(gòu)如下圖所示，其中在具體文件系統(tǒng)（如Ext2、Ext3和XFS等）與應(yīng)用程序之間有一層抽象層，稱為虛擬文件系統(tǒng)（Virtual File System），簡(jiǎn)稱VFS。

圖片

由上圖可以看出，該架構(gòu)的核心是虛擬文件系統(tǒng)VFS，VFS提供了一個(gè)文件系統(tǒng)框架，本地文件系統(tǒng)可以基于VFS實(shí)現(xiàn)，其主要做了如下幾方面的工作：

1） VFS作為抽象層為應(yīng)用層提供了統(tǒng)一的接口（read、write和chmod等）。

2）在VFS中實(shí)現(xiàn)了一些公共的功能，如inode緩存和頁(yè)緩存等。

3）規(guī)范了具體文件系統(tǒng)應(yīng)該實(shí)現(xiàn)的接口。

基于上述設(shè)定，其他具體的文件系統(tǒng)只需要按照VFS的約定實(shí)現(xiàn)相應(yīng)的接口及內(nèi)部邏輯，并注冊(cè)在系統(tǒng)之中即可。之后，當(dāng)用戶格式化并掛載文件系統(tǒng)后就可以基于該文件系統(tǒng)使用硬盤(pán)的資源了。

在Linux操作系統(tǒng)中，在格式化磁盤(pán)后需要通過(guò)mount命令將其掛載到系統(tǒng)目錄樹(shù)的某個(gè)目錄下面，這個(gè)目錄稱為掛載點(diǎn)（mount point）。完成掛載后，我們就可以使用基于該文件系統(tǒng)格式化的硬盤(pán)空間了。在Linux操作系統(tǒng)中，掛載點(diǎn)幾乎可以是任意目錄，但為了規(guī)范化，掛載點(diǎn)通常是mnt目錄下的子目錄。

如下圖所示是一個(gè)相對(duì)比較復(fù)雜的目錄樹(shù)。在該目錄樹(shù)中，根文件系統(tǒng)基于硬盤(pán)sda格式化，在mnt目錄下又有ext4、xfs和nfs三個(gè)子目錄，并且分別掛載了Ext4文件系統(tǒng)（基于sdb構(gòu)建）、XFS文件系統(tǒng)（基于sdc構(gòu)建）和NFS文件系統(tǒng)（通過(guò)網(wǎng)絡(luò)掛載）。

圖片

目錄樹(shù)中多個(gè)文件系統(tǒng)的關(guān)系是內(nèi)核中的一些數(shù)據(jù)結(jié)構(gòu)表示的。在進(jìn)行文件系統(tǒng)掛載的時(shí)候會(huì)建立文件系統(tǒng)間的關(guān)系，并且注冊(cè)具體文件系統(tǒng)的API。當(dāng)用戶態(tài)調(diào)用打開(kāi)文件的API時(shí)，會(huì)找到對(duì)應(yīng)的文件系統(tǒng)API，并關(guān)聯(lián)到文件相關(guān)的結(jié)構(gòu)體（例如file和inode等）。

上面的描述比較概要，大家可能還是有點(diǎn)云里霧里的感覺(jué)。不過(guò)大家不要著急，我們接下來(lái)會(huì)結(jié)合代碼更加詳細(xì)的介紹VFS及如何實(shí)現(xiàn)對(duì)多種文件系統(tǒng)的支持。

1.從文件系統(tǒng)API到VFS，再到具體文件系統(tǒng)

Linux的VFS并不是一開(kāi)始就有的，最早發(fā)布的Linux版本并沒(méi)有VFS。而且，VFS并非是在Linux發(fā)明的，它最早于1985年由Sun公司在其SunOS2.0中開(kāi)發(fā)。開(kāi)發(fā)VFS的主要目的是為了適配其本地文件系統(tǒng)和NFS文件系統(tǒng)。

VFS通過(guò)一套公共的API和數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)了對(duì)具體文件系統(tǒng)的抽象。當(dāng)用戶調(diào)用操作系統(tǒng)提供的文件系統(tǒng)API時(shí)會(huì)通過(guò)軟中斷的方式調(diào)用內(nèi)核VFS實(shí)現(xiàn)的函數(shù)。如下表所示是部分文件API與內(nèi)核VFS函數(shù)的對(duì)應(yīng)關(guān)系。

用戶態(tài)API	內(nèi)核函數(shù)	說(shuō)明
open	do_sys_open	打開(kāi)文件
close	ksys_close	關(guān)閉文件
read	ksys_read/vfs_read	讀取數(shù)據(jù)
write	ksys_write/vfs_write	寫(xiě)入數(shù)據(jù)
mount	do_mount	掛載文件系統(tǒng)

由上表可以看出每個(gè)用戶態(tài)的API都有一個(gè)內(nèi)核態(tài)的函數(shù)與之對(duì)應(yīng)。當(dāng)應(yīng)用程序調(diào)用文件系統(tǒng)的API時(shí)會(huì)觸發(fā)內(nèi)核態(tài)的對(duì)應(yīng)函數(shù)。這里列舉的只是文件系統(tǒng)API中的一個(gè)比較小的子集，目的是為了說(shuō)明API與VFS的關(guān)系。如果大家想了解其他API請(qǐng)自行閱讀內(nèi)核源代碼，本文不再贅述。

為了讓大家能夠?qū)FS與具體文件系統(tǒng)的關(guān)系有個(gè)感性的認(rèn)識(shí)，本節(jié)以Ext2的寫(xiě)API為例來(lái)展示一下從API到VFS函數(shù)，再到Ext2文件系統(tǒng)函數(shù)的調(diào)用關(guān)系。如下圖所示，API函數(shù)write通過(guò)軟中斷觸發(fā)內(nèi)核的ksys_write函數(shù)，該函數(shù)經(jīng)過(guò)若干處理后最終會(huì)通過(guò)函數(shù)指針（file->f_op->wirte_iter）的方式調(diào)用Ext2文件系統(tǒng)的ext2_file_write_iter函數(shù)。

圖片

在上圖中內(nèi)核流程的入口是ksys_write函數(shù)，通過(guò)實(shí)現(xiàn)代碼可以看出，這里主要是獲取一個(gè)fd，然后以fd中的成員file作為參數(shù)調(diào)用vfs_write。其中fd是一個(gè)結(jié)構(gòu)體，其格式如下圖所示，file成員是比較核心的數(shù)據(jù)結(jié)構(gòu)。從上圖可以看出，正是通過(guò)這個(gè)成員中的內(nèi)容才調(diào)到了Ext2文件系統(tǒng)的函數(shù)。

圖片

看上去很簡(jiǎn)單，VFS只要調(diào)用具體文件系統(tǒng)注冊(cè)的函數(shù)指針即可。但是這里有個(gè)問(wèn)題沒(méi)有解決，VFS中的函數(shù)指針是什么時(shí)候被注冊(cè)的呢？

Ext2的函數(shù)指針是在打開(kāi)文件的時(shí)候被初始化的（具體細(xì)節(jié)請(qǐng)參考《文件系統(tǒng)技術(shù)內(nèi)幕》3.1.2.2節(jié)）。大家都知道，用戶態(tài)的程序在打開(kāi)一個(gè)文件的時(shí)候返回的是一個(gè)文件描述符，但在內(nèi)核中表示文件的結(jié)構(gòu)體file與之對(duì)應(yīng)。這個(gè)結(jié)構(gòu)體里面比較重要的幾個(gè)成員包括f_inode、f_ops和f_mapping等，具體如下圖所示。

圖片

在上圖中，f_inode是該文件對(duì)應(yīng)的inode節(jié)點(diǎn)。f_ops是具體文件系統(tǒng)（例如Ext2）文件操作的函數(shù)指針集合，它是在打開(kāi)文件的時(shí)候被初始化的。VFS正是通過(guò)該函數(shù)指針集合來(lái)實(shí)現(xiàn)對(duì)具體文件系統(tǒng)訪問(wèn)的。

上面又涉及到VFS的另外一個(gè)概念inode。在Linux中，inode是index node的縮寫(xiě)，他表示了文件系統(tǒng)中的一個(gè)具體的對(duì)象（比如文件或者目錄）。在VFS中有一個(gè)名稱為inode的數(shù)據(jù)結(jié)構(gòu)，他是對(duì)具體文件系統(tǒng)inode的抽象。比如在Ext2文件系統(tǒng)中具體定義為ext2_inode_info，在XFS中則是通過(guò)數(shù)據(jù)結(jié)構(gòu)xfs_inode表示的。而且具體文件系統(tǒng)的inode數(shù)據(jù)結(jié)構(gòu)與VFS的inode有個(gè)內(nèi)在的關(guān)聯(lián)，大家可以自行閱讀代碼。

2.inode緩存與dentry緩存

在架構(gòu)圖中我們看到在VFS中有若干個(gè)緩存實(shí)現(xiàn)，包括頁(yè)緩存、inode緩存和dentry緩存等。其中inode緩存和dentry緩存實(shí)現(xiàn)方式相同，也比較簡(jiǎn)單。所以，本文先介紹一下這兩個(gè)緩存。

其實(shí)這兩個(gè)緩存是通過(guò)哈希表實(shí)現(xiàn)的，哈希表的概念大家都比較清楚，本文不再贅述。以inode緩存為例，如下圖是其初始化的過(guò)程，通過(guò)參數(shù)ihash_entries可以看出其大小是動(dòng)態(tài)的（其大小跟系統(tǒng)內(nèi)存相關(guān)，系統(tǒng)內(nèi)存閱讀，inode緩存就越大）。

圖片

由于訪問(wèn)文件時(shí)會(huì)經(jīng)常訪問(wèn)inode和dentry，所以將兩者緩存起來(lái)能夠避免從硬盤(pán)讀取數(shù)據(jù)導(dǎo)致的性能損失。

3.頁(yè)緩存（Page Cache）

VFS頁(yè)緩存（Cache）的作用主要用來(lái)提升文件系統(tǒng)的性能。緩存技術(shù)是指在內(nèi)存中存儲(chǔ)文件系統(tǒng)的部分?jǐn)?shù)據(jù)和元數(shù)據(jù)而提升文件系統(tǒng)性能的技術(shù)。由于內(nèi)存的訪問(wèn)延時(shí)是機(jī)械硬盤(pán)訪問(wèn)延時(shí)的十萬(wàn)分之一（如下圖所示，以寄存器為基準(zhǔn)單位1s），因此采用緩存技術(shù)可以大幅提升文件系統(tǒng)的性能。

圖片

緩存通過(guò)三方面的IO優(yōu)化來(lái)提升文件系統(tǒng)的性能，分別是熱點(diǎn)數(shù)據(jù)、預(yù)讀和IO合并。很多應(yīng)用都會(huì)有熱點(diǎn)數(shù)據(jù)，比如作者在編輯文檔的時(shí)候，當(dāng)前這個(gè)數(shù)據(jù)塊及附近的數(shù)據(jù)塊就是熱點(diǎn)數(shù)據(jù)?；蛘弋?dāng)出現(xiàn)一個(gè)爆款文章時(shí)，這篇文章的內(nèi)容就是熱點(diǎn)數(shù)據(jù)。底層存儲(chǔ)設(shè)備對(duì)于大塊讀寫(xiě)的性能往往較好，預(yù)讀就是提前從底層設(shè)備讀取大塊數(shù)據(jù)緩存起來(lái)，這樣可以通過(guò)緩存來(lái)響應(yīng)應(yīng)用的請(qǐng)求。IO合并則是針對(duì)寫(xiě)請(qǐng)求，寫(xiě)請(qǐng)求不馬上持久化到后端設(shè)備，而是緩存一下，拼成大塊IO再寫(xiě)入。

由于內(nèi)存的容量要比硬盤(pán)的容量小的多，因此頁(yè)緩存自然不能緩存所有硬盤(pán)的數(shù)據(jù)。這樣緩存中只能存儲(chǔ)文件系統(tǒng)數(shù)據(jù)的一個(gè)子集。當(dāng)用戶持續(xù)寫(xiě)入數(shù)據(jù)的時(shí)候就會(huì)面臨緩存滿的情況，此時(shí)就涉及如何將緩存數(shù)據(jù)刷寫(xiě)磁盤(pán)，然后存儲(chǔ)新數(shù)據(jù)的問(wèn)題。

這里將緩存刷寫(xiě)到磁盤(pán)，并且存儲(chǔ)新數(shù)據(jù)的過(guò)程稱為緩存替換。緩存替換有很多種算法，每種算法用于解決不同的問(wèn)題。接下來(lái)我們介紹幾種常見(jiàn)的緩存替換算法。

LRU算法，LRU的全稱是Least Recently Used，也就是最近最少使用。該算法依據(jù)的是時(shí)間局部性原理，也就是如果一個(gè)數(shù)據(jù)最近被使用過(guò)，那么接下來(lái)有很大的概率還會(huì)被使用。因此該算法會(huì)將最近沒(méi)有使用過(guò)的緩存釋放掉。

LRU算法通常使用一個(gè)鏈表來(lái)實(shí)現(xiàn)，剛被使用過(guò)的緩存會(huì)被插到表頭的位置，而經(jīng)常沒(méi)有被使用過(guò)的數(shù)據(jù)則慢慢被擠到鏈表的尾部。為了更加清晰的理解LRU的原理，我們結(jié)合下圖進(jìn)行說(shuō)明。

圖片

在該例中，我們以全命中為例進(jìn)行介紹。假設(shè)緩存中有6個(gè)數(shù)據(jù)塊，如圖第一行所示，方塊中的數(shù)字代表該數(shù)據(jù)塊的編號(hào)。假設(shè)第一次訪問(wèn)（可以是讀或者寫(xiě)）的是3號(hào)數(shù)據(jù)塊，由于其被訪問(wèn)過(guò)，因此將其移動(dòng)到鏈表頭。

第二次訪問(wèn)時(shí)訪問(wèn)的是第4號(hào)數(shù)據(jù)塊，按照相同的原則，該數(shù)據(jù)塊也被移動(dòng)到鏈表頭。具體如上圖第2行所示。

以此類推，當(dāng)經(jīng)過(guò)4輪訪問(wèn)后，被訪問(wèn)過(guò)的數(shù)據(jù)都被前移了，而沒(méi)有被訪問(wèn)過(guò)的數(shù)據(jù)塊（例如1和2）則被慢慢擠到了鏈表的后面。這在一定程度上預(yù)示著這兩個(gè)數(shù)據(jù)塊在后面被訪問(wèn)的可能性也比較小。

如果是全命中的話也就不存在緩存被替換的情況了。實(shí)際情況是緩存會(huì)經(jīng)常不夠用，而需要將其中的數(shù)據(jù)釋放（視情況確定是否需要刷新到磁盤(pán)）來(lái)存儲(chǔ)新的數(shù)據(jù)。此時(shí)，LRU算法就派上用場(chǎng)了，該算法將尾部的數(shù)據(jù)塊拿來(lái)存儲(chǔ)新數(shù)據(jù)，然后放到鏈表頭，具體下圖如所示。如果這個(gè)數(shù)據(jù)塊里面是臟數(shù)據(jù)則需要刷寫(xiě)到磁盤(pán)，否則直接釋放掉就可以。

圖片

LRU算法原理和實(shí)現(xiàn)都比較簡(jiǎn)單，用途卻非常廣泛。但是LRU算法有個(gè)缺點(diǎn)，就是當(dāng)突然有大量連續(xù)數(shù)據(jù)寫(xiě)入時(shí)會(huì)替換掉所有的緩存塊，從而導(dǎo)致之前統(tǒng)計(jì)的緩存使用情況全部失效，這種現(xiàn)象稱為緩存污染。為了解決緩存污染問(wèn)題，有很多改進(jìn)的LRU算法，其中比較常見(jiàn)的有LRU-K、2Q和LIRS等。

LFU算法，LFU的全稱是Least Frequently Used，也就是最近最不經(jīng)常使用。該算法是根據(jù)數(shù)據(jù)被訪問(wèn)的頻度來(lái)決策釋放哪一個(gè)緩存塊的。訪問(wèn)頻度最低的緩存塊會(huì)被最先釋放掉。

如下圖所示是LFU算法的示意圖。其中第1行是原始狀態(tài)，方塊中的數(shù)字表示該緩存塊被訪問(wèn)的次數(shù)。新數(shù)據(jù)的加入和緩存塊的淘汰都是從尾部進(jìn)行。假設(shè)某一塊（虛線框）數(shù)據(jù)被訪問(wèn)了4次，則其訪問(wèn)次數(shù)從12變成了16，因此需要移動(dòng)到新的位置，也就是圖中第2行的樣子。

圖片

本書(shū)以鏈表為例說(shuō)明LFU的原理是為了便于理解，但是在工程實(shí)現(xiàn)的時(shí)候是絕對(duì)不會(huì)用鏈表來(lái)實(shí)現(xiàn)的。因?yàn)楫?dāng)數(shù)據(jù)塊的訪問(wèn)次數(shù)變化時(shí)需要找新的位置，鏈表查找操作是非常耗時(shí)的。為了能夠?qū)崿F(xiàn)快速查找，一般采用搜索樹(shù)來(lái)實(shí)現(xiàn)。

LFU也有其缺點(diǎn)，如果某個(gè)數(shù)據(jù)塊在很久之前的某個(gè)時(shí)間段高頻訪問(wèn)，而以后不再訪問(wèn)，那么該數(shù)據(jù)會(huì)一直停留在緩存中。但是由于該數(shù)據(jù)不會(huì)被訪問(wèn)了，所以導(dǎo)致緩存的有效容量減少了。也就是說(shuō)LFU算法沒(méi)有考慮最近的情況。

本文主要介紹了LRU和LFU等2種非?；A(chǔ)的替換算法。除了上述算法外，還有還很多替換算法，大多以LRU和LFU的理論為基礎(chǔ)，比如2Q，MQ，LRFU，TinyLFU和ARC等等。限于篇幅，本書(shū)不再贅述，大家可以自行閱讀相關(guān)的論文。

數(shù)據(jù)預(yù)讀也是有一定的算法的，預(yù)讀算法通過(guò)識(shí)別IO模式方式來(lái)提前將數(shù)據(jù)從磁盤(pán)讀到緩存中。這樣，應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù)，從而極大的提高讀數(shù)據(jù)的性能。

預(yù)讀算法里面最為重要的是觸發(fā)條件，也就是在什么情況下出發(fā)預(yù)讀操作。通常有兩種情況會(huì)觸發(fā)預(yù)讀：一個(gè)是有多個(gè)地址連續(xù)的讀請(qǐng)求時(shí)會(huì)觸發(fā)預(yù)讀操作；另外一個(gè)是應(yīng)用訪問(wèn)到有預(yù)讀標(biāo)記的緩存時(shí)。這里，預(yù)讀標(biāo)記的緩存是在預(yù)讀操作完成時(shí)在緩存頁(yè)做的標(biāo)記，當(dāng)應(yīng)用讀到有該標(biāo)記的緩存時(shí)會(huì)觸發(fā)下一次的預(yù)讀，從而省略對(duì)IO模式的識(shí)別。

圖片

為了更加清晰的解釋預(yù)讀的邏輯，我們通過(guò)上圖來(lái)介紹一下整個(gè)流程。當(dāng)文件系統(tǒng)識(shí)別IO模式需要預(yù)讀的時(shí)候，會(huì)多讀出一部分內(nèi)容（稱為同步預(yù)讀），如時(shí)間1（第一行）所示。同時(shí)，對(duì)于同步預(yù)讀的數(shù)據(jù)，文件系統(tǒng)會(huì)在其中某個(gè)塊上打上標(biāo)記。這個(gè)標(biāo)記的目的是為了在緩存結(jié)束前能夠盡早的觸發(fā)下一次的預(yù)讀。

第2個(gè)時(shí)間點(diǎn)，當(dāng)應(yīng)用繼續(xù)讀取數(shù)據(jù)時(shí)，由于讀到了有標(biāo)記的緩存塊，因此會(huì)同時(shí)觸發(fā)下一次的預(yù)讀。此時(shí)數(shù)據(jù)會(huì)被從磁盤(pán)一步讀取，可以從圖中看出緩存增加。

接下來(lái)時(shí)間點(diǎn)3，4，應(yīng)用可以直接從緩存讀取數(shù)據(jù)。由于沒(méi)有讀到有標(biāo)記的緩存塊，因此也不會(huì)觸發(fā)下一次的預(yù)讀。在時(shí)間點(diǎn)5，由于有預(yù)讀標(biāo)記，因此又會(huì)觸發(fā)預(yù)讀的流程。

通過(guò)上述分析可以看出，由于預(yù)讀特性將數(shù)據(jù)提前讀到了緩存當(dāng)中。應(yīng)用可以直接從緩存讀取數(shù)據(jù)，而不用再訪問(wèn)磁盤(pán)，因此整個(gè)訪問(wèn)性能將得到大幅的提升。

責(zé)任編輯：武曉燕來(lái)源：數(shù)據(jù)存儲(chǔ)張

Linux 文件系統(tǒng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<li id="yzsqm"></li>