偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

我們一起聊聊 Linux 的文件系統(tǒng)(File System)架構(gòu)

系統(tǒng) Linux
數(shù)據(jù)預(yù)讀也是有一定的算法的,預(yù)讀算法通過(guò)識(shí)別IO模式方式來(lái)提前將數(shù)據(jù)從磁盤(pán)讀到緩存中。這樣,應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù),從而極大的提高讀數(shù)據(jù)的性能。

本文重點(diǎn)介紹一下虛擬文件系統(tǒng)。Linux整個(gè)文件系統(tǒng)的架構(gòu)如下圖所示,其中在具體文件系統(tǒng)(如Ext2、Ext3和XFS等)與應(yīng)用程序之間有一層抽象層,稱為虛擬文件系統(tǒng)(Virtual File System),簡(jiǎn)稱VFS。

圖片圖片

由上圖可以看出,該架構(gòu)的核心是虛擬文件系統(tǒng)VFS,VFS提供了一個(gè)文件系統(tǒng)框架,本地文件系統(tǒng)可以基于VFS實(shí)現(xiàn),其主要做了如下幾方面的工作:

1) VFS作為抽象層為應(yīng)用層提供了統(tǒng)一的接口(read、write和chmod等)。

2) 在VFS中實(shí)現(xiàn)了一些公共的功能,如inode緩存和頁(yè)緩存等。

3) 規(guī)范了具體文件系統(tǒng)應(yīng)該實(shí)現(xiàn)的接口。

基于上述設(shè)定,其他具體的文件系統(tǒng)只需要按照VFS的約定實(shí)現(xiàn)相應(yīng)的接口及內(nèi)部邏輯,并注冊(cè)在系統(tǒng)之中即可。之后, 當(dāng)用戶格式化并掛載文件系統(tǒng)后就可以基于該文件系統(tǒng)使用硬盤(pán)的資源了。

在Linux操作系統(tǒng)中,在格式化磁盤(pán)后需要通過(guò)mount命令將其掛載到系統(tǒng)目錄樹(shù)的某個(gè)目錄下面,這個(gè)目錄稱為掛載點(diǎn)(mount point)。完成掛載后,我們就可以使用基于該文件系統(tǒng)格式化的硬盤(pán)空間了。在Linux操作系統(tǒng)中,掛載點(diǎn)幾乎可以是任意目錄,但為了規(guī)范化,掛載點(diǎn)通常是mnt目錄下的子目錄。    

如下圖所示是一個(gè)相對(duì)比較復(fù)雜的目錄樹(shù)。在該目錄樹(shù)中,根文件系統(tǒng)基于硬盤(pán)sda格式化,在mnt目錄下又有ext4、xfs和nfs三個(gè)子目錄,并且分別掛載了Ext4文件系統(tǒng)(基于sdb構(gòu)建)、XFS文件系統(tǒng)(基于sdc構(gòu)建)和NFS文件系統(tǒng)(通過(guò)網(wǎng)絡(luò)掛載)。

圖片圖片

目錄樹(shù)中多個(gè)文件系統(tǒng)的關(guān)系是內(nèi)核中的一些數(shù)據(jù)結(jié)構(gòu)表示的。在進(jìn)行文件系統(tǒng)掛載的時(shí)候會(huì)建立文件系統(tǒng)間的關(guān)系,并且注冊(cè)具體文件系統(tǒng)的API。當(dāng)用戶態(tài)調(diào)用打開(kāi)文件的API時(shí),會(huì)找到對(duì)應(yīng)的文件系統(tǒng)API,并關(guān)聯(lián)到文件相關(guān)的結(jié)構(gòu)體(例如file和inode等)。

上面的描述比較概要,大家可能還是有點(diǎn)云里霧里的感覺(jué)。不過(guò)大家不要著急,我們接下來(lái)會(huì)結(jié)合代碼更加詳細(xì)的介紹VFS及如何實(shí)現(xiàn)對(duì)多種文件系統(tǒng)的支持。

1.從文件系統(tǒng)API到VFS,再到具體文件系統(tǒng)

Linux的VFS并不是一開(kāi)始就有的,最早發(fā)布的Linux版本并沒(méi)有VFS。而且,VFS并非是在Linux發(fā)明的,它最早于1985年由Sun公司在其SunOS2.0中開(kāi)發(fā)。開(kāi)發(fā)VFS的主要目的是為了適配其本地文件系統(tǒng)和NFS文件系統(tǒng)。

VFS通過(guò)一套公共的API和數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)了對(duì)具體文件系統(tǒng)的抽象。當(dāng)用戶調(diào)用操作系統(tǒng)提供的文件系統(tǒng)API時(shí)會(huì)通過(guò)軟中斷的方式調(diào)用內(nèi)核VFS實(shí)現(xiàn)的函數(shù)。如下表所示是部分文件API與內(nèi)核VFS函數(shù)的對(duì)應(yīng)關(guān)系。    

用戶態(tài)API

內(nèi)核函數(shù)

說(shuō)明

open

do_sys_open

打開(kāi)文件

close

ksys_close

關(guān)閉文件

read

ksys_read/vfs_read

讀取數(shù)據(jù)

write

ksys_write/vfs_write

寫(xiě)入數(shù)據(jù)

mount

do_mount

掛載文件系統(tǒng)

由上表可以看出每個(gè)用戶態(tài)的API都有一個(gè)內(nèi)核態(tài)的函數(shù)與之對(duì)應(yīng)。當(dāng)應(yīng)用程序調(diào)用文件系統(tǒng)的API時(shí)會(huì)觸發(fā)內(nèi)核態(tài)的對(duì)應(yīng)函數(shù)。這里列舉的只是文件系統(tǒng)API中的一個(gè)比較小的子集,目的是為了說(shuō)明API與VFS的關(guān)系。如果大家想了解其他API請(qǐng)自行閱讀內(nèi)核源代碼,本文不再贅述。

為了讓大家能夠?qū)FS與具體文件系統(tǒng)的關(guān)系有個(gè)感性的認(rèn)識(shí),本節(jié)以Ext2的寫(xiě)API為例來(lái)展示一下從API到VFS函數(shù),再到Ext2文件系統(tǒng)函數(shù)的調(diào)用關(guān)系。如下圖所示,API函數(shù)write通過(guò)軟中斷觸發(fā)內(nèi)核的ksys_write函數(shù),該函數(shù)經(jīng)過(guò)若干處理后最終會(huì)通過(guò)函數(shù)指針(file->f_op->wirte_iter)的方式調(diào)用Ext2文件系統(tǒng)的ext2_file_write_iter函數(shù)。    

圖片圖片

在上圖中內(nèi)核流程的入口是ksys_write函數(shù),通過(guò)實(shí)現(xiàn)代碼可以看出,這里主要是獲取一個(gè)fd,然后以fd中的成員file作為參數(shù)調(diào)用vfs_write。其中fd是一個(gè)結(jié)構(gòu)體,其格式如下圖所示,file成員是比較核心的數(shù)據(jù)結(jié)構(gòu)。從上圖可以看出,正是通過(guò)這個(gè)成員中的內(nèi)容才調(diào)到了Ext2文件系統(tǒng)的函數(shù)。    

圖片圖片

看上去很簡(jiǎn)單,VFS只要調(diào)用具體文件系統(tǒng)注冊(cè)的函數(shù)指針即可。但是這里有個(gè)問(wèn)題沒(méi)有解決,VFS中的函數(shù)指針是什么時(shí)候被注冊(cè)的呢?

Ext2的函數(shù)指針是在打開(kāi)文件的時(shí)候被初始化的(具體細(xì)節(jié)請(qǐng)參考《文件系統(tǒng)技術(shù)內(nèi)幕》3.1.2.2節(jié))。大家都知道,用戶態(tài)的程序在打開(kāi)一個(gè)文件的時(shí)候返回的是一個(gè)文件描述符,但在內(nèi)核中表示文件的結(jié)構(gòu)體file與之對(duì)應(yīng)。這個(gè)結(jié)構(gòu)體里面比較重要的幾個(gè)成員包括f_inode、f_ops和f_mapping等,具體如下圖所示。

圖片圖片

在上圖中,f_inode是該文件對(duì)應(yīng)的inode節(jié)點(diǎn)。f_ops是具體文件系統(tǒng)(例如Ext2)文件操作的函數(shù)指針集合,它是在打開(kāi)文件的時(shí)候被初始化的。VFS正是通過(guò)該函數(shù)指針集合來(lái)實(shí)現(xiàn)對(duì)具體文件系統(tǒng)訪問(wèn)的。

上面又涉及到VFS的另外一個(gè)概念inode。在Linux中,inode是index node的縮寫(xiě),他表示了文件系統(tǒng)中的一個(gè)具體的對(duì)象(比如文件或者目錄)。在VFS中有一個(gè)名稱為inode的數(shù)據(jù)結(jié)構(gòu),他是對(duì)具體文件系統(tǒng)inode的抽象。比如在Ext2文件系統(tǒng)中具體定義為ext2_inode_info,在XFS中則是通過(guò)數(shù)據(jù)結(jié)構(gòu)xfs_inode表示的。而且具體文件系統(tǒng)的inode數(shù)據(jù)結(jié)構(gòu)與VFS的inode有個(gè)內(nèi)在的關(guān)聯(lián),大家可以自行閱讀代碼。

2.inode緩存與dentry緩存

在架構(gòu)圖中我們看到在VFS中有若干個(gè)緩存實(shí)現(xiàn),包括頁(yè)緩存、inode緩存和dentry緩存等。其中inode緩存和dentry緩存實(shí)現(xiàn)方式相同,也比較簡(jiǎn)單。所以,本文先介紹一下這兩個(gè)緩存。

其實(shí)這兩個(gè)緩存是通過(guò)哈希表實(shí)現(xiàn)的,哈希表的概念大家都比較清楚,本文不再贅述。以inode緩存為例,如下圖是其初始化的過(guò)程,通過(guò)參數(shù)ihash_entries可以看出其大小是動(dòng)態(tài)的(其大小跟系統(tǒng)內(nèi)存相關(guān),系統(tǒng)內(nèi)存閱讀,inode緩存就越大)。

圖片圖片

由于訪問(wèn)文件時(shí)會(huì)經(jīng)常訪問(wèn)inode和dentry,所以將兩者緩存起來(lái)能夠避免從硬盤(pán)讀取數(shù)據(jù)導(dǎo)致的性能損失。

3.頁(yè)緩存(Page Cache)

VFS頁(yè)緩存(Cache)的作用主要用來(lái)提升文件系統(tǒng)的性能。緩存技術(shù)是指在內(nèi)存中存儲(chǔ)文件系統(tǒng)的部分?jǐn)?shù)據(jù)和元數(shù)據(jù)而提升文件系統(tǒng)性能的技術(shù)。由于內(nèi)存的訪問(wèn)延時(shí)是機(jī)械硬盤(pán)訪問(wèn)延時(shí)的十萬(wàn)分之一(如下圖所示,以寄存器為基準(zhǔn)單位1s),因此采用緩存技術(shù)可以大幅提升文件系統(tǒng)的性能。

圖片圖片

緩存通過(guò)三方面的IO優(yōu)化來(lái)提升文件系統(tǒng)的性能,分別是熱點(diǎn)數(shù)據(jù)、預(yù)讀和IO合并。很多應(yīng)用都會(huì)有熱點(diǎn)數(shù)據(jù),比如作者在編輯文檔的時(shí)候,當(dāng)前這個(gè)數(shù)據(jù)塊及附近的數(shù)據(jù)塊就是熱點(diǎn)數(shù)據(jù)?;蛘弋?dāng)出現(xiàn)一個(gè)爆款文章時(shí),這篇文章的內(nèi)容就是熱點(diǎn)數(shù)據(jù)。底層存儲(chǔ)設(shè)備對(duì)于大塊讀寫(xiě)的性能往往較好,預(yù)讀就是提前從底層設(shè)備讀取大塊數(shù)據(jù)緩存起來(lái),這樣可以通過(guò)緩存來(lái)響應(yīng)應(yīng)用的請(qǐng)求。IO合并則是針對(duì)寫(xiě)請(qǐng)求,寫(xiě)請(qǐng)求不馬上持久化到后端設(shè)備,而是緩存一下,拼成大塊IO再寫(xiě)入。

由于內(nèi)存的容量要比硬盤(pán)的容量小的多,因此頁(yè)緩存自然不能緩存所有硬盤(pán)的數(shù)據(jù)。這樣緩存中只能存儲(chǔ)文件系統(tǒng)數(shù)據(jù)的一個(gè)子集。當(dāng)用戶持續(xù)寫(xiě)入數(shù)據(jù)的時(shí)候就會(huì)面臨緩存滿的情況,此時(shí)就涉及如何將緩存數(shù)據(jù)刷寫(xiě)磁盤(pán),然后存儲(chǔ)新數(shù)據(jù)的問(wèn)題。

這里將緩存刷寫(xiě)到磁盤(pán),并且存儲(chǔ)新數(shù)據(jù)的過(guò)程稱為緩存替換。緩存替換有很多種算法,每種算法用于解決不同的問(wèn)題。接下來(lái)我們介紹幾種常見(jiàn)的緩存替換算法。

LRU算法,LRU的全稱是Least Recently Used,也就是最近最少使用。該算法依據(jù)的是時(shí)間局部性原理,也就是如果一個(gè)數(shù)據(jù)最近被使用過(guò),那么接下來(lái)有很大的概率還會(huì)被使用。因此該算法會(huì)將最近沒(méi)有使用過(guò)的緩存釋放掉。

LRU算法通常使用一個(gè)鏈表來(lái)實(shí)現(xiàn),剛被使用過(guò)的緩存會(huì)被插到表頭的位置,而經(jīng)常沒(méi)有被使用過(guò)的數(shù)據(jù)則慢慢被擠到鏈表的尾部。為了更加清晰的理解LRU的原理,我們結(jié)合下圖進(jìn)行說(shuō)明。    

圖片圖片

在該例中,我們以全命中為例進(jìn)行介紹。假設(shè)緩存中有6個(gè)數(shù)據(jù)塊,如圖第一行所示,方塊中的數(shù)字代表該數(shù)據(jù)塊的編號(hào)。假設(shè)第一次訪問(wèn)(可以是讀或者寫(xiě))的是3號(hào)數(shù)據(jù)塊,由于其被訪問(wèn)過(guò),因此將其移動(dòng)到鏈表頭。

第二次訪問(wèn)時(shí)訪問(wèn)的是第4號(hào)數(shù)據(jù)塊,按照相同的原則,該數(shù)據(jù)塊也被移動(dòng)到鏈表頭。具體如上圖第2行所示。

以此類推,當(dāng)經(jīng)過(guò)4輪訪問(wèn)后,被訪問(wèn)過(guò)的數(shù)據(jù)都被前移了,而沒(méi)有被訪問(wèn)過(guò)的數(shù)據(jù)塊(例如1和2)則被慢慢擠到了鏈表的后面。這在一定程度上預(yù)示著這兩個(gè)數(shù)據(jù)塊在后面被訪問(wèn)的可能性也比較小。

如果是全命中的話也就不存在緩存被替換的情況了。實(shí)際情況是緩存會(huì)經(jīng)常不夠用,而需要將其中的數(shù)據(jù)釋放(視情況確定是否需要刷新到磁盤(pán))來(lái)存儲(chǔ)新的數(shù)據(jù)。此時(shí),LRU算法就派上用場(chǎng)了,該算法將尾部的數(shù)據(jù)塊拿來(lái)存儲(chǔ)新數(shù)據(jù),然后放到鏈表頭,具體下圖如所示。如果這個(gè)數(shù)據(jù)塊里面是臟數(shù)據(jù)則需要刷寫(xiě)到磁盤(pán),否則直接釋放掉就可以。    

圖片圖片

LRU算法原理和實(shí)現(xiàn)都比較簡(jiǎn)單,用途卻非常廣泛。但是LRU算法有個(gè)缺點(diǎn),就是當(dāng)突然有大量連續(xù)數(shù)據(jù)寫(xiě)入時(shí)會(huì)替換掉所有的緩存塊,從而導(dǎo)致之前統(tǒng)計(jì)的緩存使用情況全部失效,這種現(xiàn)象稱為緩存污染。為了解決緩存污染問(wèn)題,有很多改進(jìn)的LRU算法,其中比較常見(jiàn)的有LRU-K、2Q和LIRS等。

LFU算法,LFU的全稱是Least Frequently Used,也就是最近最不經(jīng)常使用。該算法是根據(jù)數(shù)據(jù)被訪問(wèn)的頻度來(lái)決策釋放哪一個(gè)緩存塊的。訪問(wèn)頻度最低的緩存塊會(huì)被最先釋放掉。

如下圖所示是LFU算法的示意圖。其中第1行是原始狀態(tài),方塊中的數(shù)字表示該緩存塊被訪問(wèn)的次數(shù)。新數(shù)據(jù)的加入和緩存塊的淘汰都是從尾部進(jìn)行。假設(shè)某一塊(虛線框)數(shù)據(jù)被訪問(wèn)了4次,則其訪問(wèn)次數(shù)從12變成了16,因此需要移動(dòng)到新的位置,也就是圖中第2行的樣子。

圖片圖片

本書(shū)以鏈表為例說(shuō)明LFU的原理是為了便于理解,但是在工程實(shí)現(xiàn)的時(shí)候是絕對(duì)不會(huì)用鏈表來(lái)實(shí)現(xiàn)的。因?yàn)楫?dāng)數(shù)據(jù)塊的訪問(wèn)次數(shù)變化時(shí)需要找新的位置,鏈表查找操作是非常耗時(shí)的。為了能夠?qū)崿F(xiàn)快速查找,一般采用搜索樹(shù)來(lái)實(shí)現(xiàn)。    

LFU也有其缺點(diǎn),如果某個(gè)數(shù)據(jù)塊在很久之前的某個(gè)時(shí)間段高頻訪問(wèn),而以后不再訪問(wèn),那么該數(shù)據(jù)會(huì)一直停留在緩存中。但是由于該數(shù)據(jù)不會(huì)被訪問(wèn)了,所以導(dǎo)致緩存的有效容量減少了。也就是說(shuō)LFU算法沒(méi)有考慮最近的情況。

本文主要介紹了LRU和LFU等2種非?;A(chǔ)的替換算法。除了上述算法外,還有還很多替換算法,大多以LRU和LFU的理論為基礎(chǔ),比如2Q,MQ,LRFU,TinyLFU和ARC等等。限于篇幅,本書(shū)不再贅述,大家可以自行閱讀相關(guān)的論文。

數(shù)據(jù)預(yù)讀也是有一定的算法的,預(yù)讀算法通過(guò)識(shí)別IO模式方式來(lái)提前將數(shù)據(jù)從磁盤(pán)讀到緩存中。這樣,應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù),從而極大的提高讀數(shù)據(jù)的性能。

預(yù)讀算法里面最為重要的是觸發(fā)條件,也就是在什么情況下出發(fā)預(yù)讀操作。通常有兩種情況會(huì)觸發(fā)預(yù)讀:一個(gè)是有多個(gè)地址連續(xù)的讀請(qǐng)求時(shí)會(huì)觸發(fā)預(yù)讀操作;另外一個(gè)是應(yīng)用訪問(wèn)到有預(yù)讀標(biāo)記的緩存時(shí)。這里,預(yù)讀標(biāo)記的緩存是在預(yù)讀操作完成時(shí)在緩存頁(yè)做的標(biāo)記,當(dāng)應(yīng)用讀到有該標(biāo)記的緩存時(shí)會(huì)觸發(fā)下一次的預(yù)讀,從而省略對(duì)IO模式的識(shí)別。

圖片圖片

為了更加清晰的解釋預(yù)讀的邏輯,我們通過(guò)上圖來(lái)介紹一下整個(gè)流程。當(dāng)文件系統(tǒng)識(shí)別IO模式需要預(yù)讀的時(shí)候,會(huì)多讀出一部分內(nèi)容(稱為同步預(yù)讀),如時(shí)間1(第一行)所示。同時(shí),對(duì)于同步預(yù)讀的數(shù)據(jù),文件系統(tǒng)會(huì)在其中某個(gè)塊上打上標(biāo)記。這個(gè)標(biāo)記的目的是為了在緩存結(jié)束前能夠盡早的觸發(fā)下一次的預(yù)讀。    

第2個(gè)時(shí)間點(diǎn),當(dāng)應(yīng)用繼續(xù)讀取數(shù)據(jù)時(shí),由于讀到了有標(biāo)記的緩存塊,因此會(huì)同時(shí)觸發(fā)下一次的預(yù)讀。此時(shí)數(shù)據(jù)會(huì)被從磁盤(pán)一步讀取,可以從圖中看出緩存增加。

接下來(lái)時(shí)間點(diǎn)3,4,應(yīng)用可以直接從緩存讀取數(shù)據(jù)。由于沒(méi)有讀到有標(biāo)記的緩存塊,因此也不會(huì)觸發(fā)下一次的預(yù)讀。在時(shí)間點(diǎn)5,由于有預(yù)讀標(biāo)記,因此又會(huì)觸發(fā)預(yù)讀的流程。

通過(guò)上述分析可以看出,由于預(yù)讀特性將數(shù)據(jù)提前讀到了緩存當(dāng)中。應(yīng)用可以直接從緩存讀取數(shù)據(jù),而不用再訪問(wèn)磁盤(pán),因此整個(gè)訪問(wèn)性能將得到大幅的提升。

責(zé)任編輯:武曉燕 來(lái)源: 數(shù)據(jù)存儲(chǔ)張
相關(guān)推薦

2024-07-12 08:28:09

聊天系統(tǒng)架構(gòu)

2022-04-07 09:29:04

文件系統(tǒng)硬盤(pán)操作系統(tǒng)

2023-08-02 08:35:54

文件操作數(shù)據(jù)源

2022-09-22 08:06:29

計(jì)算機(jī)平板微信

2024-02-26 00:00:00

架構(gòu)老化重構(gòu)

2025-06-10 03:00:00

2024-10-29 11:19:23

點(diǎn)贊系統(tǒng)同步

2024-02-20 21:34:16

循環(huán)GolangGo

2021-08-27 07:06:10

IOJava抽象

2023-04-26 07:30:00

promptUI非結(jié)構(gòu)化

2023-08-10 08:28:46

網(wǎng)絡(luò)編程通信

2023-08-04 08:20:56

DockerfileDocker工具

2023-06-30 08:18:51

敏捷開(kāi)發(fā)模式

2023-09-10 21:42:31

2022-05-24 08:21:16

數(shù)據(jù)安全API

2022-10-08 00:00:05

SQL機(jī)制結(jié)構(gòu)

2023-06-09 08:06:14

操作系統(tǒng)調(diào)度器LLM

2023-03-07 07:05:29

生產(chǎn)數(shù)據(jù)庫(kù)運(yùn)維

2021-07-31 11:40:55

Openresty開(kāi)源

2022-12-06 08:12:11

Java關(guān)鍵字
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)