圖解|什么是缺頁(yè)錯(cuò)誤Page Fault
本文轉(zhuǎn)載自微信公眾號(hào)「后端技術(shù)指南針 」,作者程序員大白啊 。轉(zhuǎn)載本文請(qǐng)聯(lián)系公眾號(hào)。
1.號(hào)外號(hào)外
各位老鐵,大家好!
上周大白有事停更1次,最近在想如何讓大家在10分鐘中有所收獲,于是準(zhǔn)備搞一個(gè)"什么是xxx"系列,寫一些精悍的知識(shí)點(diǎn)。
先拋一道阿里面試題給大家熱熱身,引出今天的主角-缺頁(yè)異常Page Fault。
談?wù)剬?duì)缺頁(yè)異常Page Fault的理解。
話不多說(shuō),集合上車。
2. 術(shù)語(yǔ)約定
- VA:Virtual Address 虛擬地址
- PA:Physical Address 物理地址
- MMU:Memory Manage Unit 內(nèi)存管理單元
- TLB:Translation Lookaside Buffer 旁路快表緩存/地址變換高速緩存
- PTE:Page Table Entry 分頁(yè)表項(xiàng)
3. 內(nèi)存的惰性分配
以32位的Linux系統(tǒng)為例,每個(gè)進(jìn)程獨(dú)立擁有4GB的虛擬地址空間,根據(jù)局部性原理沒有必要也不可能為每個(gè)進(jìn)程分配4GB的物理地址空間。
64位系統(tǒng)也是一樣的道理,只不過空間尋址范圍大了很多很多倍,進(jìn)程的虛擬地址空間會(huì)分為幾個(gè)部分:
實(shí)際上只有程序運(yùn)行時(shí)用到了才去內(nèi)存中尋找虛擬地址對(duì)應(yīng)的頁(yè)幀,找不到才可能進(jìn)行分配,這就是內(nèi)存的惰性(延時(shí))分配機(jī)制。
對(duì)于一個(gè)運(yùn)行中的進(jìn)程來(lái)說(shuō),不是所有的虛擬地址在物理內(nèi)存中都有對(duì)應(yīng)的頁(yè),如圖展示了部分虛擬地址存在對(duì)應(yīng)物理頁(yè)的情況:
虛擬地址空間根據(jù)固定大小一般是4KB進(jìn)行劃分,物理內(nèi)存可以設(shè)置不同的頁(yè)面大小,通常物理頁(yè)大小和虛擬頁(yè)大小是一樣的,本文按照物理頁(yè)4KB大小展開。
經(jīng)過前面的分析,我們將面臨一個(gè)問題:如何將虛擬地址準(zhǔn)確快速地映射到物理頁(yè)呢?
>>>高能預(yù)警 敲黑板 本段小結(jié)<<<
- 1. Linux的虛擬地址空間就是空頭支票,看著很大但是實(shí)際對(duì)應(yīng)的物理空間只有很少的一部分。
- 2.內(nèi)存的惰性分配是個(gè)有效的機(jī)制,可以保證內(nèi)存利用率和服務(wù)器利用率,是資源合理配置的方法。
- 3.大量的虛擬地址到物理地址的快速準(zhǔn)確地查詢轉(zhuǎn)換是一個(gè)難題。
4. CPU如果獲取內(nèi)存中的數(shù)據(jù)
CPU并不直接和物理內(nèi)存打交道,而是把地址轉(zhuǎn)換的活外包給了MMU,MMU是一種硬件電路,其速度很快,主要工作是進(jìn)行內(nèi)存管理,地址轉(zhuǎn)換只是它承接的業(yè)務(wù)之一。
一起看看MMU是如何搞定地址轉(zhuǎn)換的。
4.1 MMU和Page Table
每個(gè)進(jìn)程都會(huì)有自己的頁(yè)表Page Table,頁(yè)表存儲(chǔ)了進(jìn)程中虛擬地址到物理地址的映射關(guān)系,所以就相當(dāng)于一張地圖,MMU收到CPU的虛擬地址之后開始查詢頁(yè)表,確定是否存在映射以及讀寫權(quán)限是否正常,如圖:
對(duì)于4GB的虛擬地址且大小為4KB頁(yè),一級(jí)頁(yè)表將有2^20個(gè)表項(xiàng),頁(yè)表占有連續(xù)內(nèi)存并且存儲(chǔ)空間大,多級(jí)頁(yè)表可以有效降低頁(yè)表的存儲(chǔ)空間以及內(nèi)存連續(xù)性要求,但是多級(jí)頁(yè)表同時(shí)也帶來(lái)了查詢效率問題。
我們以2級(jí)頁(yè)表為例,MMU要先進(jìn)行兩次頁(yè)表查詢確定物理地址,在確認(rèn)了權(quán)限等問題后,MMU再將這個(gè)物理地址發(fā)送到總線,內(nèi)存收到之后開始讀取對(duì)應(yīng)地址的數(shù)據(jù)并返回。
MMU在2級(jí)頁(yè)表的情況下進(jìn)行了2次檢索和1次讀寫,那么當(dāng)頁(yè)表變?yōu)镹級(jí)時(shí),就變成了N次檢索+1次讀寫。
可見,頁(yè)表級(jí)數(shù)越多查詢的步驟越多,對(duì)于CPU來(lái)說(shuō)等待時(shí)間越長(zhǎng),效率越低,這個(gè)問題還需要優(yōu)化才行。
>> 本段小結(jié) 敲黑板 劃重點(diǎn) <<
- 1.頁(yè)表存在于進(jìn)程的內(nèi)存之中,MMU收到虛擬地址之后查詢Page Table來(lái)獲取物理地址。
- 2.單級(jí)頁(yè)表對(duì)連續(xù)內(nèi)存要求高,于是引入了多級(jí)頁(yè)表,但是多級(jí)頁(yè)表也是一把雙刃劍,在減少連續(xù)存儲(chǔ)要求且減少存儲(chǔ)空間的同時(shí)降低了查詢效率。
4.2 MMU和TLB的故事
MMU和TLB的故事就這樣開始了...
CPU覺得MMU干活雖然賣力氣,但是效率有點(diǎn)低,不太想繼續(xù)外包給它了,這一下子把MMU急壞了。
MMU于是找來(lái)了一些精通統(tǒng)計(jì)的朋友,經(jīng)過一番研究之后發(fā)現(xiàn)CPU用的數(shù)據(jù)經(jīng)常是一小搓,但是每次MMU都還要重復(fù)之前的步驟來(lái)檢索,害,就知道埋頭干活了,也得講究方式方法呀!
找到瓶頸之后,MMU引入了新武器,江湖人稱快表的TLB,別看TLB容量小,但是正式上崗之后干活還真是不含糊。
當(dāng)CPU給MMU傳新虛擬地址之后,MMU先去問TLB那邊有沒有,如果有就直接拿到物理地址發(fā)到總線給內(nèi)存,齊活。
TLB容量比較小,難免發(fā)生Cache Miss,這時(shí)候MMU還有保底的老武器頁(yè)表 Page Table,在頁(yè)表中找到之后MMU除了把地址發(fā)到總線傳給內(nèi)存,還把這條映射關(guān)系給到TLB,讓它記錄一下刷新緩存。
TLB容量不滿的時(shí)候就直接把新記錄存儲(chǔ)了,當(dāng)滿了的時(shí)候就開啟了淘汰大法把舊記錄清除掉,來(lái)保存新記錄,彷佛完美解決了問題。
在TLB和Page Table加持之下,CPU感覺最近MMU比較給力了,就問MMU怎么做到的?MMU就一五一十告訴了CPU。
CPU說(shuō)是個(gè)不錯(cuò)的路子,隨后說(shuō)出了自己的建議:TLB還是有點(diǎn)小,緩存不命中也是經(jīng)常發(fā)生的,要不要搞個(gè)大的,這樣存儲(chǔ)更多訪問更快?
MMU一臉苦笑說(shuō)道大哥TLB很貴的,要不你給漲點(diǎn)外包費(fèi)?話音未落,CPU就說(shuō)漲工資是不可能了,這輩子都不可能了。
>>>高能預(yù)警 敲黑板 本段小結(jié)<<<
1. CPU要根據(jù)用戶進(jìn)程提供的虛擬地址來(lái)獲取真實(shí)數(shù)據(jù),但是它并不自己做而是交給了MMU。
2. MMU也是個(gè)聰明的家伙,集成了TLB來(lái)存儲(chǔ)CPU最近常用的頁(yè)表項(xiàng)來(lái)加速尋址,TLB找不到再去全量頁(yè)表尋址,可以認(rèn)為TLB是MMU的緩存。
3. TLB的容量畢竟有限,為此必須依靠Page Table一起完成TLB Miss情況的查詢,并且更新到TLB建立新映射關(guān)系。
5.缺頁(yè)異常Page Fault大揭秘
設(shè)想CPU給MMU的虛擬地址在TLB和Page Table都沒有找到對(duì)應(yīng)的物理頁(yè)幀或者權(quán)限不對(duì),該怎么辦呢?
沒錯(cuò),這就是缺頁(yè)異常Page Fault,它是一個(gè)由硬件中斷觸發(fā)的可以由軟件邏輯糾正的錯(cuò)誤。
5.1 PageFault,它來(lái)了
假如目標(biāo)內(nèi)存頁(yè)在物理內(nèi)存中沒有對(duì)應(yīng)的頁(yè)幀或者存在但無(wú)對(duì)應(yīng)權(quán)限,CPU 就無(wú)法獲取數(shù)據(jù),這種情況下CPU就會(huì)報(bào)告一個(gè)缺頁(yè)錯(cuò)誤。
由于CPU沒有數(shù)據(jù)就無(wú)法進(jìn)行計(jì)算,CPU罷工了用戶進(jìn)程也就出現(xiàn)了缺頁(yè)中斷,進(jìn)程會(huì)從用戶態(tài)切換到內(nèi)核態(tài),并將缺頁(yè)中斷交給內(nèi)核的 Page Fault Handler 處理。
缺頁(yè)異常并不可怕,只要CPU要的虛擬地址經(jīng)過MMU的一番尋址之后沒有找到或者找到后無(wú)權(quán)限,就會(huì)出現(xiàn)缺頁(yè)異常,因此觸發(fā)異常后的處理流程將是重點(diǎn)內(nèi)容。
5.2 缺頁(yè)錯(cuò)誤的分類處理
缺頁(yè)中斷會(huì)交給PageFaultHandler處理,其根據(jù)缺頁(yè)中斷的不同類型會(huì)進(jìn)行不同的處理:
- Hard Page Fault
也被稱為Major Page Fault,翻譯為硬缺頁(yè)錯(cuò)誤/主要缺頁(yè)錯(cuò)誤,這時(shí)物理內(nèi)存中沒有對(duì)應(yīng)的頁(yè)幀,需要CPU打開磁盤設(shè)備讀取到物理內(nèi)存中,再讓MMU建立VA和PA的映射。
- Soft Page Fault
也被稱為Minor Page Fault,翻譯為軟缺頁(yè)錯(cuò)誤/次要缺頁(yè)錯(cuò)誤,這時(shí)物理內(nèi)存中是存在對(duì)應(yīng)頁(yè)幀的,只不過可能是其他進(jìn)程調(diào)入的,發(fā)出缺頁(yè)異常的進(jìn)程不知道而已,此時(shí)MMU只需要建立映射即可,無(wú)需從磁盤讀取寫入內(nèi)存,一般出現(xiàn)在多進(jìn)程共享內(nèi)存區(qū)域。
- Invalid Page Fault
翻譯為無(wú)效缺頁(yè)錯(cuò)誤,比如進(jìn)程訪問的內(nèi)存地址越界訪問,又比如對(duì)空指針解引用內(nèi)核就會(huì)報(bào)segment fault錯(cuò)誤中斷進(jìn)程直接掛掉。
5.3 缺頁(yè)錯(cuò)誤出現(xiàn)的原因
不同類型的Page Fault出現(xiàn)的原因也不一樣,常見的幾種原因包括:
- 非法操作訪問越界
這種情況產(chǎn)生的影響也是最大的,也是Coredump的重要來(lái)源,比如空指針解引用或者權(quán)限問題等都會(huì)出現(xiàn)缺頁(yè)錯(cuò)誤。
- 使用malloc新申請(qǐng)內(nèi)存
malloc機(jī)制是延時(shí)分配內(nèi)存,當(dāng)使用malloc申請(qǐng)內(nèi)存時(shí)并未真實(shí)分配物理內(nèi)存,等到真正開始使用malloc申請(qǐng)的物理內(nèi)存時(shí)發(fā)現(xiàn)沒有才會(huì)啟動(dòng)申請(qǐng),期間就會(huì)出現(xiàn)Page Fault。
- 訪問數(shù)據(jù)被swap換出
物理內(nèi)存是有限資源,當(dāng)運(yùn)行很多進(jìn)程時(shí)并不是每個(gè)進(jìn)程都活躍,對(duì)此OS會(huì)啟動(dòng)內(nèi)存頁(yè)面置換將長(zhǎng)時(shí)間未使用的物理內(nèi)存頁(yè)幀放到swap分區(qū)來(lái)騰空資源給其他進(jìn)程,當(dāng)存在于swap分區(qū)的頁(yè)面被訪問時(shí)就會(huì)觸發(fā)Page Fault從而再置換回物理內(nèi)存。
>>> 敲黑板 劃重點(diǎn) 本段小結(jié):<<<
觸發(fā)Page Fault的原因可能有很多,歸根到底也只有幾種大類:
1. 如使用共享內(nèi)存區(qū)域,沒有存儲(chǔ)VA->PA的映射但是存在物理頁(yè)幀的軟缺頁(yè)錯(cuò)誤,在Page Table/TLB中建立映射關(guān)系即可。
2. 訪問的地址在物理內(nèi)存中確實(shí)不存在,需要從磁盤/swap分區(qū)讀入才能使用,這種性能影響會(huì)比較大,因?yàn)榇疟P太慢了,盡量使用高性能的SSD來(lái)降低延時(shí)。
3. 訪問的地址內(nèi)存非法,缺頁(yè)錯(cuò)誤會(huì)升級(jí)觸發(fā)SIGSEGV信號(hào)結(jié)束進(jìn)程,這種屬于可以導(dǎo)致進(jìn)程掛掉的一種缺頁(yè)錯(cuò)誤。

6.全文總結(jié)
本文粗淺地和大家一起學(xué)習(xí)了Page Fault的相關(guān)知識(shí)點(diǎn),包括Linux虛擬地址和物理地址的關(guān)系、CPU獲取內(nèi)存數(shù)據(jù)的過程、MMU和TLB&頁(yè)表的協(xié)同配合、缺頁(yè)異常產(chǎn)生的原因和分類處理。
本文并沒有對(duì)MMU的內(nèi)部機(jī)制、內(nèi)核態(tài)&用戶態(tài)缺頁(yè)異常、缺頁(yè)異常處理函數(shù)等內(nèi)容進(jìn)行展開,主要是因?yàn)檫@部分內(nèi)容相對(duì)晦澀,還得靠自己深入研究。
本文旨在把火點(diǎn)燃而不是把桶填滿,對(duì)于文中相關(guān)知識(shí)點(diǎn),歡迎交流溝通學(xué)習(xí)。