聊一聊Linux內(nèi)存管理
本章首先以應(yīng)用程序開發(fā)者的角度審視Linux的進程內(nèi)存管理,在此基礎(chǔ)上逐步深入到內(nèi)核中討論系統(tǒng)物理內(nèi)存管理和內(nèi)核內(nèi)存的使用方法。力求從外到內(nèi)、水到渠成地引導(dǎo)網(wǎng)友分析Linux的內(nèi)存管理與使用。在本章最后,我們給出一個內(nèi)存映射的實例,幫助網(wǎng)友們理解內(nèi)核內(nèi)存管理與用戶內(nèi)存管理之間的關(guān)系,希望大家最終能駕馭Linux內(nèi)存管理。
前言
內(nèi)存管理一向是所有操作系統(tǒng)書籍不惜筆墨重點討論的內(nèi)容,無論市面上或是網(wǎng)上都充斥著大量涉及內(nèi)存管理的教材和資料。因此,我們這里所要寫的Linux內(nèi)存管理采取避重就輕的策略,從理論層面就不去班門弄斧,貽笑大方了。我們最想做的和可能做到的是從開發(fā)者的角度談?wù)剬?nèi)存管理的理解,最終目的是把我們在內(nèi)核開發(fā)中使用內(nèi)存的經(jīng)驗和對Linux內(nèi)存管理的認識與大家共享。
當(dāng)然,這其中我們也會涉及到一些諸如段頁等內(nèi)存管理的基本理論,但我們的目的不是為了強調(diào)理論,而是為了指導(dǎo)理解開發(fā)中的實踐,所以僅僅點到為止,不做深究。
遵循“理論來源于實踐”的“教條”,我們先不必一下子就鉆入內(nèi)核里去看系統(tǒng)內(nèi)存到底是如何管理,那樣往往會讓你陷入似懂非懂的窘境(我當(dāng)年就犯了這個錯誤!)。所以最好的方式是先從外部(用戶編程范疇)來觀察進程如何使用內(nèi)存,等到大家對內(nèi)存的使用有了較直觀的認識后,再深入到內(nèi)核中去學(xué)習(xí)內(nèi)存如何被管理等理論知識。最后再通過一個實例編程將所講內(nèi)容融會貫通。
進程與內(nèi)存
進程如何使用內(nèi)存?
毫無疑問,所有進程(執(zhí)行的程序)都必須占用一定數(shù)量的內(nèi)存,它或是用來存放從磁盤載入的程序代碼,或是存放取自用戶輸入的數(shù)據(jù)等等。不過進程對這些內(nèi)存的管理方式因內(nèi)存用途不一而不盡相同,有些內(nèi)存是事先靜態(tài)分配和統(tǒng)一回收的,而有些卻是按需要動態(tài)分配和回收的。
對任何一個普通進程來講,它都會涉及到5種不同的數(shù)據(jù)段。稍有編程知識的朋友都能想到這幾個數(shù)據(jù)段中包含有“程序代碼段”、“程序數(shù)據(jù)段”、“程序堆棧段”等。不錯,這幾種數(shù)據(jù)段都在其中,但除了以上幾種數(shù)據(jù)段之外,進程還另外包含兩種數(shù)據(jù)段。下面我們來簡單歸納一下進程對應(yīng)的內(nèi)存空間中所包含的5種不同的數(shù)據(jù)區(qū)。
代碼段:代碼段是用來存放可執(zhí)行文件的操作指令,也就是說是它是可執(zhí)行程序在內(nèi)存中的鏡像。代碼段需要防止在運行時被非法修改,所以只準許讀取操作,而不允許寫入(修改)操作——它是不可寫的。
數(shù)據(jù)段:數(shù)據(jù)段用來存放可執(zhí)行文件中已初始化全局變量,換句話說就是存放程序靜態(tài)分配[1]的變量和全局變量。
BSS段[2]:BSS段包含了程序中未初始化的全局變量,在內(nèi)存中 bss段全部置零。
堆(heap):堆是用于存放進程運行中被動態(tài)分配的內(nèi)存段,它的大小并不固定,可動態(tài)擴張或縮減。當(dāng)進程調(diào)用malloc等函數(shù)分配內(nèi)存時,新分配的內(nèi)存就被動態(tài)添加到堆上(堆被擴張);當(dāng)利用free等函數(shù)釋放內(nèi)存時,被釋放的內(nèi)存從堆中被剔除(堆被縮減)
棧:棧是用戶存放程序臨時創(chuàng)建的局部變量,也就是說我們函數(shù)括弧“{}”中定義的變量(但不包括static聲明的變量,static意味著在數(shù)據(jù)段中存放變量)。除此以外,在函數(shù)被調(diào)用時,其參數(shù)也會被壓入發(fā)起調(diào)用的進程棧中,并且待到調(diào)用結(jié)束后,函數(shù)的返回值也會被存放回棧中。由于棧的先進先出特點,所以棧特別方便用來保存/恢復(fù)調(diào)用現(xiàn)場。從這個意義上講,我們可以把堆??闯梢粋€寄存、交換臨時數(shù)據(jù)的內(nèi)存區(qū)。
進程如何組織這些區(qū)域?
上述幾種內(nèi)存區(qū)域中數(shù)據(jù)段、BSS和堆通常是被連續(xù)存儲的——內(nèi)存位置上是連續(xù)的,而代碼段和棧往往會被獨立存放。有趣的是,堆和棧兩個區(qū)域關(guān)系很“曖昧”,他們一個向下“長”(i386體系結(jié)構(gòu)中棧向下、堆向上),一個向上“長”,相對而生。但你不必擔(dān)心他們會碰頭,因為他們之間間隔很大(到底大到多少,你可以從下面的例子程序計算一下),絕少有機會能碰到一起。
實存、虛存
實存:進程分配的、加載到主存中的內(nèi)存。包含來自共享庫的內(nèi)存,只要這些庫占用的頁框還在主存中,也包含所有正在使用的堆棧和堆內(nèi)存??梢酝ㄟ^ ps -o rss 查看進程的實存大小。
虛存:包含進程可以訪問的所有內(nèi)存,包含被換出、已經(jīng)分配但還未使用的內(nèi)存,以及來自共享庫的內(nèi)存??梢酝ㄟ^ ps -o vsz 查看進程的虛存大小。
舉個例子,如果進程A具有500K二進制文件并且鏈接到2500K共享庫,則具有200K的堆棧/堆分配,其中100K實際上在內(nèi)存中(其余是交換或未使用),并且它實際上只加載了1000K的共享庫然后是400K自己的二進制文件:
- RSS: 400K + 1000K + 100K = 1500K
- VSZ: 500K + 2500K + 200K = 3200K
實存和虛存是怎么轉(zhuǎn)換的呢?當(dāng)程序嘗試訪問的地址未處于實存中時,就發(fā)生頁面錯誤,操作系統(tǒng)必須以某種方式處理這種錯誤,從而使應(yīng)用程序正常運行。這些操作可以是:
- 找到頁面駐留在磁盤上的位置,并加載到主存中。
- 重新配置MMU,更新線性地址和物理地址的映射關(guān)系。
- 等。
隨著進程頁面錯誤的增長,主存中可用頁面越來越少,為了防止內(nèi)存完全耗盡,操作系統(tǒng)必須盡快釋放主存中暫時不用的頁面,以釋放空間供以后使用,方式如下:
- 將修改后的頁面寫入到磁盤的專用區(qū)域上(調(diào)頁空間或者交換區(qū))。
- 將未修改的頁面標(biāo)記為空閑(沒必要寫入磁盤,因為沒有被修改)。
調(diào)頁或者交換是操作系統(tǒng)的正常部分,需要注意的是過度交換,這表示當(dāng)前主存空間不足,頁面換出抖動對系統(tǒng)極為不利,會導(dǎo)致CPU和I/O負載升高,極端情況下,會造成操作系統(tǒng)所有的資源花費在調(diào)頁層面。