C語言是怎么寫操作系統(tǒng)的
剛開始學C語言的時候,都感覺它除了在命令行里打印點東西之外,沒有其他用處。
但是,又不斷地聽說Linux系統(tǒng)是C語言寫的。
總之,就是感覺C語言名不符實,心理落差太大。
那么,咱就說說C語言是怎么寫操作系統(tǒng)的。
C語言幾乎是寫操作系統(tǒng)的唯一語言,就是因為它可以手動管理內(nèi)存,而又不像匯編的可讀性那么差。
1.C語言的全局內(nèi)存模型最簡單。
C語言有指針,可以通過指針對內(nèi)存進行細致的管理。
同時,C語言不依賴運行時的狀態(tài),對內(nèi)存管理模型的要求很簡單:所有的全局數(shù)據(jù)都是被常量初始化的,在main()函數(shù)運行前不需要初始化代碼。
上面的代碼里,g_a是個全局變量,它的初始化要在main()函數(shù)運行之前:可以在編譯階段初始化,也可以在main()函數(shù)前先運行一段初始化代碼。
C語言對g_a的初始化,就是在編譯階段。
編譯器在生成.o文件的數(shù)據(jù)段時,會直接把g_a對應的數(shù)據(jù)初始化成1。
全局數(shù)組、全局結構體的初始化,也是用“常量初始化”的:
這點雖然不那么直觀,但它確實是常量初始化的。

如上圖,test_file_ops結構體里雖然填的是函數(shù)的地址,看上去像個變量,但實際上:
- 編譯器在生成.o文件時,是知道哪個函數(shù)放在文件的哪個字節(jié)的。
- 連接器在生成可執(zhí)行文件時,不但知道哪個函數(shù)放在哪個字節(jié),還知道它會被加載到哪個內(nèi)存地址。
所以,這種結構體里看上去是“變量”的內(nèi)存地址,實際上也是常量。
C程序員不需要關注具體的數(shù)值,但編譯器會把它計算出來的。
所以,C語言的內(nèi)存模型,都是在main()函數(shù)之前的編譯階段就可以確定的。
操作系統(tǒng)在運行程序時,只需要把文件加載到內(nèi)存里,然后跳轉到main函數(shù)就行了?不需要管運行時的狀態(tài)。
但是,C++是不可以這樣的。
2.C++的全局內(nèi)存模型,依賴運行時狀態(tài)。
C++要是給你寫個動態(tài)創(chuàng)建機制,那么在main()函數(shù)運行之前,就要運行初始化代碼,至少要把CRuntimeClass的類圖構建出來才行:否則去哪里查找類名對應的構造函數(shù)呢?
C++動態(tài)創(chuàng)建的演示代碼,如這3張圖:

動態(tài)創(chuàng)建代碼,1
所謂的動態(tài)創(chuàng)建,是在收到類名字符串之后,創(chuàng)建一個對應的類對象。
當然沒法用new "Object"去創(chuàng)建Object類的對象,因為"Object"是字符串常量,不是編譯之前的代碼。
所以C++就需要一個靜態(tài)函數(shù),這個靜態(tài)函數(shù)里只有1條代碼:return new Object();
因為每個可以動態(tài)創(chuàng)建的類,都需要這么一段代碼,所以把它寫成了上圖的靜態(tài)函數(shù),并且通過一個宏把它添加成每個類的靜態(tài)成員函數(shù)。
但是,在收到類名字符串之后要找到這個函數(shù),必須得有類圖。
每個OOP語言都有個龐大的RuntimeClass類圖,就是做這個事的?
類圖,就是由每個類的RuntimeClass全局靜態(tài)對象構成的鏈表。
在每個類里添加一個RuntimeClass的靜態(tài)對象,它的構造函數(shù)在運行時就會把它自動掛到類圖的鏈表上,如下圖的紅框所示。

動態(tài)創(chuàng)建代碼,2
這個RuntimeClass對象,既然是全局靜態(tài)對象,那么它的構造函數(shù)當然要在main()函數(shù)之前被調(diào)用!
那么C++的編譯器框架,怎么保證這點呢?
只能在main()函數(shù)之前給可執(zhí)行文件添加一個.init段,讓程序的入口在.init段里,而不是main函數(shù)所在的.text段。
但是在Linux系統(tǒng)里,是絕對不允許編譯器在程序員之前、對內(nèi)存做手腳的!
這就是Linux之父吐槽C++的原因:因為他感覺自己的能力受到了質疑,感覺C++編譯器認為他管不好內(nèi)存?
但是,C編譯器絕不會這么認為,C語言認為每個程序員都是大牛,都該自己管內(nèi)存?

動態(tài)創(chuàng)建代碼,3
這個代碼的運行效果:

效果圖
可以看到,那3個RuntimeClass的初始化都在main start之前,因為它們是全局靜態(tài)對象。
所以,C++見到的程序入口,并不是真正的入口,在main()之前就要進行內(nèi)存初始化的。
但是,C的入口是真正的入口:你想讓它做什么,它就做什么,只要你把代碼寫對了。
每個敢寫操作系統(tǒng)的C程序員,恐怕都認為自己能把代碼寫對。
所以,C語言幾乎是系統(tǒng)程序員的唯一推薦語言。
3.怎么寫操作系統(tǒng)?
咱先論證完了C語言寫操作系統(tǒng)的存在性和唯一性,然后再給它個構造性的證明。
操作系統(tǒng),是最貼近硬件的軟件。
它和編譯器是互為遞歸的關系:編譯器在操作系統(tǒng)上運行,操作系統(tǒng)是編程語言寫的,編程語言是編譯器編譯的。

操作系統(tǒng)、編譯器、編程語言的關系
操作系統(tǒng)大約分為這4個模塊:進程管理、內(nèi)存管理、設備管理、網(wǎng)絡子系統(tǒng)。
進程管理、內(nèi)存管理,這2個是操作系統(tǒng)的核心模塊。
操作系統(tǒng)要想運行起來,進程和內(nèi)存的管理是必需的,其他模塊可以后來一個個的添加。
內(nèi)存管理模式,是操作系統(tǒng)可以運行的關鍵:主要是分段和分頁兩種。
4.內(nèi)存的分段
內(nèi)存的分段,就是把內(nèi)存分為代碼段、數(shù)據(jù)段、堆棧段,給予不同的權限進行管理。
代碼段,具有可讀(R)、可執(zhí)行權限(X)。
數(shù)據(jù)段、堆棧段,具有可讀(R)、可寫權限(W)。
數(shù)據(jù)段和堆棧段的差別是:數(shù)據(jù)段從低往高增長,堆棧段從高往低增長。
它們兩個之間的沒使用的區(qū)域,是堆和??梢栽鲩L的空間。
通常所說的堆棧段實際上指的是棧,堆是緊鄰著數(shù)據(jù)段的。
代碼段的內(nèi)存地址,要放在段寄存器CS里。
數(shù)據(jù)段的內(nèi)存地址,要放在段寄存器DS里。
堆棧段的內(nèi)存地址,要放在段寄存器SS里。
這3個寄存器,在用戶代碼里是不可以使用的,但內(nèi)核代碼可以。
在內(nèi)核初始化時,給哪個段寄存器加載哪個內(nèi)存地址,它就會把哪個地址當成哪個段。
這個機制,是由intel的CPU設計所保證的。
在16位機上,是只能用分段模式的,即所謂的實模式。
段地址+偏移量的訪問方式,最大訪問1M的內(nèi)存,是實模式的唯一方式:
CS:IP是代碼的運行位置,
SS:SP是棧的位置,
DS:SI和ES:DI用于數(shù)據(jù)傳遞的源位置和目標位置。
32位機之后,intel又增加了保護模式:保護模式在分段的基礎上可以分頁,也可以只分段。
5.內(nèi)存的分頁
CPU進入保護模式之后,才可以開啟分頁機制。
頁的大小一般是4096字節(jié)(2^12),所以頁基地址的0-11位是0。
這些為0的12位,在頁表里用于每個頁的權限控制:讀、寫、執(zhí)行、缺頁,etc.

32位的頁表項
在開啟分頁之前,需要先給內(nèi)存分段。
在32位機上,通常把所有的段都映射到0-4G的虛擬空間。
這時,代碼段、數(shù)據(jù)段、堆棧段的基地址已經(jīng)沒什么用了,CS、DS、SS段寄存器主要用于權限控制,改叫段選擇符。
段選擇符,是個以8為間隔的等差數(shù)列。
0號不用,代碼段是0x8,數(shù)據(jù)段是0x10,堆棧段是0x18。
它們對應的內(nèi)存地址、內(nèi)存范圍、內(nèi)存權限,都要寫在全局描述符表(GDT)里。
GDT:global descriptor table.
在開啟分段之前,需要加載GDT表到CPU的特殊寄存器,用的指令是LGDT:這也是個特殊指令,只能在內(nèi)核里用,而且一般只用在初始化時。
這里還需要加載中斷向量表 (IDT):interrupt descriptor table.
中斷向量表,是用來處理硬件中斷的函數(shù)指針,也就是所謂的中斷服務例程 (irq)。
在開啟分段之前,先給它留出內(nèi)存位置來,以后才會設置它。
加載完GDT和IDT之后,打開A20地址線,CPU就可以訪問1M以上的內(nèi)存地址了。
然后,開啟內(nèi)存的分段模式。
接下來就是Linux引導程序里著名的那條匯編:
ljmp $8,$0
跳轉到代碼段的第一條代碼?第一條代碼的偏移量是0,代碼段的選擇符是8。
再接著,就是設置內(nèi)核頁表,然后開啟分頁機制。
內(nèi)核頁表至少分2級,64位機上的分級比較多,32位機上只能分2級:頁目錄、頁表。
不過每一級的表項都差不多,都是頁的基地址+訪問權限。
頁表里填寫的內(nèi)存地址,都是物理內(nèi)存的地址。
在進程訪問內(nèi)存的時候,虛擬地址會被內(nèi)存管理單元(MMU)轉化到物理地址,然后送到CPU的地址總線,然后內(nèi)存數(shù)據(jù)從數(shù)據(jù)總線傳到CPU的寄存器。
32位機的虛擬地址到物理地址的計算:最高10位確定頁目錄的位置,中間10位確定頁表的位置,最后12位確定偏移量:
paddr = dir [ vaddr >> 22 ] [ (vaddr >> 12) & 0x3ff ] [ vaddr & 0x3ff ].
(64位機的,我沒仔細看過intel的手冊,有興趣的可以自己去看)
分頁機制下,一行mov rax, (rdx),硬件和操作系統(tǒng)實際上要做很多事的。
在把頁表設置好之后,要把頁表的基地址加載到CPU的cr3寄存器:頁目錄基地址寄存器。
然后,就可以跳轉到內(nèi)核C代碼的main()函數(shù)了。
因為頁表已經(jīng)設置好了,接下來就可以用C語言寫了。
上面說的那些,都是匯編代碼的內(nèi)容?
6.內(nèi)核子系統(tǒng)的初始化
進入C語言的main()函數(shù)之后,首先是各種內(nèi)核子系統(tǒng)的初始化:
1) 缺頁中斷
當進程訪問的虛擬地址對應的物理內(nèi)存頁不存在時,由缺頁中斷進行處理:合理的缺頁給它申請新的物理內(nèi)存頁,不合理的缺頁給進程一個段錯誤。
段錯誤,會導致進程被操作系統(tǒng)的信號機制殺死。
2) 時鐘中斷
它是操作系統(tǒng)的調(diào)度節(jié)拍,由一個硬件時鐘每1毫秒發(fā)送一次。
3) 系統(tǒng)調(diào)用
它是用戶程序與操作系統(tǒng)的唯一接口。
write()系統(tǒng)調(diào)用就是其中之一,它是printf()函數(shù)的底層機制。
4) 控制臺
內(nèi)核打印日志的必需模塊,它是內(nèi)核printk()函數(shù)的底層機制,也是用戶的shell控制臺的底層機制。
鍵盤驅動程序,VGA驅動程序,一般都放在控制臺模塊里,用于給系統(tǒng)提供最初級的輸入輸出支持。
5) 進程管理
這是內(nèi)核的核心模塊,折騰了這么多,就是為了讓用戶的多個進程可以切換?
fork()系統(tǒng)調(diào)用,exit()系統(tǒng)調(diào)用、wait()系統(tǒng)調(diào)用,getpid()系統(tǒng)調(diào)用,kill()系統(tǒng)調(diào)用,都屬于這個模塊。
6) 內(nèi)存管理
也是內(nèi)核的核心模塊,整個操作系統(tǒng)就是圍繞著內(nèi)存管理來的。
kmalloc()函數(shù)、kfree()函數(shù)、get_free_pages()函數(shù)、brk()系統(tǒng)調(diào)用,都屬于這個模塊。
brk()系統(tǒng)調(diào)用,是設置用戶進程的數(shù)據(jù)段的終止位置,也就是堆內(nèi)存的終止位置,是malloc()和free()函數(shù)的底層機制。
get_free_pages()函數(shù),內(nèi)核分配物理內(nèi)存頁的函數(shù)。
7) 文件系統(tǒng)
unix系的操作系統(tǒng)上,一切都是文件。
這是傳承自C語言之父丹尼斯-里奇的設計理念。
open()、close()、read()、write(),這4個系統(tǒng)調(diào)用,都屬于文件系統(tǒng)。
execve()系統(tǒng)調(diào)用,它雖然屬于進程管理,但是因為要加載可執(zhí)行文件,所以嚴重依賴文件系統(tǒng)。
8) 網(wǎng)絡子系統(tǒng)
TCP/IP協(xié)議棧+ Net Filter +網(wǎng)卡驅動程序,這3個是網(wǎng)絡子系統(tǒng)的內(nèi)容。
Linux網(wǎng)絡子系統(tǒng)的作者是Alan Cox,阿蘭-寇克斯。
整個互聯(lián)網(wǎng)的基礎,都在這個子系統(tǒng)里。
TCP、UDP、IP、ICMP、ARP、DNS,etc,這些網(wǎng)絡協(xié)議全在這個模塊里。
9) 各種設備的驅動程序
鼠標、顯卡、USB、硬盤,等等,大多數(shù)設備的驅動程序,都屬于這部分。
大致分為:塊設備、字符設備、網(wǎng)絡設備。
硬盤是塊設備,它的最小訪問單元是扇區(qū),每個扇區(qū)512字節(jié)。
字符設備,是可以按字節(jié)訪問的,顯示器是典型的字符設備。
網(wǎng)絡設備,網(wǎng)卡是典型的網(wǎng)絡設備,它也屬于網(wǎng)絡子系統(tǒng)。
7.0號進程的創(chuàng)建
0號進程,在操作系統(tǒng)里叫idle進程,是CPU空閑時運行的進程。
當各種內(nèi)核子系統(tǒng)初始化完成之后,操作系統(tǒng)就要創(chuàng)建0號進程,做為以后所有進程的模板。
進程的數(shù)據(jù)結構里,主要有這么幾項:
1) EIP,用戶態(tài)的代碼地址,
2) ESP,用戶態(tài)的棧地址,
3) ESP0,內(nèi)核態(tài)的棧地址,
4) cr3,頁表的物理地址,
5) pid,進程號,
6) ppid,父進程號,
7) brk,用戶代碼的數(shù)據(jù)段末尾,
8) 用戶態(tài)的代碼段、數(shù)據(jù)段、堆棧段的位置,
可以用于檢測段錯誤,防范緩沖區(qū)溢出攻擊。
9) 信號圖,
處理進程的信號機制。
10) 進程的段選擇符,
內(nèi)核和用戶進程的段選擇符是不一樣的,因為內(nèi)核是ring0最高權限,用戶進程是ring3最低權限。
把進程的這些數(shù)據(jù)加載到CPU的任務寄存器,然后降低權限到ring3,執(zhí)行中斷返回,就到了了用戶態(tài)了:
這時的進程是idle進程,它的代碼只有1行:
pause();
即,運行pause()系統(tǒng)調(diào)用:在有其他進程的情況下,它會調(diào)度其他進程運行;如果沒有其他進程,它會運行功耗最低的那條pause指令,以降低CPU的功耗。

OS內(nèi)核的總流程
最后,就是fork唯一的1號init進程,然后給用戶啟動shell或者圖形界面了。
不管是shell還是圖形界面,它們本質上都是用戶的進程。

























