手把手教你攔截系統(tǒng)調(diào)用
一、什么是系統(tǒng)調(diào)用
系統(tǒng)調(diào)用 是內(nèi)核提供給應(yīng)用程序使用的功能函數(shù),由于應(yīng)用程序一般運(yùn)行在 用戶態(tài),處于用戶態(tài)的進(jìn)程有諸多限制(如不能進(jìn)行 I/O 操作),所以有些功能必須由內(nèi)核代勞完成。而內(nèi)核就是通過向應(yīng)用層提供 系統(tǒng)調(diào)用,來完成一些在用戶態(tài)不能完成的工作。
說白了,系統(tǒng)調(diào)用其實(shí)就是函數(shù)調(diào)用,只不過調(diào)用的是內(nèi)核態(tài)的函數(shù)。但與普通的函數(shù)調(diào)用不同,系統(tǒng)調(diào)用不能使用 call 指令來調(diào)用,而是需要使用 軟中斷 來調(diào)用。在 Linux 系統(tǒng)中,系統(tǒng)調(diào)用一般使用 int 0x80 指令(x86)或者 syscall 指令(x64)來調(diào)用。
下面我們以 int 0x80 指令(x86)調(diào)用方式為例,來說明系統(tǒng)調(diào)用的原理。
二、系統(tǒng)調(diào)用原理
在 Linux 內(nèi)核中,使用 sys_call_table 數(shù)組來保存所有系統(tǒng)調(diào)用,sys_call_table 數(shù)組每一個(gè)元素代表著一個(gè)系統(tǒng)調(diào)用的入口,其定義如下:
- typedef void (*sys_call_ptr_t)(void);
 - const sys_call_ptr_t sys_call_table[__NR_syscall_max+1] = {
 - ...
 - };
 
當(dāng)應(yīng)用程序需要調(diào)用一個(gè)系統(tǒng)調(diào)用時(shí),首先需要將要調(diào)用的系統(tǒng)調(diào)用號(也就是系統(tǒng)調(diào)用所在 sys_call_table 數(shù)組的索引)放置到 eax 寄存器中,然后通過使用 int 0x80 指令觸發(fā)調(diào)用 0x80 號軟中斷服務(wù)。
0x80 號軟中斷服務(wù),會通過以下代碼來調(diào)用系統(tǒng)調(diào)用,如下所示:
- ...
 - call *sys_call_table(,%eax,8)
 - ...
 
上面的代碼會根據(jù) eax 寄存器中的值來調(diào)用正確的系統(tǒng)調(diào)用,其過程如下圖所示:
三、系統(tǒng)調(diào)用攔截
了解了系統(tǒng)調(diào)用的原理后,要攔截系統(tǒng)調(diào)用就很簡單了。那么如何攔截呢?
做法就是:我們只需要把 sys_call_table 數(shù)組的系統(tǒng)調(diào)用換成我們自己編寫的函數(shù)入口即可。比如,我們想要攔截 write() 系統(tǒng)調(diào)用,那么只需要將 sys_call_table 數(shù)組的第一個(gè)元素?fù)Q成我們編寫好的函數(shù)(因?yàn)?write() 系統(tǒng)調(diào)用在 sys_call_table 數(shù)組的索引為1)。
要修改 sys_call_table 數(shù)組元素的值,步驟如下:
1. 獲取 sys_call_table 數(shù)組的地址
要修改 sys_call_table 數(shù)組元素的值,一般需要通過內(nèi)核模塊來完成。因?yàn)橛脩魬B(tài)程序由于內(nèi)存保護(hù)機(jī)制,不能改寫內(nèi)核態(tài)的數(shù)據(jù)。而內(nèi)核模塊運(yùn)行在內(nèi)核態(tài),所以能夠跳過這個(gè)限制。
要修改 sys_call_table 數(shù)組元素的值,首先要獲取 sys_call_table 數(shù)組的虛擬內(nèi)存地址(由于 sys_call_table 變量不是一個(gè)導(dǎo)出符號,所以內(nèi)核模塊不能直接使用)。
要獲取 sys_call_table 數(shù)組的虛擬內(nèi)存地址有兩種方法:
第一種方法:從 System.map 文件中讀取
System.map 是一份內(nèi)核符號表,包含了內(nèi)核中的變量名和函數(shù)名地址,在每次編譯內(nèi)核時(shí),自動生成。獲取 sys_call_table 數(shù)組的虛擬地址使用如下命令:
- sudo cat /boot/System.map-`uname -r` | grep sys_call_table
 
結(jié)果如下圖所示:
從上圖可知,sys_call_table 數(shù)組的虛擬地址為:ffffffff818001c0。
第二種方法:通過 kallsyms_lookup_name() 函數(shù)來獲取
從 System.map 文件中讀取的方法不是很優(yōu)雅,所以內(nèi)核提供了一個(gè)名為 kallsyms_lookup_name() 的函數(shù)來獲取內(nèi)核變量和內(nèi)核函數(shù)的虛擬內(nèi)存地址。
- #include <linux/kallsyms.h>
 - void func() {
 - ...
 - unsigned long *sys_call_table;
 - // 獲取 sys_call_table 的虛擬內(nèi)存地址
 - sys_call_table = (unsigned long *)kallsyms_lookup_name("sys_call_table");
 - ...
 - }
 
2. 設(shè)置 sys_call_table 數(shù)組為可寫狀態(tài)
是不是獲取到 sys_call_table 數(shù)組的虛擬地址就可以修改其元素的值呢?沒那么簡單。
由于 sys_call_table 數(shù)組處于寫保護(hù)區(qū)域,并不能直接修改其內(nèi)容。但有兩種方法可以將寫保護(hù)暫時(shí)關(guān)閉,如下:
第一種方法:將 cr0 寄存器的第 16 位設(shè)置為零
cr0 控制寄存器的第 16 位是寫保護(hù)位,若設(shè)置為零,則允許超級權(quán)限往內(nèi)核中寫入數(shù)據(jù)。這樣我們可以在修改 sys_call_table 數(shù)組的值前,將 cr0 寄存器的第 16 位清零,使其可以修改 sys_call_table 數(shù)組的內(nèi)容。當(dāng)修改完后,又將那一位復(fù)原即可。
代碼如下:
- /*
 - * 設(shè)置cr0寄存器的第16位為0
 - */
 - unsigned int clear_and_return_cr0(void)
 - {
 - unsigned int cr0 = 0;
 - unsigned int ret;
 - /* 將cr0寄存器的值移動到rax寄存器中,同時(shí)輸出到cr0變量中 */
 - asm volatile ("movq %%cr0, %%rax" : "=a"(cr0));
 - ret = cr0;
 - cr0 &= 0xfffeffff; /* 將cr0變量值中的第16位清0,將修改后的值寫入cr0寄存器 */
 - /* 讀取cr0的值到rax寄存器,再將rax寄存器的值放入cr0中 */
 - asm volatile ("movq %%rax, %%cr0" :: "a"(cr0));
 - return ret;
 - }
 - /*
 - * 還原cr0寄存器的值為val
 - */
 - void setback_cr0(unsigned int val)
 - {
 - asm volatile ("movq %%rax, %%cr0" :: "a"(val));
 - }
 
第二種方法:設(shè)置虛擬地址對應(yīng)頁表項(xiàng)的讀寫屬性
由于 x86 CPU 的內(nèi)存保護(hù)機(jī)制是通過虛擬內(nèi)存頁表來實(shí)現(xiàn)的(可以參考這篇文章:漫談內(nèi)存映射),所以我們只需要把 sys_call_table 數(shù)組的虛擬內(nèi)存頁表項(xiàng)中的保護(hù)標(biāo)志位清空即可,代碼如下:
- /*
 - * 把虛擬內(nèi)存地址設(shè)置為可寫
 - */
 - int make_rw(unsigned long address)
 - {
 - unsigned int level;
 - //查找虛擬地址所在的頁表地址
 - pte_t *pte = lookup_address(address, &level);
 - if (pte->pte & ~_PAGE_RW) //設(shè)置頁表讀寫屬性
 - pte->pte |= _PAGE_RW;
 - return 0;
 - }
 - /*
 - * 把虛擬內(nèi)存地址設(shè)置為只讀
 - */
 - int make_ro(unsigned long address)
 - {
 - unsigned int level;
 - pte_t *pte = lookup_address(address, &level);
 - pte->pte &= ~_PAGE_RW; //設(shè)置只讀屬性
 - return 0;
 - }
 
3. 修改 sys_call_table 數(shù)組的內(nèi)容
萬事俱備,只欠東風(fēng)。前面我們把準(zhǔn)備工作都做完了,現(xiàn)在只需要把 sys_call_table 數(shù)組中的系統(tǒng)調(diào)用入口替換成我們編寫的函數(shù)入口即可。
我們可以在內(nèi)核模塊初始化函數(shù)修改 sys_call_table 數(shù)組的值,然后在內(nèi)核模塊退出函數(shù)改回成原來的值即可,完整代碼如下:
- /*
 - * File: syscall.c
 - */
 - #include <linux/module.h>
 - #include <linux/kernel.h>
 - #include <linux/init.h>
 - #include <linux/unistd.h>
 - #include <linux/time.h>
 - #include <asm/uaccess.h>
 - #include <linux/sched.h>
 - #include <linux/kallsyms.h>
 - unsigned long *sys_call_table;
 - unsigned int clear_and_return_cr0(void);
 - void setback_cr0(unsigned int val);
 - static int sys_hackcall(void);
 - unsigned long *sys_call_table = 0;
 - /* 定義一個(gè)函數(shù)指針,用來保存原來的系統(tǒng)調(diào)用*/
 - static int (*orig_syscall_saved)(void);
 - /*
 - * 設(shè)置cr0寄存器的第16位為0
 - */
 - unsigned int clear_and_return_cr0(void)
 - {
 - unsigned int cr0 = 0;
 - unsigned int ret;
 - /* 將cr0寄存器的值移動到rax寄存器中,同時(shí)輸出到cr0變量中 */
 - asm volatile ("movq %%cr0, %%rax" : "=a"(cr0));
 - ret = cr0;
 - cr0 &= 0xfffeffff; /* 將cr0變量值中的第16位清0,將修改后的值寫入cr0寄存器 */
 - /* 讀取cr0的值到rax寄存器,再將rax寄存器的值放入cr0中 */
 - asm volatile ("movq %%rax, %%cr0" :: "a"(cr0));
 - return ret;
 - }
 - /*
 - * 還原cr0寄存器的值為val
 - */
 - void setback_cr0(unsigned int val)
 - {
 - asm volatile ("movq %%rax, %%cr0" :: "a"(val));
 - }
 - /*
 - * 自己編寫的系統(tǒng)調(diào)用函數(shù)
 - */
 - static int sys_hackcall(void)
 - {
 - printk("Hack syscall is successful!!!\n");
 - return 0;
 - }
 - /*
 - * 模塊的初始化函數(shù),模塊的入口函數(shù),加載模塊時(shí)調(diào)用
 - */
 - static int __init init_hack_module(void)
 - {
 - int orig_cr0;
 - printk("Hack syscall is starting...\n");
 - /* 獲取 sys_call_table 虛擬內(nèi)存地址 */
 - sys_call_table = (unsigned long *)kallsyms_lookup_name("sys_call_table");
 - /* 保存原始系統(tǒng)調(diào)用 */
 - orig_syscall_saved = (int(*)(void))(sys_call_table[__NR_perf_event_open]);
 - orig_cr0 = clear_and_return_cr0(); /* 設(shè)置cr0寄存器的第16位為0 */
 - sys_call_table[__NR_perf_event_open] = (unsigned long)&sys_hackcall; /* 替換成我們編寫的函數(shù) */
 - setback_cr0(orig_cr0); /* 還原cr0寄存器的值 */
 - return 0;
 - }
 - /*
 - * 模塊退出函數(shù),卸載模塊時(shí)調(diào)用
 - */
 - static void __exit exit_hack_module(void)
 - {
 - int orig_cr0;
 - orig_cr0 = clear_and_return_cr0();
 - sys_call_table[__NR_perf_event_open] = (unsigned long)orig_syscall_saved; /* 設(shè)置為原來的系統(tǒng)調(diào)用 */
 - setback_cr0(orig_cr0);
 - printk("Hack syscall is exited....\n");
 - }
 - module_init(init_hack_module);
 - module_exit(exit_hack_module);
 - MODULE_LICENSE("GPL");
 
在上面代碼中,我們將 perf_event_open() 系統(tǒng)調(diào)用替換成了我們自己實(shí)現(xiàn)的函數(shù)。
注意:測試時(shí)最好使用冷門的系統(tǒng)調(diào)用,否則可能會導(dǎo)致系統(tǒng)崩潰。
4. 編寫 Makefile 文件
為了編譯方便,我們編寫一個(gè) Makefile 文件來進(jìn)行編譯,如下所示:
- obj-m:=syscall.o
 - PWD:= $(shell pwd)
 - KERNELDIR:= /lib/modules/$(shell uname -r)/build
 - EXTRA_CFLAGS= -O0
 - all:
 - make -C $(KERNELDIR) M=$(PWD) modules
 - clean:
 - make -C $(KERNELDIR) M=$(PWD) clean
 
要注意添加 EXTRA_CFLAGS= -O0 關(guān)閉 gcc 優(yōu)化選項(xiàng),避免插入模塊出錯。
5. 測試程序
現(xiàn)在,我們編寫一個(gè)測試程序來測試一下系統(tǒng)調(diào)用攔截是否成功,代碼如下:
- #include <syscall.h>
 - #include <stdio.h>
 - #include <unistd.h>
 - int main(void)
 - {
 - unsigned long ret = syscall(__NR_perf_event_open, NULL, 0, 0, 0, 0);
 - printf("%d\n", (int)ret);
 - return 0;
 - }
 
6. 運(yùn)行結(jié)果
第一步:安裝攔截內(nèi)核模塊
使用以下命令安裝內(nèi)核模塊:
- root# insmod syscall.ko
 
然后通過 dmesg 命令來觀察系統(tǒng)日志,可以看到以下輸出:
- ...
 - [ 133.564652] Hack syscall is starting...
 
這說明我們的內(nèi)核模塊安裝成功。
第二步:運(yùn)行測試程序
接著,我們運(yùn)行剛才編寫的測試程序,然后觀察系統(tǒng)日志,輸出如下:
- ...
 - [ 532.243714] Hack syscall is successful!!!
 
這說明攔截系統(tǒng)調(diào)用成功了。


















 
 
 







 
 
 
 