偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

系統(tǒng)調(diào)用是如何實(shí)現(xiàn)的

系統(tǒng) Linux
在執(zhí)行 entry_SYSCALL_64 函數(shù)時(shí),內(nèi)核代碼會(huì)根據(jù)約定,先從rax寄存器中獲取想要執(zhí)行的系統(tǒng)調(diào)用的編號(hào),然后根據(jù)該編號(hào)從sys_call_table數(shù)組中找到對(duì)應(yīng)的系統(tǒng)調(diào)用函數(shù)。

[[379322]]

 

這張圖畫了挺久的,主要是想讓大家可以從全局角度,看下linux內(nèi)核中系統(tǒng)調(diào)用的實(shí)現(xiàn)。

因?yàn)閳D片比較大,微信公眾號(hào)上壓縮的比較厲害,所以很多細(xì)節(jié)都看不清了,我單獨(dú)傳了一份到github上,想要原版圖片的,可以點(diǎn)擊下方的閱讀原文直接訪問(wèn)github,或者也可以加我微信 yt0x01,我單獨(dú)發(fā)給你。

在講具體的細(xì)節(jié)之前,我們先根據(jù)上圖,從整體上看一下系統(tǒng)調(diào)用的實(shí)現(xiàn)。

系統(tǒng)調(diào)用的實(shí)現(xiàn)基礎(chǔ),其實(shí)就是兩條匯編指令,分別是syscall和sysret。

syscall使執(zhí)行邏輯從用戶態(tài)切換到內(nèi)核態(tài),在進(jìn)入到內(nèi)核態(tài)之后,cpu會(huì)從 MSR_LSTAR 寄存器中,獲取處理系統(tǒng)調(diào)用內(nèi)核代碼的起始地址,即上面的 entry_SYSCALL_64。

在執(zhí)行 entry_SYSCALL_64 函數(shù)時(shí),內(nèi)核代碼會(huì)根據(jù)約定,先從rax寄存器中獲取想要執(zhí)行的系統(tǒng)調(diào)用的編號(hào),然后根據(jù)該編號(hào)從sys_call_table數(shù)組中找到對(duì)應(yīng)的系統(tǒng)調(diào)用函數(shù)。

接著,從 rdi, rsi, rdx, r10, r8, r9 寄存器中獲取該系統(tǒng)調(diào)用函數(shù)所需的參數(shù),然后調(diào)用該函數(shù),把這些參數(shù)傳入其中。

在系統(tǒng)調(diào)用函數(shù)執(zhí)行完畢之后,執(zhí)行結(jié)果會(huì)被放到rax寄存器中。

最后,執(zhí)行sysret匯編指令,從內(nèi)核態(tài)切換回用戶態(tài),用戶程序繼續(xù)執(zhí)行。

如果用戶程序需要該系統(tǒng)調(diào)用的返回結(jié)果,則從rax中獲取。

總體流程就是這樣,相對(duì)來(lái)說(shuō),還是比較簡(jiǎn)單的,主要就是先去理解syscall和sysret這兩條匯編指令,在理解這兩條匯編指令的基礎(chǔ)上,再去看內(nèi)核源碼,就會(huì)容易很多。

有關(guān)syscall和sysret指令的詳細(xì)介紹,請(qǐng)參考Intel® 64 and IA-32 Architectures Software Developer’s Manual。

有了上面對(duì)系統(tǒng)調(diào)用的整理理解,我們接下來(lái)看下其具體的實(shí)現(xiàn)細(xì)節(jié)。

以write系統(tǒng)調(diào)用為例,其對(duì)應(yīng)的內(nèi)核源碼為:

 

在內(nèi)核中,所有的系統(tǒng)調(diào)用函數(shù)都是通過(guò) SYSCALL_DEFINE 等宏定義的,比如上面的write函數(shù),使用的是 SYSCALL_DEFINE3。

將該宏展開后,我們可以得到如下的函數(shù)定義:

 

由上可見(jiàn),SYSCALL_DEFINE3宏展開后為三個(gè)函數(shù),其中只有__x64_sys_write是外部可訪問(wèn)的,其它兩個(gè)都有被static修飾,不能被外部訪問(wèn),所以注冊(cè)到上文中提到的sys_call_table數(shù)組里的函數(shù),應(yīng)該就是這個(gè)函數(shù)。

那該函數(shù)是怎么注冊(cè)到這個(gè)數(shù)組的呢?

我們先不說(shuō)答案,先來(lái)看下sys_call_table數(shù)組的定義:

 

由上可見(jiàn),該數(shù)組各元素的默認(rèn)值都是 __x64_sys_ni_syscall:

 

該函數(shù)也非常簡(jiǎn)單,就是直接返回錯(cuò)誤碼 -ENOSYS,表示系統(tǒng)調(diào)用非法。

sys_call_table數(shù)組定義的地方好像只設(shè)置了默認(rèn)值,并沒(méi)有設(shè)置真正的系統(tǒng)調(diào)用函數(shù)。

我們?cè)倏纯雌渌胤剑词欠裼写a會(huì)注冊(cè)真正的系統(tǒng)調(diào)用函數(shù)到sys_call_table數(shù)組里。

可惜,并沒(méi)有。

這就奇怪了,那各系統(tǒng)調(diào)用函數(shù)到底是在哪里注冊(cè)的呢?

我們?cè)倩仡^仔細(xì)看下sys_call_table數(shù)組的定義,它在設(shè)置完默認(rèn)值之后,后面還include了一個(gè)名為asm/syscalls_64.h的頭文件,這個(gè)位置include頭文件還是比較奇怪的,我們看下它里面是什么內(nèi)容。

但是,這個(gè)文件居然不存在。

那我們只能初步懷疑這個(gè)頭文件是編譯時(shí)生成的,帶著這個(gè)疑問(wèn),我們?nèi)ニ阉飨嚓P(guān)內(nèi)容,確實(shí)發(fā)現(xiàn)了一些線索:

 

這個(gè)文件確實(shí)是編譯時(shí)生成的,上面的makefile中使用了syscalltbl.sh腳本和syscall_64.tbl模板文件來(lái)生成這個(gè)syscalls_64.h頭文件。

我們來(lái)看下syscall_64.tbl模板文件的內(nèi)容:

 

這里確實(shí)定義了write系統(tǒng)調(diào)用,且標(biāo)明了它的編號(hào)是1。

我們?cè)賮?lái)看下生成的syscalls_64.h頭文件:

 

這里面定義了很多好像宏調(diào)用一樣的東西。

__SYSCALL_COMMON,這個(gè)不就是sys_call_table數(shù)組定義那里define的那個(gè)宏嘛。

再去上面看下__SYSCALL_COMMON這個(gè)宏定義,它的作用是將sym表示的函數(shù)賦值到sys_call_table數(shù)組的nr下標(biāo)處。

所以對(duì)于__SYSCALL_COMMON(1, sys_write)來(lái)說(shuō),它就是注冊(cè)__x64_sys_write函數(shù)到sys_call_table數(shù)組下標(biāo)為1的槽位處。

而這個(gè)__x64_sys_write函數(shù),正是我們上面猜測(cè)的,SYSCALL_DEFINE3定義的write系統(tǒng)調(diào)用,展開之后的一個(gè)外部可訪問(wèn)的函數(shù)。

這樣就豁然開朗了,原來(lái)真正的系統(tǒng)調(diào)用函數(shù)的注冊(cè),是通過(guò)先定義__SYSCALL_COMMON宏,再include那個(gè)根據(jù)syscall_64.tbl模板生成的syscalls_64.h頭文件來(lái)完成的,非常巧妙。

系統(tǒng)調(diào)用函數(shù)注冊(cè)到sys_call_table數(shù)組的過(guò)程,到這里已經(jīng)非常清楚了。

下面我們繼續(xù)來(lái)看下哪里在使用這個(gè)數(shù)組:

 

do_syscall_64在使用,方式是先通過(guò)nr在sys_call_table數(shù)組中找到對(duì)應(yīng)的系統(tǒng)調(diào)用函數(shù),然后再調(diào)用該函數(shù),將regs傳入其中。

這個(gè)流程和我們上面預(yù)估的一樣,且傳入的regs參數(shù)類型,和我們上面注冊(cè)的系統(tǒng)調(diào)用函數(shù)所需的類型也一樣。

那也就是說(shuō),regs參數(shù)的字段里,是帶著各系統(tǒng)調(diào)用函數(shù)所需的參數(shù)的,SYSCALL_DEFINE等宏展開出來(lái)的一系列函數(shù),會(huì)從這些字段中提取出真正的參數(shù),然后對(duì)其進(jìn)行類型轉(zhuǎn)換,最后這些參數(shù)被傳入到最終的系統(tǒng)調(diào)用函數(shù)中。

對(duì)于上面的write系統(tǒng)調(diào)用宏展開后的那些函數(shù),__x64_sys_write會(huì)先從regs中提取出di, si, dx字段作為真正參數(shù),然后__se_sys_write會(huì)將這些參數(shù)轉(zhuǎn)成正確的類型,最后__do_sys_write函數(shù)被調(diào)用,轉(zhuǎn)換后的這些參數(shù)被傳入其中。

在系統(tǒng)調(diào)用函數(shù)執(zhí)行完畢后,其結(jié)果會(huì)被賦值到了regs的ax字段里。

由上可見(jiàn),系統(tǒng)調(diào)用函數(shù)的參數(shù)及返回值的傳遞,都是通過(guò)regs來(lái)完成的。

但文章開始的時(shí)候不是說(shuō),系統(tǒng)調(diào)用的參數(shù)及返回值的傳遞,是通過(guò)寄存器來(lái)完成的嗎,這里怎么是通過(guò)struct pt_regs的字段呢?

先別急,先來(lái)看下struct pt_regs的定義:

 

你有沒(méi)有發(fā)現(xiàn),這里面的字段名都是寄存器的名字。

那是不是說(shuō),在執(zhí)行系統(tǒng)調(diào)用的代碼里,有邏輯把各寄存器里的值放到了這個(gè)結(jié)構(gòu)體的對(duì)應(yīng)字段里,在結(jié)束系統(tǒng)調(diào)用時(shí),這些字段里的值又被賦值到各個(gè)對(duì)應(yīng)的寄存器里呢?

離真相越來(lái)越近。

我們繼續(xù)看使用了do_syscall_64的地方:

 

上圖中的entry_SYSCALL_64方法,就是系統(tǒng)調(diào)用流程中最重要的一個(gè)方法了,為了便于理解,我對(duì)該方法做了很多修改,并添加了很多注釋。

這里需要注意的是100行到121行這段邏輯,它將各寄存器的值壓入到棧中,以此來(lái)構(gòu)建struct pt_regs對(duì)象。

這就能構(gòu)建出一個(gè)struct pt_regs對(duì)象了?

是的。

我們回上面看下struct pt_regs的定義,看其字段名字及順序是不是和這里的壓棧順序正好相反。

我們?cè)傧胂?,?dāng)我們要構(gòu)建一個(gè)struct pt_regs對(duì)象時(shí),我們要為其在內(nèi)存中分配一塊空間,然后用一個(gè)地址來(lái)指向這段空間,這個(gè)地址就是該struct pt_regs對(duì)象的指針,這里需要注意的是,這個(gè)指針里存放的地址,是這段內(nèi)存空間的最小地址。

再看上面的壓棧過(guò)程,每一次壓棧操作我們都可以認(rèn)為是在分配內(nèi)存空間并賦值,當(dāng)r15被最終壓入到棧中后,整個(gè)內(nèi)存空間分配完畢,且數(shù)據(jù)也初始化完畢,此時(shí),rsp指向的棧頂?shù)刂?,就是這段內(nèi)存空間的最小地址,因?yàn)閴簵_^(guò)程中,棧頂?shù)牡刂肥且恢痹谧冃〉摹?/p>

綜上可知,在壓棧完畢后,rsp里的地址就是一個(gè)struct pt_regs對(duì)象的地址,即該對(duì)象的指針。

在構(gòu)建完struct pt_regs對(duì)象后,123行將rax中存放的系統(tǒng)調(diào)用編號(hào)賦值到了rdx里,124行將rsp里存放的struct pt_regs對(duì)象的地址,即該對(duì)象的指針,賦值到了rsi中,接著后面執(zhí)行了call指令,來(lái)調(diào)用do_syscall_64方法。

調(diào)用do_syscall_64方法之前,對(duì)rdi和rsi的賦值,是為了遵守c calling convention,因?yàn)樵谠揷alling convention中約定,在調(diào)用c方法時(shí),第一個(gè)參數(shù)要放到rdi里,第二個(gè)參數(shù)要放到rsi里。

我們?cè)偃ド厦婵聪耫o_syscall_64方法的定義,參數(shù)類型及順序是不是和我們這里說(shuō)的是完全一樣的。

在調(diào)用完do_syscall_64方法后,系統(tǒng)調(diào)用的整個(gè)流程基本上就快結(jié)束了,上圖中的129行到133行做的都是一些寄存器恢復(fù)的工作,比如從棧中彈出對(duì)應(yīng)的值到rax,rip,rsp等等。

這里需要注意的是,棧中rax的值是在上面do_syscall_64方法里設(shè)置的,其存放的是系統(tǒng)調(diào)用的最終結(jié)果。

另外,在棧中彈出的rip和rsp的值,分別是用戶態(tài)程序的后續(xù)指令地址及其堆棧地址。

最后執(zhí)行sysret,從內(nèi)核態(tài)切換回用戶態(tài),繼續(xù)執(zhí)行syscall后面邏輯。

到這里,完整的系統(tǒng)調(diào)用處理流程就已經(jīng)差不多說(shuō)完了,不過(guò)這里還差一小步,就是syscall指令在進(jìn)入到內(nèi)核態(tài)之后,是如何找到entry_SYSCALL_64方法的:

 

它其實(shí)是注冊(cè)到了MSR_LSTAR寄存器里了,syscall指令在進(jìn)入到內(nèi)核態(tài)之后,會(huì)直接從這個(gè)寄存器里拿系統(tǒng)調(diào)用處理函數(shù)的地址,并開始執(zhí)行。

系統(tǒng)調(diào)用內(nèi)核態(tài)的邏輯處理就是這些。

下面我們用一個(gè)例子來(lái)演示下用戶態(tài)部分:

 

編譯并執(zhí)行:

 

我們用syscall來(lái)執(zhí)行write系統(tǒng)調(diào)用,寫的字符串為Hi\n,syscall執(zhí)行完畢后,我們直接使用ret指令將write的返回結(jié)果當(dāng)作程序的退出碼返回。

所以在上圖中,輸出了Hi,且程序的退出碼是3。

如果對(duì)上面的匯編不太理解,可以把它想像成下面這個(gè)樣子:

 

在這里,我們使用的是glibc中的write方法來(lái)執(zhí)行該系統(tǒng)調(diào)用,其實(shí)該方法就是對(duì)syscall指令做的一層封裝,本質(zhì)上使用的還是我們上面的匯編代碼。

這個(gè)例子到這里就結(jié)束了。

有沒(méi)有覺(jué)得不太盡興?

我們分析了這么多的代碼,最終就用了這么個(gè)小例子就結(jié)束了,不行,我們要再做點(diǎn)什么。

要不我們來(lái)自己寫個(gè)系統(tǒng)調(diào)用?

說(shuō)干就干。

我們先在write系統(tǒng)調(diào)用下面定義一個(gè)我們自己的系統(tǒng)調(diào)用:

 

該方法很簡(jiǎn)單,就是將參數(shù)加10,然后返回。

再把這個(gè)系統(tǒng)調(diào)用在syscall_64.tbl里注冊(cè)一下,編號(hào)為442:

 

編譯內(nèi)核,等待執(zhí)行。

我們?cè)侔焉厦鎸懙哪莻€(gè)hi程序改下并編譯好:

 

然后在虛擬機(jī)中啟動(dòng)新編譯的linux內(nèi)核,并執(zhí)行上面的程序:

 

 

看結(jié)果,正好就是20。

 

搞定,收工。

本文轉(zhuǎn)載自微信公眾號(hào)「卯時(shí)卯刻」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系卯時(shí)卯刻公眾號(hào)。

 

責(zé)任編輯:武曉燕 來(lái)源: 卯時(shí)卯刻
相關(guān)推薦

2022-08-17 08:10:34

語(yǔ)言VisitorListener

2009-10-23 09:38:59

VB.NET平臺(tái)調(diào)用

2021-06-03 08:03:13

網(wǎng)絡(luò)

2010-03-12 14:38:55

2010-01-28 10:06:05

Linux系統(tǒng)調(diào)用

2024-05-31 08:45:24

2023-12-14 12:56:00

鏈?zhǔn)?/a>調(diào)用代碼

2010-01-26 14:04:14

C++Builder

2022-03-14 15:26:59

Hi3516Ark子系統(tǒng)鴻蒙

2022-04-02 07:52:47

DubboRPC調(diào)用動(dòng)態(tài)代理

2022-09-02 08:23:12

軟件開發(fā)解耦架構(gòu)

2020-11-18 19:11:26

iOSFlutterNative

2022-03-29 09:00:00

Angular框架REST API

2016-11-28 15:17:52

大數(shù)據(jù)應(yīng)用大數(shù)據(jù)

2017-01-11 09:22:03

大數(shù)據(jù)應(yīng)用資源

2020-06-15 10:45:49

云計(jì)算自治系統(tǒng)冠狀病毒

2010-08-25 10:18:27

2009-07-07 16:38:36

ServletCont

2011-09-08 17:50:34

Windows7放大鏡

2011-01-11 16:11:03

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)