一文吃透Kprobes:從源碼探秘到調(diào)試實戰(zhàn)
曾經(jīng),有一位開發(fā)者在維護一個基于 Linux 內(nèi)核的服務器系統(tǒng)時,遇到了一個棘手的問題:系統(tǒng)時不時會出現(xiàn)短暫的卡頓,排查日志卻找不到明顯線索。經(jīng)過一番分析,他懷疑是某個內(nèi)核函數(shù)在特定條件下執(zhí)行異常。但傳統(tǒng)的調(diào)試方法,如添加打印語句,需要重新編譯內(nèi)核,不僅繁瑣,還可能影響生產(chǎn)環(huán)境。
這時,Kprobes 技術進入了他的視野。通過 Kprobes,他在懷疑的內(nèi)核函數(shù)入口處設置了探測點,收集函數(shù)的輸入?yún)?shù)和執(zhí)行時間等信息。經(jīng)過一段時間的監(jiān)測和分析,終于發(fā)現(xiàn)是一個資源競爭問題導致了卡頓。通過修改代碼,成功解決了這個困擾已久的難題。這個故事充分展現(xiàn)了 Kprobes 在調(diào)試內(nèi)核問題時的強大作用。
那么,Kprobes 究竟是什么呢?簡單來說,Kprobes 是 Linux 內(nèi)核提供的一種動態(tài)調(diào)試機制,它允許開發(fā)者在不修改內(nèi)核源碼、不重啟系統(tǒng)的情況下,對內(nèi)核函數(shù)進行探測。無論是內(nèi)核開發(fā)者排查性能瓶頸,還是驅(qū)動開發(fā)者調(diào)試設備驅(qū)動,Kprobes 都能提供極大的便利,讓你深入內(nèi)核執(zhí)行的 “幕后”,一探究竟。
一、Kprobes 概述
Kprobes 是 Linux 內(nèi)核中一種強大的動態(tài)探測機制,猶如一把 “萬能鑰匙”,能打開內(nèi)核函數(shù)的 “神秘大門” 。它允許開發(fā)者在不重新編譯內(nèi)核、不重啟系統(tǒng)的情況下,對內(nèi)核函數(shù)進行實時監(jiān)測和分析,極大地提高了調(diào)試和性能優(yōu)化的效率。這對于內(nèi)核開發(fā)者來說,無疑是一項 “神器”,讓他們能夠在不中斷系統(tǒng)運行的情況下,深入了解內(nèi)核的運行狀態(tài),快速定位和解決問題。
Kprobes 的出現(xiàn),解決了傳統(tǒng)內(nèi)核調(diào)試方法的諸多痛點。在 Kprobes 之前,開發(fā)者若要調(diào)試內(nèi)核函數(shù),往往需要在函數(shù)中添加打印語句,然后重新編譯內(nèi)核并重啟系統(tǒng)。這個過程不僅繁瑣耗時,還可能影響生產(chǎn)環(huán)境的穩(wěn)定性。而 Kprobes 打破了這些限制,它就像一個 “隱形的觀察者”,可以隨時在運行中的內(nèi)核函數(shù)中插入探測點,收集函數(shù)的執(zhí)行信息,如函數(shù)參數(shù)、返回值、執(zhí)行時間等,卻不會對內(nèi)核的正常運行造成干擾。
二、Kprobes 如何運作
2.1關鍵數(shù)據(jù)結(jié)構(gòu)
在 Kprobes 的源碼世界里,struct kprobe是一個核心結(jié)構(gòu)體,它就像是一個 “探測點管理器”,承載著 Kprobes 運作的關鍵信息。下面是struct kprobe的簡化定義:
struct kprobe {
kprobe_opcode_t *addr; // 被探測點的地址
const char *symbol_name; // 被探測函數(shù)的名稱
unsigned int offset; // 被探測點在函數(shù)內(nèi)部的偏移,若為0則表示函數(shù)入口
kprobe_pre_handler_t pre_handler; // 該回調(diào)函數(shù)用于在執(zhí)行被探測指令前執(zhí)行
kprobe_post_handler_t post_handler; // 該回調(diào)函數(shù)用于在執(zhí)行完被探測指令后執(zhí)行
kprobe_fault_handler_t fault_handler; // 此函數(shù)用于在出現(xiàn)內(nèi)存訪問錯誤時進行處理
kprobe_opcode_t opcode; // 保存被替換的原始指令
struct arch_specific_insn ainsn; // 架構(gòu)相關的指令信息
u32 flags; // 各種狀態(tài)標志
};其中,addr成員指明了探測點的具體位置,它是 Kprobes 定位內(nèi)核函數(shù)中特定指令的 “導航儀” 。symbol_name則以函數(shù)名的形式,為開發(fā)者提供了一種更直觀的方式來指定探測目標,就像是給探測點貼上了一個清晰的 “標簽” 。offset用于精確到函數(shù)內(nèi)部的具體指令,讓探測更加細致入微,如同在精密儀器中調(diào)整刻度,實現(xiàn)精準探測。
pre_handler、post_handler和fault_handler這三個回調(diào)函數(shù),是 Kprobes 與內(nèi)核交互的 “橋梁” 。pre_handler在被探測指令執(zhí)行前被調(diào)用,就像是比賽前的熱身,讓開發(fā)者有機會提前獲取信息、設置環(huán)境;post_handler在指令執(zhí)行后登場,如同賽后的復盤,用于收集指令執(zhí)行后的結(jié)果和狀態(tài);fault_handler則在內(nèi)存訪問出錯時發(fā)揮作用,是處理異常情況的 “救火隊員” 。
opcode保存了被斷點指令替換的原始指令,確保在探測完成后,內(nèi)核能夠恢復到原本的執(zhí)行狀態(tài),就像在書本中夾了一張書簽,方便后續(xù)繼續(xù)閱讀。ainsn和flags則分別負責存儲架構(gòu)相關的指令信息和各種狀態(tài)標志,為 Kprobes 在不同硬件架構(gòu)上的穩(wěn)定運行提供支持,以及記錄探測點的各種狀態(tài),如是否啟用、是否出錯等。
2.2注冊與卸載流程
當我們想要使用 Kprobes 對某個內(nèi)核函數(shù)進行探測時,就需要將探測點注冊到內(nèi)核中。這個過程就像是在圖書館的書架上添加一本新書,需要遵循一定的流程。下面是注冊 Kprobes 探測點的關鍵代碼示例:
#include <linux/module.h>
#include <linux/kprobes.h>
// 定義pre_handler回調(diào)函數(shù)
static int handler_pre(struct kprobe *p, struct pt_regs *regs) {
pr_info("< %s > pre_handler: p->addr = 0x%p, ip = %lx, flags = 0x%lx\n",
p->symbol_name, p->addr, regs->ip, regs->flags);
return 0;
}
// 定義post_handler回調(diào)函數(shù)
static void handler_post(struct kprobe *p, struct pt_regs *regs, unsigned long flags) {
pr_info("< %s > post_handler: p->addr = 0x%p, flags = 0x%lx\n",
p->symbol_name, p->addr, flags);
}
// 定義fault_handler回調(diào)函數(shù)
int handler_fault(struct kprobe *p, struct pt_regs *regs, int trapnr) {
pr_info("fault_handler: p->addr = 0x%p, trap #%d\n", p->addr, trapnr);
return 0;
}
// 定義kprobe結(jié)構(gòu)
static struct kprobe kp = {
.symbol_name = "do_fork", // 要追蹤的內(nèi)核函數(shù)為do_fork
.pre_handler = handler_pre, // pre_handler回調(diào)函數(shù)
.post_handler = handler_post, // post_handler回調(diào)函數(shù)
.fault_handler = handler_fault // fault_handler回調(diào)函數(shù)
};
// 模塊初始化函數(shù),用于注冊kprobe
static int __init kprobe_init(void) {
int ret;
ret = register_kprobe(&kp);
if (ret < 0) {
pr_err("register_kprobe failed, returned %d\n", ret);
return ret;
}
pr_info("Planted kprobe at %p\n", kp.addr);
return 0;
}
// 模塊退出函數(shù),用于卸載kprobe
static void __exit kprobe_exit(void) {
unregister_kprobe(&kp);
pr_info("kprobe at %p unregistered\n", kp.addr);
}
module_init(kprobe_init);
module_exit(kprobe_exit);
MODULE_LICENSE("GPL");在上述代碼中,首先定義了三個回調(diào)函數(shù)handler_pre、handler_post和handler_fault,分別用于在被探測指令執(zhí)行前、執(zhí)行后和出現(xiàn)內(nèi)存訪問錯誤時執(zhí)行。然后,創(chuàng)建了一個struct kprobe結(jié)構(gòu)體實例kp,并指定要探測的內(nèi)核函數(shù)為do_fork,同時將三個回調(diào)函數(shù)與kp關聯(lián)起來。
在kprobe_init函數(shù)中,通過調(diào)用register_kprobe函數(shù)將kp注冊到內(nèi)核中。如果注冊成功,會打印出探測點的地址;如果失敗,則打印錯誤信息并返回錯誤碼。
2.3回調(diào)函數(shù)機制
Kprobes 的回調(diào)函數(shù)機制是其實現(xiàn)動態(tài)探測的核心,它就像是一個精心編排的 “演出”,每個回調(diào)函數(shù)在不同的時刻登場,為開發(fā)者提供內(nèi)核運行時的關鍵信息。
pre_handler回調(diào)函數(shù)在被探測指令執(zhí)行前被觸發(fā),此時,內(nèi)核的執(zhí)行流程就像行駛到一個岔路口,暫時停下,先進入pre_handler函數(shù)。在這個函數(shù)中,開發(fā)者可以獲取當前的寄存器狀態(tài)、被探測函數(shù)的參數(shù)等信息。例如,在前面的代碼中,handler_pre函數(shù)通過pr_info函數(shù)打印出了被探測函數(shù)的名稱、探測點地址、指令指針ip和標志寄存器flags的值,這些信息就像是內(nèi)核運行時的 “快照”,為開發(fā)者分析問題提供了重要線索。
post_handler回調(diào)函數(shù)則在被探測指令執(zhí)行完畢后閃亮登場。它就像是在一場比賽結(jié)束后,對比賽結(jié)果進行總結(jié)和分析。在這個函數(shù)中,開發(fā)者可以獲取指令執(zhí)行后的返回值、內(nèi)核狀態(tài)的變化等信息。同樣以之前的代碼為例,handler_post函數(shù)打印出了被探測函數(shù)的名稱、探測點地址和標志寄存器的值,幫助開發(fā)者了解指令執(zhí)行后的情況。
fault_handler回調(diào)函數(shù)是在執(zhí)行pre_handler、post_handler或單步執(zhí)行被探測指令時出現(xiàn)內(nèi)存訪問異常時被調(diào)用的。它就像是一個緊急救援小組,在出現(xiàn)問題時迅速響應。當內(nèi)核在執(zhí)行探測相關操作時發(fā)生內(nèi)存錯誤,fault_handler函數(shù)會被觸發(fā),開發(fā)者可以在這個函數(shù)中進行錯誤處理,如打印錯誤信息、記錄故障現(xiàn)場等,以便后續(xù)排查問題。
通過這三個回調(diào)函數(shù)的協(xié)同工作,Kprobes 為開發(fā)者打造了一個全方位、多層次的內(nèi)核探測體系,讓開發(fā)者能夠深入了解內(nèi)核的運行細節(jié),快速定位和解決問題。
三、Kprobe實現(xiàn)原理
當安裝一個kprobes探測點時。kprobe首先備份被探測的指令,然后使用斷點指令(即在i386和x86_64的int3指令)來代替被探測指令的頭一個或幾個字節(jié)。當CPU運行到探測點時,將因運行斷點指令而運行trap操作,那將導致保存CPU的寄存器,調(diào)用對應的trap處理函數(shù)。而trap處理函數(shù)將調(diào)用對應的notifier_call_chain(內(nèi)核中一種異步工作機制)中注冊的全部notifier函數(shù)。kprobe正是通過向trap對應的notifier_call_chain注冊關聯(lián)到探測點的處理函數(shù)來實現(xiàn)探測處理的。
當kprobe注冊的notifier被運行時,它首先運行關聯(lián)到探測點的pre_handler函數(shù),并把對應的kprobe struct和保存的寄存器作為該函數(shù)的參數(shù),接著,kprobe單步運行被探測指令的備份。最后,kprobe運行post_handler。等全部這些運行完成后。緊跟在被探測指令后的指令流將被正常運行。
kretprobe也使用了kprobes來實現(xiàn),當用戶調(diào)用register_kretprobe()時,kprobe在被探測函數(shù)的入口建立了一個探測點。當運行到探測點時,kprobe保存了被探測函數(shù)的返回地址并代替返回地址為一個trampoline的地址,kprobe在初始化時定義了該trampoline而且為該trampoline注冊了一個kprobe,當被探測函數(shù)運行它的返回指令時??刂苽鬟f到該trampoline,因此kprobe已經(jīng)注冊的相應于trampoline的處理函數(shù)將被運行。而該處理函數(shù)會調(diào)用用戶關聯(lián)到該kretprobe上的處理函數(shù)。處理完成后,設置指令寄存器指向已經(jīng)備份的函數(shù)返回地址。因而原來的函數(shù)返回被正常運行。
被探測函數(shù)的返回地址保存在類型為kretprobe_instance的變量中。結(jié)構(gòu)kretprobe的maxactive字段指定了被探測函數(shù)能夠被同一時候探測的實例數(shù),函數(shù)register_kretprobe()將預分配指定數(shù)量的kretprobe_instance。假設被探測函數(shù)是非遞歸的而且調(diào)用時已經(jīng)保持了自旋鎖(spinlock),那么maxactive為1就足夠了;假設被探測函數(shù)是非遞歸的且執(zhí)行時是搶占失效的,那么maxactive為NR_CPUS就能夠了;假設maxactive被設置為小于等于0, 它被設置到缺省值(假設搶占使能, 即配置了 CONFIG_PREEMPT,缺省值為10和2*NR_CPUS中的最大值,否則缺省值為NR_CPUS)。
假設maxactive被設置的太小了,一些探測點的運行可能被丟失,可是不影響系統(tǒng)的正常運行,在結(jié)構(gòu)kretprobe中nmissed字段將記錄被丟失的探測點運行數(shù),它在返回探測點被注冊時設置為0,每次當運行探測函數(shù)而沒有kretprobe_instance可用時,它就加1。
四 、Kprobe限制
kprobe同意在同一地址注冊多個kprobes,可是不能同一時候在該地址上有多個jprobes。通常,用戶能夠在內(nèi)核的不論什么位置注冊探測點,特別是能夠?qū)χ袛嗵幚砗瘮?shù)注冊探測點,可是也有一些例外。假設用戶嘗試在實現(xiàn)kprobe的代碼(包含kernel/kprobes.c和arch/*/kernel/kprobes.c以及do_page_fault和notifier_call_chain)中注冊探測點。register_*probe將返回-EINVAL。
假設為一個內(nèi)聯(lián)(inline)函數(shù)注冊探測點,kprobe無法保證對該函數(shù)的全部實例都注冊探測點,由于gcc可能隱式地內(nèi)聯(lián)一個函數(shù)。因此,要記住,用戶可能看不到預期的探測點的運行。一個探測點處理函數(shù)可以改動被探測函數(shù)的上下文,如改動內(nèi)核數(shù)據(jù)結(jié)構(gòu),寄存器等。因此,kprobe可以用來安裝bug解決代碼或注入一些錯誤或測試代碼。
假設一個探測處理函數(shù)調(diào)用了還有一個探測點,該探測點的處理函數(shù)不將執(zhí)行,可是它的nmissed數(shù)將加1。多個探測點處理函數(shù)或同一處理函數(shù)的多個實例可以在不同的CPU上同一時候執(zhí)行。除了注冊和卸載,kprobe不會使用mutexe或分配內(nèi)存。探測點處理函數(shù)在執(zhí)行時是失效搶占的。依賴于特定的架構(gòu),探測點處理函數(shù)執(zhí)行時也可能是中斷失效的。因此,對于不論什么探測點處理函數(shù),不要使用導致睡眠或進程調(diào)度的不論什么內(nèi)核函數(shù)(如嘗試獲得semaphore)。
kretprobe是通過代替返回地址為提前定義的trampoline的地址來實現(xiàn)的。因此?;厮莺蚲cc內(nèi)嵌函數(shù)__builtin_return_address()調(diào)用將返回trampoline的地址而不是真正的被探測函數(shù)的返回地址。
假設一個函數(shù)的調(diào)用次數(shù)與它的返回次數(shù)不同樣,那么在該函數(shù)上注冊的kretprobe探測點可能產(chǎn)生無法預料的結(jié)果(do_exit()就是一個典型的樣例,但do_execve() 和 do_fork()沒有問題)。
五、怎樣在內(nèi)核中引入Kprobe
probe已經(jīng)被包括在2.6內(nèi)核中??墒莾H僅有最新的內(nèi)核才提供了上面描寫敘述的所有功能,因此假設讀者想實驗本文附帶的內(nèi)核模塊,須要最新的內(nèi)核,作者在2.6.18內(nèi)核上測試的這些代碼。內(nèi)核缺省時并沒有使能kprobe,因此用戶需使能它。
為了使能kprobe。用戶必須在編譯內(nèi)核時設置CONFIG_KPROBES,即選擇在“Instrumentation Support“中的“Kprobes”項。假設用戶希望動態(tài)載入和卸載使用kprobe的模塊,還必須確?!癓oadable module support” (CONFIG_MODULES)和“Module unloading” (CONFIG_MODULE_UNLOAD)設置為y。假設用戶還想使用kallsyms_lookup_name()來得到被探測函數(shù)的地址,也要確保CONFIG_KALLSYMS設置為y,當然設置CONFIG_KALLSYMS_ALL為y將更好。
內(nèi)核中引入Kprobe需要進行以下步驟:
- 首先需要確認內(nèi)核版本是否支持Kprobe,可以通過查詢文檔或者源代碼來確定。
- 在內(nèi)核配置文件中開啟CONFIG_KPROBES選項。
- 編譯內(nèi)核,并安裝新的內(nèi)核。
- 寫一個 Kprobe 監(jiān)聽函數(shù),在該函數(shù)中可以添加相應的邏輯,例如日志輸出、性能統(tǒng)計等等。Kprobe 監(jiān)聽函數(shù)需要使用 Kprobe API 來注冊到系統(tǒng)中。
- 使用 insmod 命令加載編寫好的模塊,即可開始監(jiān)聽指定的內(nèi)核函數(shù)并執(zhí)行相應操作。
六、Kprobe使用實例
6.1編寫簡單的 Kprobes 探測模塊
接下來,讓我們通過一個具體的例子,來深入了解如何編寫一個簡單的 Kprobes 探測模塊。假設我們要探測do_sys_open函數(shù),這個函數(shù)負責處理系統(tǒng)的文件打開操作,在實際的系統(tǒng)調(diào)試中,了解文件打開的具體情況,如文件名、打開標志等信息,對于排查文件相關的問題非常有幫助。以下是詳細的代碼實現(xiàn):
#include <linux/module.h>
#include <linux/kprobes.h>
#include <linux/sched.h>
// 定義一個計數(shù)器,用于統(tǒng)計函數(shù)被調(diào)用的次數(shù)
static int count = 0;
// pre_handler回調(diào)函數(shù),在被探測指令執(zhí)行前被調(diào)用
static int handler_pre(struct kprobe *p, struct pt_regs *regs) {
// 從寄存器中獲取文件名和標志信息
char *filename = (char *)regs->di;
int flags = (int)regs->si;
// 打印函數(shù)調(diào)用信息,包括文件名和標志
printk(KERN_INFO "do_sys_open called with filename=%s, flags=%x\n", filename, flags);
// 計數(shù)器加一
count++;
return 0;
}
// 定義kprobe結(jié)構(gòu),指定要探測的函數(shù)為do_sys_open,并關聯(lián)pre_handler回調(diào)函數(shù)
static struct kprobe kp = {
.symbol_name = "do_sys_open",
.pre_handler = handler_pre,
};
// 模塊初始化函數(shù),用于注冊kprobe
static int __init mymodule_init(void) {
int ret;
// 調(diào)用register_kprobe函數(shù)注冊kprobe
ret = register_kprobe(&kp);
if (ret < 0) {
// 如果注冊失敗,打印錯誤信息
printk(KERN_INFO "register_kprobe failed\n");
return ret;
}
// 如果注冊成功,打印成功信息
printk(KERN_INFO "kprobe registered\n");
return 0;
}
// 模塊退出函數(shù),用于卸載kprobe
static void __exit mymodule_exit(void) {
// 調(diào)用unregister_kprobe函數(shù)卸載kprobe
unregister_kprobe(&kp);
// 打印卸載信息,包括函數(shù)被調(diào)用的次數(shù)
printk(KERN_INFO "kprobe unregistered\n");
printk(KERN_INFO "do_sys_open called %d times\n", count);
}
// 聲明模塊初始化和退出函數(shù)
module_init(mymodule_init);
module_exit(mymodule_exit);
// 指定模塊許可證為GPL
MODULE_LICENSE("GPL");在上述代碼中,首先定義了一個count變量,用于統(tǒng)計do_sys_open函數(shù)被調(diào)用的次數(shù)。handler_pre函數(shù)是pre_handler回調(diào)函數(shù),它從寄存器中獲取do_sys_open函數(shù)的參數(shù)filename和flags,并通過printk函數(shù)打印出來,同時將count加一。
然后,創(chuàng)建了一個struct kprobe結(jié)構(gòu)體實例kp,指定要探測的函數(shù)為do_sys_open,并將handler_pre函數(shù)關聯(lián)到kp的pre_handler成員。
在mymodule_init函數(shù)中,通過register_kprobe函數(shù)將kp注冊到內(nèi)核中,如果注冊失敗,打印錯誤信息并返回錯誤碼;如果注冊成功,打印成功信息。
在mymodule_exit函數(shù)中,通過unregister_kprobe函數(shù)將kp從內(nèi)核中卸載,并打印卸載信息和do_sys_open函數(shù)被調(diào)用的次數(shù)。
6.2基于ftrace使用kprobe
kprobe和內(nèi)核的ftrac結(jié)合使用,需要對內(nèi)核進行配置,然后添加探測點、進行探測、查看結(jié)果。
(1)kprobe配置
打開"General setup"->"Kprobes",以及"Kernel hacking"->"Tracers"->"Enable kprobes-based dynamic events"。
CONFIG_KPROBES=y
CONFIG_OPTPROBES=y
CONFIG_KPROBES_ON_FTRACE=y
CONFIG_UPROBES=y
CONFIG_KRETPROBES=y
CONFIG_HAVE_KPROBES=y
CONFIG_HAVE_KRETPROBES=y
CONFIG_HAVE_OPTPROBES=y
CONFIG_HAVE_KPROBES_ON_FTRACE=y
CONFIG_KPROBE_EVENT=y(2)kprobe trace events使用
kprobe事件相關的節(jié)點有如下:
/sys/kernel/debug/tracing/kprobe_events-----------------------配置kprobe事件屬性,增加事件之后會在kprobes下面生成對應目錄。
/sys/kernel/debug/tracing/kprobe_profile----------------------kprobe事件統(tǒng)計屬性文件。
/sys/kernel/debug/tracing/kprobes/<GRP>/<EVENT>/enabled-------使能kprobe事件
/sys/kernel/debug/tracing/kprobes/<GRP>/<EVENT>/filter--------過濾kprobe事件
/sys/kernel/debug/tracing/kprobes/<GRP>/<EVENT>/format--------查詢kprobe事件顯示格式下面就結(jié)合實例,看一下如何使用kprobe事件。
(3)kprobe事件配置
新增一個kprobe事件,通過寫kprobe_events來設置。
p[:[GRP/]EVENT] [MOD:]SYM[+offs]|MEMADDR [FETCHARGS]-------------------設置一個probe探測點
r[:[GRP/]EVENT] [MOD:]SYM[+0] [FETCHARGS]------------------------------設置一個return probe探測點
-:[GRP/]EVENT----------------------------------------------------------刪除一個探測點細節(jié)解釋如下:
GRP : Group name. If omitted, use "kprobes" for it.------------設置后會在events/kprobes下創(chuàng)建<GRP>目錄。
EVENT : Event name. If omitted, the event name is generated based on SYM+offs or MEMADDR.---指定后在events/kprobes/<GRP>生成<EVENT>目錄。MOD : Module name which has given SYM.--------------------------模塊名,一般不設
SYM[+offs] : Symbol+offset where the probe is inserted.-------------被探測函數(shù)名和偏移
MEMADDR : Address where the probe is inserted.----------------------指定被探測的內(nèi)存絕對地址
FETCHARGS : Arguments. Each probe can have up to 128 args.----------指定要獲取的參數(shù)信息。%REG : Fetch register REG---------------------------------------獲取指定寄存器值
@ADDR : Fetch memory at ADDR (ADDR should be in kernel)--------獲取指定內(nèi)存地址的值
@SYM[+|-offs] : Fetch memory at SYM +|- offs (SYM should be a data symbol)---獲取全局變量的值 $stackN : Fetch Nth entry of stack (N >= 0)----------------------------------獲取指定??臻g值,即sp寄存器+N后的位置值
$stack : Fetch stack address.-----------------------------------------------獲取sp寄存器值
$retval : Fetch return value.(*)--------------------------------------------獲取返回值,用戶return kprobe
$comm : Fetch current task comm.----------------------------------------獲取對應進程名稱。
+|-offs(FETCHARG) : Fetch memory at FETCHARG +|- offs address.(**)------------- NAME=FETCHARG : Set NAME as the argument name of FETCHARG.
FETCHARG:TYPE : Set TYPE as the type of FETCHARG. Currently, basic types (u8/u16/u32/u64/s8/s16/s32/s64), hexadecimal types
(x8/x16/x32/x64), "string" and bitfield are supported.----------------設置參數(shù)的類型,可以支持字符串和比特類型
(*) only for return probe.
(**) this is useful for fetching a field of data structures.執(zhí)行如下兩條命令就會生成目錄/sys/kernel/debug/tracing/events/kprobes/myprobe;第三條命令則可以刪除指定kprobe事件,如果要全部刪除則echo > /sys/kernel/debug/tracing/kprobe_events。
echo 'p:myprobe do_sys_open dfd=%ax filename=%dx flags=%cx mode=+4($stack)' > /sys/kernel/debug/tracing/kprobe_events
echo 'r:myretprobe do_sys_open ret=$retval' >> /sys/kernel/debug/tracing/kprobe_events-----------------------------------------------------這里面一定要用">>",不然就會覆蓋前面的設置。
echo '-:myprobe' >> /sys/kernel/debug/tracing/kprobe_events
echo '-:myretprobe' >> /sys/kernel/debug/tracing/kprobe_events參數(shù)后面的寄存器是跟架構(gòu)相關的,%ax、%dx、%cx表示第1/2/3個參數(shù),超出部分使用$stack來存儲參數(shù)。
函數(shù)返回值保存在$retval中。
(4)kprobe使能
對kprobe事件的是能通過往對應事件的enable寫1開啟探測;寫0暫停探測。
echo > /sys/kernel/debug/tracing/trace
echo 'p:myprobe do_sys_open dfd=%ax filename=%dx flags=%cx mode=+4($stack)' > /sys/kernel/debug/tracing/kprobe_events
echo 'r:myretprobe do_sys_open ret=$retval' >> /sys/kernel/debug/tracing/kprobe_events
echo 1 > /sys/kernel/debug/tracing/events/kprobes/myprobe/enable
echo 1 > /sys/kernel/debug/tracing/events/kprobes/myretprobe/enable
ls
echo 0 > /sys/kernel/debug/tracing/events/kprobes/myprobe/enable
echo 0 > /sys/kernel/debug/tracing/events/kprobes/myretprobe/enable
cat /sys/kernel/debug/tracing/trace然后在/sys/kernel/debug/tracing/trace中可以看到結(jié)果。
sourceinsight4.-3356 [000] .... 3542865.754536: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd6764a0 filename=0x8000 flags=0x1b6 mode=0xe3afff48ffffffff
bash-26041 [001] .... 3542865.757014: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x8241 flags=0x1b6 mode=0xe0c0ff48ffffffff
ls-18078 [005] .... 3542865.757950: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x1 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.757953: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.757966: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x6168 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.757969: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758001: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x6168 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758004: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758030: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x1000 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758033: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758055: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x1000 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758057: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758080: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x19d0 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758082: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758289: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x8000 flags=0x1b6 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758297: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758339: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x88000 flags=0x0 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758343: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
ls-18078 [005] .... 3542865.758444: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x98800 flags=0x2 mode=0xc1b7bf48ffffffff
ls-18078 [005] d... 3542865.758446: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
bash-26041 [001] .... 3542865.760416: myprobe: (do_sys_open+0x0/0x290) dfd=0xffffffffbd676460 filename=0x8241 flags=0x1b6 mode=0xe0c0ff48ffffffff
bash-26041 [001] d... 3542865.760426: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3
bash-26041 [001] d... 3542865.793477: myretprobe: (SyS_open+0x1e/0x20 <- do_sys_open) ret=0x3(5)kprobe事件過濾
跟蹤函數(shù)需要通過filter進行過濾,可以有效過濾掉冗余信息。filter文件用于設置過濾條件,可以減少trace中輸出的信息,它支持的格式和c語言的表達式類似,支持 ==,!=,>,<,>=,<=判斷,并且支持與&&,或||,還有()。
echo 'filename==0x8241' > /sys/kernel/debug/tracing/events/kprobes/myprobe/filter(6)kprobe和棧配合使用
如果要在顯示函數(shù)的同時顯示其棧信息,可以通過配置trace_options來達到。
echo stacktrace > /sys/kernel/debug/tracing/trace_options(7)kprobe_profile統(tǒng)計信息
獲取一段kprobe時間之后,可以再kprobe_profile中查看統(tǒng)計信息。
后面兩列分別表示命中和未命中的次數(shù)。
cat /sys/kernel/debug/tracing/kprobe_profile myprobe6.3調(diào)試工具搭配使用
在使用 Kprobes 進行調(diào)試時,搭配其他工具可以更高效地分析和解決問題,就像一場精彩的交響樂,不同的樂器相互配合,才能演奏出美妙的旋律。
查看內(nèi)核日志是一個非常重要的輔助手段。在前面的代碼中,我們使用了printk函數(shù)來輸出調(diào)試信息,這些信息會被記錄到內(nèi)核日志中。通過查看內(nèi)核日志,我們可以了解 Kprobes 探測模塊的運行情況,如探測點是否成功注冊、回調(diào)函數(shù)是否被正確調(diào)用、函數(shù)的參數(shù)和執(zhí)行結(jié)果等。在 Linux 系統(tǒng)中,可以使用dmesg命令來查看內(nèi)核日志,例如:dmesg | grep "do_sys_open",這個命令會過濾出內(nèi)核日志中與do_sys_open相關的信息,方便我們快速定位問題。
gdb調(diào)試器也能與 Kprobes 配合使用,為調(diào)試工作提供更多便利。雖然 Kprobes 主要用于動態(tài)調(diào)試運行中的內(nèi)核,但在某些情況下,結(jié)合gdb可以更深入地分析問題。比如,當 Kprobes 探測到某個函數(shù)出現(xiàn)異常,但通過printk輸出的信息不足以定位問題時,可以使用gdb來調(diào)試內(nèi)核模塊。首先,需要在內(nèi)核編譯時開啟調(diào)試信息,然后使用gdb加載內(nèi)核和內(nèi)核模塊,通過設置斷點、單步執(zhí)行等操作,詳細分析函數(shù)的執(zhí)行過程,找出問題的根源。
6.4常見問題與解決方法
在使用 Kprobes 的過程中,可能會遇到一些常見問題,這些問題就像是前進道路上的絆腳石,但只要我們掌握了解決方法,就能輕松跨越。
探測點無法注冊是一個常見的問題。這可能是由于目標函數(shù)不存在、符號未導出或內(nèi)核保護等原因?qū)е碌?。當遇到這種情況時,首先要確認目標函數(shù)是否存在,可以通過查看內(nèi)核源碼或使用nm命令查看內(nèi)核符號表來確認。如果函數(shù)存在,再檢查符號是否導出,可以查看/proc/kallsyms文件,看目標函數(shù)的符號是否在其中。如果是內(nèi)核保護導致的問題,例如內(nèi)核處于寫保護狀態(tài),可能需要臨時關閉相關保護機制,但這需要謹慎操作,因為關閉保護機制可能會影響系統(tǒng)的穩(wěn)定性和安全性。
回調(diào)函數(shù)未按預期執(zhí)行也是一個需要關注的問題。這可能是由于回調(diào)函數(shù)中存在錯誤,如內(nèi)存訪問越界、空指針引用等,導致回調(diào)函數(shù)執(zhí)行異常。在編寫回調(diào)函數(shù)時,要確保代碼的正確性和健壯性,避免出現(xiàn)這些常見的錯誤。同時,要注意回調(diào)函數(shù)的執(zhí)行環(huán)境,因為回調(diào)函數(shù)運行在中斷上下文中,所以不能執(zhí)行可能會導致阻塞的操作,如睡眠、等待信號量等。如果需要進行一些復雜的操作,可以將這些操作放到工作隊列或內(nèi)核線程中執(zhí)行,以避免影響回調(diào)函數(shù)的正常執(zhí)行。
































