網(wǎng)絡(luò)流量模型的異常檢測方法
傳統(tǒng)入侵檢測的不足
隨著Internet的不斷發(fā)展,網(wǎng)絡(luò)安全已經(jīng)逐漸成為人們越來越關(guān)心的問題,而入侵檢測系統(tǒng)是繼防火墻之后逐漸興起的防護(hù)手段之一,也越來越受廣大學(xué)者和工程人員的重視。
傳統(tǒng)的入侵檢測方法分為兩種:基于誤用檢測(misused-based)方法和基于異常檢測(anomaly-based)方法。前者需要攻擊樣本,通過描述每一種攻擊的特殊模式來檢測。該方法的查準(zhǔn)率很高,并且可提供詳細(xì)的攻擊類型和說明,是目前入侵檢測商業(yè)產(chǎn)品中使用的主要方法。然而經(jīng)過長時(shí)間的研究和應(yīng)用,該方法也暴露出一定的弱點(diǎn),由于基于特征的入侵檢測系統(tǒng)是依靠人為的預(yù)先設(shè)定報(bào)警規(guī)則來實(shí)現(xiàn),所以在面對不斷變化的網(wǎng)絡(luò)攻擊時(shí)有其本身固有的缺陷,比如,利用這種方法時(shí)需要維護(hù)一個(gè)昂貴的攻擊模式庫、只能檢測已知的攻擊等。另一方面,攻擊者可以通過修改自己的攻擊特征模式來隱藏自己的行為,而且有些攻擊方法根本沒有特定的攻擊模式。異常檢測方法主要針對解決誤用檢測方法所面臨的問題。因而本文主要探討的是基于網(wǎng)絡(luò)流量異常的入侵檢測方法。
基于流量異常的檢測方法有很多,較常用的有基于域值的檢測方法,基于統(tǒng)計(jì)的檢測方法,基于小波的檢測方法,基于馬爾可夫等隨機(jī)過程模型的方法和一些基于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)等檢測方法,但是這些方法主要存在以下問題。
(1)報(bào)警意義不明確:由于上述入侵檢測方法只檢測了網(wǎng)絡(luò)流量中的一種或幾種特征向量,而且選取的特征向量沒有特定的攻擊含義,因而檢測系統(tǒng)報(bào)警時(shí)只知網(wǎng)絡(luò)中某些特征向量出現(xiàn)了異常,但是不能判斷出現(xiàn)了什么樣的攻擊。
(2)由于Internet是沒有集中管理的多個(gè)管理域的互聯(lián)網(wǎng)絡(luò),但是入侵檢測要求各個(gè)檢測系統(tǒng)之間是協(xié)同運(yùn)行的,因而作為協(xié)同運(yùn)行的主要內(nèi)容的共享數(shù)據(jù)的提供就顯得非常重要。
(3)可擴(kuò)展性較差:由于現(xiàn)有的異常檢測系統(tǒng)大多采用一種或幾種單一的網(wǎng)絡(luò)特征向量作為學(xué)習(xí)和判斷的依據(jù),對網(wǎng)絡(luò)流量的異常描述較為單薄;其次在入侵檢測系統(tǒng)協(xié)同運(yùn)行中網(wǎng)絡(luò)特征向量選取得較少就可能會(huì)影響檢測系統(tǒng)的可擴(kuò)展性。
基于會(huì)話的保存狀態(tài)信息的異常檢測方法由于現(xiàn)有網(wǎng)絡(luò)流量的不斷變大將逐步受到限制。因而在DARPA1998年總結(jié)出的判斷每一個(gè)正常與異常TCP/IP連接的41個(gè)特征向量的實(shí)時(shí)使用就變得越來越難以實(shí)現(xiàn)。
針對以上問題本文提出了一種較為通用的基于網(wǎng)絡(luò)流量模型的異常檢測方法。該方法采用無狀態(tài)保留的方式,采用基本特征向量來描述網(wǎng)絡(luò)流量實(shí)時(shí)的運(yùn)行狀態(tài),并且利用基于攻擊特點(diǎn)的流量特征組合使報(bào)警的意義更加明確。同時(shí)鑒于流量基本特征數(shù)據(jù)的大小以及安全性等特點(diǎn),也為各個(gè)管理域之間的異常檢測信息的交流提供了一個(gè)較為通用的平臺(tái)。該基于網(wǎng)絡(luò)流量的異常檢測方法已經(jīng)實(shí)際運(yùn)用在清華大學(xué)校園網(wǎng)出口監(jiān)測點(diǎn)上,取得了比較顯著的檢測結(jié)果。
基于網(wǎng)絡(luò)流量進(jìn)行異常檢測的原理
本文中的異常檢測是基于將網(wǎng)絡(luò)流量特征向量分層劃分的思想實(shí)現(xiàn)的。將流量特征分為兩個(gè)層次:基本特征集合和組合特征集合。其中基本特征集合是實(shí)時(shí)從網(wǎng)絡(luò)流量中提取的一些網(wǎng)絡(luò)流量的基本特征數(shù)據(jù),比如流量的大小、包長的信息、協(xié)議的信息、端口流量的信息、TCP標(biāo)志位的信息等。這些基本特征比較詳細(xì)地描述了網(wǎng)絡(luò)流量的運(yùn)行狀態(tài)。
組合特征集合是可以根據(jù)實(shí)際需要實(shí)時(shí)改變設(shè)置的。針對某種特定的攻擊行為,將涉及該攻擊行為的基本特征的子集作為描述該種攻擊行為的特征。比如對于SYN FLOOD攻擊,組合特征就可以選取pkts/s、平均包長、SYN包的個(gè)數(shù)等信息。利用以往基本特征集合的數(shù)據(jù)對該種攻擊行為的特征進(jìn)行學(xué)習(xí)和訓(xùn)練,就可以實(shí)時(shí)得到該攻擊行為組合特征的正常和異常模型。用此模型就可以實(shí)時(shí)地對網(wǎng)絡(luò)上該種攻擊行為進(jìn)行檢測。
另一方面對于已知攻擊種類和行為的數(shù)據(jù)集進(jìn)行學(xué)習(xí)還能對人為選取的攻擊組合特征進(jìn)行優(yōu)化,使之更能反映該攻擊行為的特點(diǎn)。由于數(shù)據(jù)集是通過對網(wǎng)絡(luò)流量實(shí)時(shí)提取獲得的,真實(shí)地反映了網(wǎng)絡(luò)的實(shí)時(shí)狀態(tài),因而通過共享該數(shù)據(jù)集可以為網(wǎng)絡(luò)中不同管理域之間異常檢測系統(tǒng)提供一個(gè)協(xié)同運(yùn)行和控制的平臺(tái)。
網(wǎng)絡(luò)流量基本特征數(shù)據(jù)集是整個(gè)網(wǎng)絡(luò)流量異常算法的基礎(chǔ)。為了保證該算法的可靠性和比較強(qiáng)的可擴(kuò)展性,就要求基本特征能夠比較完備地描述網(wǎng)絡(luò)流量的特征。但同時(shí)由于網(wǎng)絡(luò)的異常檢測有實(shí)時(shí)性的要求,以及考慮到現(xiàn)有計(jì)算機(jī)的計(jì)算能力等問題,基本特征的選取不能對所有流量信息進(jìn)行提取,而必須對之進(jìn)行選擇。
除此以外在基本特征集中還預(yù)留了大約100個(gè)保留項(xiàng),以便將來的擴(kuò)展之需。由這些保留項(xiàng)以及上述各個(gè)提取的內(nèi)容共同組成了一個(gè)有256項(xiàng)的基本特征集。該基本特征集有以下幾方面的特點(diǎn):
(1)比較詳細(xì)地涵蓋了現(xiàn)有網(wǎng)絡(luò)中主要流量的各種統(tǒng)計(jì)信息。
(2)不含敏感信息,比如IP地址,包內(nèi)容信息等。
(3)其存儲(chǔ)空間完全有限,如果每隔30秒統(tǒng)計(jì)一次,一個(gè)月大約有30×24×60×2=86400條記錄,每條記錄由256個(gè)數(shù)字組成,如按照文本格式保存大約是2048個(gè)字節(jié)。因而按照這種方式保存一年的數(shù)據(jù)所需空間大約是2048×8×86400×12=16986,931200bits,這大約是17GB的空間。
實(shí)驗(yàn)過程
本試驗(yàn)采用的試驗(yàn)數(shù)據(jù)為1999 DARPA提供的試驗(yàn)數(shù)據(jù)。其中第一周由于不含攻擊,因而可以作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,第二周的數(shù)據(jù)作為檢測數(shù)據(jù)。
我們選取其中的MailBomb和Neptune作為試驗(yàn)檢測的項(xiàng)目。將試驗(yàn)數(shù)據(jù)按五分鐘分割成各個(gè)數(shù)據(jù)點(diǎn),我們可以得到1280個(gè)數(shù)據(jù)點(diǎn)。
其中L1~L5表示的是包長分布在32~63、64~127、128~255、256~511和512~1023各個(gè)段落中的包的個(gè)數(shù)。
在整個(gè)基于網(wǎng)絡(luò)流量模型的異常檢測框架下,能比較方便地通過組合不同的基礎(chǔ)特征實(shí)現(xiàn)對不同種類的異常攻擊的檢測,并能取得比較好的檢測效果。同時(shí)我們還可以看到,針對某種攻擊如果選取不同的特征組合,其檢測的結(jié)果之間還是有區(qū)別的,選取過程中如果缺少必要的基礎(chǔ)特征將導(dǎo)致漏報(bào)率的變大,而選取過多的無關(guān)基礎(chǔ)特征則會(huì)降低檢測誤報(bào)率的性能。這就要求我們在選取標(biāo)示某種攻擊的特征組合時(shí)必須在必要基礎(chǔ)特征的基礎(chǔ)上根據(jù)檢測的網(wǎng)絡(luò)的實(shí)際流量模型,對特征組合進(jìn)行具體的優(yōu)化。
方法評測
基于網(wǎng)絡(luò)流量的異常檢測方法通過組合不同的基礎(chǔ)特征能比較靈活地檢測不同的網(wǎng)絡(luò)攻擊,同時(shí)每種組合特征又標(biāo)示著某種攻擊,所以能使網(wǎng)絡(luò)流量異常的報(bào)警更具實(shí)際意義。
基于網(wǎng)絡(luò)流量的異常檢測方法提供了一個(gè)壓縮比較高且能比較全面反映實(shí)際網(wǎng)絡(luò)流量的基礎(chǔ)特征,這為將來的異常檢測提供了一個(gè)較好的數(shù)據(jù)平臺(tái),具有比較好的可擴(kuò)展性,同時(shí)該數(shù)據(jù)集還能為不同域之間異常檢測信息的交互提供一種可能。
【編輯推薦】




















