主動學(xué)習(xí)在網(wǎng)絡(luò)攻擊識別中的應(yīng)用簡介
網(wǎng)絡(luò)攻擊是指通過網(wǎng)絡(luò)或其他技術(shù),利用系統(tǒng)存在的缺陷或采用暴力攻擊手段,導(dǎo)致信息系統(tǒng)異常或危害其正常運行。隨著網(wǎng)絡(luò)技術(shù)和應(yīng)用的發(fā)展,網(wǎng)絡(luò)攻擊的數(shù)量和嚴(yán)重程度都在不斷增加。網(wǎng)絡(luò)攻擊識別在保障網(wǎng)絡(luò)安全方面發(fā)揮著重要作用。通過訓(xùn)練深度學(xué)習(xí)模型,可以實現(xiàn)對攻擊活動的檢測,達(dá)到發(fā)現(xiàn)已知攻擊類型的目的?;谏疃葘W(xué)習(xí)模型的攻擊識別研究目前已成為熱點,有監(jiān)督的深度學(xué)習(xí)模型通過海量的標(biāo)注數(shù)據(jù),可以對攻擊行為更好的識別,但基于監(jiān)督的學(xué)習(xí)模型需要有標(biāo)簽樣本,尤其是深度學(xué)習(xí)模型,建立標(biāo)注數(shù)據(jù)集也需要大量安全專家輔助,費時費力。雖有公開的安全數(shù)據(jù)集,但攻擊的演變性很容易過時,此外,若將所有采集到的數(shù)據(jù)提交專家打標(biāo)簽,由于攻擊數(shù)據(jù)占所有數(shù)據(jù)的比例很低,會浪費大量的資金和時間投入。
1、網(wǎng)絡(luò)攻擊分類
想對攻擊進(jìn)行準(zhǔn)確識別,有必要了解網(wǎng)絡(luò)攻擊分類,中國國家標(biāo)準(zhǔn)化管理委員會發(fā)布的《GB/Z 20986——2007信息安全技術(shù)信息安全事件分類分級指南》是為信息安全事件分類提供指導(dǎo)的技術(shù)文件。根據(jù)其對網(wǎng)絡(luò)攻擊事件的分類,本文將網(wǎng)絡(luò)攻擊種類總結(jié)為拒絕服務(wù)攻擊、后門攻擊、漏洞利用、掃描竊聽、網(wǎng)絡(luò)釣魚、干擾攻擊和其它網(wǎng)絡(luò)攻擊等。以下將對這些攻擊方式進(jìn)行詳細(xì)介紹。
1.1. 拒絕服務(wù)攻擊
拒絕服務(wù)(Denial of Service,DoS)攻擊是一種通過發(fā)送惡意數(shù)據(jù)包降低服務(wù)器和網(wǎng)絡(luò)性能,阻止合法用戶正常使用網(wǎng)絡(luò)資源的攻擊手段。其一種常見的變體為分布式拒絕服務(wù)(Distributed Denial of Service,DDoS)攻擊,該攻擊利用分布在不同位置的海量計算機同時向目標(biāo)發(fā)送攻擊,以期耗盡目標(biāo)資源。相對于DoS攻擊,由于其攻擊者分布不同且規(guī)模巨大,網(wǎng)絡(luò)管理者很難及時區(qū)分哪些是惡意攻擊者以采取防護(hù)手段,因此具有更高的成功概率。隨著計算資源的日益廉價,DDoS攻擊規(guī)模也在持續(xù)增大。據(jù)Google公司報道,其在2017年9月受到2.5Tbps的超大規(guī)模DDoS攻擊,是2016年破紀(jì)錄的Mirai僵尸網(wǎng)絡(luò)623Gbps規(guī)模的四倍。根據(jù)攻擊路徑不同,常見DDoS攻擊可分為直接型攻擊、反射型攻擊。
1.2. 后門攻擊
后門(程序)令身份驗證系統(tǒng)失效,授予特定用戶遠(yuǎn)程訪問權(quán)限。后門攻擊是利用系統(tǒng)中存有的后門對信息系統(tǒng)發(fā)送遠(yuǎn)程命令,進(jìn)而控制系統(tǒng)。被利用的后門可以是軟件系統(tǒng)或硬件系統(tǒng)設(shè)計過程中留有的,也可以是攻擊者先前攻擊成功后留下的。
1.3. 漏洞利用
信息安全漏洞是硬件或軟件在配置以及實現(xiàn)等過程中存在的安全弱點。漏洞利用是利用在本地或遠(yuǎn)程計算機上硬件或軟件內(nèi)的一個或多個漏洞,進(jìn)行非法活動如安裝惡意軟件、運行惡意代碼、獲取隱私數(shù)據(jù)、控制系統(tǒng)。
國家信息安全漏洞庫使用的漏洞分類指南將信息安全漏洞劃分為26種類型,圖1給出了它們間的層次關(guān)系。
圖1 CNNDV漏洞分類層次樹
1.4. 掃描竊聽
掃描竊聽是借助網(wǎng)絡(luò)安全掃描技術(shù)通過網(wǎng)絡(luò)獲取目標(biāo)網(wǎng)絡(luò)或主機信息的行為。網(wǎng)絡(luò)安全掃描一直是安全專業(yè)人員在網(wǎng)絡(luò)中進(jìn)行服務(wù)發(fā)現(xiàn)的關(guān)鍵技術(shù),但同時也被攻擊者用于發(fā)現(xiàn)被攻擊系統(tǒng)開放的端口、脆弱性等構(gòu)建攻擊工具需要的信息?,F(xiàn)已有很多成熟的掃描工具如Nmap、Nessus、Acunetix等可以使用。常見的掃描竊聽攻擊分為端口掃描攻擊、漏洞掃描攻擊。
端口掃描攻擊通過發(fā)送探測數(shù)據(jù)包,獲取端口響應(yīng),進(jìn)而推測開放的服務(wù)與端口信息。端口掃描會反饋目標(biāo)端口是以下三種中的一種狀態(tài):(1)開放:目標(biāo)主機正在監(jiān)聽端口,并正在使用掃描中使用的服務(wù);(2)關(guān)閉:已收到數(shù)據(jù)包請求,但服務(wù)未監(jiān)聽端口;(3)過濾:已發(fā)送數(shù)據(jù)包請求,但沒有答復(fù),表明防火墻過濾了請求數(shù)據(jù)包。每個開放的端口都為攻擊者提供了訪問點,提供了破壞機會。
1.5. 網(wǎng)絡(luò)釣魚
網(wǎng)絡(luò)釣魚攻擊通過假裝為可信任的實體(通常是真實的機構(gòu)或人),欺騙用戶信任,并常常營造一種緊迫感促使用戶采取行動,進(jìn)而實現(xiàn)攻擊目標(biāo)。根據(jù)攻擊形式的不同,網(wǎng)絡(luò)釣魚攻擊包括釣魚郵件、域名欺騙、水坑釣魚等。
- 釣魚郵件:釣魚郵件是最常見的網(wǎng)絡(luò)釣魚攻擊。攻擊者為了令郵件可信,會在釣魚郵件中使用與偽裝的機構(gòu)或人員類似的郵件地址,使用相同的措辭、字體、標(biāo)識和簽名。通過吸引用戶跳轉(zhuǎn)到設(shè)計好的惡意網(wǎng)站中或下載惡意附件等方式獲得如用戶名、密碼、聯(lián)系方式等重要敏感信息。
- 域名欺騙:域名欺騙是指通過采用被偽裝的真實網(wǎng)站設(shè)計,使用類似的網(wǎng)絡(luò)域名和字符,創(chuàng)建一個欺詐性的網(wǎng)站,并使其看起來真實可信。如使用域名apple.co偽裝蘋果公司域名apple.com。
- 水坑釣魚:水坑攻擊不直接對攻擊目標(biāo)實施攻擊,而是通過感染攻擊目標(biāo)常用的網(wǎng)站等達(dá)到攻擊目的。水坑攻擊首先確定目標(biāo)公司員工最常訪問的幾種特定網(wǎng)站(如公司服務(wù)供應(yīng)商網(wǎng)站),然后感染這類中的一個或多個。當(dāng)有員工訪問被感染的網(wǎng)站,會引發(fā)其主機加載惡意軟件,為攻擊者訪問公司內(nèi)網(wǎng)、獲取敏感信息提供機會。
當(dāng)這些類型的攻擊僅針對一個人時,可歸類為魚叉式網(wǎng)絡(luò)釣魚攻擊。如在魚叉式釣魚郵件攻擊中,攻擊者向在目標(biāo)組織中扮演特定角色的某人發(fā)送量身定制的電子郵件。此郵件旨在從特定人員獲取登錄信息或感染特定人員的計算機。
1.6. 干擾攻擊
干擾攻擊指通過某種技術(shù)手段,對網(wǎng)絡(luò)進(jìn)行干擾影響通信質(zhì)量或通信中斷的行為。
1.7. 其他網(wǎng)絡(luò)攻擊
其他網(wǎng)絡(luò)攻擊指上述六個子類中未包括的網(wǎng)絡(luò)攻擊。
2、基于主動學(xué)習(xí)模型的網(wǎng)絡(luò)攻擊識別
主動學(xué)習(xí)(Active Learning)方法可以通過要求專家僅注釋信息量最大的樣本來降低標(biāo)注成本的同時保證準(zhǔn)確。主動學(xué)習(xí)框架主要分為兩個部分:采樣策略和學(xué)習(xí)器,其先通過某種采樣策略從大量無標(biāo)注樣本中選擇目標(biāo)樣本提交專家標(biāo)注,再用標(biāo)注好的樣本去訓(xùn)練學(xué)習(xí)器。此過程可結(jié)合學(xué)習(xí)器的性能表現(xiàn)作為反饋結(jié)合采樣策略主動選擇樣本,避免標(biāo)注無效樣本,減少訓(xùn)練樣本的資金和時間投入。由于訓(xùn)練深度學(xué)習(xí)模型時間較長,因此只考慮基于批處理的主動學(xué)習(xí)模型,即每輪選取b個樣本去交給專家標(biāo)注。
圖2 基于主動學(xué)習(xí)框架的攻擊識別模型訓(xùn)練圖
由于主動學(xué)習(xí)中的關(guān)鍵問題是如何選擇最有意義的樣本來要求智慧體(通常是人類專家)進(jìn)行標(biāo)記,因此研究工作主要側(cè)重在采樣策略。不確定采樣(Uncertainty sampling)是一種常用的采樣策略,它選取當(dāng)前分類器最不確定性的樣本請求標(biāo)注。不確定性度量方法包括最不信任,最小距離,熵,不同學(xué)習(xí)者的意見分歧等。
然而,這些經(jīng)典的主動學(xué)習(xí)方法可能并不適用于批處理方式。由于深度模型的復(fù)雜性,待訓(xùn)練參數(shù)較多,訓(xùn)練時間往往相對普通機器學(xué)習(xí)模型更長。經(jīng)典主動學(xué)習(xí)方法利用單個樣本更新模型的做法不適于深度學(xué)習(xí)模型,因此需采用基于批處理的學(xué)習(xí)方式。即每次從大量的樣本池中選擇一個批次的樣本,訓(xùn)練更新模型。但僅僅按不確定性排名選取的集合會存在樣本冗余的風(fēng)險,不適用于批量主動學(xué)習(xí)。為此,研究者們依據(jù)批量學(xué)習(xí)需求,對不確定性算法進(jìn)行了改進(jìn)。例如,通過引入多樣性和密度改進(jìn)了基于不確定性的標(biāo)準(zhǔn),或者設(shè)計一種結(jié)合多樣性度量的主動學(xué)習(xí)批處理模式方法。他們都對目標(biāo)函數(shù)施加了多樣性約束,以使選擇用于標(biāo)記的樣本彼此之間應(yīng)有足夠的差異。為了避免不確定的樣本是實際的噪聲,利用高斯混合模型從密集區(qū)域中選擇不確定的樣本。
名為CEAL的偽標(biāo)記方法,其不僅可以執(zhí)行不確定性選擇,還可以在增加的訓(xùn)練集中添加高度可信的樣本以提高泛化精度。與上述主動學(xué)習(xí)方法不同,其可從訓(xùn)練模型預(yù)測結(jié)果中推斷出所選樣本的一些標(biāo)簽。它的主要缺點在于需要調(diào)整閾值以控制預(yù)測的置信度,以免破壞訓(xùn)練集。不可避免的,基于不確定性的算法高度依賴于訓(xùn)練充分的學(xué)習(xí)模型。但是,流程初期擁有的標(biāo)簽數(shù)據(jù)數(shù)量很少,可能會導(dǎo)致訓(xùn)練的模型最終效果較差。
為了提升模型的最終效果,還有一些其他采樣方法。費希爾(Fisher)信息矩陣作為模型不確定性的度量,可以有效地減少分類模型的Fisher信息的未標(biāo)記集?;蛘呤顾x樣本盡可能地具有多樣性和不確定性進(jìn)行采樣。但是,在深度學(xué)習(xí)模型中,不確定性采樣方法通常利用輸出層的前一層的輸出即logits評估不確定性,這可能導(dǎo)致其性能表現(xiàn)比隨機選擇采樣算法(Random sampling)表現(xiàn)更差,即使是最好的批量主動學(xué)習(xí)模型。另一種主流的批主動學(xué)習(xí)方法是貝葉斯主動學(xué)習(xí)方法,其原理是通過對每個查詢樣本或一組查詢后的預(yù)期誤差估計樣本對模型的預(yù)期改進(jìn)情況,但是由于算法復(fù)雜無法擴(kuò)展到深度學(xué)習(xí)使用的大規(guī)模數(shù)據(jù)集。
卷積神經(jīng)網(wǎng)絡(luò)的主動學(xué)習(xí)的定義為核心集選擇問題。其以任意點到其最近標(biāo)注點的距離的最大值作為評估損失評估標(biāo)準(zhǔn),并選擇可以使該距離最小化的數(shù)據(jù)集作為采樣集合。通過將主動學(xué)習(xí)視為二元分類任務(wù)來從新的角度分析主動學(xué)習(xí),以使標(biāo)記集與未標(biāo)記池不可區(qū)分來選擇樣本進(jìn)行標(biāo)記。由于算法中每批都需要多個小批量,因此他們的方法需要比其他方法更多的訓(xùn)練時間。此外,當(dāng)未標(biāo)記的池比標(biāo)記的池大得多時,它們用來訓(xùn)練分類器的樣本是不足以覆蓋整個數(shù)據(jù)集信息的。而不平衡數(shù)據(jù)訓(xùn)練的分類器,將進(jìn)一步限制其總體有效性。
綜上所述,基于批處理的主動學(xué)習(xí)方法雖然可以減少深度學(xué)習(xí)模型的訓(xùn)練時間,但基于某種信息量評估標(biāo)準(zhǔn)的樣本排名結(jié)果采樣容易選取冗余樣本。這是因為相似樣本的排名相近,雖然其單獨來看帶有很大信息量,但如果同時選擇多個,便帶來了冗余信息。因此,在網(wǎng)絡(luò)攻擊識別的主動學(xué)習(xí)應(yīng)用中,如何進(jìn)行數(shù)據(jù)樣本篩選仍舊是未來需要關(guān)注的問題。
參考文獻(xiàn)
[1] Decomain C , Wrobel S . Active Hidden Markov Models for Information Extraction[J]. International Symposium on Intelligent Data Analysis, 2001.
[2] Settles B . Active Learning Literature Survey[J]. University of Wisconsinmadison, 2010.
[3] Freund Y , Seung H S , Shamir E , et al. Selective Sampling Using the Query by Committee Algorithm[J]. Machine Learning, 1997, 28(2-3):133-168.
[4] Wang K , Zhang D , Li Y , et al. Cost-Effective Active Learning for Deep Image Classification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 27(12):1-1.