數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)方法對網(wǎng)絡(luò)安全的影響
一、背景
由于對數(shù)字化和物聯(lián)網(wǎng)的日益依賴,各種安全事件,例如未授權(quán)訪問、惡意軟件攻擊、數(shù)據(jù)泄露、拒絕服務(wù)攻擊(DOS)、分布式拒絕服務(wù)攻擊(DDOS)、網(wǎng)絡(luò)釣魚等等,此類安全事件近年來以指數(shù)級的速度增長。在2010年,據(jù)統(tǒng)計(jì)安全社區(qū)已知的惡意軟件可執(zhí)行文件不到5000萬個(gè)。根據(jù)相關(guān)研究機(jī)構(gòu)的統(tǒng)計(jì)數(shù)據(jù),到2012年,它們增加了1億,而在2019年,安全社區(qū)已知的惡意可執(zhí)行文件已經(jīng)超過了9億,而且這個(gè)數(shù)字可能還會增長。此類的網(wǎng)絡(luò)攻擊事件會給社會國家和每個(gè)人帶來巨大的安全隱患,因此,如何準(zhǔn)確地識別各種已有的或者未曾見過的網(wǎng)絡(luò)攻擊事件,并智能地保護(hù)相關(guān)系統(tǒng)免受此類網(wǎng)絡(luò)攻擊,是迫切需要解決的關(guān)鍵問題[1]。
網(wǎng)絡(luò)安全本質(zhì)上是一套技術(shù)和過程,是為了保護(hù)計(jì)算機(jī)、網(wǎng)絡(luò)、程序和數(shù)據(jù)免受攻擊、損壞,或未經(jīng)授權(quán)的訪問。近年來,網(wǎng)絡(luò)安全在計(jì)算領(lǐng)域的技術(shù)正在發(fā)生著巨大的變化,而數(shù)據(jù)科學(xué)正在推動這一變化,機(jī)器學(xué)習(xí),作為人工智能的核心部分,可以在從數(shù)據(jù)科學(xué)領(lǐng)域發(fā)揮至關(guān)重要的作用,利用機(jī)器學(xué)習(xí)可以顯著地改變網(wǎng)絡(luò)安全的格局,而數(shù)據(jù)科學(xué)正在引領(lǐng)一種新的科學(xué)方法,此類技術(shù)的流行程度日益增加,如圖1.1所示,2014年流行程度指數(shù)小于40,而在2019年已經(jīng)超過了70。分析網(wǎng)絡(luò)安全數(shù)據(jù),構(gòu)建正確的工具和流程來成功地防止網(wǎng)絡(luò)安全事件,這不僅僅是一套簡單的功能需求和關(guān)于風(fēng)險(xiǎn)、威脅或漏洞的知識。為了簡單地提取安全事件的見解或模式,可以使用一些機(jī)器學(xué)習(xí)技術(shù),如特征工程、數(shù)據(jù)聚類、分類和關(guān)聯(lián)分析,或基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,從而做出合理的決策。
圖1.1 數(shù)據(jù)科學(xué)網(wǎng)絡(luò)安全流行趨勢
二、研究挑戰(zhàn)
國內(nèi)外的研究人員已經(jīng)考慮了從數(shù)據(jù)中提取信息的基本概念與原則,這些基本方法和基本原理是從大量的數(shù)據(jù)分析研究中得出的。從數(shù)據(jù)中提取有用的信息應(yīng)該通過已有的規(guī)范的步驟來處理整個(gè)流程。數(shù)據(jù)科學(xué)需要在使用它的上下文中進(jìn)行詳細(xì)的考慮和結(jié)果評估,因?yàn)樘崛〉男畔τ趲椭o定程序中的決定過程是非常重要的。相關(guān)性發(fā)現(xiàn)是網(wǎng)絡(luò)安全領(lǐng)域應(yīng)考慮的數(shù)據(jù)科學(xué)基本概念之一,它通常提供相關(guān)數(shù)據(jù)項(xiàng)的詳細(xì)信息,特別是我們已經(jīng)了解的數(shù)據(jù)項(xiàng)的數(shù)量,從而大大減少了未知的不確定性。微軟引入了TDSP,它為數(shù)據(jù)科學(xué)項(xiàng)目創(chuàng)建了一個(gè)生命周期。隨后通過對KDD過程、CRISP-DM、TDSP和FMDS進(jìn)行比較,其中FMDS、CRISP-DM和TDSP被使用范圍最廣,因?yàn)樗鼈儽徽J(rèn)為是最受歡迎的,同時(shí)它們也是為機(jī)器學(xué)習(xí)與數(shù)據(jù)科學(xué)領(lǐng)域提出的,這些技術(shù)與網(wǎng)絡(luò)安全領(lǐng)域有非常大的關(guān)聯(lián)[2]。分析網(wǎng)絡(luò)安全數(shù)據(jù),構(gòu)建正確的工具和流程來成功地防止網(wǎng)絡(luò)安全事件,這不僅僅是一套簡單的功能需求和關(guān)于風(fēng)險(xiǎn)、威脅或漏洞的知識。為了簡單地提取安全事件的見解或模式,可以使用一些機(jī)器學(xué)習(xí)技術(shù),如特征工程、數(shù)據(jù)聚類、分類和關(guān)聯(lián)分析,或基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法,從而做出合理的決策。
三、網(wǎng)絡(luò)攻擊安全挑戰(zhàn)
這種風(fēng)險(xiǎn)通常與許多攻擊相關(guān),通常我們考慮三個(gè)安全因素,首先是威脅,即誰在攻擊;其次是漏洞,即正在攻擊什么;最后是影響,即攻擊做了什么。安全事件是一種威脅到信息和系統(tǒng)的機(jī)密性、完整性或可用性的行為,可能導(dǎo)致大量或單個(gè)的系統(tǒng)和網(wǎng)絡(luò)受到攻擊的幾種類型的網(wǎng)絡(luò)安全事件有:
未經(jīng)授權(quán)訪問網(wǎng)絡(luò)、系統(tǒng)或數(shù)據(jù)信息都是不安全的行為,存在很大的隱患;
惡意軟件被故意設(shè)計(jì)成對計(jì)算機(jī)、客戶端、服務(wù)器或計(jì)算機(jī)網(wǎng)絡(luò)造成損害的程序或軟件,對系統(tǒng)會產(chǎn)生巨大的影響;
拒絕服務(wù)(DOS)是一種攻擊,旨在關(guān)閉機(jī)器或網(wǎng)絡(luò),使目標(biāo)用戶無法訪問它;
釣魚是惡意入侵行為,用于廣泛的惡意活動,通過人與人之間互動完成,攻擊者企圖通過電子郵件、文本或即時(shí)消息,將自己偽裝成受信任的個(gè)人或團(tuán)體,參與獲取敏感信息[3]。
四、數(shù)據(jù)科學(xué)與網(wǎng)絡(luò)安全數(shù)據(jù)科學(xué)
我們生活在一個(gè)充滿著數(shù)據(jù)的時(shí)代,數(shù)據(jù)驅(qū)動了許多的產(chǎn)業(yè)。從數(shù)據(jù)中發(fā)現(xiàn)隱藏有趣的知信息的過程被人們稱為數(shù)據(jù)挖掘,為了用現(xiàn)實(shí)數(shù)據(jù)來理解和分析生活中的現(xiàn)象,我們使用了各種科學(xué)的方法、機(jī)器學(xué)習(xí)等,這些通常都被稱為數(shù)據(jù)科學(xué)。數(shù)據(jù)科學(xué)的一般定義是通過使用科學(xué)的方法從數(shù)據(jù)中提取信息以及發(fā)現(xiàn)新事物。數(shù)據(jù)科學(xué)可以利用存儲、計(jì)算和行為分析等等的技術(shù)優(yōu)勢來建立新的網(wǎng)絡(luò)安全方法。一般來說,由分布式系統(tǒng)建立的集群存儲使得收集和存儲大量數(shù)據(jù)變得更加容易
數(shù)據(jù)科學(xué)的應(yīng)用使得訪問大量的數(shù)據(jù)使解決具有復(fù)雜性的安全問題成為可能。利用海量的大數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,往往數(shù)據(jù)越多,越能創(chuàng)建更準(zhǔn)確和精確的分析。在網(wǎng)絡(luò)安全領(lǐng)域中,數(shù)據(jù)科學(xué)通過利用海量數(shù)據(jù)、高性能計(jì)算以及數(shù)據(jù)挖掘的方法來保護(hù)用戶免受網(wǎng)絡(luò)攻擊,在信息安全領(lǐng)域發(fā)揮了重要的作用。
數(shù)據(jù)科學(xué)在很大程度上是由數(shù)據(jù)的可用性驅(qū)動的,數(shù)據(jù)集通常代表由幾個(gè)屬性或特征和相關(guān)事實(shí)組成的信息記錄的集合,而網(wǎng)絡(luò)安全數(shù)據(jù)科學(xué)就是基于這些集合的,因此,了解包含各種類型的網(wǎng)絡(luò)攻擊和相關(guān)特征的網(wǎng)絡(luò)安全數(shù)據(jù)的性質(zhì)是很重要的。因?yàn)閺南嚓P(guān)數(shù)據(jù)來源收集的原始安全數(shù)據(jù)可以用來分析安全事件或惡意行為的所屬模式,基于此可以建立一個(gè)數(shù)據(jù)驅(qū)動的安全模型,以實(shí)現(xiàn)我們的目標(biāo)。在網(wǎng)絡(luò)安全領(lǐng)域存在一些數(shù)據(jù)集,包括入侵分析、惡意軟件分析、異常、欺詐或垃圾郵件分析,因此在圖2.1中,總結(jié)了幾個(gè)這樣的數(shù)據(jù)集,包括它們的各種特征以及在互聯(lián)網(wǎng)上可訪問的攻擊,同時(shí)羅列了在基于機(jī)器學(xué)習(xí)下不同的網(wǎng)絡(luò)應(yīng)用程序中的使用[4]。
圖2.1數(shù)據(jù)科學(xué)中的分析階段
通過對這些安全特性進(jìn)行分析和處理,根據(jù)需求構(gòu)建基于目標(biāo)機(jī)器學(xué)習(xí)的安全模型,并最終實(shí)現(xiàn)數(shù)據(jù)驅(qū)動,才是要達(dá)到的目的。因此,網(wǎng)絡(luò)安全數(shù)據(jù)科學(xué)的概念結(jié)合了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),以及各種安全事件的行為來進(jìn)行分析。將這些技術(shù)結(jié)合產(chǎn)生了網(wǎng)絡(luò)安全數(shù)據(jù)科學(xué)這種方法,指的就是從不同的來源收集大量的安全事件數(shù)據(jù)以及使用機(jī)器學(xué)習(xí)的方法檢測安全風(fēng)險(xiǎn)或攻擊,最終發(fā)現(xiàn)高效的或者最新的數(shù)據(jù)驅(qū)動模式。
五、總結(jié)與展望
數(shù)據(jù)科學(xué)正在逐漸改變世界上的產(chǎn)業(yè),它對智能網(wǎng)絡(luò)安全系統(tǒng)和服務(wù)業(yè)的未來至關(guān)重要,因?yàn)榫W(wǎng)絡(luò)安全的一切都是關(guān)于數(shù)據(jù)的。當(dāng)我們檢測網(wǎng)絡(luò)威脅時(shí),通常是在以日志、網(wǎng)絡(luò)數(shù)據(jù)包或其他相關(guān)來源的形式對安全數(shù)據(jù)進(jìn)行分析,而在傳統(tǒng)意義上,安全專業(yè)人員并不會使用數(shù)據(jù)科學(xué)相關(guān)知識來對這些數(shù)據(jù)源進(jìn)行檢測,相反,他們使用比如簽名、手動防御等等方法,盡管這些技術(shù)在特定情況下都有它們自己的優(yōu)點(diǎn),但同時(shí)也需要太多的人為操作才能跟上不斷變化的網(wǎng)絡(luò)威脅環(huán)境,而數(shù)據(jù)科學(xué)則可以應(yīng)用在該領(lǐng)域并產(chǎn)生重要影響,借助數(shù)據(jù)科學(xué)結(jié)合機(jī)器學(xué)習(xí)算法可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)和提取安全事件,增強(qiáng)洞察力,用用來對安全事件進(jìn)行檢測和預(yù)防,相信在未來,數(shù)據(jù)科學(xué)會被更加廣泛地應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域。
參考文獻(xiàn)
[1]Kotenko, Igor, Igor Saenko, and Alexander Branitskiy. "Machine learning and big data processing for cybersecurity data analysis." Data science in cybersecurity and cyberthreat intelligence. Springer, Cham, 2020. 61-85.
[2]Thanh, Cao Tien. "A Study of Machine Learning Techniques for Cybersecurity." 2021 15th International Conference on Advanced Computing and Applications (ACOMP). IEEE, 2021.
[3]Alhayani, Bilal, et al. "Effectiveness of artificial intelligence techniques against cybersecurity risks apply of IT industry." Materials Today: Proceedings (2021).
[4]Shaukat, Kamran, et al. "A survey on machine learning techniques for cyber security in the last decade." IEEE Access 8 (2020): 222310-222354.