數(shù)學(xué)和數(shù)據(jù)科學(xué):入侵檢測的新型秘密武器
查看日志文件尋找安全事件蹤跡的日子一去不復(fù)返了。別會錯意,這不是說日志文件不重要了。日志文件依然十分有用,是證實安全事件及其原因的關(guān)鍵,也是取證和緩解工作流的必備要素。但身處每時每刻都有大量數(shù)據(jù)生成的時代,手動篩查大量日志來發(fā)現(xiàn)問題太過浪費時間。而且,交付現(xiàn)代服務(wù)所需數(shù)字供應(yīng)鏈的復(fù)雜互聯(lián)性和不透明性,又進(jìn)一步加劇了這個問題。
對大多數(shù)人而言,被高中和大學(xué)數(shù)學(xué)課程(比如微積分)凌虐的時候難免發(fā)出疑問:“現(xiàn)實生活中我啥時候才會用上這玩意兒啊?”但對于踏入信息安全世界的人而言,這個問題的答案就是“現(xiàn)在”。
從現(xiàn)在開始,各行各業(yè)都應(yīng)該從金融服務(wù)業(yè)借鑒數(shù)學(xué)和數(shù)據(jù)科學(xué)知識來評估數(shù)據(jù)泄露的概率了。尤其是,安全團(tuán)隊可以利用時間序列數(shù)據(jù)構(gòu)建描述用戶行為的數(shù)學(xué)模型,然后查找異常并確定出問題的概率。
想要改善事件檢測,企業(yè)可以運用以下數(shù)學(xué)與數(shù)據(jù)科學(xué)的要素和基本概念:
導(dǎo)數(shù)
“導(dǎo)數(shù)”這個詞聽起來很炫,但其實指的是相對于時間的變化率。在安全檢測方面,單位時間(每小時、每天等)內(nèi)身份驗證失敗次數(shù)的突然增加,就是一個值得關(guān)注的導(dǎo)數(shù)。例如,如果身份驗證失敗次數(shù)從每天5到10次猛增到每天100次以上,那就說明有人在嘗試入侵(最好情況)或者已經(jīng)入侵成功了(最壞情況)。這種時候,你應(yīng)該觀察的是函數(shù)的導(dǎo)數(shù),而不是數(shù)量。
數(shù)學(xué)模型
安全領(lǐng)域另一個有用概念是建立資產(chǎn)行為的數(shù)學(xué)模型。例如,將軟件即服務(wù)產(chǎn)品或平臺當(dāng)作一項資產(chǎn)。我們怎么確定出基線標(biāo)準(zhǔn)供后續(xù)識別異常使用呢?如果將GitHub用作代碼存儲庫,則可以通過觀察一些關(guān)鍵操作指標(biāo)隨時間變化的情況來建模GitHub,例如“克隆”、“合并”、“刪除”、“添加用戶”和“生成訪問令牌”等。
基數(shù)
這些例子還包括基數(shù)的概念——集合中的元素個數(shù)??赡苁莵碜砸阎O(shè)備的登錄,我們在其中尋找特定關(guān)鍵操作的數(shù)量變化,表示潛在入侵指標(biāo)。但要導(dǎo)出這一信息,我們首先得“學(xué)習(xí)”。舉個最基本的例子,假設(shè)CEO每天用來登錄的設(shè)備有三臺,手機(jī)、平板電腦和筆記本電腦。如果這一數(shù)量增加到四或五臺,那就可能是CEO開始用新設(shè)備工作了(有待證實)。但如果這一數(shù)量突然大幅增加,遭遇入侵的概率就很高了。
很多企業(yè)和安全團(tuán)隊都在按老方法做事件檢測,大范圍收集日志并搜索模式或正則表達(dá)式,但這明顯并不足以應(yīng)對當(dāng)前的威脅態(tài)勢。當(dāng)然,日志仍然是數(shù)字取證不可或缺的一環(huán)。但若要限制暴露窗口和縮短檢測時間,好加快啟動修復(fù)活動,就得結(jié)合時序數(shù)據(jù)與數(shù)學(xué)和數(shù)據(jù)科學(xué)原則,這一點尤為重要。




























