簡(jiǎn)析基于自適應(yīng)學(xué)習(xí)的AI加密流量檢測(cè)技術(shù)
人工智能技術(shù)的廣泛應(yīng)用正在深刻改變我們的生活。在網(wǎng)絡(luò)安全領(lǐng)域,基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)也應(yīng)用在許多場(chǎng)景中。隨著信息技術(shù)的迅猛發(fā)展和數(shù)字化轉(zhuǎn)型的深入推進(jìn),加密技術(shù)逐漸成為保障網(wǎng)絡(luò)安全和數(shù)據(jù)隱私的核心手段,而基于機(jī)器學(xué)習(xí)的檢測(cè)技術(shù)已成為應(yīng)對(duì)加密威脅的重要方式。
由于網(wǎng)絡(luò)流量巨大,如果檢測(cè)模型頻繁產(chǎn)生大量警報(bào),將嚴(yán)重干擾安全人員的分析和研判工作。為了解決這個(gè)問(wèn)題,我們可以采用自適應(yīng)學(xué)習(xí)技術(shù)。這種技術(shù)通過(guò)從現(xiàn)網(wǎng)中收集實(shí)時(shí)網(wǎng)絡(luò)流量,并將其作為訓(xùn)練集的一部分,動(dòng)態(tài)更新模型,從而有效降低模型的誤報(bào)率,并提高模型的準(zhǔn)確率。
1、對(duì)比分析
1) 固化模型
在流量檢測(cè)領(lǐng)域,由于加密技術(shù)的應(yīng)用越來(lái)越廣泛,基于傳統(tǒng)的明文檢測(cè)方法失效,但是機(jī)器學(xué)習(xí)算法可以通過(guò)對(duì)非加密內(nèi)容數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),從中發(fā)現(xiàn)其中規(guī)律,進(jìn)而有效的鑒別惡意流量。而基于機(jī)器學(xué)習(xí)技術(shù)的檢測(cè)方法通常會(huì)使用預(yù)先收集的正常業(yè)務(wù)流量(白流量)與惡意加密流量(黑流量)構(gòu)建訓(xùn)練集,然后通過(guò)訓(xùn)練模型進(jìn)行檢測(cè),這樣的模型稱(chēng)之為固化模型。然而,經(jīng)過(guò)實(shí)際驗(yàn)證發(fā)現(xiàn),由于預(yù)先收集的白流量與客戶(hù)特定場(chǎng)景網(wǎng)絡(luò)環(huán)境的白流量存在差異,固化模型的靈活性與適應(yīng)性不夠,會(huì)使模型出現(xiàn)一些誤報(bào),從而增加了安全研究人員分析與研判的難度。下圖展示了其處理流程:
圖片
2) 自適應(yīng)模型
為了進(jìn)一步提高固化模型的實(shí)際效果,可以采用自適應(yīng)模型。這種方法通過(guò)在部署位置本地收集客戶(hù)特定網(wǎng)絡(luò)環(huán)境流量并將其作為訓(xùn)練集的一部分來(lái)擴(kuò)充白流量的數(shù)據(jù)集,然后訓(xùn)練出的模型可以適應(yīng)不同現(xiàn)網(wǎng)環(huán)境,更好地區(qū)分可能出現(xiàn)的惡意加密流量。下圖展示了該處理流程:

在自適應(yīng)模型中,使用歷史數(shù)據(jù)構(gòu)建的數(shù)據(jù)集訓(xùn)練模型后,在現(xiàn)網(wǎng)環(huán)境中會(huì)周期性收集客戶(hù)現(xiàn)網(wǎng)的白流量(因?yàn)榭蛻?hù)側(cè)絕大多數(shù)的流量都是白流量),而后采用增量學(xué)習(xí)的方式將其加入到原有模型中,以完成模型的動(dòng)態(tài)更新。自適應(yīng)模型能夠很好地適應(yīng)客戶(hù)側(cè)現(xiàn)網(wǎng)流量的變化情況,相比于固化模型,它顯著減少了許多誤報(bào)的問(wèn)題,檢測(cè)效果得到了大幅提升。
2、原理解釋
在構(gòu)建自適應(yīng)模型時(shí),引入了增量學(xué)習(xí)的概念,這也是構(gòu)建自適應(yīng)模型的核心技術(shù)。增量學(xué)習(xí)的目的是學(xué)習(xí)系統(tǒng)能夠不斷從新樣本中學(xué)習(xí)新知識(shí),并且能夠保留大部分先前學(xué)習(xí)到的知識(shí)。在構(gòu)建自適應(yīng)模型的過(guò)程中,引入增量學(xué)習(xí)技術(shù)能夠在充分學(xué)習(xí)新環(huán)境中的知識(shí)的同時(shí),不會(huì)遺忘模型學(xué)到的歷史知識(shí),從而豐富了模型的檢測(cè)能力。這樣的方法使得模型能夠不斷地適應(yīng)變化的環(huán)境,并持續(xù)提升其檢測(cè)能力。
3、自適應(yīng)學(xué)習(xí)面臨的技術(shù)問(wèn)題
應(yīng)用自適應(yīng)學(xué)習(xí)技術(shù)時(shí),需要解決以下技術(shù)問(wèn)題:
1) 數(shù)據(jù)分布未知
現(xiàn)網(wǎng)數(shù)據(jù)可能存在短時(shí)間內(nèi)數(shù)據(jù)量大且相對(duì)單一的情況,因此需要應(yīng)對(duì)未知的數(shù)據(jù)分布,以保證模型的魯棒性。
2) 惡意加密流量難獲取
在現(xiàn)網(wǎng)流量中獲取具有惡意加密流量的數(shù)據(jù)可能是一項(xiàng)挑戰(zhàn),需要尋找解決方案以獲取足夠的惡意加密流量進(jìn)行學(xué)習(xí),例如利用模擬攻擊、合成數(shù)據(jù)或其他數(shù)據(jù)增強(qiáng)技術(shù)。
3) 流量不平衡
正常業(yè)務(wù)流量(白流量)與惡意加密流量(黑流量)在現(xiàn)網(wǎng)流量數(shù)據(jù)中可能存在極大的不平衡,這需要采用有效的處理方法,如過(guò)采樣、欠采樣、類(lèi)別權(quán)重調(diào)整等,以確保模型對(duì)各種情況都具有良好的適應(yīng)性。
4) 設(shè)備計(jì)算資源限制
現(xiàn)網(wǎng)設(shè)備的計(jì)算資源有限,因此在實(shí)施增量學(xué)習(xí)時(shí)需要考慮性能和效率,以確保在有限的資源下取得最佳效果,可以采用輕量化模型、優(yōu)化算法或分布式計(jì)算等方法來(lái)解決該問(wèn)題。
解決這些技術(shù)問(wèn)題,可以有效應(yīng)用自適應(yīng)學(xué)習(xí)技術(shù),并提高模型的適應(yīng)性、魯棒性和性能效果。
4、處理流程
在考慮到上述這些問(wèn)題后,可以采用以下步驟進(jìn)行處理:
1) 數(shù)據(jù)預(yù)處理
提取流量中的行為特征,并進(jìn)行去重、處理缺失值等初步預(yù)處理操作,以準(zhǔn)備數(shù)據(jù)用于后續(xù)處理。
2) 白流量獲取
在現(xiàn)網(wǎng)數(shù)據(jù)獲取階段,針對(duì)復(fù)雜的正常業(yè)務(wù)流量(白流量),通過(guò)多時(shí)段的隨機(jī)采樣方法,獲取新的代表性數(shù)據(jù),以確保覆蓋流量的多樣性和變化性。
3) 黑流量獲取
針對(duì)難以獲取的惡意加密流量(黑流量),利用歷史的黑流量數(shù)據(jù),采用基于數(shù)值擾動(dòng)的數(shù)據(jù)增廣方法,模擬生成新的黑流量數(shù)據(jù),以擴(kuò)充惡意加密流量的多樣性。
4) 參數(shù)調(diào)整
由于現(xiàn)網(wǎng)數(shù)據(jù)中的正常業(yè)務(wù)流量和惡意加密流量可能存在不平衡,根據(jù)上一步獲取的實(shí)時(shí)流量數(shù)目,基于代價(jià)敏感學(xué)習(xí),進(jìn)行類(lèi)別權(quán)重的調(diào)整,以消除偏置,使得模型能夠平衡地對(duì)待不同類(lèi)別的流量。
5、現(xiàn)網(wǎng)實(shí)驗(yàn)結(jié)果
在某現(xiàn)網(wǎng)環(huán)境下,針對(duì)TLS協(xié)議的Cobalt Strike檢測(cè)和Webshell檢測(cè),我們進(jìn)行了固化模型和自適應(yīng)模型的檢測(cè)對(duì)比,結(jié)果如下:
圖片
對(duì)于Webshell檢測(cè),我們收集了現(xiàn)網(wǎng)中共5萬(wàn)條白流量,并使用固化模型和自適應(yīng)模型進(jìn)行檢測(cè)對(duì)比。實(shí)驗(yàn)結(jié)果顯示,固化模型檢測(cè)結(jié)果分?jǐn)?shù)高于50的為1300條,而自適應(yīng)模型結(jié)果僅有140條。(分?jǐn)?shù)高于50分意味著模型預(yù)測(cè)該條流量是黑流量的可能性大于預(yù)測(cè)為白流量的可能性)
圖片
對(duì)于Cobalt Strike檢測(cè),我們同樣收集了現(xiàn)網(wǎng)中共5萬(wàn)條白流量,并使用固化模型和自適應(yīng)模型進(jìn)行檢測(cè)對(duì)比。實(shí)驗(yàn)結(jié)果顯示,固化模型檢測(cè)結(jié)果分?jǐn)?shù)高于50分的為53條,而自適應(yīng)模型結(jié)果僅有1條。
從測(cè)試結(jié)果可以看出,采用自適應(yīng)模型后誤報(bào)明顯減少。這顯示自適應(yīng)模型在現(xiàn)網(wǎng)環(huán)境下具有更好的準(zhǔn)確性和魯棒性,能夠更有效地識(shí)別出真正的威脅,減少了誤報(bào)的問(wèn)題。
6、結(jié)語(yǔ)
觀(guān)成科技研究團(tuán)隊(duì)一直致力于不斷改進(jìn)和優(yōu)化人工智能檢測(cè)模型,以適應(yīng)不斷變化的威脅環(huán)境,并提供更準(zhǔn)確、可靠的檢測(cè)方案。針對(duì)目前基于預(yù)先訓(xùn)練模型的機(jī)器學(xué)習(xí)技術(shù)檢測(cè)惡意流量在現(xiàn)網(wǎng)特定網(wǎng)絡(luò)環(huán)境中存在誤報(bào)率偏高的現(xiàn)象,引入基于增量學(xué)習(xí)的自適應(yīng)學(xué)習(xí)技術(shù),通過(guò)在一定時(shí)間周期內(nèi)提取客戶(hù)現(xiàn)場(chǎng)的白流量,我們使得原有的固化模型能夠?qū)W習(xí)到最新的流量知識(shí),從而大大減少了誤報(bào)率,提升了檢測(cè)能力。















 
 
 






 
 
 
 