偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

特征工程之加密流量安全檢測

安全 應(yīng)用安全 數(shù)據(jù)安全
在經(jīng)典的機器學(xué)習(xí)領(lǐng)域,特征工程始終占據(jù)著核心位置,特征工程的質(zhì)量高低往往直接決定了機器學(xué)習(xí)效果的成敗。本文概述我們在加密惡意流量檢測實踐中的特征工程方法流程并分析最終使用的流量特征集合。

在經(jīng)典的機器學(xué)習(xí)領(lǐng)域,特征工程始終占據(jù)著核心位置,特征工程的質(zhì)量高低往往直接決定了機器學(xué)習(xí)效果的成敗。本文概述我們在加密惡意流量檢測實踐中的特征工程方法流程并分析最終使用的流量特征集合。

[[271426]]

從廣義的角度審視,特征工程的實踐流程一般包含特征提取、特征選擇、特征應(yīng)用、特征迭代四個步驟。

一、特征提取

特征提取是特征工程初期的重要工作任務(wù)。如何設(shè)計待提取的候選特征集合,需要對惡意軟件加密通信具有全面的領(lǐng)域知識積累。如何處理提取后的特征候選集合以得到適合機器學(xué)習(xí)模型輸入的特征,需要對數(shù)據(jù)分析處理方法具有深入的實踐經(jīng)驗。

加密流量

初步特征抽取針對的候選特征集合分為協(xié)議無關(guān)特征與協(xié)議相關(guān)特征兩類。協(xié)議無關(guān)特征是指流量數(shù)據(jù)傳輸過程中表現(xiàn)的通用特征,例如,數(shù)據(jù)包的大小、包時間間隔等。協(xié)議相關(guān)特征是指流量數(shù)據(jù)在加密傳輸協(xié)議層面表現(xiàn)的專有特征,例如,SSL 擴展種類、加密套件種類。通過對 SSL 協(xié)議標(biāo)準(zhǔn)和惡意流量數(shù)據(jù)的深入研究,并結(jié)合收集的數(shù)據(jù)集進行逐一驗證,我們最終得出一組涵蓋范圍廣且和惡意流量相關(guān)性高的候選特征集,然后開發(fā)專有特征提取系統(tǒng),為后續(xù)的特征數(shù)據(jù)分析處理提供基礎(chǔ)支持。

在已提取的候選特征集合基礎(chǔ)上,進行進一步特征數(shù)據(jù)分析處理,對不適合直接作為機器學(xué)習(xí)模型輸入的數(shù)據(jù),進行深度特征抽取。例如,針對加密通信過程中可能出現(xiàn)的各類域名,傳統(tǒng)方法是提取域名的數(shù)字個數(shù)、字母個數(shù)、非字母和數(shù)字個數(shù)等作為特征,我們基于深度學(xué)習(xí)技術(shù)訓(xùn)練 LSTM 模型直接提取其 DGA 域名概率值作為特征,能夠給機器學(xué)習(xí)模型提供更有效的數(shù)據(jù)信息。后續(xù)實驗表明,這類深度抽取特征在模型中起到了關(guān)鍵作用。上述 DGA 域名檢測模型架構(gòu)圖如下圖所示:

特征工程/加密/流量安全

二、特征選擇

特征選擇是特征提取后的一項重要工作,直接決定了最終使用特征集的質(zhì)量。我們共使用了四類特征選擇方法:先驗知識驗證、降維可視化分析、啟發(fā)式搜索分析、綜合工程測試。前兩類方法依靠數(shù)據(jù)統(tǒng)計分析,后兩類方法結(jié)合分類模型。

特征工程/加密/流量安全

先驗知識驗證,是指依靠專家先驗知識直接對候選特征集合進行取舍。針對數(shù)據(jù)集上的特征統(tǒng)計結(jié)果表現(xiàn)出的差異,先驗知識可以直接給出本質(zhì)原因,指導(dǎo)特征選擇。例如,SSL 擴展在 GREASE 擴展項上表現(xiàn)出的正常/惡意流量差別,是不能作為保留特征的,因為,GREASE 擴展項只是瀏覽器為保證協(xié)議可擴展性設(shè)計的特性,并不反映惡意流量特性。

降維可視化分析,是指對初步選擇的一組特征集進行基于無監(jiān)督學(xué)習(xí)的降維處理和可視化分析,直接判斷這組特征集的質(zhì)量。例如,我們使用 PCA 和 t-SNE 等降維方法對一組特征集進行降維,從對降維結(jié)果的可視化分析圖可以看出,這組特征集在圖中的數(shù)據(jù)集上的聚類和區(qū)分效果明顯,具有較高的質(zhì)量。降維可視化效果如下圖所示:

特征工程/加密/流量安全

特征工程/加密/流量安全

啟發(fā)式搜索分析,是指從一個較小的特征集出發(fā),分批次逐步添加候選特征,使用機器學(xué)習(xí)模型進行分類效果測試,判斷該批次特征的取舍。在特征集數(shù)量較大導(dǎo)致無法遍歷測試每個特征集的場景下,基于隨機選擇和樹搜索的分析方法可以較好地平衡效率和準(zhǔn)確率。

綜合工程測試,是指在基本確定的一組特征集基礎(chǔ)上,結(jié)合機器學(xué)習(xí)模型進行進一步的綜合工程測試。例如,決策樹模型和隨機森林模型都可以給出特征重要性數(shù)值和排序,在這兩種模型上進行測試時就可以綜合每一次的測試結(jié)果,淘汰一些排序低和數(shù)值低的特征,進一步精簡特征集。

經(jīng)過上述四步特征選擇方法,得到一組相對比較準(zhǔn)確的加密流量特征集。在此基礎(chǔ)上,還要進行特征之間的相關(guān)性分析,去除相關(guān)性較大的重復(fù)特征,這可以通過計算相關(guān)系數(shù)、互信息等方法實現(xiàn)。雖然去除重復(fù)特征對模型的預(yù)測效果并無太大提高,但是其主要目的是精簡特征集,減小模型復(fù)雜度,提高預(yù)測性能。

三、最終特征集

經(jīng)過特征抽取和特征選擇,最終得到四大類特征集:時空特征、握手特征、證書特征、背景特征。在這四大類基礎(chǔ)上,又分為 54 個子類、超過 1000 種特征。這些特征足夠細粒度地描述每一次加密會話,體現(xiàn)不同類加密流量的細微差別。

1. 時空特征

時空特征即前面提到的協(xié)議無關(guān)特征。“時” 指的是和時間相關(guān)的一組特征集,例如,流時長、包時間間隔等。“空” 指的是和包大小相關(guān)的一組特征集,例如,包大小轉(zhuǎn)移矩陣、熵值等。下圖分別是兩個示例:

特征工程/加密/流量安全

特征工程/加密/流量安全

2. 握手特征

握手特征即前面提到的協(xié)議有關(guān)特征之一,主要是和 SSL 協(xié)議相關(guān)的一組特征集,刻畫了客戶端和服務(wù)端在握手階段的一系列流量特征。例如,協(xié)議版本、支持的擴展項等。下圖分別是兩個示例:

特征工程/加密/流量安全

3. 證書特征

證書特征即前面提到的協(xié)議有關(guān)特征之一,主要是和 x509 協(xié)議相關(guān)的一組特征集,刻畫了雙方使用的數(shù)字證書的一系列特征。例如,證書鏈長度、使用者正常度等。下圖分別是兩個示例:

特征工程/加密/流量安全

特征工程/加密/流量安全

4. 背景特征

背景特征是指從背景流量中提取并選擇的一類特征,如 DNS、HTTP 等背景流量特征,其中,DNS 背景流量特征主要反映在域名特征,HTTP 背景流量特征主要反映在 HTTP 協(xié)議頭內(nèi)容特征。下圖是一個 DNS 類特征的示例:

特征工程/加密/流量安全

四、特征迭代

特征工程是一個不斷迭代更新的過程,上述內(nèi)容只是其中一個迭代的工作任務(wù),當(dāng)基礎(chǔ)數(shù)據(jù)種類和內(nèi)容發(fā)生變動時,需要及時對特征工程進行再次循環(huán),不斷修正和完善特征集,在 “特征” 這個關(guān)鍵點上持續(xù)下功夫。

經(jīng)過以上四個步驟,加密惡意流量檢測的特征工程可以取得初步成效。經(jīng)過我們的實踐經(jīng)驗總結(jié),需要特別強調(diào)的是,不止要在實驗室數(shù)據(jù)驗證與特征迭代方面不斷加以完善,更需要在多場景下的多數(shù)據(jù)源現(xiàn)網(wǎng)環(huán)境中充分驗證和迭代,同時注意新出現(xiàn)的威脅流量數(shù)據(jù)的收集與驗證,才有可能得到一個可投入實際應(yīng)用的加密惡意流量檢測機器學(xué)習(xí)模型。

【本文是51CTO專欄作者“李少鵬”的原創(chuàng)文章,轉(zhuǎn)載請通過安全牛(微信公眾號id:gooann-sectv)獲取授權(quán)】

戳這里,看該作者更多好文

責(zé)任編輯:趙寧寧 來源: 51CTO專欄
相關(guān)推薦

2025-03-12 06:00:00

加密流量安全

2022-01-11 15:02:50

加密流量

2024-03-14 14:16:13

2022-04-15 11:51:48

Windows 11安全加密

2020-11-17 08:59:59

生物識別技術(shù)加密身份認證

2022-05-12 15:54:43

機器學(xué)習(xí)加密流量分析安全

2023-12-14 12:42:42

2013-09-09 09:19:32

2024-12-26 08:34:32

2022-12-12 16:15:19

圖像數(shù)據(jù)Python

2011-01-11 13:58:32

WebLog ExpeWEB服務(wù)器流量記錄

2022-11-30 09:51:02

2022-02-16 07:13:21

性能工程性能規(guī)劃

2022-02-10 08:44:52

Flutter通訊Name

2012-11-29 09:59:02

網(wǎng)絡(luò)流量網(wǎng)絡(luò)安全

2023-02-20 19:52:53

場景商品業(yè)務(wù)

2021-10-10 12:43:44

惡意軟件加密流量網(wǎng)絡(luò)攻擊

2021-02-05 10:31:05

iOS 14攻擊惡意代碼

2010-07-21 15:36:27

telnet-serv

2011-10-10 10:10:14

點贊
收藏

51CTO技術(shù)棧公眾號