Verizon如何利用R語(yǔ)言分析數(shù)據(jù)泄露事故
譯文【51CTO.com 快譯】下圖為攻擊者侵入系統(tǒng)到企業(yè)實(shí)際發(fā)現(xiàn)數(shù)據(jù)泄露狀況之間的間隔時(shí)長(zhǎng),數(shù)據(jù)圖形由R軟件包ggplot2生成。
資深科學(xué)家Bob Rudis將《Verizon數(shù)據(jù)泄露報(bào)告》稱為“寫給R語(yǔ)言的情書”。
對(duì)20萬(wàn)條記錄進(jìn)行分析似乎還不算是什么了不得的大工程,但如果記錄所包含的是安全事件,那么每一條都可能包含有數(shù)以百計(jì)的屬性,而每條屬性——包括不良行為者、資產(chǎn)影響以及組織類型等等——都會(huì)讓工作變得更加復(fù)雜,特別是對(duì)于單純的Excel電子表格而言。因此,在本次的Verizon年度安全報(bào)告當(dāng)中,電信巨頭首先決定采取由R語(yǔ)言生成的“全面”統(tǒng)計(jì)圖表來取代原本的Excel表格。
事實(shí)上,《Verizon數(shù)據(jù)泄露報(bào)告》在一定程度上可以算是“寫給R語(yǔ)言的情書”,Verizon公司企業(yè)解決方案資深數(shù)據(jù)科學(xué)家兼常務(wù)主管Bob Rudis在日前于波士頓召開的EARL(即R語(yǔ)言有效應(yīng)用)大會(huì)上指出。
R語(yǔ)言“在使用過程中確實(shí)樂趣滿滿,”他指出。
作為轉(zhuǎn)換過程中的重要問題之一,由電子表格向R的變更將帶來相當(dāng)復(fù)雜的數(shù)據(jù)格式轉(zhuǎn)變。Verizon公司的研究人員利用嵌套JSON的方式從各組織機(jī)構(gòu)獲取安全事件數(shù)據(jù),這意味著各匿名數(shù)據(jù)類別之內(nèi)還存在大量子類。很明顯,以Excel方式對(duì)其進(jìn)行導(dǎo)入以及分析幾乎是件不可能完成的任務(wù)。
而使用R語(yǔ)言還將帶來其它一些助益,Rudis表示。由于R語(yǔ)言的ggplot2軟件包能夠生成極為精細(xì)且可達(dá)出版質(zhì)量水平的圖像,Verizon公司得以擺脫對(duì)外部圖形設(shè)計(jì)企業(yè)的依賴,從而節(jié)約下15000美元到20000美元支出。與此前方式相比,利用R語(yǔ)言創(chuàng)建而成的圖像只會(huì)帶來惟一一種區(qū)別——即對(duì)字體進(jìn)行重新整理。“R語(yǔ)言在處理字體方面確實(shí)比較捉急,”Rudis坦言。
不過R語(yǔ)言在建模、聚類以及其它統(tǒng)計(jì)分析工作當(dāng)中擁有著大量出色的工具,能夠幫助Verizon公司在單純的計(jì)數(shù)之外實(shí)現(xiàn)更多復(fù)雜的功能——例如根據(jù)不同組織機(jī)構(gòu)類型檢測(cè)攻擊者的可能活動(dòng)。即使是在金融服務(wù)范疇之內(nèi),他指出安全威脅的類型也會(huì)有所區(qū)別,例如銀行業(yè)與金融業(yè)之間也存在明顯差異。
該報(bào)告小組還利用R語(yǔ)言創(chuàng)建出各類具備交互性的可視化成果,例如查看哪些其它行業(yè)中存在類似的威脅狀況。
Verizon公司使用的安全數(shù)據(jù)格式為開源的VERIS,即事件記錄與事故共享詞表(Vocabulary for Event Recording and Incident Sharing)。對(duì)于那些希望對(duì)已公開安全泄露數(shù)據(jù)進(jìn)行分析的用戶,VERIS Community Database能夠幫大家滿足需求,而名為verisr的R軟件包能夠輕松處理這類數(shù)據(jù)。Rudis與Jay Jacobs還聯(lián)名撰寫了一部論著,《數(shù)據(jù)驅(qū)動(dòng)型安全》,其中詳盡描述了如何使用VERIS模式及R語(yǔ)言記錄并分析安全事故。
Verizon公司在報(bào)告當(dāng)中分析的數(shù)據(jù)總量遠(yuǎn)多于目前公開數(shù)據(jù)庫(kù)當(dāng)中的可用數(shù)量,其中甚至包括一部分來自美國(guó)特勤局以及FBI等機(jī)構(gòu)的數(shù)據(jù),Rudis指出。
而在利用R語(yǔ)言進(jìn)行數(shù)據(jù)分析的過程當(dāng)中,Rudis總結(jié)出了以下經(jīng)驗(yàn):
·使用R Markdown將解釋文本與分析及圖像關(guān)聯(lián)起來。R Markdown“能夠讓文件記錄、迭代、修改以及共享分析結(jié)果等工作變得超乎想象的簡(jiǎn)單,”Rudis強(qiáng)調(diào)稱。
·“將一切整理進(jìn)軟件包當(dāng)中,”甚至包括不打算與外部人士共享的內(nèi)部分析代碼。這能夠顯著降低文件記錄功能的實(shí)現(xiàn)難度,允許他人更輕松地檢查我們的分析結(jié)果。
·Version公司利用git等機(jī)制進(jìn)行版本控制,將其作為“一切的實(shí)現(xiàn)基礎(chǔ)。”
該項(xiàng)目當(dāng)中還提供其它一系列開源工具,包括利用GitLab進(jìn)行內(nèi)部協(xié)作開發(fā)、利用Slack進(jìn)行協(xié)作; Rudis還特地編寫了一款名為slackr的R軟件包,旨在降低由R直接向Slack發(fā)送分析結(jié)果的難度。
其它相關(guān)工具:SurveyGizmo與Room.co實(shí)現(xiàn)安全視頻聊天; 之所以沒有選擇谷歌Hangouts,是因?yàn)楣雀璺矫鏁?huì)記錄這些會(huì)話內(nèi)容,他解釋道。而GPG Suite則負(fù)責(zé)進(jìn)行通信內(nèi)容加密,RStudio用于同R語(yǔ)言環(huán)境對(duì)接。
Rudis在EARL波士頓大會(huì)上的演示材料已經(jīng)公開,感興趣的朋友可以點(diǎn)擊此處查看。
原文標(biāo)題:How Verizon analyzes security-breach data with R
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】