偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

安全領(lǐng)域中機(jī)器學(xué)習(xí)的對(duì)抗和博弈

安全
如何讓機(jī)器學(xué)習(xí)從學(xué)術(shù)殿堂真正走進(jìn)實(shí)際應(yīng)用,是每個(gè)安全研究人員值得思考的問(wèn)題。本文從我所了解的一些案例和研究成果談?wù)剛€(gè)人的看法和思考。

[[191004]]

0x00 背景

最近,偶然看到一篇論文講如何利用機(jī)器學(xué)習(xí)從加密的網(wǎng)絡(luò)流量中識(shí)別出惡意軟件的網(wǎng)絡(luò)流量。一開(kāi)始認(rèn)為這個(gè)價(jià)值很高,畢竟現(xiàn)在越來(lái)越多的惡意軟件都開(kāi)始使用TLS來(lái)躲避安全產(chǎn)品的檢測(cè)和過(guò)濾。但是看完論文之后又有些失望,雖然文章的實(shí)驗(yàn)結(jié)果非常漂亮,但是有一點(diǎn)治標(biāo)不治本的感覺(jué),機(jī)器學(xué)習(xí)又被拿來(lái)作為一個(gè)噱頭。

回顧過(guò)去的幾年,機(jī)器學(xué)習(xí)在安全領(lǐng)域有不少應(yīng)用,但其處境卻一直比較尷尬:一方面,機(jī)器學(xué)習(xí)技術(shù)在業(yè)內(nèi)已有不少成功的應(yīng)用,大量簡(jiǎn)單的重復(fù)性勞動(dòng)工作可以很好的由機(jī)器學(xué)習(xí)算法解決。但另一方面,面對(duì)一些“技術(shù)性”較高的工作,機(jī)器學(xué)習(xí)技術(shù)卻又遠(yuǎn)遠(yuǎn)達(dá)不到標(biāo)準(zhǔn)。

和其他行業(yè)不同,安全行業(yè)是一個(gè)比較敏感的行業(yè)。比如做一個(gè)推薦系統(tǒng),效果不好的最多也就是給用戶推薦了一些他不感興趣的內(nèi)容,并不會(huì)造成太大損失;而在安全行業(yè),假如用機(jī)器學(xué)習(xí)技術(shù)做病毒查殺,效果不好的話后果就嚴(yán)重了,無(wú)論是誤報(bào)或漏報(bào),對(duì)客戶來(lái)說(shuō)都會(huì)造成實(shí)際的或潛在的損失。

與此同時(shí),安全行業(yè)也是一個(gè)與人博弈的行業(yè)。我們?cè)谄渌I(lǐng)域采用機(jī)器學(xué)習(xí)算法時(shí),大部分情況下得到數(shù)據(jù)都是“正常人”在“正常的行為”中產(chǎn)生的數(shù)據(jù),因此得到的模型能夠很好的投入實(shí)際應(yīng)用中。而在安全領(lǐng)域,我們的實(shí)際對(duì)手都是一幫技術(shù)高超、思路猥瑣的黑客,費(fèi)盡心思構(gòu)建的機(jī)器學(xué)習(xí)模型在他們眼中往往是漏洞百出、不堪一擊。

如何讓機(jī)器學(xué)習(xí)從學(xué)術(shù)殿堂真正走進(jìn)實(shí)際應(yīng)用,是每個(gè)安全研究人員值得思考的問(wèn)題。本文從我所了解的一些案例和研究成果談?wù)剛€(gè)人的看法和思考。

0x01 從加密的網(wǎng)絡(luò)流量中識(shí)別惡意軟件?

既然文章的開(kāi)頭提到了從加密的網(wǎng)絡(luò)流量中識(shí)別惡意軟件,我們先來(lái)看看這個(gè)論文的作者是如何考慮這個(gè)問(wèn)題的,他們發(fā)現(xiàn),在握手階段(該過(guò)程是不加密的),惡意軟件所表現(xiàn)出的特征與正常的應(yīng)用有較大區(qū)別。典型的TLS握手過(guò)程如下圖所示:

典型的TLS握手過(guò)程 

在握手的第一階段,客戶端需要告訴服務(wù)端自身所支持的協(xié)議版本、加密和壓縮算法等信息,在這個(gè)過(guò)程中,正常的應(yīng)用(用戶能夠按時(shí)更新)使用高強(qiáng)度加密算法和最新的TLS庫(kù),而惡意軟件所使用的往往是一些較老版本協(xié)議或強(qiáng)度較低的加密算法。以此作為主要特征,加上網(wǎng)絡(luò)流量本身的信息如總字節(jié)數(shù)大小、源端口與目的端口、持續(xù)時(shí)間以及網(wǎng)絡(luò)流中包的長(zhǎng)度和到達(dá)次序等作為輔助特征,利用機(jī)器學(xué)習(xí)算法即可訓(xùn)練得到一個(gè)分類模型。

看完這段描述,我的內(nèi)心是崩潰的,因?yàn)樵摲椒ㄊ前裈LS握手階段的信息作為主要特征來(lái)考慮的。道高一尺,魔高一丈。以其人之道,還治其人之身,這句話點(diǎn)中了機(jī)器學(xué)習(xí)的死穴,我相信凡是看到這個(gè)篇論文的黑客都會(huì)想到:以后寫木馬的時(shí)候一定要采用最新版本的TLS庫(kù),和服務(wù)器通信時(shí)采用加密強(qiáng)度較高的算法,盡量選取和正常應(yīng)用類似的參數(shù)……做到以上幾點(diǎn),論文中提出的方法就可以當(dāng)成擺設(shè)了。

0x02 域名生成算法中的博弈

早期的一些DGA算法所產(chǎn)生的域名有著比較高的辨識(shí)度,例如下面這些域名

DGA算法所產(chǎn)生的域名 

給我們的直觀感受就是英文字母隨機(jī)出現(xiàn),而且不是常見(jiàn)的單詞或拼音的組合,而且很難“念”出來(lái)。事實(shí)上這些特征可以用馬爾可夫模型和n-gram分布很好的描述出來(lái),早就有相應(yīng)的算法實(shí)現(xiàn),識(shí)別的效果也非常不錯(cuò)。然而,很快就出現(xiàn)了一些升級(jí)版的DGA算法,如下面的這個(gè)域名

indianbrewedsmk.rutwistedtransistoreekl.biz

這無(wú)非就是隨機(jī)找?guī)讉€(gè)單詞,然后拼湊在一起構(gòu)成的域名,但是卻完美的騙過(guò)了我們剛才提到的機(jī)器學(xué)習(xí)方法,因?yàn)檫@個(gè)域名無(wú)論從馬爾可夫模型或是n-gram分布的角度來(lái)看,都和正常的域名沒(méi)有太大的區(qū)別。唯一可疑的地方就是這個(gè)域名的長(zhǎng)度以及幾個(gè)毫無(wú)關(guān)聯(lián)拼湊在一起的單詞,所以額外從這兩個(gè)角度考慮仍然可以亡羊補(bǔ)牢。

更有甚者,在今年的BSidesLV 2016上,有人提出了一種基于深度學(xué)習(xí)的DGA算法——DeepDGA,將Alexa上收錄的知名網(wǎng)站域名作為訓(xùn)練數(shù)據(jù),送入LSTM模型和生成對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)訓(xùn)練,最終生成的隨機(jī)域名效果拔群。如下圖所示(左側(cè)是給定的輸入)

 

從字符的分布情況上來(lái)看,也與正常網(wǎng)站的域名基本一致

 

隨著深度學(xué)習(xí)技術(shù)的普及,或許在不久的將來(lái)安全研究人員就可以“驚喜的”發(fā)現(xiàn)某個(gè)勒索軟件家族開(kāi)始采用這種高端的域名生成算法了……

0x03 來(lái)自恐怖分子的垃圾郵件

事實(shí)上類似域名生成算法的博弈早就出現(xiàn)了,2003年美國(guó)打擊塔利班武裝時(shí),從一名恐怖分子手中繳獲了一臺(tái)筆記本電腦,發(fā)現(xiàn)里面用于通信的電子郵件的風(fēng)格都是典型的垃圾郵件,而真正傳遞的消息暗藏于這樣的垃圾郵件中。因?yàn)槊鎸?duì)NSA這樣無(wú)孔不入的情報(bào)機(jī)構(gòu),越是遮遮掩掩,越是采用高強(qiáng)度的加密,反而越容易被盯上。同樣因?yàn)镹SA的無(wú)孔不入,他們每天需要處理的數(shù)據(jù)量也是天文數(shù)字,仔細(xì)檢查所有數(shù)據(jù)是不可能的,必須有所取舍,而這其中有一類數(shù)據(jù)恰恰是被NSA所忽視的,那就是每天成千上萬(wàn)的垃圾郵件。在機(jī)器學(xué)習(xí)算法大行其道的今天,各大郵件服務(wù)提供商早就配備了一套成熟的垃圾郵件檢測(cè)系統(tǒng),無(wú)論是采用邏輯回歸算法或是SVM算法,只要加上幾句諸如優(yōu)惠代開(kāi)各類發(fā)票或是想免費(fèi)擁有自已的xxx這樣的垃圾郵件標(biāo)配,妥妥的直接過(guò)濾掉。如果一封郵件都被郵件服務(wù)提供商認(rèn)定為垃圾郵件,NSA又有什么理由去進(jìn)一步懷疑呢?

退一步講,如果NSA想找出混在垃圾郵件中的有價(jià)值情報(bào)該怎么做呢?設(shè)關(guān)鍵詞嗎,上更復(fù)雜的機(jī)器學(xué)習(xí)算法嗎?要是恐怖分子采用類似“藏頭詩(shī)”這樣的信息隱藏手法怎么辦?

有的同學(xué)說(shuō)還可以通過(guò)郵件的通連關(guān)系啊,如果你聽(tīng)說(shuō)過(guò)“死郵件”就不會(huì)這么想了。兩人共用一個(gè)賬號(hào),利用郵箱的草稿箱傳遞消息,完全沒(méi)有郵件的發(fā)送與接收等通連關(guān)系,這又是不按套路出牌。

0x04 容易被騙的圖像識(shí)別

近幾年來(lái),如果你稍有關(guān)注圖像識(shí)別領(lǐng)域,就知道基于深度學(xué)習(xí)技術(shù)的圖像識(shí)別技術(shù)在各大圖像識(shí)別比賽中大放異彩,甚至在某些任務(wù)上超過(guò)了人類。雖然目前人們?nèi)匀徊荒芎芎玫慕忉尀槭裁瓷疃葘W(xué)習(xí)技術(shù)如此有效,但這依然阻擋不住眾多數(shù)據(jù)科學(xué)家們孜孜不倦的搭建模型、調(diào)優(yōu)參數(shù)。

但正當(dāng)一票又一票研究小組努力“刷榜”的時(shí)候,另一些人總是能看的更遠(yuǎn)一些。谷歌的Szegedy研究員就發(fā)現(xiàn),基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)可能并不如我們相像的那么靠譜,利用一些簡(jiǎn)單的trick即可將其輕松欺騙。如下圖所示: 

 

這兩幅圖在我們正常人眼中并沒(méi)有太大區(qū)別,但是對(duì)圖像識(shí)別系統(tǒng),左圖能夠正確的識(shí)別為熊貓,右圖卻識(shí)別成了長(zhǎng)臂猿,而且是99.3%的置信度

而更為詭異的是一些在我們?nèi)祟惪雌饋?lái)毫無(wú)意義的圖片,卻被圖像識(shí)別系統(tǒng)“正確”的識(shí)別了出來(lái)。比如下面這些例子

 

0x05 一起躺槍的自動(dòng)駕駛

關(guān)于自動(dòng)駕駛汽車的安全問(wèn)題,國(guó)內(nèi)外眾多安全公司和研究人員已經(jīng)做了很多次詳細(xì)的分析和現(xiàn)場(chǎng)演示。例如在今年的ISC 2016上,來(lái)自浙大的徐文淵教授團(tuán)隊(duì)和360汽車信息安全實(shí)驗(yàn)室共同演示的針對(duì)特斯拉Model S汽車自動(dòng)駕駛技術(shù)的攻擊,通過(guò)干擾特斯拉汽車的三種傳感器(超聲波傳感器、毫米波雷達(dá)和前置高清攝像頭),可以實(shí)現(xiàn)強(qiáng)制停車、誤判距離、致盲等多種不安全的情況。

以上都是黑客主動(dòng)發(fā)起的攻擊,自動(dòng)駕駛自身也存在著缺陷。今年5月發(fā)生在美國(guó)發(fā)生的自動(dòng)駕駛系統(tǒng)致人死亡的案例也引發(fā)了社會(huì)的大量關(guān)注:

按照特斯拉的解釋,這起事故發(fā)生時(shí),車主布朗正駕駛Model S行駛在一條雙向、有中央隔離帶的公路上,自動(dòng)駕駛處于開(kāi)啟模式,此時(shí)一輛牽引式掛車與Model S垂直的方向穿越公路。特斯拉表示,在強(qiáng)烈的日照條件下,駕駛員和自動(dòng)駕駛系統(tǒng)都未能注意到牽引式掛車的白色車身,因此未能及時(shí)啟動(dòng)剎車系統(tǒng)。而由于牽引式掛車正在橫穿公路,且車身較高,這一特殊情況導(dǎo)致Model S從掛車底部通過(guò)時(shí),其前擋風(fēng)玻璃與掛車底部發(fā)生撞擊,導(dǎo)致駕駛員不幸遇難。

正如這起事件暴露出來(lái)的問(wèn)題,當(dāng)車身周圍傳感器和車前的毫米波雷達(dá)都失靈時(shí)(當(dāng)然該案例中這傳感器和毫米波雷達(dá)并未失靈,而是由于毫米波雷達(dá)安裝過(guò)低,未能感知到底盤較高的卡車),唯一能依靠的輸入就是車窗前方的高清攝像頭。我們來(lái)看看事發(fā)當(dāng)時(shí)的街景現(xiàn)場(chǎng)

[[191005]] 

以及被撞的卡車樣式(注意白色車身上什么標(biāo)致都沒(méi)有)

[[191006]] 

由于車前的高清攝像頭為長(zhǎng)焦鏡頭,當(dāng)白色拖掛卡車進(jìn)入視覺(jué)區(qū)域內(nèi)的時(shí)候,攝像頭只能看到懸浮在地面上的卡車中部,而無(wú)法看見(jiàn)整個(gè)車輛,加上當(dāng)時(shí)陽(yáng)光強(qiáng)烈(藍(lán)天白云),使得自動(dòng)駕駛統(tǒng)無(wú)法識(shí)別出障礙物是一輛卡車,而更像是飄在天上的云。再加上當(dāng)時(shí)特斯拉車主正在玩游戲,完全沒(méi)有注意到前方的這個(gè)卡車,最終導(dǎo)致悲劇發(fā)生。

結(jié)合剛才的圖像識(shí)別對(duì)抗樣本和浙大徐文淵教授團(tuán)隊(duì)的研究成果,我們完全有可能設(shè)計(jì)一個(gè)讓自動(dòng)駕駛系統(tǒng)發(fā)生車禍的陷阱,例如在某個(gè)車輛上噴涂吸收雷達(dá)波的涂料以及帶有迷惑性的圖案,讓自動(dòng)駕駛系統(tǒng)無(wú)法識(shí)別出前方的物體;再比如,找個(gè)夜深人靜的夜晚在道路標(biāo)識(shí)上加一些“噪音”,人類可以正常識(shí)別,而自動(dòng)駕駛系統(tǒng)卻會(huì)誤判等等。

0x06 邪惡的噪音與隱藏的指令

除了容易被騙的圖像識(shí)別系統(tǒng),我們每個(gè)人手機(jī)上的語(yǔ)音助手同樣不靠譜,也許未來(lái)某天你正在使用語(yǔ)音助手時(shí),旁邊突然傳來(lái)一串奇怪的聲音,你的手機(jī)就詭異的打開(kāi)了某個(gè)掛馬網(wǎng)站或者給一個(gè)完全不認(rèn)識(shí)的人轉(zhuǎn)賬。

來(lái)自加州大學(xué)伯克利分校的Carlini等人發(fā)現(xiàn)一些語(yǔ)言助手如Google Now和Siri都有可能理解一些人類無(wú)法辨識(shí)的“噪音”,并將其解析為指令進(jìn)行執(zhí)行。其實(shí)原理并不難理解,人工生成這種邪惡的噪音流程如下

 

如圖所示,這是一個(gè)反復(fù)迭代的過(guò)程。我們首先通過(guò)抽取正常語(yǔ)音中關(guān)鍵特征,再做一次“逆向特征”合成語(yǔ)音并加入一些噪音作為候選,并將其分別給語(yǔ)音識(shí)別系統(tǒng)和正常人播放試聽(tīng),直到得到一個(gè)語(yǔ)音識(shí)別系統(tǒng)可以識(shí)別而人類無(wú)法辨識(shí)的邪惡噪音。

0x07 思考與對(duì)策

看完上文中提到的這些案例和分析,相信同學(xué)們有自己看法和認(rèn)識(shí)。我也簡(jiǎn)單談?wù)勎覀€(gè)人的一些思考。

最基本的一點(diǎn)是不要迷信機(jī)器學(xué)習(xí),不要覺(jué)得機(jī)器學(xué)習(xí)是解決一切問(wèn)題的銀彈。有的同學(xué)總覺(jué)得自己懂機(jī)器學(xué)習(xí),那些靠人工上規(guī)則的辦法就是low,這種就是典型的學(xué)術(shù)思維,真正在業(yè)務(wù)系統(tǒng)中純粹靠機(jī)器學(xué)習(xí)算法硬上的遲早是要栽跟頭的。只有拋開(kāi)這種觀念,從實(shí)際角度出發(fā)才能想出切實(shí)可行的方法。

盡量從多個(gè)數(shù)據(jù)來(lái)源或者多個(gè)特征維度綜合分析。以隨機(jī)域名生成算法為例,單靠域名本身的特征很難判斷其是否為C&C域名時(shí),就應(yīng)該從多個(gè)數(shù)據(jù)渠道入手進(jìn)一步分析,如惡意軟件家族的域名關(guān)聯(lián)關(guān)系以及和某個(gè)可疑進(jìn)程的通信行為等。

要有未雨綢繆的思維,在用機(jī)器學(xué)習(xí)算法解決一個(gè)問(wèn)題的同時(shí),應(yīng)該從黑客猥瑣的角度思考如何攻擊這個(gè)算法,而不是簡(jiǎn)單的回避,為了解決問(wèn)題而解決問(wèn)題。

本文提到了對(duì)抗樣本現(xiàn)象(圖像識(shí)別、語(yǔ)音識(shí)別都有涉及),目前學(xué)術(shù)界稱之為生成對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks),雖然目前還沒(méi)有實(shí)際的攻擊案例,但特斯拉的車禍其實(shí)已經(jīng)敲響了警鐘。就像著名黑客Barnaby Jack在Black Hat USA 2010上演示的針對(duì)ATM機(jī)的攻擊,當(dāng)時(shí)人們覺(jué)得非??苹茫F(xiàn)實(shí)中不一定存在這樣的威脅,而今年發(fā)生的幾起黑客攻擊ATM機(jī)事件(臺(tái)灣第一銀行ATM機(jī)遭黑客入侵 吐出7000萬(wàn)臺(tái)幣、泰國(guó)ATM機(jī)被入侵導(dǎo)致1200萬(wàn)泰銖被盜)才讓人們真正意識(shí)到原來(lái)這些看似只在電影的中發(fā)生的情節(jié)在真實(shí)世界中同樣存在。

當(dāng)黑客都開(kāi)始研究機(jī)器學(xué)習(xí)技術(shù)了,我們又有什么理由落后呢? 

責(zé)任編輯:龐桂玉 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2016-11-08 18:00:44

機(jī)器學(xué)習(xí)

2014-12-09 12:35:11

人工智能機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目

2017-04-01 14:23:35

PythonR機(jī)器學(xué)習(xí)

2020-05-25 09:04:24

網(wǎng)絡(luò)安全機(jī)器學(xué)習(xí)人工智能

2021-10-19 10:56:33

人工智能AI深度學(xué)習(xí)

2018-08-17 04:27:16

機(jī)器學(xué)習(xí)數(shù)學(xué)理論工程領(lǐng)域

2020-07-26 18:42:51

人工智能

2022-04-17 23:09:07

深度學(xué)習(xí)人工智能芯片

2018-06-26 12:17:19

2023-01-12 12:28:52

2020-07-13 09:32:51

人工智能

2016-12-05 14:37:25

人工智能機(jī)器學(xué)習(xí)

2021-08-27 10:48:08

人工智能AI機(jī)器人

2021-12-30 12:05:38

對(duì)抗性攻擊機(jī)器學(xué)習(xí)

2021-03-16 10:15:48

醫(yī)療領(lǐng)域數(shù)據(jù)協(xié)作數(shù)據(jù)

2019-07-30 07:25:51

物聯(lián)網(wǎng)應(yīng)用物聯(lián)網(wǎng)IOT

2020-09-22 07:00:00

AI機(jī)器學(xué)習(xí)網(wǎng)絡(luò)安全

2022-01-21 09:05:34

機(jī)器學(xué)習(xí)工具安全

2019-05-24 08:44:54

2014-09-17 09:43:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)