大語(yǔ)言模型能讓暗網(wǎng)中的數(shù)據(jù)“改邪歸正”嗎?

在理想的世界中,我們希望各種先進(jìn)的技術(shù)能夠在“陽(yáng)光”下被使用,然而,現(xiàn)實(shí)世界從來(lái)不是烏托邦。
眾所周知,“暗網(wǎng)”一直都是各種非法網(wǎng)絡(luò)活動(dòng)的庇護(hù)所,甚至是滋生罪惡的溫床,以窩藏非法匿名網(wǎng)站和支持非法活動(dòng)(例如交易被盜數(shù)據(jù)、毒品和武器)而臭名昭著。但是,暗網(wǎng)中也存在大量的商業(yè)數(shù)據(jù)和個(gè)人信息,而其中的很多數(shù)據(jù)是在公開網(wǎng)絡(luò)中難以獲取到的。試想一下,如果用暗網(wǎng)中的數(shù)據(jù)訓(xùn)練AI,將會(huì)發(fā)生什么?
近日,韓國(guó)科學(xué)技術(shù)院 (KAIST) 的一個(gè)研究團(tuán)隊(duì)發(fā)布了一款可應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域的大語(yǔ)言模型工具——DarkBERT,這是一個(gè)專門從暗網(wǎng)獲取數(shù)據(jù)進(jìn)行訓(xùn)練的LLM。DarkBERT并非出于惡意目的而創(chuàng)建,研究人員的目標(biāo)是創(chuàng)造一種超越現(xiàn)有安全方案的智能化暗網(wǎng)威脅監(jiān)控工具,幫助威脅研究人員、執(zhí)法機(jī)構(gòu)和網(wǎng)絡(luò)安全分析師打擊網(wǎng)絡(luò)威脅。
據(jù)了解,此次發(fā)布的DarkBERT工具,是一個(gè)基于RoBERTa架構(gòu)的transformer-based編碼器模型。該模型目前已經(jīng)接受了數(shù)百萬(wàn)個(gè)暗網(wǎng)網(wǎng)頁(yè)的訓(xùn)練,全面包括了來(lái)自地下黑客論壇、詐騙網(wǎng)站和其他非法網(wǎng)站的數(shù)據(jù)。為了訓(xùn)練DarkBERT,研究人員會(huì)通過(guò)Tor網(wǎng)絡(luò)進(jìn)入暗網(wǎng)并收集原始數(shù)據(jù),然后創(chuàng)建一個(gè)可以不斷完善的暗網(wǎng)數(shù)據(jù)資料庫(kù),并在兩周內(nèi)將更新后的數(shù)據(jù)提供給RoBERTa。
該研究團(tuán)隊(duì)表示,即使是從最不尋常的來(lái)源所收集的數(shù)據(jù),也可以訓(xùn)練出有用的人工智能模型。盡管一些人可能會(huì)擔(dān)心暗網(wǎng)數(shù)據(jù)會(huì)帶有天然的“邪惡”屬性,并可能對(duì)DarkBERT造成不好的影響,但我們認(rèn)為,在AI技術(shù)迅速發(fā)展的今天,需要更加關(guān)注如何讓這些數(shù)據(jù)能夠在受控和透明的環(huán)境下運(yùn)行,并確保他們產(chǎn)生對(duì)社會(huì)有利的價(jià)值。
為了評(píng)估DarkBERT的有效性,研究人員將其與兩個(gè)著名的NLP工具BERT和RoBERTa進(jìn)行了比較,并從以下三個(gè)關(guān)鍵網(wǎng)絡(luò)安全場(chǎng)景評(píng)估DarkBERT的實(shí)際可用性:
監(jiān)控暗網(wǎng)論壇潛在的有害線程
監(jiān)控暗網(wǎng)論壇(通常用于交換非法信息)對(duì)于識(shí)別潛在的危險(xiǎn)線程至關(guān)重要。由于人工檢查非常耗時(shí),因此自動(dòng)化過(guò)程對(duì)安全專家來(lái)說(shuō)不可或缺。評(píng)估結(jié)果顯示,DarkBERT在準(zhǔn)確率、召回率和漏報(bào)率方面的表現(xiàn)均不同程度優(yōu)于其他兩種工具。
檢測(cè)包含機(jī)密信息的暗網(wǎng)站點(diǎn)
黑客和勒索軟件組織會(huì)利用暗網(wǎng)創(chuàng)建泄密網(wǎng)站,供各種網(wǎng)絡(luò)犯罪分子將竊取的敏感數(shù)據(jù)(如密碼和財(cái)務(wù)信息)上傳到暗網(wǎng),并以此進(jìn)行牟利。在研究中,研究人員收集了臭名昭著的勒索軟件組織的數(shù)據(jù),并分析了發(fā)布組織私人數(shù)據(jù)的勒索軟件泄漏站點(diǎn)。結(jié)果顯示,DarkBERT在識(shí)別和分類此類網(wǎng)站方面優(yōu)于其他兩種工具,原因在于它對(duì)暗網(wǎng)論壇中所使用的語(yǔ)言有更好的理解。
識(shí)別暗網(wǎng)威脅關(guān)鍵字
DarkBERT可以利用BERT家族語(yǔ)言模型的固有特征進(jìn)行暗語(yǔ)轉(zhuǎn)化,從而準(zhǔn)確識(shí)別與非法活動(dòng)相關(guān)的關(guān)鍵字,例如暗網(wǎng)上的毒品銷售。評(píng)估結(jié)果顯示,當(dāng)“MDMA”這個(gè)詞被隱藏在藥品銷售頁(yè)面上時(shí),DarkBERT生成了與毒品相關(guān)的單詞,而其他工具則顯示了與毒品無(wú)關(guān)的一般單詞和術(shù)語(yǔ),比如各種職業(yè)。
以上評(píng)估結(jié)果表明,DarkBERT模型對(duì)網(wǎng)絡(luò)罪犯的語(yǔ)言有著非凡的理解能力,并善于發(fā)現(xiàn)特定的潛在威脅。它可以幫助安全人員更好地研究暗網(wǎng),并成功識(shí)別和標(biāo)記數(shù)據(jù)泄露及勒索軟件等網(wǎng)絡(luò)安全威脅,成為打擊網(wǎng)絡(luò)安全犯罪活動(dòng)的有力工具。
DarkBERT目前還并不向公眾開放,只接受部分將其用于學(xué)術(shù)研究目的的應(yīng)用請(qǐng)求。因?yàn)橄衿渌鸏LM模型一樣,DarkBERT還是一個(gè)尚在發(fā)展中的模型,有許多地方還需要通過(guò)不斷的訓(xùn)練和調(diào)整去優(yōu)化。創(chuàng)新模型的出現(xiàn)將會(huì)提高現(xiàn)有網(wǎng)絡(luò)安全防護(hù)體系的能力和性能,但同時(shí),也必須要關(guān)注其可能帶來(lái)的新挑戰(zhàn)和問(wèn)題,例如數(shù)據(jù)隱私、自主決策等方面的問(wèn)題,需要得到充分的重視和解決。
參考鏈接:
https://www.makeuseof.com/what-is-darkbert-ai/。
https://cybersecuritynews.com/darkbert-ai/。















 
 
 













 
 
 
 