以火攻火:用LLM對(duì)付LLM生成的社會(huì)工程攻擊
人工智能領(lǐng)域的最新進(jìn)展導(dǎo)致了大語言模型(LLM)問世,包括GPT-3、PaLM、GPT-4和LLAMA。這些模型可以生成易于理解的文本段落、回答詳細(xì)的問題、解決復(fù)雜的問題、編寫代碼以及處理其他各種自然語言任務(wù)。
LLM徹底改變了自然語言處理(NLP)任務(wù),改變了用戶與語言進(jìn)行交互的方式,最終通過改進(jìn)后的聊天機(jī)器人、虛擬助手、內(nèi)容生成、搜索引擎和語言學(xué)習(xí)平臺(tái),影響了人們的日常生活。
雖然不可否認(rèn)LLM進(jìn)步巨大,有助于日常使用,但在網(wǎng)絡(luò)安全領(lǐng)域,它已成為一把雙刃劍,無意中為網(wǎng)絡(luò)犯罪分子開創(chuàng)了黃金時(shí)代。LLM允許攻擊者更高效更頻繁地進(jìn)行一系列攻擊(包括魚叉式網(wǎng)絡(luò)釣魚和商業(yè)電子郵件入侵等社會(huì)工程伎倆),因?yàn)樗軌蛄⒓瓷蓴?shù)千條獨(dú)特的明文攻擊消息。好消息是,LLM并非沒有缺陷,尤其在用于生成攻擊時(shí)。
我們?cè)诒疚闹袑⑻接懛烙呷绾卫肔LM對(duì)抗由同樣的LLM生成的攻擊。
LLM攻擊:形式不同,實(shí)質(zhì)相同
不妨先從分析三封電子郵件入手,每封郵件發(fā)送給我們保護(hù)的不同組織的用戶。這些惡意電子郵件都是商業(yè)電子郵件入侵(BEC)攻擊,攻擊者通常冒充一家公司的高層人員,比如首席執(zhí)行官或首席財(cái)務(wù)官,并指示員工購(gòu)買禮品卡以獎(jiǎng)勵(lì)同事。
電子郵件1:
電子郵件2:
電子郵件3:
如果你仔細(xì)看一下這些郵件,就會(huì)發(fā)現(xiàn)有著顯著的相似之處,如下所述:
相似之處 | 例子1 | 例子2 | 例子3 |
贊賞信息 | 忠誠(chéng)和努力創(chuàng)造美好未來 | 美妙過程、努力、忠誠(chéng)和專注打動(dòng)了高層管理人員 | 美妙過程、努力、忠誠(chéng)和專注打動(dòng)了我 |
行動(dòng) | 送禮品卡,給一些員工以驚喜 | 送禮品卡,給一些高級(jí)員工以驚喜 | 送禮品卡,給一些員工以驚喜 |
要求保密 | 要求你保密,以免敗壞這份驚喜的效果 | 要求你保密,以免敗壞份驚喜的效果 | 要求你保密,以免敗壞這份驚喜的效果 |
潛在的禮品卡 | Amex、維薩和塔吉特 | Amex、維薩和亞馬遜 | 維薩、塔吉特和Amex |
請(qǐng)求協(xié)助 | 想聽聽意見,了解最近的商店,為我迅速購(gòu)買禮品 | 想聽聽意見 | 你能找到的最近商店,為我迅速購(gòu)買禮品 |
簽收 | 一收到該電子郵件請(qǐng)回復(fù),致以新年問候 | 一收到該電子郵件請(qǐng)回復(fù),致以感恩節(jié)問候 | 期待你的回復(fù),致以美好祝愿 |
從注意到的相似之處來看,可以假定電子郵件使用了模板。此外,易于識(shí)別的模式可以歸因于LLM的訓(xùn)練過程。
當(dāng)LLM接受訓(xùn)練時(shí),它接觸到大量的文本數(shù)據(jù),使其能夠?qū)W習(xí)和內(nèi)化模式。這些模式包括常見的語言結(jié)構(gòu)、短語和內(nèi)容元素。因此,當(dāng)受過訓(xùn)練的模型用于生成文本時(shí),它會(huì)借鑒這學(xué)習(xí)到的知識(shí),并將這些模式整合到輸出中,從而導(dǎo)致熟悉的主題和內(nèi)容元素重復(fù)出現(xiàn)。
LLM防御?LMK
Perception Point利用了LLM生成的文本中的模式,并用LLM來增強(qiáng)威脅檢測(cè)。為了做到這一點(diǎn),我們使用了transformer,這種高級(jí)模型可以理解文本的含義和上下文,LLM也使用了這種高級(jí)模型。
使用transformer,我們可以執(zhí)行文本嵌入,這個(gè)過程通過捕獲文本的語義本質(zhì),將文本編碼成數(shù)字表示。我們使用先進(jìn)的聚類算法對(duì)語義內(nèi)容密切相關(guān)的電子郵件進(jìn)行分組。通過聚類,我們可以訓(xùn)練模型來區(qū)分屬于同一聚類的電子郵件。這使模型能夠?qū)W習(xí)和識(shí)別由LLM生成的內(nèi)容中的模式。
當(dāng)新的電子郵件進(jìn)入我們的高級(jí)威脅防護(hù)平臺(tái)時(shí),模型會(huì)掃描其內(nèi)容,以確定它是否是由LLM生成以及它被惡意使用的可能性。如果發(fā)現(xiàn)生成的文本是惡意文件,模型將提供潛在攻擊的詳細(xì)信息。
說到檢測(cè)人工智能生成的惡意電子郵件,還存在另外一個(gè)與誤報(bào)判定有關(guān)的障礙。如今,許多合法的電子郵件都是借助ChatGPT等生成式人工智能工具構(gòu)建的,其他電子郵件常常是由含有重復(fù)短語的標(biāo)準(zhǔn)模板構(gòu)建的(新聞通訊、營(yíng)銷電子郵件和垃圾郵件等),這些模板與LLM模型的結(jié)果非常相似。
我們新模型的顯著特點(diǎn)之一是它的三階段架構(gòu),專門設(shè)計(jì)用于最大限度地檢測(cè)由LLM生成的任何有害內(nèi)容,同時(shí)保持極低的誤報(bào)率。
在第一階段,模型賦予0到1之間的分?jǐn)?shù),以評(píng)估內(nèi)容由人工智能生成的概率,然后模型切換到分類模式。借助先進(jìn)的transformer和完善后的聚類算法,內(nèi)容被分為多個(gè)類別,包括BEC、垃圾郵件和網(wǎng)絡(luò)釣魚。再提供0到1之間的分?jǐn)?shù),標(biāo)記內(nèi)容屬于這些類別的概率。
第三個(gè)也是最后一個(gè)階段融合了前兩個(gè)階段的評(píng)估結(jié)果,并補(bǔ)充了數(shù)字特征,比如發(fā)送方信譽(yù)評(píng)分、身份驗(yàn)證協(xié)議(DKIM、SPF、DMARC)以及我們收集的其他證據(jù)。基于這些輸入信息,模型對(duì)內(nèi)容由人工智能生成的可能性以及它是惡意內(nèi)容、垃圾郵件還是干凈內(nèi)容做出最終預(yù)測(cè)。
為了查看實(shí)際運(yùn)行的模型,我們讓ChatGPT編寫一封示例電子郵件:
如你所見,輸出含有用于個(gè)性化的括號(hào)。接下來,我們將生成的文本發(fā)送給模型,沒有括號(hào)。值得一提的是,對(duì)于下面的所有示例,階段3中提到的幾十個(gè)數(shù)值都被視為郵件是從新的發(fā)件人發(fā)送的。
模型返回的置信度分?jǐn)?shù)為0.96,將該內(nèi)容描述為潛在的BEC攻擊,具體是使用禮品卡請(qǐng)求從受害者那里竊取資金的郵件。
然后,我們測(cè)試了模型在面對(duì)生成較長(zhǎng)的文本時(shí)的表現(xiàn):
就像針對(duì)較短文本的初始判定一樣,模型還將生成的較長(zhǎng)文本分類為潛在的BEC禮品卡攻擊,得分為0.92。
為了進(jìn)一步測(cè)試模型,我們隨后讓ChatGPT撰寫一封電子郵件,要求收件人提供W-2表格。這是一種廣泛使用的社會(huì)工程攻擊,因?yàn)閃-2表格用于報(bào)告員工的年薪以滿足稅收要求。對(duì)于網(wǎng)絡(luò)犯罪分子來說,這無異于一座金礦,擁有豐富的個(gè)人和財(cái)務(wù)信息,可用來進(jìn)行身份盜竊、稅務(wù)欺詐,甚至用于更復(fù)雜的社會(huì)工程攻擊。
以下是ChatGPT給出的答案:
即使我們給了ChatGPT更詳細(xì)的說明,模型仍然可以正確地對(duì)內(nèi)容進(jìn)行分類——在這種情況下,將其分類成潛在的W2社會(huì)工程攻擊,得分為0.87。
結(jié)語
我們?cè)诒疚闹刑接懥司W(wǎng)絡(luò)防御者如何利用LLM生成的攻擊存在的漏洞和局限性。通過了解這些弱點(diǎn),防御者就可以制定有針對(duì)性的緩解策略,并利用LLM作為消除威脅的寶貴工具,積極采用主動(dòng)性、適應(yīng)性的方法,防御者可以加強(qiáng)防御,比攻擊者領(lǐng)先一步。