OpenAI o1強(qiáng)推理能提升安全性?長(zhǎng)對(duì)話誘導(dǎo)干翻o1
本文作者來自于上海交大,上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰,導(dǎo)師為馬利莊教授,其他作者包括北航研究生李昊,上海 AI Lab 研究員劉東瑞,上海 AI Lab 青年科學(xué)家邵婧等。
最近,以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升,在代碼、數(shù)學(xué)的評(píng)估上取得了令人驚訝的效果。OpenAI 聲稱,推理可以讓模型更好的遵守安全政策,是提升模型安全的新路徑。
然而,推理能力的提升真的能解決安全問題嗎?推理能力越強(qiáng),模型的安全性會(huì)越好嗎?近日,上海交大和上海人工智能實(shí)驗(yàn)室的一篇論文提出了質(zhì)疑。
這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn),并開源了第一個(gè)多輪安全對(duì)齊數(shù)據(jù)集。
- 論文地址:https://arxiv.org/abs/2410.10700
- 多輪安全對(duì)齊數(shù)據(jù):https://huggingface.co/datasets/SafeMTData/SafeMTData
- 代碼開源:https://github.com/renqibing/ActorAttack
這項(xiàng)研究是怎么得到上述結(jié)論的呢?我們先來看一個(gè)例子。
假設(shè)一個(gè)壞人想要詢問「如何制作炸彈」,直接詢問會(huì)得到 AI 的拒絕回答。然而,如果選擇從一個(gè)人物的生平問起(比如 Ted Kaczynski,他是一個(gè)制作炸彈的恐怖分子),AI 會(huì)主動(dòng)提及他制作炸彈的經(jīng)歷。在接下來的問題里,用戶誘導(dǎo) AI 根據(jù)其之前的回答提供更多制作炸彈的細(xì)節(jié)。盡管所有的問題都沒有暴露用戶的有害意圖,用戶最終還是獲得了制作炸彈的知識(shí)。
當(dāng)詳細(xì)查看 OpenAI o1 的「想法」時(shí),研究人員驚奇地發(fā)現(xiàn),o1 在開始的推理中確實(shí)識(shí)別到了用戶的有害意圖,并且聲稱要遵守安全政策。但是在隨后的推理中,o1 開始暴露了它的「危險(xiǎn)想法」!它在想法中列舉了 Kaczynski 使用的策略和方法。最后 o1 在回答中詳細(xì)給出了制作炸彈的步驟,甚至教你如何增加爆炸物的威力!研究人員的方法在 Harmbench 上對(duì) o1 的攻擊成功率達(dá)到了 60%,推理能力帶來的安全提升在多輪攻擊面前「失效」了。
除了「Ted Kaczynski」,和炸彈相關(guān)的人和物還有很多,這些都可以被用作攻擊線索,壞人可以把有害意圖隱藏在對(duì)相關(guān)的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索,研究人員設(shè)計(jì)了多輪攻擊算法 ActorAttack。受拉圖爾的行動(dòng)者網(wǎng)絡(luò)理論啟發(fā),研究人員構(gòu)建了一個(gè)概念網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)代表了不同類別的攻擊線索。研究人員進(jìn)一步提出利用大模型的先驗(yàn)知識(shí)來初始化網(wǎng)絡(luò),以自動(dòng)化地發(fā)現(xiàn)攻擊線索。在危險(xiǎn)問題評(píng)測(cè)集 Harmbench 上的實(shí)驗(yàn)結(jié)果表明,ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。
最后,研究人員基于 ActorAttack 開源了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。使用多輪對(duì)話數(shù)據(jù)集微調(diào)的 AI,極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。
社科理論啟發(fā)的安全視角
ActorAttack 的核心思想是受拉圖爾的「行動(dòng)者 - 網(wǎng)絡(luò)理論」啟發(fā)的。研究人員認(rèn)為,有害事物并非孤立存在,它們背后隱藏著一個(gè)巨大的網(wǎng)絡(luò)結(jié)構(gòu),技術(shù)、人、文化等都是這個(gè)復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)(行動(dòng)者),對(duì)有害事物產(chǎn)生影響。這些節(jié)點(diǎn)是潛在的攻擊線索,研究人員通過將有害意圖隱藏在對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的「無害」詢問中,可以逐漸誘導(dǎo)模型越獄。
自動(dòng)大規(guī)模的發(fā)現(xiàn)攻擊線索
具體來說,ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個(gè)階段。在「Pre-attack」階段,研究人員利用大語言模型的知識(shí)構(gòu)建網(wǎng)絡(luò),發(fā)掘潛在的攻擊線索。在「In-attack」階段,研究人員基于已發(fā)現(xiàn)的攻擊線索推測(cè)攻擊鏈,并逐步描繪如何一步步誤導(dǎo)模型。隨后,研究人員按照這一攻擊鏈生成多輪詢問,從而實(shí)施攻擊。
為了系統(tǒng)性地挖掘這些攻擊線索,研究人員根據(jù)節(jié)點(diǎn)對(duì)有害對(duì)象產(chǎn)生影響的方式不同,提出了六類不同的節(jié)點(diǎn)(比如例子中的 Ted Kaczynski 在制造炸彈方面屬于「執(zhí)行(Execution)」節(jié)點(diǎn))。每個(gè)節(jié)點(diǎn)包括人物和非人物(如書籍、媒體新聞、社會(huì)活動(dòng)等)兩種類型。研究人員利用大模型的先驗(yàn)知識(shí),自動(dòng)化地大規(guī)模發(fā)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)。每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)均可作為攻擊線索,從而形成多樣化的攻擊路徑。
ActorAttack 實(shí)現(xiàn)了更高效和多樣的攻擊
首先,研究人員選取了五類代表性的單輪攻擊方法作為比較基準(zhǔn),在 Harmbench 上的實(shí)驗(yàn)結(jié)果表明,ActorAttack 相比于單輪攻擊方法,實(shí)現(xiàn)了最優(yōu)的攻擊成功率。
接著,研究人員選擇了一個(gè)強(qiáng)大的多輪攻擊方法 Crescendo 進(jìn)行比較,為了衡量多樣性,研究人員對(duì)每個(gè)多輪攻擊獨(dú)立運(yùn)行了三次,計(jì)算它們之間的余弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預(yù)算下,每個(gè)方法的攻擊成功率和多樣性。研究人員發(fā)現(xiàn) ActotAttack 在不同攻擊預(yù)算下,其高效性和多樣性兩個(gè)指標(biāo)均優(yōu)于 baseline 方法。
ActorAttack 可以根據(jù)不同的節(jié)點(diǎn)生成多樣的攻擊路徑,其好處之一是相比于單次攻擊,它可以從不同的路徑中找到更優(yōu)路徑,生成更高質(zhì)量的攻擊。為了從經(jīng)驗(yàn)上分析,研究人員采用了不同數(shù)量的節(jié)點(diǎn),并記錄所有的節(jié)點(diǎn)中攻擊效果最好的得分。實(shí)驗(yàn)結(jié)果表明,得分為 5 分(最高分)的攻擊比例隨著節(jié)點(diǎn)數(shù)量的增多逐漸增加,驗(yàn)證了 ActorAttack 的優(yōu)勢(shì)。
ActorAttack 生成的多輪提問可以繞過基于 LLM 的輸入檢測(cè)器。為了驗(yàn)證 ActorAttack 隱藏有害意圖的有效性,研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問,以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會(huì)輸出提問為不安全的概率。實(shí)驗(yàn)結(jié)果顯示,ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低,揭示了其攻擊的隱蔽性。
第一個(gè)多輪對(duì)話場(chǎng)景下的安全對(duì)齊數(shù)據(jù)集
為了緩解 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn),研究人員基于 ActorAttack 構(gòu)造了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。一個(gè)關(guān)鍵問題是決定在多輪對(duì)話中插入拒絕回復(fù)的位置。正如文中開頭展示的例子那樣,ActorAttack 在中間的詢問就可以誘導(dǎo)出模型的有害回復(fù),即使沒有完全滿足用戶意圖,這樣的回復(fù)也可能被濫用,因此研究人員提出使用 Judge 模型定位到第一個(gè)出現(xiàn)有害回復(fù)的提問位置,并插入拒絕回復(fù)。
實(shí)驗(yàn)結(jié)果展示,使用研究人員構(gòu)造的多輪對(duì)話數(shù)據(jù)集微調(diào) Llama-3-8B-instruct 極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。研究人員還發(fā)現(xiàn)安全和有用性的權(quán)衡關(guān)系,并表示將緩解這一權(quán)衡作為未來工作。
展望
本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn),甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長(zhǎng)對(duì)話中也能保持安全意識(shí)成為了一個(gè)重要問題。研究人員基于 ActorAttack,構(gòu)造出了高質(zhì)量的多輪對(duì)話安全對(duì)齊數(shù)據(jù),大幅提升了 AI 模型應(yīng)對(duì)多輪攻擊的魯棒性,為提升人機(jī)交互的安全可信邁出了堅(jiān)實(shí)的一步。