主流大語(yǔ)言模型集體曝出訓(xùn)練數(shù)據(jù)泄露漏洞
論文指出,當(dāng)前絕大多數(shù)大語(yǔ)言模型的記憶(訓(xùn)練數(shù)據(jù))可被恢復(fù),無(wú)論該模型是否進(jìn)行了所謂的“對(duì)齊”。黑客可以通過(guò)查詢(xún)模型來(lái)有效提取訓(xùn)練數(shù)據(jù),甚至無(wú)需事先了解訓(xùn)練數(shù)據(jù)集。
研究者展示了如何從Pythia或GPT-Neo等開(kāi)源語(yǔ)言模型、LLaMA或Falcon等主流半開(kāi)放模型以及ChatGPT等封閉模型中提取數(shù)以GB計(jì)的訓(xùn)練數(shù)據(jù)。
研究者指出,已有技術(shù)足以攻擊未對(duì)齊的模型,對(duì)于已經(jīng)對(duì)齊的ChatGPT,研究者開(kāi)發(fā)了一種新的發(fā)散數(shù)據(jù)提取攻擊,該攻擊會(huì)導(dǎo)致大語(yǔ)言模型改變聊天機(jī)器人的內(nèi)容生成方式,以比正常行為高150倍的速率瘋狂輸出訓(xùn)練數(shù)據(jù)(下圖):
圖1:發(fā)散攻擊導(dǎo)致對(duì)齊后的chatGPT以150倍的速度輸出訓(xùn)練數(shù)據(jù)
研究者表示:發(fā)散數(shù)據(jù)提取攻擊方法在實(shí)際攻擊中可恢復(fù)的訓(xùn)練數(shù)據(jù)大大超出了事前的預(yù)期,同時(shí)也證明當(dāng)前的大語(yǔ)言模型對(duì)齊技術(shù)并不能真正消除記憶。
研究者利用偏差攻擊提取訓(xùn)練數(shù)據(jù)中的隱私信息
據(jù)研究者介紹,大型語(yǔ)言模型(LLMs)會(huì)從其訓(xùn)練數(shù)據(jù)集中記憶樣本,可被攻擊者利用提取隱私信息(上圖)。先前的安全研究工作已經(jīng)對(duì)開(kāi)源模型記憶的訓(xùn)練數(shù)據(jù)總量進(jìn)行了大規(guī)模研究,并且通過(guò)手動(dòng)標(biāo)注示記憶和非記憶樣本,開(kāi)發(fā)并驗(yàn)證了針對(duì)(相對(duì))小型模型如GPT-2的訓(xùn)練數(shù)據(jù)提取攻擊。
在最新發(fā)布的論文中,研究者將“成員推斷攻擊”(用于確定數(shù)據(jù)樣本是否訓(xùn)練數(shù)據(jù))和數(shù)據(jù)提取攻擊兩種方法統(tǒng)一起來(lái),對(duì)語(yǔ)言模型中的“可提取記憶”進(jìn)行了大規(guī)模研究。
研究者開(kāi)發(fā)了一種可擴(kuò)展方法,通過(guò)與TB級(jí)數(shù)據(jù)集比對(duì),檢測(cè)模型輸出的數(shù)萬(wàn)億個(gè)token的記憶內(nèi)容,并對(duì)流行的開(kāi)源模型(例如Pythia,GPT-Neo)和半開(kāi)源模型(例如LLaMA,F(xiàn)alcon)進(jìn)行了分析。研究者發(fā)現(xiàn),無(wú)論開(kāi)源還是閉源的大語(yǔ)言模型都無(wú)法避免新的數(shù)據(jù)提取攻擊,而且參數(shù)和Tokens規(guī)模更大、性能更強(qiáng)勁的模型更容易受到數(shù)據(jù)提取攻擊:
九個(gè)開(kāi)源大語(yǔ)言模型測(cè)試結(jié)果
九個(gè)半開(kāi)源(訓(xùn)練算法和訓(xùn)練數(shù)據(jù)不公開(kāi))大語(yǔ)言模型的測(cè)試結(jié)果
研究者發(fā)現(xiàn),“對(duì)齊模型”也不能避免新的數(shù)據(jù)提取攻擊。例如,gpt-3.5-turbo對(duì)常規(guī)數(shù)據(jù)提取攻擊免疫,看上去似乎成功“忘記了”訓(xùn)練數(shù)據(jù)。研究者推測(cè)是因?yàn)镃hatGPT已經(jīng)通過(guò)RLHF進(jìn)行了對(duì)齊,目的是使其成為“安全高效”的,可推向市場(chǎng)(生產(chǎn)環(huán)境)的個(gè)人聊天助手。
但研究者開(kāi)發(fā)了新的提示策略(僅適用于GPT3.5turbo),成功繞過(guò)了gpt-3.5-turbo的對(duì)齊技術(shù),使其“偏離”預(yù)設(shè)的聊天機(jī)器人風(fēng)格,表現(xiàn)得像一個(gè)基礎(chǔ)語(yǔ)言模型,以典型的web文本格式大量輸出文本。
為了檢查這些輸出的文本是否是此前從互聯(lián)網(wǎng)上采集的訓(xùn)練數(shù)據(jù),研究者將幾個(gè)公開(kāi)可用的大型網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集合并成一個(gè)9TB大小的數(shù)據(jù)集。通過(guò)與這個(gè)數(shù)據(jù)集匹配,研究者以200美元的查詢(xún)成本從ChatGPT對(duì)話(huà)中恢復(fù)了一萬(wàn)多個(gè)訓(xùn)練數(shù)據(jù)集樣本。研究者粗略估計(jì),通過(guò)更多的查詢(xún)可以提取超過(guò)10倍的(訓(xùn)練)數(shù)據(jù)。
研究者在論文中透露,在7月11日發(fā)現(xiàn)該漏洞后,通知了包括OPT、Falcon、Mistral和LLaMA等模型開(kāi)發(fā)者,并在8月30日向OpenAI披露了其漏洞,并根據(jù)90天漏洞披露規(guī)則,于11月30日發(fā)布論文,希望能喚起業(yè)界對(duì)大語(yǔ)言模型數(shù)據(jù)安全和對(duì)齊挑戰(zhàn)的關(guān)注。
最后,研究者警告大語(yǔ)言模型應(yīng)用開(kāi)發(fā)者,滲透測(cè)試結(jié)果表明現(xiàn)有的大語(yǔ)言模型安全措施(模型對(duì)齊和內(nèi)容記憶測(cè)試)難以發(fā)現(xiàn)大語(yǔ)言模型的隱私漏洞,更不用說(shuō)那些隱藏在模型算法代碼中的“休眠漏洞”。如果沒(méi)有極端的安全措施,現(xiàn)階段不應(yīng)訓(xùn)練和部署涉及隱私和敏感信息的大模型應(yīng)用(編者:例如醫(yī)療、法律、工程)。