大型語言模型中的隱私注意事項
經(jīng)過訓(xùn)練以預(yù)測句子中下一個單詞的基于機(jī)器學(xué)習(xí)的語言模型變得越來越強(qiáng)大、普遍和有用,從而導(dǎo)致問答、翻譯等應(yīng)用程序的突破性改進(jìn)。但隨著語言模型的不斷發(fā)展,新的和意想不到的風(fēng)險可能會暴露出來,這就要求研究界積極努力開發(fā)新的方法來緩解潛在的問題。
其中一種風(fēng)險是模型可能會從訓(xùn)練數(shù)據(jù)中泄露細(xì)節(jié)。雖然這可能是所有大型語言模型都關(guān)心的問題,但如果要公開使用基于私有數(shù)據(jù)訓(xùn)練的模型,則可能會出現(xiàn)其他問題。由于這些數(shù)據(jù)集可能很大(數(shù)百 GB)并且來自各種來源,因此它們有時可能包含敏感數(shù)據(jù),包括個人身份信息 (PII)——姓名、電話號碼、地址等,即使是根據(jù)公共數(shù)據(jù)進(jìn)行訓(xùn)練的. 這增加了使用此類數(shù)據(jù)訓(xùn)練的模型可以在其輸出中反映其中一些私人細(xì)節(jié)的可能性。因此,重要的是要識別并最大限度地降低此類泄漏的風(fēng)險,并制定策略以解決未來模型的問題。
在與OpenAI、Apple、斯坦福大學(xué)、伯克利分校和東北大學(xué)合作的“從大型語言模型中提取訓(xùn)練數(shù)據(jù)”中,我們證明,只要能夠查詢預(yù)訓(xùn)練的語言模型,就可以提取特定的片段模型記憶的訓(xùn)練數(shù)據(jù)。因此,訓(xùn)練數(shù)據(jù)提取攻擊是對最先進(jìn)的大型語言模型的現(xiàn)實威脅。這項研究代表了早期的關(guān)鍵步驟,旨在讓研究人員了解此類漏洞,以便他們可以采取措施減輕這些弱點。
語言模型攻擊的倫理
訓(xùn)練數(shù)據(jù)提取攻擊在應(yīng)用于公眾可用但訓(xùn)練中使用的數(shù)據(jù)集不可用的模型時最有可能造成傷害。然而,由于在這樣的數(shù)據(jù)集上進(jìn)行這項研究可能會產(chǎn)生有害的后果,我們改為對GPT-2進(jìn)行概念驗證訓(xùn)練數(shù)據(jù)提取攻擊,GPT-2是一種由 OpenAI 開發(fā)的大型公開可用語言模型,僅使用公共數(shù)據(jù)進(jìn)行訓(xùn)練。雖然這項工作特別關(guān)注 GPT-2,但結(jié)果適用于理解大型語言模型上可能存在的隱私威脅。
與其他與隱私和安全相關(guān)的研究一樣,在實際執(zhí)行此類攻擊之前考慮此類攻擊的道德規(guī)范很重要。為了最大限度地降低這項工作的潛在風(fēng)險,這項工作中的訓(xùn)練數(shù)據(jù)提取攻擊是使用公開可用的數(shù)據(jù)開發(fā)的。此外,GPT-2 模型本身在 2019 年由 OpenAI 公開,用于訓(xùn)練 GPT-2 的訓(xùn)練數(shù)據(jù)是從公共互聯(lián)網(wǎng)收集的,任何遵循GPT中記錄的數(shù)據(jù)收集過程的人都可以下載-2 紙。
此外,根據(jù)負(fù)責(zé)任的計算機(jī)安全披露規(guī)范,我們會跟蹤提取了 PII 的個人,并在發(fā)布對這些數(shù)據(jù)的引用之前獲得了他們的許可。此外,在這項工作的所有出版物中,我們已經(jīng)編輯了任何可能識別個人身份的個人識別信息。我們還在 GPT-2 的分析中與 OpenAI 密切合作。
訓(xùn)練數(shù)據(jù)提取攻擊
根據(jù)設(shè)計,語言模型使得生成大量輸出數(shù)據(jù)變得非常容易。通過用隨機(jī)短語為模型播種,該模型可以生成數(shù)百萬個延續(xù),即完成句子的可能短語。大多數(shù)情況下,這些延續(xù)將是合理文本的良性字符串。例如,當(dāng)被要求預(yù)測字符串“ Mary had a little… ”的連續(xù)性時,語言模型將有很高的置信度認(rèn)為下一個標(biāo)記是“ lamb ”這個詞。但是,如果某個特定的訓(xùn)練文檔碰巧多次重復(fù)字符串“ Mary had a little wombat ”,模型可能會改為預(yù)測該短語。
訓(xùn)練數(shù)據(jù)提取攻擊的目標(biāo)是篩選來自語言模型的數(shù)百萬個輸出序列,并預(yù)測記住哪些文本。為了實現(xiàn)這一點,我們的方法利用了這樣一個事實,即模型往往對直接從訓(xùn)練數(shù)據(jù)中捕獲的結(jié)果更有信心。這些成員推理攻擊使我們能夠通過檢查模型對特定序列的置信度來預(yù)測結(jié)果是否用于訓(xùn)練數(shù)據(jù)。
這項工作的主要技術(shù)貢獻(xiàn)是開發(fā)了一種高精度推斷成員資格的方法,以及以鼓勵輸出記憶內(nèi)容的方式從模型中采樣的技術(shù)。我們測試了許多不同的采樣策略,其中最成功的一種生成以各種輸入短語為條件的文本。然后我們比較兩種不同語言模型的輸出。當(dāng)一個模型對序列有很高的置信度,而另一個(同樣準(zhǔn)確的)模型對序列的置信度較低時,很可能第一個模型已經(jīng)記住了數(shù)據(jù)。
結(jié)果
在 GPT-2 語言模型的 1800 個候選序列中,我們從公共訓(xùn)練數(shù)據(jù)中提取了 600 多個記憶,總數(shù)受限于需要手動驗證。記住的示例涵蓋了廣泛的內(nèi)容,包括新聞標(biāo)題、日志消息、JavaScript 代碼、PII 等。盡管這些示例在訓(xùn)練數(shù)據(jù)集中很少出現(xiàn),但它們中的許多示例都被記住了。例如,對于我們提取的許多 PII 樣本,僅在數(shù)據(jù)集中的單個文檔中找到。但是,在大多數(shù)情況下,原始文檔包含 PII 的多個實例,因此模型仍將其作為高似然文本進(jìn)行學(xué)習(xí)。
最后,我們還發(fā)現(xiàn)語言模型越大,它就越容易記住訓(xùn)練數(shù)據(jù)。例如,在一項實驗中,我們發(fā)現(xiàn) 15 億個參數(shù)的 GPT-2 XL 模型比 1.24 億個參數(shù)的 GPT-2 Small 模型記憶的信息多 10 倍。鑒于研究界已經(jīng)訓(xùn)練了 10 到 100 倍大的模型,這意味著隨著時間的推移,需要做更多的工作來監(jiān)控和緩解越來越大的語言模型中的這個問題。
經(jīng)驗教訓(xùn)
雖然我們專門演示了對 GPT-2 的這些攻擊,但它們顯示了所有大型生成語言模型中的潛在缺陷。這些攻擊是可能的,這一事實對使用這些類型模型的機(jī)器學(xué)習(xí)研究的未來產(chǎn)生了重要影響。
幸運的是,有幾種方法可以緩解這個問題。最直接的解決方案是確保模型不會在任何可能有問題的數(shù)據(jù)上進(jìn)行訓(xùn)練。但這在實踐中很難做到。
差分隱私 的使用允許對數(shù)據(jù)集進(jìn)行訓(xùn)練,而無需透露單個訓(xùn)練示例的任何細(xì)節(jié),是訓(xùn)練具有隱私的機(jī)器學(xué)習(xí)模型的最有原則的技術(shù)之一。在 TensorFlow 中,這可以通過使用tensorflow/privacy 模塊(或類似的 PyTorch 或 JAX)來實現(xiàn),該模塊是現(xiàn)有優(yōu)化器的直接替代品。即使這樣也會有限制,并且不會阻止對重復(fù)次數(shù)足夠多的內(nèi)容的記憶。如果這是不可能的,我們建議至少測量發(fā)生了多少記憶,以便采取適當(dāng)?shù)男袆印?/p>
語言模型繼續(xù)展示出巨大的實用性和靈活性——然而,與所有創(chuàng)新一樣,它們也可能帶來風(fēng)險。負(fù)責(zé)任地發(fā)展它們意味著主動識別這些風(fēng)險并開發(fā)減輕它們的方法。我們希望這項突出大語言建模當(dāng)前弱點的努力將提高更廣泛的機(jī)器學(xué)習(xí)社區(qū)對這一挑戰(zhàn)的認(rèn)識,并激勵研究人員繼續(xù)開發(fā)有效的技術(shù)來訓(xùn)練模型,減少記憶。