偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

ChatGPT新漏洞:失控背出個(gè)人隱私泄露訓(xùn)練數(shù)據(jù),OpenAI修復(fù)后依然有效

人工智能 新聞
DeepMind的研究人員聯(lián)合華盛頓大學(xué)、康奈爾大學(xué)等高校,發(fā)現(xiàn)了ChatGPT的數(shù)據(jù)泄露漏洞。

ChatGPT最新漏洞曝光,一句話就能讓訓(xùn)練數(shù)據(jù)原封不動(dòng)地泄露。

只需要讓它重復(fù)一個(gè)詞,它就會(huì)在一定次數(shù)后“發(fā)瘋”,甚至毫無防備說出某人的個(gè)人隱私信息。

圖片

DeepMind的研究人員聯(lián)合華盛頓大學(xué)、康奈爾大學(xué)等高校,發(fā)現(xiàn)了ChatGPT的數(shù)據(jù)泄露漏洞。

利用他們的方法,只要預(yù)算充足,可以提取出大約1GB的訓(xùn)練數(shù)據(jù)。

圖片

更可怕的是,訓(xùn)練時(shí)間越長——也就是越強(qiáng)大的模型,泄露出來的數(shù)據(jù)反而越多。

研究團(tuán)隊(duì)已在論文發(fā)表之前90天把這一情況報(bào)告給了OpenAI,后者也做出了一定修復(fù)。

但到現(xiàn)在還是有網(wǎng)友發(fā)現(xiàn),把論文里的詞改一改,bug就會(huì)卷土重來。

圖片

那么,這個(gè)漏洞究竟是怎么一回事呢?

數(shù)據(jù)泄露防不勝防

作者攻擊ChatGPT(API訪問,3.5-turbo版本)的方式,叫做分歧攻擊

他們發(fā)現(xiàn),當(dāng)ChatGPT被要求重復(fù)一個(gè)單詞多次時(shí),模型會(huì)在某些情況下偏離正常的聊天式生成,開始輸出與訓(xùn)練數(shù)據(jù)更接近的文本。

圖片

這些內(nèi)容五花八門,除了個(gè)人信息,還包括文學(xué)作品、學(xué)術(shù)論文、鏈接、代碼……甚至是工作場所不宜內(nèi)容。

為了驗(yàn)證這些內(nèi)容是否來自于訓(xùn)練數(shù)據(jù),作者用了多個(gè)公開模型的訓(xùn)練數(shù)據(jù)組成了AuxDataset數(shù)據(jù)集(由于ChatGPT數(shù)據(jù)集未公開,只能通過其他模型的數(shù)據(jù)來估計(jì))。

結(jié)果發(fā)現(xiàn)有上萬條內(nèi)容命中了AuxDataset,這些內(nèi)容長度不等,最長的有4000多token。

圖片

作者還發(fā)現(xiàn),這種攻擊方法對單詞提示更有效,而對多詞提示則效果較差,特別是當(dāng)被要求重復(fù)的詞是company時(shí),能獲得到的信息是最多的。

圖片

作者使用Good-Turing估計(jì)器估計(jì)了ChatGPT中可提取記憶的總量,結(jié)論是至少有150萬個(gè)獨(dú)特的50-gram序列(相鄰的50個(gè)token)是可提取的。

不過由于預(yù)算有限,作者表示這個(gè)估計(jì)可能低估了可提取數(shù)據(jù)的規(guī)模。

不僅是API,在正式的網(wǎng)頁版ChatGPT中測試,也有概率得到同樣的結(jié)果,說明模型之外的“系統(tǒng)護(hù)欄”也沒能防住這波攻擊。

圖片

我們簡單實(shí)測了一下,發(fā)現(xiàn)這個(gè)漏洞到目前仍然沒有被完全修復(fù)。

當(dāng)重復(fù)詞為“text”時(shí),ChatGPT沒有輸出其他內(nèi)容,但給對話起了一個(gè)奇怪的標(biāo)題。

圖片

而當(dāng)重復(fù)詞為“company”時(shí),ChatGPT經(jīng)過三次regenerate后輸出了一段疑似是ins文案的內(nèi)容。

圖片

不過作者表示,這種攻擊方法目前只對3.5版本奏效,GPT-4由于專門做過防泄露方面的對齊,逃過了一劫。

這種對齊在3.5版本中也有設(shè)置,但3.5的防御措施可以通過論文中展示的提示詞攻擊方法來繞過。

圖片

除了ChatGPT,作者也對Llama、Falcon、Mistral等開源或半開源模型進(jìn)行了測試,結(jié)果發(fā)現(xiàn)同樣存在數(shù)據(jù)泄露現(xiàn)象。

圖片

而越強(qiáng)大的模型,泄露出的數(shù)據(jù)也越多,ChatGPT泄露的數(shù)據(jù)量明顯超過了其他模型。

圖片

泄露現(xiàn)象出現(xiàn)的范圍也不局限在語言模型,該團(tuán)隊(duì)之前還從Stable Diffusion中提取了訓(xùn)練數(shù)據(jù)集中的約100張人物照片和其他類型的圖像。

他們發(fā)現(xiàn),當(dāng)用訓(xùn)練數(shù)據(jù)集中人物的姓名做Prompt時(shí),Stable Diffusion就會(huì)“偷懶”,直接把照片當(dāng)做輸出結(jié)果。

圖片

網(wǎng)友:還有其他攻擊方法

這篇論文中提到的方式并不是孤例,還有其他攻擊方法也能達(dá)到類似的結(jié)果,比如用沒什么實(shí)際意義的123ABC加上簡單的代碼就讓ChatGPT生成了一段關(guān)于臭氧層的文本。

圖片

發(fā)現(xiàn)者解釋到,這是ChatGPT的輸入清理機(jī)制的漏洞導(dǎo)致的,它清除了套娃式的兩個(gè)<|endoftext>標(biāo)簽中處于內(nèi)部的一個(gè),但外部的“殼”則由于初始形態(tài)被拆開而被忽略。

圖片

作者和網(wǎng)友們的這些新發(fā)現(xiàn),意味著ChatGPT違反了歐盟通用數(shù)據(jù)保護(hù)條例(GDPR)的規(guī)定,OpenAI可能會(huì)因此遇到麻煩。

GDPR第17條規(guī)定,數(shù)據(jù)主體(用戶)有權(quán)要求控制者(模型開發(fā)者)立即刪除與其有關(guān)的個(gè)人數(shù)據(jù),也就是擁有“遺忘權(quán)”。

圖片

不過,一般個(gè)人對此也不必那么擔(dān)心,因?yàn)檫@種攻擊方式成本不低。

在這個(gè)實(shí)驗(yàn)中,研究者提取幾MB數(shù)據(jù),就已經(jīng)花費(fèi)了200美元。

圖片

那么,對于ChatGPT泄露數(shù)據(jù)這件事,你有什么看法?

論文地址:https://arxiv.org/abs/2311.17035

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2020-09-17 17:56:24

數(shù)據(jù)泄露隱私信息安全

2023-03-28 10:09:56

ChatGPT開源庫漏洞

2021-05-06 09:18:56

漏洞網(wǎng)絡(luò)安全iPhone

2017-03-02 15:45:07

2009-04-08 08:35:31

2013-04-01 09:33:03

個(gè)人隱私數(shù)字文件Facebook

2023-08-21 15:16:03

數(shù)據(jù)隱私安全

2021-04-06 09:34:31

Facebook隱私黑客

2021-01-28 11:16:28

TikTok漏洞數(shù)據(jù)泄露

2011-04-15 09:39:10

2020-02-13 09:35:42

信息安全大數(shù)據(jù)技術(shù)

2020-12-11 14:30:33

安全隱私數(shù)據(jù)

2022-03-21 15:29:53

大數(shù)據(jù)隱私數(shù)據(jù)分析

2016-09-28 14:52:03

2017-06-19 14:36:37

2017-10-19 18:53:10

2022-03-17 16:40:33

3.15晚會(huì)安全隱私

2023-03-27 13:17:42

2023-05-05 00:10:21

2020-06-08 10:36:14

個(gè)人隱私疫情技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號