ChatGPT泄露陌生男子自拍照!隱私數(shù)據(jù)被模型偷了?網(wǎng)友大恐慌
最近,ChatGPT響應中蹦出陌生男子照片事件,讓許多網(wǎng)友們震驚了!
事情是這樣的,一名用戶向ChatGPT求助——Python中的代碼格式化包back該怎樣使用。
開始,ChatGPT的回答還很正常。
誰料想,ChatGPT忽然就在響應中,發(fā)出了一張陌生男子的自拍照!
而且還出現(xiàn)了第二次!
網(wǎng)友們立刻陷入恐慌。
莫非ChatGPT現(xiàn)真身了?
有人猜,這不會又是一個AI中的幽靈吧?
或許是ChatGPT的恐怖女士男人版?
有人想起了這樣一個傳說:在互聯(lián)網(wǎng)上有大量隱藏在潛伏空間中的東西,這涉及到很多理論。
還有人猜,沒準是ChatGPT被下毒了!
或者有人黑進了OpenAI,讓ChatGPT隨機發(fā)布自己的照片,作為戰(zhàn)果來炫耀。
答案出乎意料
網(wǎng)友們集思廣益,到處搜集線索,終于破案了!
這不是ChatGPT生成的照片,而是一個用戶的真實自拍照。
原來,這種照片在2016年12月7日被傳到Imgur上。(這張圖片本來的瀏覽量在幾百,但是隨著越來越多群眾圍觀此次事件,目前的瀏覽量已經(jīng)變成17000多次了。)
有人猜測,事情應該是這樣的:ChatGPT在生成響應的時候,隨機生成了一個Imgur URL,碰巧就鏈到了這個自拍小伙。
ChatGPT的目標就是生成一張說明的圖片,它以為自己在分享Visual Studio Code設置的截圖,沒想到通過Imgur鏈接生成的是圖片。
也就是說,在ChatGPT的訓練數(shù)據(jù)集之中,有許多答案包含了指向部分答案的Imgur鏈接,所以Imgur鏈接和正確答案高度相關。
但是,ChatGPT無法以統(tǒng)計方式自動完成隨機圖像鏈接,所以結果是不可預測的。這個小伙的照片,類似于GPT的幻覺頁碼。
另外一個網(wǎng)友也給出了類似解釋:ChatGPT生了一個答案,是一個Imgur鏈接。
它想到了自己應該提供帶答案的Imgur鏈接,但沒有意識到自己需要的是相同的Imgur URL,相反,它竟然生成了一組隨機URL。
而巧的不能再巧的是,這居然是一個有效的鏈接,正好鏈到了外國小伙的照片上。
也有人說,并不是Imgur被用于訓練,而是ChatGPT能夠生成Imgur鏈接(實際上可以說的任何鏈接)。
所以說,這個鏈接是ChatGPT隨機生成的,這件事可能性有多大?
有人算出來,Imgur圖像ID是由集合 [A-Za-z0-9] 中的7個字符組成,所以有 62^7=3,521,614,606,208,也就是3.5萬億種可能的組合。
Igmur在2014年第一輪融資期間,托管了大概6.5萬億張圖像。推算一下,自2014年以來,互聯(lián)網(wǎng)上創(chuàng)建的數(shù)據(jù)量激增了860%。按照這個邏輯,Imgur現(xiàn)在可以托管大約62.4億張圖像。
因此,ChatGPT猜到有效圖像ID的幾率是——
6.24B / 62^7 x 100 = 0.177%
大概在每565次聊天中,這種事就會發(fā)生一次,所以要是說ChatGPT生成這個Imgur鏈接,倒也是不無可能。
層主特意寫了一個簡單的腳本來測試這些數(shù)字,在發(fā)出的10000個請求中,它找到了19個有效圖像,所以概率是0.19%。順便還秀了一把恩愛?
到這里,事情似乎水落石出了。
所以,要謹記自己上傳或者輸入的內容都會被用于訓練ChatGPT,如果不想泄露隱私,切記要把上傳聊天紀錄的按鈕關閉。
并且,任何你在互聯(lián)網(wǎng)上留下的數(shù)字足跡,都有可能在某一天變成AI的訓練數(shù)據(jù)。
總之,千萬不要什么照片都發(fā)給AI,你根本搞不清它會拿你的照片去做什么。