大數(shù)據(jù)時代不可能匿名
大數(shù)據(jù)時代的匿名化并非100%
普林斯頓的計算機科學家艾文德奈瑞 · 亞南,曾在2006年發(fā)表的一篇文章中稱,在本該匿名的互聯(lián)網(wǎng)電影數(shù)據(jù)中,Netflix用戶的各種租借歷史數(shù)據(jù)卻能在交叉引用過程中被泄露。亞南登在7月9日的一份報告中稱,匿名化支持者們(認為匿名化可行的人)也許還沒預感到當下大數(shù)據(jù)中的危險漏洞。
不管是理論上還是實踐中,匿名化的作用并不大。那些認為匿名化很安全的人,其實是在營造一種“偽安全感”,嚴重低估了那些數(shù)據(jù)駭客的威脅力,他們很有可能從大數(shù)據(jù)中竊取到個人信息。
個人地理位置數(shù)據(jù)并未被隱藏
一份2013年的報告稱,從人們的手機中收集到的龐大數(shù)據(jù)組中看來,95%的手機用戶能被監(jiān)測到,因為他們在網(wǎng)上總會留下登錄痕跡,實時照片分享信息。匿名化專家們會坦白地告訴你,根本沒辦法隱藏用戶的地理位置信息。
數(shù)據(jù)庫防線多么脆弱,專家也無法預知
在一份11萬3千名病人的醫(yī)療記錄案例研究中,匿名處理專家埃阿曼估計,不到1%的病人數(shù)據(jù)能做到再識別。但,亞南估計超過12%的病人數(shù)據(jù)能被鎖定。襲擊者要在數(shù)據(jù)庫中鎖定目標數(shù)據(jù),簡直是輕而易舉。
匿名化很難,而數(shù)據(jù)再識別可永久
數(shù)據(jù)匿名化過程充滿挑戰(zhàn),也容易發(fā)生錯誤。在近期發(fā)表紐約市一億七千三百萬組有關的士的數(shù)據(jù)中,包括司機都可能被重新識別出來,因為在駕照上使用的數(shù)據(jù)散列法(一種將字符組成的字符串轉換為固定長度的數(shù)值或索引值的方法)也是粗制濫造的。
如果某人的匿名數(shù)據(jù)被公開,那么會一直存在于網(wǎng)上,不會消除。這比起某公司或某應用軟件數(shù)據(jù)被入侵要嚴重的多了 。當一家公司的數(shù)據(jù)庫被入侵了,只需要做好安全工作:修復數(shù)據(jù)漏洞,警報通知各用戶,一切照常進行。 但是,這不代表我們要放棄使用數(shù)據(jù),只需放棄被泄露的數(shù)據(jù)賬號即可。
那么,我們要不要砸碎手機,放棄醫(yī)療(醫(yī)療數(shù)據(jù)泄露),直接隱居山林呢?但埃阿曼教授卻不太認同,他極力支持匿名化技術,并表示:“亞南稱超過12%的病人數(shù)據(jù)能被鎖定,但他并沒有對單個病人的數(shù)據(jù)進行再識別。如果亞南是再識別技術領域的引領者,那么匿名化是非??尚械?。”
這對我們這些處在大數(shù)據(jù)時代中的人來說,是一個大好消息。但是,大數(shù)據(jù)匿名化沒有崩盤,不代表匿名化技術堅不可摧。
























