偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

數(shù)據(jù)科學(xué):合成數(shù)據(jù)如何解決匿名化問題?

大數(shù)據(jù)
現(xiàn)在,隨著GDPR的生效,企業(yè)在保護數(shù)據(jù)時必須格外小心。傳統(tǒng)匿名通常不是真正的匿名,最終個人身份是可以識別的。對數(shù)據(jù)添加額外級別匿名化的一種方法是引入合成數(shù)據(jù)。

現(xiàn)在,隨著GDPR的生效,企業(yè)在保護數(shù)據(jù)時必須格外小心。傳統(tǒng)匿名通常不是真正的匿名,最終個人身份是可以識別的。對數(shù)據(jù)添加額外級別匿名化的一種方法是引入合成數(shù)據(jù)。

[[280014]]

自歐盟范圍內(nèi)的數(shù)據(jù)監(jiān)管規(guī)定GDPR于2018年5月生效以來,許多在歐盟有業(yè)務(wù)的企業(yè)可能會對其侵權(quán)處罰感到擔(dān)憂,這可導(dǎo)致高達全球年營業(yè)額4%的罰款。

上個月,英國航空公司(British Airways)和萬豪國際(Marriott International)分別被處以令人咋舌的罰款(分別為1.83億英鎊和1億英鎊),想必各大企業(yè)應(yīng)該都知道數(shù)據(jù)泄露意味著什么。對于銀行和金融機構(gòu)等處理大量個人數(shù)據(jù)的大型企業(yè)來說,這尤其令人生畏。

我們都知道“數(shù)據(jù)是新的石油”這個說法,現(xiàn)代企業(yè)需要利用客戶數(shù)據(jù)來更好地了解客戶,同時訓(xùn)練人工智能和機器學(xué)習(xí)算法。但現(xiàn)在,為了避免數(shù)據(jù)泄露,許多企業(yè)都將自己的數(shù)據(jù)嚴格控制,并對誰能在何時獲取這些數(shù)據(jù)制定了嚴格的程序。盡管這是數(shù)據(jù)隱私的一個積極趨勢,但它仍然限制了組織的數(shù)據(jù)靈活性和創(chuàng)新能力。

傳統(tǒng)匿名化的問題

聰明一點的企業(yè)現(xiàn)在正在尋找新的隱私增強技術(shù),以便在數(shù)據(jù)效用和安全性之間取得平衡,有很多企業(yè)現(xiàn)在在“匿名”數(shù)據(jù)集上運行數(shù)據(jù)密集型流程(例如測試和數(shù)據(jù)分析)。

匿名化技術(shù)多種多樣,但最常用的方法之一是一般化,即將數(shù)據(jù)點的特殊性(如客戶的完整家庭地址)更改為更廣泛的數(shù)據(jù)點(如客戶的地區(qū)或城市)。通過犧牲數(shù)據(jù)集中一定程度的實用功能,確保數(shù)據(jù)集中的個人是匿名的、不可識別的。

匿名化變得如此流行的原因之一是,GDPR并不適用于匿名化的個人數(shù)據(jù)。但更令人擔(dān)憂的是,最近的研究表明,目前使用的大量匿名化在掩蓋一個人的身份方面效果很差。在絕大多數(shù)情況下,機器學(xué)習(xí)模型可以重新識別個人。

所以,實際上你并不需要個人的詳細信息來識別他們。因此,傳統(tǒng)的匿名化技術(shù)根本達不到要求。

復(fù)雜的合成數(shù)據(jù)

在綜合數(shù)據(jù)集中,每個數(shù)據(jù)點都屬于完全理論化的個體,有自己的名字、年齡、地址、銀行賬號、稅務(wù)記錄、醫(yī)療記錄,以及數(shù)據(jù)分析所需的任何其他細節(jié)。從歷史上看,這些數(shù)據(jù)的主要問題是很難生成足夠高質(zhì)量的合成數(shù)據(jù),以滿足高級數(shù)據(jù)科學(xué)的需要。

然而這些情況都會隨著人工智能和機器學(xué)習(xí)的發(fā)展而改變。通過在“真實”數(shù)據(jù)上訓(xùn)練算法,我們現(xiàn)在可以生成保留原始數(shù)據(jù)所有底層統(tǒng)計信息的合成數(shù)據(jù)集,但個人或可識別信息為零。

一個簡單的方法是通過Nvidia生成對抗網(wǎng)絡(luò)(GANs)的方法,這是This Person Does Not Exist網(wǎng)站背后所用的技術(shù)。該網(wǎng)站利用真實的名人面孔數(shù)據(jù)集來生成不存在的人的超現(xiàn)實圖像。本質(zhì)上,這是合成數(shù)據(jù),每個人都有許多可以分析的屬性(例如眼睛的顏色、頭發(fā)的顏色、膚色),但是這些數(shù)據(jù)不能被破壞,因為它們不屬于真實的人。

如果將這項技術(shù)應(yīng)用于客戶數(shù)據(jù),您就可擁有可以在整個數(shù)據(jù)科學(xué)團隊中共享的數(shù)據(jù),并用于各種建模,不需要過多的管理,也沒有隱私風(fēng)險。同時,您的“真實”客戶數(shù)據(jù)可以存儲在一個安全的服務(wù)器上,很少有人需要訪問它。

寫在最后

隨著越來越多的企業(yè)希望采用綜合數(shù)據(jù)策略,毫無疑問,所有行業(yè)都將產(chǎn)生連鎖反應(yīng)。 配備有必要的工具才能釋放其數(shù)據(jù)潛力,組織將可以利用他們的客戶數(shù)據(jù),同時避免風(fēng)險和承擔(dān)責(zé)任。

有了數(shù)據(jù)科學(xué)和先進的機器學(xué)習(xí)以及各種各樣的新技術(shù),數(shù)據(jù)經(jīng)濟即將被重塑,數(shù)據(jù)創(chuàng)新的新時代即將到來。

社交媒體的出現(xiàn)給人工智能領(lǐng)域帶來了巨大的飛躍,但很少有人關(guān)注數(shù)據(jù)的安全?,F(xiàn)在,有了合成數(shù)據(jù),我們可以沿著數(shù)據(jù)科學(xué)的道路繼續(xù)前進。但這一次,在堅持規(guī)則的同時,也需要更謹慎地謹慎對待數(shù)據(jù)。

責(zé)任編輯:未麗燕 來源: IT168
相關(guān)推薦

2017-07-20 07:30:16

大數(shù)據(jù)數(shù)據(jù)互聯(lián)網(wǎng)

2020-04-24 16:01:26

物聯(lián)網(wǎng)數(shù)據(jù)IOT

2020-03-16 10:56:06

大數(shù)據(jù)IT安全

2022-06-20 11:28:20

人工智能數(shù)據(jù)生成器

2012-07-26 10:21:24

數(shù)據(jù)中心耗電

2022-12-12 08:13:27

Redis數(shù)據(jù)傾斜

2022-08-11 08:00:00

機器學(xué)習(xí)合成數(shù)據(jù)深度學(xué)習(xí)

2013-08-01 10:05:54

大數(shù)據(jù)信息安全

2012-09-05 11:09:15

SELinux操作系統(tǒng)

2018-08-20 19:24:40

數(shù)據(jù)科學(xué)數(shù)據(jù)清理數(shù)據(jù)分析

2024-01-16 14:23:32

大數(shù)據(jù)人工智能AI

2023-02-23 07:46:48

學(xué)習(xí)模型數(shù)據(jù)倉庫

2016-12-13 11:34:10

2021-09-03 13:36:40

冷存儲數(shù)據(jù)ZB數(shù)據(jù)

2010-10-27 15:40:14

oracle分頁查詢

2017-03-28 09:40:23

機器學(xué)習(xí)數(shù)據(jù)不平衡

2021-12-07 11:14:03

人工智能行為科學(xué)疫苗

2010-04-29 17:46:31

Oracle死鎖

2023-09-11 07:25:52

2022-08-23 14:56:04

合成數(shù)據(jù)數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號