靜態(tài)數(shù)據(jù)脫敏產(chǎn)品技術(shù)路線分析
隨著信息技術(shù)的高速發(fā)展,各用戶單位業(yè)務(wù)系統(tǒng)經(jīng)過(guò)多年沉淀,積累了大量個(gè)人隱私數(shù)據(jù)和企業(yè)信息。海量數(shù)據(jù)除了內(nèi)部流轉(zhuǎn),還需要進(jìn)行外部“共享”,這亦是國(guó)家大數(shù)據(jù)發(fā)展戰(zhàn)略規(guī)劃的需求和前提。如何保證數(shù)據(jù)在產(chǎn)生、交換、共享等場(chǎng)景下的安全可用?這讓數(shù)據(jù)脫敏安全技術(shù)成為熱門(mén)。
《網(wǎng)絡(luò)安全法》的正式實(shí)施,數(shù)據(jù)脫敏被納入法規(guī)遵從的需求?!毒W(wǎng)絡(luò)安全法》要求:數(shù)據(jù)流動(dòng)過(guò)程中應(yīng)重視保護(hù)個(gè)人隱私、社保信息、資產(chǎn)信息、醫(yī)療信息等敏感信息的安全。為滿足這一要求,數(shù)據(jù)共享時(shí)需要使用數(shù)據(jù)脫敏技術(shù)。特別是當(dāng)數(shù)據(jù)應(yīng)用于開(kāi)發(fā)、測(cè)試、培訓(xùn)等環(huán)境時(shí),安全風(fēng)險(xiǎn)較大,使用真實(shí)數(shù)據(jù)將臨嚴(yán)重?cái)?shù)據(jù)泄露的風(fēng)險(xiǎn)。
數(shù)據(jù)脫敏又稱(chēng)數(shù)據(jù)去隱私化或數(shù)據(jù)變形,是在給定的規(guī)則、策略下對(duì)敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,能夠在很大程度上解決敏感數(shù)據(jù)在不可控環(huán)境中使用的問(wèn)題。國(guó)內(nèi)銀行、通信運(yùn)營(yíng)商等是最早開(kāi)始使用數(shù)據(jù)脫敏工具的單位,多以靜態(tài)脫敏為主。
市面上有諸多靜態(tài)脫敏產(chǎn)品,如何做挑選?本文將從這些脫敏產(chǎn)品的技術(shù)路線進(jìn)行分析,從使用效果出發(fā),淺析各種技術(shù)在脫敏過(guò)程中使用效果上存在的差異,呈現(xiàn)產(chǎn)品真正能實(shí)現(xiàn)的功能和價(jià)值。希望能為廣大用戶在數(shù)據(jù)脫敏產(chǎn)品的選型上提供參考。
一、脫敏系統(tǒng)的數(shù)據(jù)獲得方式
數(shù)據(jù)脫敏第一步,需要獲得數(shù)據(jù)庫(kù)中的數(shù)據(jù)。如何獲得數(shù)據(jù)主要有以下幾種方式:
1. 代理軟件
使用代理軟件,部署在數(shù)據(jù)庫(kù)上從數(shù)據(jù)庫(kù)讀取數(shù)據(jù)。這種方式的脫敏產(chǎn)品對(duì)用戶方來(lái)說(shuō)是侵入式的,只有極少數(shù)產(chǎn)品才這樣使用。市面上數(shù)據(jù)備份廠商的數(shù)據(jù)脫敏產(chǎn)品會(huì)采用這種方式,因?yàn)槔脗浞蒈浖蛻舳俗鳛閿?shù)據(jù)脫敏的數(shù)據(jù)采集工具使用,速度較快。
2. 數(shù)據(jù)庫(kù)開(kāi)發(fā)接口
這種針對(duì)不同的數(shù)據(jù)庫(kù)開(kāi)發(fā)接口方式的有點(diǎn)在于數(shù)據(jù)采集速度較快,市面上大部分脫敏產(chǎn)品采用此種方式。這種采集方式的缺點(diǎn)也很明顯,數(shù)據(jù)庫(kù)類(lèi)型太多,脫敏產(chǎn)品支持的數(shù)據(jù)庫(kù)類(lèi)型與版本都會(huì)受限制。如果用戶將來(lái)升級(jí)了數(shù)據(jù)庫(kù)版本,除非脫敏廠商也花精力開(kāi)發(fā)升級(jí)版本,否則采購(gòu)的脫敏產(chǎn)品可能無(wú)法繼續(xù)支持。
3. ETL技術(shù)
這種采集技術(shù)的優(yōu)勢(shì)是兼容性大,ETL工具兼容的數(shù)據(jù)庫(kù)類(lèi)型是最全面的。當(dāng)然這個(gè)方式也有弱點(diǎn),由于不是專(zhuān)門(mén)針對(duì)特定數(shù)據(jù)庫(kù)類(lèi)型開(kāi)發(fā),在沒(méi)有強(qiáng)大的ETL技術(shù)積累的情況下,采集數(shù)據(jù)的速度一般。從國(guó)外脫敏廠商來(lái)看,具備有一定ETL技術(shù)積累優(yōu)勢(shì)大多采用此種技術(shù),如:Informatica 。而國(guó)內(nèi)脫敏廠商中,大多數(shù)廠商主業(yè)并不是大數(shù)據(jù)處理,沒(méi)有ETL工具的技術(shù)能力而很少采用。
二、數(shù)據(jù)落地與否
數(shù)據(jù)落地是指數(shù)據(jù)脫敏過(guò)程中,數(shù)據(jù)需要保存到脫敏系統(tǒng)后再進(jìn)行脫敏。數(shù)據(jù)落地的好處是,獲得了需要脫敏的全部數(shù)據(jù)后再脫敏,對(duì)數(shù)據(jù)關(guān)系、業(yè)務(wù)關(guān)聯(lián)方面容易處理與實(shí)現(xiàn)。但問(wèn)題是,數(shù)據(jù)落地需要脫敏系統(tǒng)也具有數(shù)據(jù)源同樣大小的存儲(chǔ)空間,對(duì)脫敏系統(tǒng)的存儲(chǔ)要求較高,同時(shí)進(jìn)行多業(yè)務(wù)數(shù)據(jù)源脫敏的情況下,還需要對(duì)接存儲(chǔ)系統(tǒng),不僅硬件成本高,還存在安全困擾。
數(shù)據(jù)脫敏從信息安全的職責(zé)分離的要求下出發(fā),脫敏系統(tǒng)的管理者為安全管理員,將DBA接觸敏感數(shù)據(jù)場(chǎng)景剝離出來(lái),同時(shí)安全管理員不具有DBA權(quán)限也無(wú)法查看全部的敏感數(shù)據(jù)。但在數(shù)據(jù)落地的情況下,安全管理員可以從數(shù)據(jù)脫敏系統(tǒng)內(nèi)獲得全部敏感數(shù)據(jù),這就違背了職責(zé)分離的初衷。
市面上大部分產(chǎn)品不會(huì)采用此種數(shù)據(jù)落地方式脫敏,只有少數(shù)由于沒(méi)有ETL技術(shù),也沒(méi)有針對(duì)不同數(shù)據(jù)庫(kù)開(kāi)發(fā)接口,擁有備份技術(shù)積累的脫敏廠商會(huì)使用這種脫敏方式。
三、脫敏算法的復(fù)雜程度
脫敏系統(tǒng)需要解決的一個(gè)重要安全問(wèn)題是算法的可逆性。脫敏系統(tǒng)不像腳本處理作簡(jiǎn)單替換即可。以國(guó)內(nèi)姓名字段的脫敏算法為例,用于姓名的主要脫敏技術(shù)主要有包括:
(1)直接將所有中文姓名,替換為固定姓名,如“張—”。這種算法簡(jiǎn)單,處理速度快,安全性差,處理結(jié)果單一,分布特征完全喪失。
(2)將原姓名每個(gè)中文字符的編碼進(jìn)行偏移隨機(jī)長(zhǎng)度,以生成另外一個(gè)中文字符。這種算法安性高,像真實(shí)姓名一樣。速度也較快,處理后的數(shù)據(jù)結(jié)果有較強(qiáng)的真實(shí)性。
(3)準(zhǔn)備一張常見(jiàn)中文名字的碼表,存放100萬(wàn)左右的中文姓名,將原有姓名hash查表后進(jìn)行替換。數(shù)據(jù)脫敏算法需要大量時(shí)間和空間開(kāi)銷(xiāo),數(shù)據(jù)安全性一般,算法可逆程度不高。
(4)分析原始數(shù)據(jù)通過(guò)預(yù)處理建立頻度碼表的方式。這種方式需要先分析原始數(shù)據(jù)的特征,然后建立一個(gè)頻度的分析報(bào)告,再建立不同字符的分布標(biāo)準(zhǔn)表格,脫敏算法依據(jù)頻度對(duì)應(yīng)的字符來(lái)替換。
在選擇脫敏產(chǎn)品時(shí),也應(yīng)該關(guān)注數(shù)據(jù)脫敏算法,選擇最為高效可用的。
四、脫敏系統(tǒng)的環(huán)境適應(yīng)能力
市場(chǎng)上數(shù)據(jù)庫(kù)種類(lèi)多,服務(wù)器與系統(tǒng)種類(lèi)也多,特別是一些不常用的系統(tǒng)與數(shù)據(jù)庫(kù),類(lèi)似于小機(jī)環(huán)境下的數(shù)據(jù)庫(kù),部分客戶還是IBM的Z系統(tǒng)的大型機(jī)等。
面對(duì)擁有不同類(lèi)型的服務(wù)器與數(shù)據(jù)庫(kù)的客戶,市場(chǎng)上并不是所有脫敏系統(tǒng)全部兼容支持的。用戶在選用這些脫敏系統(tǒng)時(shí)需要具有長(zhǎng)遠(yuǎn)的發(fā)展眼光,將來(lái)可能會(huì)用到的數(shù)據(jù)庫(kù)與系統(tǒng),脫敏產(chǎn)品時(shí)是否需要全面支持。
另外,還需要考慮不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)脫敏轉(zhuǎn)換。(異構(gòu)數(shù)據(jù)脫敏)可能會(huì)出現(xiàn)源數(shù)據(jù)庫(kù)使用的是一種類(lèi)型,而數(shù)據(jù)需求方使用的數(shù)據(jù)庫(kù)是另一種類(lèi)型,這時(shí)候的數(shù)據(jù)脫敏就需要兼容不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)轉(zhuǎn)換。
五、脫敏廠商的安全與數(shù)據(jù)庫(kù)服務(wù)能力
數(shù)據(jù)脫敏系統(tǒng)畢竟不同于傳統(tǒng)網(wǎng)絡(luò)安全的硬件,需要對(duì)數(shù)據(jù)庫(kù)具有較深入的理解,是信息安全與數(shù)據(jù)庫(kù)DBA的結(jié)合領(lǐng)域。
一方面需要脫敏產(chǎn)品具有傳統(tǒng)安全的理念,如實(shí)現(xiàn)數(shù)據(jù)脫敏的流程化、落實(shí)數(shù)據(jù)的職責(zé)分離。(如脫敏系統(tǒng)屬于安全管理員維護(hù)的系統(tǒng)、而數(shù)據(jù)庫(kù)維護(hù)屬于DBA職責(zé))。另一方面,系統(tǒng)應(yīng)具有配套的流程管理系統(tǒng),幫助安全管理員實(shí)現(xiàn)數(shù)據(jù)的脫敏。
由于安全管理員不具有DBA的知識(shí)背景,在很多脫敏項(xiàng)目中需要脫敏廠商幫助安全管理員來(lái)制定脫敏策略,實(shí)現(xiàn)數(shù)據(jù)安全脫敏。
六、快速響應(yīng)客戶的開(kāi)發(fā)能力
數(shù)據(jù)脫敏系統(tǒng)國(guó)外產(chǎn)品進(jìn)入國(guó)內(nèi)已經(jīng)多年,早期大數(shù)據(jù)用戶使用時(shí)會(huì)明顯感覺(jué)國(guó)外產(chǎn)品對(duì)國(guó)內(nèi)用戶使用帶來(lái)的不便,需要將產(chǎn)品做一些修改調(diào)整時(shí)往往無(wú)法實(shí)現(xiàn)。
隨著國(guó)內(nèi)脫敏產(chǎn)品的日益完善,國(guó)外脫敏產(chǎn)品已正慢慢退出,國(guó)內(nèi)產(chǎn)品可以按客戶要求場(chǎng)景快速修改(二次開(kāi)發(fā)能力),滿足國(guó)內(nèi)用戶的使用要求。
七、脫敏解決方案的全面性
大部分用戶在選擇脫敏系統(tǒng)時(shí),不僅需要考慮當(dāng)前數(shù)據(jù)離開(kāi)生產(chǎn)環(huán)境的靜態(tài)脫敏,還需要考慮當(dāng)數(shù)據(jù)還在生產(chǎn)環(huán)境時(shí),面對(duì)DBA與業(yè)務(wù)系統(tǒng)的脫敏需求。業(yè)務(wù)系統(tǒng)用戶還可以通過(guò)應(yīng)用開(kāi)發(fā)來(lái)設(shè)置用戶屏蔽條件,但針對(duì)DBA的使用場(chǎng)景,就需要?jiǎng)討B(tài)脫敏產(chǎn)品進(jìn)行動(dòng)態(tài)脫敏。如果同一廠商在靜態(tài)脫敏與動(dòng)態(tài)脫敏都具有解決方案,對(duì)用戶而言,更具備競(jìng)爭(zhēng)優(yōu)勢(shì)。
八、脫敏系統(tǒng)的合法性
數(shù)據(jù)脫敏系統(tǒng)已經(jīng)被納入了計(jì)算機(jī)信息系統(tǒng)安全專(zhuān)業(yè)產(chǎn)品范疇,按照公安部的要求應(yīng)具備產(chǎn)品銷(xiāo)售許可證。很多廠商都沒(méi)有耐心研發(fā)產(chǎn)品,OEM其它廠商后申請(qǐng)一個(gè)軟件著作權(quán)證書(shū),就變成自己的產(chǎn)品解決方案,更有些廠商O(píng)EM后連銷(xiāo)售許可都不具備。建議用戶選擇脫敏系統(tǒng)時(shí),選用獲得公安部銷(xiāo)售許可證的數(shù)據(jù)脫敏系統(tǒng)。

























