要隱私還是要智能?無(wú)監(jiān)督學(xué)習(xí)能帶來(lái)二者的統(tǒng)一嗎?
大數(shù)據(jù)文摘出品
來(lái)源:venturebeat
編譯:馬莉、楚陽(yáng)
獲取用戶數(shù)據(jù)的方式即將被改變,數(shù)據(jù)“多即是好”的時(shí)代終將過(guò)去,用盡可能少的數(shù)據(jù)構(gòu)建性能更好的模型才是大勢(shì)所趨。
在目前視數(shù)據(jù)為賺錢的致勝法寶之一的商業(yè)環(huán)境中,這個(gè)論斷聽上去不大靠譜,然而,這是企業(yè)應(yīng)該做出的改變,而且事實(shí)上這并沒(méi)有聽上去那么冒險(xiǎn)。
喂給模型的數(shù)據(jù)越多,它并非會(huì)越智能,因此,減少數(shù)據(jù)并不一定意味著模型性能的下降。
數(shù)據(jù)越多,問(wèn)題越多
如果用戶數(shù)據(jù)的多少是決定企業(yè)競(jìng)爭(zhēng)力強(qiáng)弱的因素,那么它會(huì)鼓勵(lì)企業(yè)家們尋找各種渠道來(lái)獲取更多的用戶數(shù)據(jù),而這本身會(huì)帶來(lái)災(zāi)難性后果。
眼下,數(shù)據(jù)泄露和損毀以及個(gè)人信息暴露的新聞到處都是,由身份盜竊和金融詐騙引起的事故令人痛心和惋惜,我們目睹著由無(wú)力保護(hù)用戶數(shù)據(jù)而導(dǎo)致的企業(yè)名譽(yù)受損、監(jiān)管蒙羞以及由此而引起的用戶的強(qiáng)烈抵制態(tài)度。
數(shù)據(jù)隱私只是瘋狂獲取數(shù)據(jù)所帶來(lái)的問(wèn)題之一,大規(guī)模的收集和管理數(shù)據(jù)本身會(huì)耗費(fèi)巨大成本:計(jì)算成本、存儲(chǔ)成本、運(yùn)營(yíng)成本以及更多。我們正處于大數(shù)據(jù)和人工智能時(shí)代,但如果數(shù)據(jù)量要和人工智能同步成長(zhǎng),那么這些成本還將繼續(xù)飛漲。
企業(yè)恨不得知道有關(guān)客戶的一切數(shù)據(jù),然而,沒(méi)有人會(huì)愿意自己的行為數(shù)據(jù)被記錄和分析,企業(yè)獲取得越多,客戶暴露得越多,這些數(shù)據(jù)一旦失竊,那最后的贏家將是偷數(shù)據(jù)的賊而非企業(yè)。
相比依賴數(shù)據(jù),更要整合數(shù)據(jù)
如果我們可以更靈活地使用手頭收集來(lái)的數(shù)據(jù),對(duì)其進(jìn)行深入的分析和挖掘,就會(huì)發(fā)現(xiàn)其實(shí)并不需要原本想象的那么多的數(shù)據(jù)。
其中,關(guān)鍵一步就是實(shí)現(xiàn)從對(duì)個(gè)體數(shù)據(jù)的收集和依賴轉(zhuǎn)向?qū)φ蠑?shù)據(jù)的分析和處理。比如,與其一個(gè)個(gè)的分析用戶IP,不如直接分析IP前綴來(lái)區(qū)分不同網(wǎng)絡(luò)分布下的用戶群體,同樣可以提升模型的性能。
這樣做的好處在于,我們可以使用群體特征來(lái)淡化個(gè)體特征從而起到了保護(hù)用戶個(gè)體隱私的效果。乍一聽可能怪怪的,但我們確實(shí)能用更少的數(shù)據(jù)訓(xùn)練出更好的模型。
再比如,我們可以構(gòu)建這樣一個(gè)特征,這個(gè)特征記錄了某個(gè)平臺(tái)上的交易總金額,而單個(gè)訂單的交易金額則被四舍五入到某一特定的閾值金額下,由此,我們便無(wú)須精確地知道個(gè)體用戶的交易金額。
另外,通過(guò)分析用戶群體的數(shù)量和行為,我們可以發(fā)掘用戶模式并預(yù)測(cè)其未來(lái)的趨勢(shì),也就是說(shuō),我們可以在不必深入分析單個(gè)用戶的情況下獲取更有價(jià)值的信息。而且,派生數(shù)據(jù)可以產(chǎn)生派生信息,比如,通過(guò)分析IP范圍來(lái)推斷用戶工作在正常還是異常移動(dòng)模式從而確定用戶是否在旅游而無(wú)需其酒店或航班信息。
這種技術(shù)標(biāo)志著重大革新,我們的努力使我們更好地遵循著大數(shù)據(jù)時(shí)代的道德標(biāo)準(zhǔn)。
相比個(gè)人,無(wú)監(jiān)督學(xué)習(xí)更關(guān)注群體
從群體數(shù)據(jù)中獲得的信息越多,需要加給個(gè)體的關(guān)注就越少,無(wú)監(jiān)督學(xué)習(xí)使之成為可能。
如果沒(méi)有無(wú)監(jiān)督學(xué)習(xí),機(jī)器學(xué)習(xí)模型會(huì)逐個(gè)分析用戶數(shù)據(jù)以預(yù)測(cè)其行為,這不僅過(guò)多地暴露了個(gè)體用戶信息而且會(huì)到導(dǎo)致學(xué)習(xí)任務(wù)極其繁重。
當(dāng)使用無(wú)監(jiān)督學(xué)習(xí)時(shí),模型會(huì)以群體視野審視用戶數(shù)據(jù),通過(guò)分析群體用戶的數(shù)量和行為找出其內(nèi)在聯(lián)系和用戶行為模式從而使模型具有更好的泛化性能。在這個(gè)過(guò)程中,我們只需要少量個(gè)體用戶數(shù)據(jù)用以劃分用戶群體,然后只需預(yù)測(cè)用戶群體的行為即可。
同時(shí),企業(yè)需要主動(dòng)建立起防御機(jī)制以保護(hù)用戶數(shù)據(jù),黑客的惡意攻擊應(yīng)該被提前檢測(cè)到以防止數(shù)據(jù)泄露。僅需要少量的數(shù)據(jù)就可以對(duì)群體用戶數(shù)據(jù)進(jìn)行整體性分析以偵測(cè)欺詐和惡意攻擊的賬號(hào)。事實(shí)上,企業(yè)其實(shí)已經(jīng)獲取到了足夠的數(shù)據(jù),只是沒(méi)有深度挖掘而已。
全球范圍內(nèi)的監(jiān)管機(jī)制的進(jìn)步表明,用戶數(shù)據(jù)將更私密且更透明,對(duì)于數(shù)據(jù)收集的管制也在不斷提高。然而,這并不意味著模型性能的下降,通過(guò)對(duì)數(shù)據(jù)做整體性分析并利用無(wú)監(jiān)督學(xué)習(xí)和優(yōu)秀的AI技術(shù),我們可以在獲得高性能模型的同時(shí)保護(hù)好用戶隱私。
收集和管理數(shù)據(jù)的方式日新月異,無(wú)監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)也因此而更加突出,尤其是在和監(jiān)督學(xué)習(xí)比較時(shí)。監(jiān)督學(xué)習(xí)模型需要大量數(shù)據(jù),而大量數(shù)據(jù)會(huì)牽扯很多問(wèn)題。但無(wú)監(jiān)督學(xué)習(xí)并不需要大量的訓(xùn)練數(shù)據(jù),因此在一定程度上保護(hù)了用戶數(shù)據(jù)隱私,意義非凡。而且,有標(biāo)簽的訓(xùn)練數(shù)據(jù)本身可能存在偏見,這進(jìn)一步突顯了無(wú)監(jiān)督學(xué)習(xí)的優(yōu)勢(shì):通過(guò)在非結(jié)構(gòu)化數(shù)據(jù)中尋找規(guī)律以確定分類,無(wú)監(jiān)督學(xué)習(xí)不僅表現(xiàn)得客觀公正多了而且補(bǔ)償了以前模型中的不足。
金融從業(yè)人員立即意識(shí)到了無(wú)監(jiān)督學(xué)習(xí)所能帶來(lái)的價(jià)值,因此目前,已經(jīng)有銀行和支付機(jī)構(gòu)主動(dòng)地嘗試這些新的機(jī)器學(xué)習(xí)模型。事實(shí)上,無(wú)論是隱私侵犯、改善安全機(jī)制還是增加驗(yàn)證程序都會(huì)給用戶帶來(lái)麻煩。而無(wú)監(jiān)督學(xué)習(xí)使得企業(yè)可以給客戶提供良好的用戶體驗(yàn)而略去不必要的麻煩。數(shù)字經(jīng)濟(jì)時(shí)代,在風(fēng)險(xiǎn)管控、用戶體驗(yàn)和數(shù)據(jù)道德之間取得平衡對(duì)企業(yè)來(lái)說(shuō)是至關(guān)重要的。
今天,我們正在跨入倫理與智能共存的嶄新時(shí)代。
鏈接:https://venturebeat.com/2019/11/03/can-data-privacy-and-data-intelligence-coexist/
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】