數(shù)據(jù)存儲(chǔ):將數(shù)據(jù)轉(zhuǎn)化為信息
隨著人們開始進(jìn)入深度學(xué)習(xí)和人工智能領(lǐng)域,如何從基礎(chǔ)數(shù)據(jù)收集發(fā)展到基于信息的世界需要進(jìn)行一下反思,這可能是一個(gè)好主意。
存儲(chǔ)的數(shù)據(jù)只是大量混雜的信息,直到人們可以將其轉(zhuǎn)化為可操作的信息,并且有時(shí)需要多年的收集數(shù)據(jù)才能夠達(dá)到這一點(diǎn)。需要長期收集的數(shù)據(jù)的例子包括:采用新工藝、藥物或設(shè)備進(jìn)行的醫(yī)學(xué)試驗(yàn),基于不經(jīng)常發(fā)生的外部因素的團(tuán)體行為,以及氣候變化等。
對(duì)于數(shù)據(jù)就是知道自己不知道的事物。一個(gè)很好的例子就是“垃圾DNA”,這個(gè)術(shù)語來自20世紀(jì)70年代和80年代,是用于描述處在染色體之間的DNA。到了2000年代,人們發(fā)現(xiàn)一些“垃圾”DNA能夠調(diào)節(jié)染色體復(fù)制的方式和時(shí)間。人們存儲(chǔ)這些數(shù)據(jù)的好處是,當(dāng)時(shí)每個(gè)字節(jié)的存儲(chǔ)成本很高。這在當(dāng)時(shí)成本很高,而更高的成本是測序DNA的成本,這也是它需要保存的原因。從歷史上看這很常見,收集數(shù)據(jù)的成本很高,存儲(chǔ)數(shù)據(jù)的成本也很高,所以人們需要感謝那些之前做正確事情的人。他們存儲(chǔ)了這些原始數(shù)據(jù),因?yàn)槿藗儚闹袑W(xué)到了很多東西。
人們知道天氣預(yù)報(bào)中心每天都會(huì)收集所有氣象數(shù)據(jù),其中包括預(yù)測模型的輸出。當(dāng)這些網(wǎng)站有一個(gè)新的預(yù)測模型時(shí),他們通過新模型運(yùn)行舊數(shù)據(jù),并查看模型輸出和觀察結(jié)果,以查看新模型是否比舊模型好多少。在一個(gè)城市實(shí)施似乎很容易,但在國家范圍和全球范圍內(nèi)做這件事需要處理和對(duì)比大量的數(shù)據(jù)和信息。
因此,存儲(chǔ)和數(shù)據(jù)架構(gòu)師面臨的挑戰(zhàn)是通過開發(fā)滿足性能、可擴(kuò)展性和治理需求的體系結(jié)構(gòu)來保存這些數(shù)據(jù)。
什么是信息管理?
自從數(shù)據(jù)收集開始以來,收集數(shù)據(jù)的重點(diǎn)就是要了解所收集的所有數(shù)據(jù)。人工收集數(shù)據(jù)并進(jìn)行分析是非常耗時(shí)的事情,將數(shù)據(jù)轉(zhuǎn)換為信息花費(fèi)的時(shí)間既耗費(fèi)時(shí)間又成本高昂。
信息的現(xiàn)代起源于1890年美國人口普查使用Hollerith穿孔卡片,雖然它們是空白的,不像人們可能目前看到的格式化卡片,而在當(dāng)時(shí),大量數(shù)據(jù)沒有工具來分析數(shù)據(jù),并且將其轉(zhuǎn)化為信息的成本相當(dāng)高昂,而在1890年人口普查之前,這都是人工完成的。
顯然,按照現(xiàn)在的標(biāo)準(zhǔn),1890年人口普查中產(chǎn)生的信息非常簡陋。但根據(jù)19世紀(jì)90年代的標(biāo)準(zhǔn),人們可以如此迅速地觀察人口普查結(jié)果并作出決定(例如基于數(shù)據(jù)的可操作信息),這是一種革命性的舉措。
如今,人們不會(huì)將1890年人口普查數(shù)據(jù)信息中的數(shù)據(jù)列入表格。信息的定義(僅僅與數(shù)據(jù)相比)應(yīng)該以時(shí)間標(biāo)準(zhǔn)為基礎(chǔ),現(xiàn)在很多領(lǐng)域的定義正在迅速演變。
信息分析市場的規(guī)模和范圍正在不斷擴(kuò)大,從自動(dòng)駕駛汽車到安全攝像頭分析,再到醫(yī)療發(fā)展。在每個(gè)行業(yè)中以及人們生活的每一個(gè)部分,都發(fā)生了迅速的變化,并且速度在加快。所有這些都是數(shù)據(jù)驅(qū)動(dòng)的,而收集的所有新舊數(shù)據(jù)都用于開發(fā)新類型的可操作信息。而圍繞收集的所有數(shù)據(jù)和開發(fā)的信息,有很多問題被需要詢問。
這對(duì)組織意味著什么?
人們所擁有的信息和數(shù)據(jù)的類型有很多要求。有些可能會(huì)涉及到使用所謂的DAR(空閑時(shí)數(shù)據(jù)加密),它需要加密存儲(chǔ)設(shè)備,以防從系統(tǒng)中刪除時(shí),數(shù)據(jù)幾乎或完全不可訪問(其難度取決于加密算法和大小、設(shè)備的密鑰或密鑰的復(fù)雜性和熵)。
從數(shù)據(jù)治理的角度理解數(shù)據(jù)或產(chǎn)生的信息所需的內(nèi)容是基于組織所在的行業(yè)或法規(guī)以及美國國家標(biāo)準(zhǔn)局(NIST)、ISO、HIPAA、SEC、GDPR等機(jī)構(gòu)的***實(shí)踐。由此產(chǎn)生的體系結(jié)構(gòu)或程序變更是組織作為架構(gòu)的一部分需要解決的事情。
組織的合規(guī)團(tuán)隊(duì)很清楚自己需要保留數(shù)據(jù)或信息多長時(shí)間,但還需要解決許多其他需求,以確保在性能、可用性和數(shù)據(jù)完整性方面滿足業(yè)務(wù)目標(biāo),所有這些都需要在數(shù)據(jù)和信息的生命周期內(nèi)解決。
***的想法
遵守法規(guī)并不容易,也不是免費(fèi)的。其成本取決于很多因素,但是在架構(gòu)規(guī)劃和構(gòu)建之后嘗試強(qiáng)制遵從總是比預(yù)先制定的成本要高得多。
在確定合規(guī)要求時(shí),組織應(yīng)該關(guān)注未來發(fā)展,而不是現(xiàn)在,因?yàn)槭潞蟊仨毘袚?dān)成本并面臨挑戰(zhàn)。這意味著需要不斷研究組織所在行業(yè)的合規(guī)要求以及***實(shí)踐。數(shù)據(jù)只會(huì)在未來變得更加重要,人們將會(huì)面臨這些挑戰(zhàn)。