專家談大數(shù)據(jù)來自何方 價值雖高但管理太難
原創(chuàng)數(shù)據(jù)的爆炸式增長為企業(yè)帶來了機遇與挑戰(zhàn)。社交計算、移動計算、云計算等新型計算模式的出現(xiàn)讓數(shù)據(jù)的產(chǎn)生方式跟傳統(tǒng)相比有了很大的不同。一方面數(shù)據(jù)的總量在變大,產(chǎn)生數(shù)據(jù)的來源也更加分散,不再像以往僅僅是產(chǎn)生自企業(yè)內(nèi)部的IT系統(tǒng);另一方面非結(jié)構(gòu)化數(shù)據(jù)在增多,這些數(shù)據(jù)不同于擁有一定關(guān)系的可以在數(shù)據(jù)表中逐行記錄的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)通常存在于影像、郵件、文檔、社交平臺中,他們的體積龐大,而使有價值的信息不易被發(fā)現(xiàn)。
了解大數(shù)據(jù)來自何處,能夠幫助我們更好的進行數(shù)據(jù)集成和抓取,用以分析出結(jié)論后優(yōu)化業(yè)務(wù)決策。在今天舉辦的第二屆大數(shù)據(jù)論壇上,F(xiàn)orrester的分析師曹宇欽認為大數(shù)據(jù)來源于企業(yè)內(nèi)部、外部、產(chǎn)業(yè)生態(tài)鏈的上下游客戶、社交媒體、移動終端等等地方。
大數(shù)據(jù)來自企業(yè)內(nèi)部/外部/客戶/社交媒體
Oracle全球副總裁喻思成認為,“大數(shù)據(jù)來自于泛互聯(lián)網(wǎng)數(shù)據(jù),機器產(chǎn)生的數(shù)據(jù),以及行業(yè)內(nèi)容的數(shù)據(jù)。這些數(shù)據(jù)可以用4個‘V’表示,即巨大的數(shù)據(jù)量、多結(jié)構(gòu)化數(shù)據(jù)、增長速度很快、價值很大但是密度低。處理這些大數(shù)據(jù)最核心的兩項技術(shù)便是Hadoop、NoSQL?!?/P>
管理和處理大數(shù)據(jù)有難度
本屆大會上,Intel公司行業(yè)合作與解決方案中國區(qū)總監(jiān)凌琦對大數(shù)據(jù)進行了比較形象的解讀,他通過兩個維度來描述數(shù)據(jù),一條維度是數(shù)據(jù)類型,另一條維度是數(shù)據(jù)規(guī)模。通過維度交叉的區(qū)間可以看出相應(yīng)的數(shù)據(jù)特點。
大數(shù)據(jù)的時代正在到來
如圖所示。小規(guī)模的非關(guān)系型數(shù)據(jù)集僅可以為我們提供有限的分析價值;小規(guī)模的關(guān)系型數(shù)據(jù)也僅能作為傳統(tǒng)商業(yè)智能的分析對象;大規(guī)模的關(guān)系型數(shù)據(jù)提供的擴展性和參考性非常有限。而大規(guī)模的非關(guān)系型數(shù)據(jù)集將是真正為企業(yè)帶來價值的數(shù)據(jù)信息,這便是大數(shù)據(jù)。凌琦先生表示,“根據(jù)IDC的預(yù)測,全球的數(shù)據(jù)使用量到2020年會增長44倍,達到35.2ZB(1ZB=10億TB)?!北ㄊ降臄?shù)據(jù)增長趨勢證明了大數(shù)據(jù)的時代正在到來。
凌琦列舉了大數(shù)據(jù)來源的一些場景:
•社交網(wǎng)絡(luò)
•移動網(wǎng)絡(luò)和各種智能終端
•商業(yè)數(shù)據(jù)與信息
•傳感器、RFID閱讀器、導(dǎo)航終端等非傳統(tǒng)IT設(shè)備
•視頻(醫(yī)療影像、地理信息、監(jiān)控等)
通過上面大數(shù)據(jù)來源場景的描述,我們發(fā)現(xiàn)這些數(shù)據(jù)內(nèi)容正是來自我們身邊的信息系統(tǒng)和網(wǎng)絡(luò)平臺。但是有了這些大數(shù)據(jù)應(yīng)該怎么來使用和分析?怎樣通過計算出的結(jié)論來優(yōu)化業(yè)務(wù)決策,這些是我們在實現(xiàn)了大數(shù)據(jù)的捕獲和收集后更需要集中注意力來做的事情。