大數(shù)據(jù)是“啤酒+尿布”?解讀“大”的三維特征
“大數(shù)據(jù)”這一概念最初起源于美國(guó)。這里的“大”通常用來(lái)描述數(shù)據(jù)的三維特征:***維指信息的數(shù)據(jù)體量日益龐大;第二維指信息的種類繁多;第三維指數(shù)據(jù)變?yōu)榭捎眯畔?,并且可以分析速度越?lái)越快。
早在1969年,全球零售巨頭沃爾瑪便利用計(jì)算機(jī)對(duì)消費(fèi)者的購(gòu)物行為進(jìn)行數(shù)據(jù)分析,結(jié)果發(fā)現(xiàn)男性顧客在購(gòu)買嬰兒尿布時(shí),常常會(huì)順便“搭配”幾瓶啤酒來(lái)犒勞自己,于是推出了將啤酒與尿布捆綁銷售的促銷手段。如今,這一“啤酒+尿布”的數(shù)據(jù)分析成果,已成為科學(xué)家通俗解釋“大數(shù)據(jù)”技術(shù)的經(jīng)典案例。
“‘大數(shù)據(jù)’具有多種多樣的定義方式,這一概念最初起源于美國(guó),是由思科、威睿、甲骨文、IBM等公司倡議發(fā)展起來(lái)的。這里的‘大’通常用來(lái)描述數(shù)據(jù)的三維特征:***維指信息的數(shù)據(jù)體量日益龐大,如今已從TB級(jí)升到EB級(jí),又將躍升到zettabytes級(jí);第二維是指信息的種類繁多;第三維是指數(shù)據(jù)變?yōu)榭捎眯畔?,并且可以分析的速度越?lái)越快。”在接受本報(bào)記者采訪時(shí),美國(guó)加利福尼亞大學(xué)里弗賽德分校計(jì)算和通信專家楊鳴博士強(qiáng)調(diào),“最近媒體常常議論的大數(shù)據(jù),其實(shí)專指大數(shù)據(jù)的第四維特性,即數(shù)據(jù)的使用價(jià)值,主要體現(xiàn)在數(shù)據(jù)的智能分析上。”
楊鳴說(shuō),智能分析是一種對(duì)未來(lái)智慧的投資,分析的最終目標(biāo)是做出更明智的決定。有些人誤以為大數(shù)據(jù)只是數(shù)據(jù)技術(shù)處理的升級(jí),即如何存儲(chǔ)和備份擁有的數(shù)據(jù),但大數(shù)據(jù)的真正意義在于用新的方式對(duì)數(shù)據(jù)進(jìn)行分析,并作出合理解釋。
大數(shù)據(jù)所涉及的信息與人密切相關(guān)。與人有關(guān)的信息占世界上所有數(shù)據(jù)的90%,主要包括電子郵件、視頻文件、社交網(wǎng)絡(luò)、博客內(nèi)容、呼叫中心的對(duì)話等等,它正以驚人的速度增長(zhǎng),年復(fù)合增長(zhǎng)率高達(dá)62%。大數(shù)據(jù)的應(yīng)用,將有助于決策人靈活應(yīng)對(duì)現(xiàn)實(shí)世界中“數(shù)據(jù)海嘯”引起的機(jī)遇和挑戰(zhàn)。
“人類信息”將引起信息技術(shù)(IT)的再次進(jìn)化。多年來(lái),科技界一直在改變信息技術(shù)(IT)中技術(shù),也就是“T”的含量。例如,引進(jìn)大型計(jì)算機(jī)、客戶端服務(wù)器、網(wǎng)絡(luò)供應(yīng)(IP)、云計(jì)算等技術(shù)。大數(shù)據(jù)技術(shù)***次使信息,也就是“I”在IT中發(fā)生了變化,從傳統(tǒng)的信息(Information)之“I”向著智能(Intelligence)之“I”發(fā)展。
對(duì)人類信息進(jìn)行“技術(shù)理解”,需要從根本上采取新方法和新技術(shù),以便為人類無(wú)時(shí)無(wú)刻不在增加的信息提供洞察力、想法和直覺(jué)。未來(lái)的信息計(jì)算將以大數(shù)據(jù)模式,引起人類社會(huì)信息交互方式的根本性轉(zhuǎn)變,以智能分析為前提的信息應(yīng)用將會(huì)以更大規(guī)模解讀人類,挖掘人類信息的價(jià)值。
當(dāng)通過(guò)信息搜尋來(lái)揭露犯罪時(shí),破案人員可以從犯罪嫌疑人的電子郵件中尋找證據(jù);當(dāng)試圖理解客戶群時(shí),營(yíng)銷人員可以搜尋和分析客戶公開(kāi)的所有信息,既可以是研究者自己數(shù)據(jù)庫(kù)所掌握的,也可以是被調(diào)查者公開(kāi)在微博或博客上的信息。這一圖景使我們看到,在當(dāng)今信息爆炸的社會(huì)中,信息流動(dòng)和分析正變得越來(lái)越復(fù)雜。
美國(guó)白宮科技政策辦公室在去年3月29日發(fā)布了《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,同時(shí)組建“大數(shù)據(jù)高級(jí)指導(dǎo)小組”,顯示美國(guó)已把應(yīng)對(duì)大數(shù)據(jù)技術(shù)革命帶來(lái)的機(jī)遇和挑戰(zhàn)提高到國(guó)家戰(zhàn)略層面。
去年8月,對(duì)1105家美國(guó)企業(yè)和集團(tuán)進(jìn)行的調(diào)查顯示,63%的受訪者認(rèn)為只有實(shí)施和使用大數(shù)據(jù)技術(shù)才能完成各自機(jī)構(gòu)的使命,49%的受訪者表示將增加他們的大數(shù)據(jù)預(yù)算,46%的受訪者計(jì)劃至少保持他們現(xiàn)有的大數(shù)據(jù)預(yù)算水平。
楊鳴對(duì)本報(bào)記者表示,對(duì)于像中國(guó)這樣的發(fā)展中國(guó)家來(lái)說(shuō),在高科技領(lǐng)域追趕國(guó)際先進(jìn)水平應(yīng)該還是比較容易的,應(yīng)當(dāng)在大數(shù)據(jù)研究上加大力度。主要包括兩個(gè)方面,一是在作為大數(shù)據(jù)技術(shù)基礎(chǔ)的云計(jì)算方面,要著力應(yīng)用開(kāi)發(fā);二是在數(shù)據(jù)處理方面,不僅要重視結(jié)構(gòu)性數(shù)據(jù)(即已經(jīng)數(shù)字化了的信息),而且要重視在電子郵件、博客等非數(shù)字化的人文數(shù)據(jù)分析。