漫談大數(shù)據(jù)之前序
前言
本文共分為上下兩篇。從大數(shù)據(jù)的定義、發(fā)展歷程、大數(shù)據(jù)VS小數(shù)據(jù)、大數(shù)據(jù)通用技術(shù),以及安全行業(yè)大數(shù)據(jù)的角度,漫談大數(shù)據(jù)相關(guān)概念及其在應(yīng)用實(shí)踐中的一些思考,同時(shí)分享大數(shù)據(jù)在流量分析和日志的簡(jiǎn)單實(shí)踐,期望能給讀者帶來(lái)對(duì)大數(shù)據(jù)一個(gè)更好的認(rèn)知和應(yīng)用。
此篇為前序,我們將集中為大家解釋大數(shù)據(jù)的定義、發(fā)展歷程。
BIG DATA
何謂大數(shù)據(jù)
顧名思義,大數(shù)據(jù)就是很大的數(shù)據(jù)唄!以前叫數(shù)據(jù)處理,現(xiàn)在叫大數(shù)據(jù)處理,貌似現(xiàn)在不加個(gè)大字,都不好意思和別人說(shuō),加上大字,搞成大數(shù)據(jù),瞬間高大上了。以前還有說(shuō)法是海量數(shù)據(jù),想想,海量比大應(yīng)該更加形象生動(dòng)。記得當(dāng)年筆者博士論文題目就是海量數(shù)據(jù)…挖掘。大數(shù)據(jù)這個(gè)概念目前這么耳熟能詳,也就是這幾年的事情。那 “大數(shù)據(jù)”究竟是個(gè)神馬?咱們先看幾個(gè)大數(shù)據(jù)的定義。
維基百科中將大數(shù)據(jù)定義為:“Big data is a term for data sets that are so large or complex that traditional data processing applications are inadequate.”,即:所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
IDC將大數(shù)據(jù)定義為:為更經(jīng)濟(jì)地從高頻率的、大容量的、不同結(jié)構(gòu)和類(lèi)型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。
國(guó)際權(quán)威咨詢(xún)機(jī)構(gòu)Gartner說(shuō):“大數(shù)據(jù),就是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)”。
信息專(zhuān)家涂子沛在著作《大數(shù)據(jù)》中認(rèn)為:“大數(shù)據(jù)”之“大”,并不僅僅指“容量大”,更大的意義在于通過(guò)對(duì)海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來(lái)“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大發(fā)展”。
麥肯錫全球研究所說(shuō):“大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征”。
從這幾個(gè)定義上來(lái)看,我們至少可以看出,從“數(shù)據(jù)”或者“海量數(shù)據(jù)”到“大數(shù)據(jù)”,不僅僅是修飾上的變化,也絕不僅僅是大部分人以為的海量數(shù)據(jù)和大數(shù)據(jù)是等同概念;不僅僅是數(shù)量上的差別,不是數(shù)據(jù)量多、大就是大數(shù)據(jù)了。那是什么呢?這里個(gè)人以偏概全總結(jié)幾點(diǎn):
(1)大數(shù)據(jù)的“大”是指用目前主流的軟件工具無(wú)法處理或者無(wú)法快速處理的大,需要采用大數(shù)據(jù)的技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理;
(2)大數(shù)據(jù)是為了處理海量數(shù)據(jù)而催生的一種新的架構(gòu)、新的技術(shù),它存在的主要目的是快速、高頻的處理海量異構(gòu)的數(shù)據(jù);
(3)大數(shù)據(jù)之“大”的基本屬性是“量大”,但是更內(nèi)涵的屬性是“價(jià)值大”。大數(shù)據(jù)技術(shù)的核心價(jià)值是通過(guò)采用大數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)的存儲(chǔ)檢索,查詢(xún)分析,數(shù)據(jù)挖掘等,產(chǎn)生數(shù)據(jù)簡(jiǎn)單統(tǒng)計(jì)分析所無(wú)法帶來(lái)的新的價(jià)值,新的發(fā)現(xiàn)。
個(gè)人認(rèn)為,這三點(diǎn)是根據(jù)定義總結(jié)出來(lái)的大數(shù)據(jù)核心思想,三個(gè)定義和內(nèi)容并非并列重復(fù)的,它們是一個(gè)層級(jí)推進(jìn)的關(guān)系。而這三點(diǎn)中,最能體現(xiàn)大數(shù)據(jù)核心的是第三點(diǎn),采用大數(shù)據(jù)技術(shù)挖掘分析新知識(shí)、創(chuàng)造新價(jià)值。
當(dāng)然,前些年聽(tīng)到的學(xué)術(shù)報(bào)告中,80%以上的Slide里面會(huì)有一頁(yè)是所謂的5V,即大數(shù)據(jù)的五個(gè)主要特征: Volume、Velocity、Variety、Value、Veracity。這其實(shí)和上面提到的三點(diǎn)是一脈相承的,至于5V或者更多V的具體內(nèi)容就不多贅述,讀者自行Baidu即可知悉。
區(qū)別于傳統(tǒng)意義上的數(shù)據(jù)處理方式(數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)、OLAP等),在“大數(shù)據(jù)時(shí)代”,數(shù)據(jù)已經(jīng)不僅僅是需要分析處理的內(nèi)容,更重要的是人們需要借助專(zhuān)用的思想和手段從大量看似雜亂、繁復(fù)的數(shù)據(jù)中,收集、整理和分析數(shù)據(jù)足跡,以支撐社會(huì)生活的預(yù)測(cè)、規(guī)劃和商業(yè)領(lǐng)域的決策支持等。所以,各大互聯(lián)網(wǎng)公司越來(lái)越看重?cái)?shù)據(jù)的價(jià)值,各大創(chuàng)業(yè)公司采用大數(shù)據(jù)分析的技術(shù)進(jìn)行輔助決策,而大數(shù)據(jù)技術(shù)也成為了老生常談的一個(gè)話(huà)題,成為很多公司的噱頭和提升格調(diào)的一種姿態(tài)。
大數(shù)據(jù)真的是噱頭么?發(fā)展歷程梳理
大數(shù)據(jù)真的是噱頭么?上節(jié)“何謂大數(shù)據(jù)”中提到大數(shù)據(jù)技術(shù)是很多公司的噱頭(特別是創(chuàng)業(yè)公司),是提升格調(diào)做為“風(fēng)口上那頭飛豬”[i]的必殺神技,那么大數(shù)據(jù)真的僅僅只是一個(gè)噱頭?這個(gè)問(wèn)題可以負(fù)責(zé)任的告訴你,非也非也。
咱們先看看數(shù)據(jù)大爆炸吧。
根據(jù)國(guó)際數(shù)據(jù)公司IDC 的監(jiān)測(cè)統(tǒng)計(jì),即使在遭遇金融危機(jī)的2009年,全球信息量也比2008年增長(zhǎng)了62%,達(dá)到80萬(wàn)PB,到2011年全球數(shù)據(jù)總量已經(jīng)達(dá)到1.8ZB(1ZB等于1萬(wàn)億GB),并且以每?jī)赡攴环乃俣蕊w速增長(zhǎng)。預(yù)計(jì)到2020 年全球數(shù)據(jù)量總量將達(dá)到40ZB,10年間增長(zhǎng)20倍以上,到2020年,地球上人均數(shù)據(jù)預(yù)計(jì)將達(dá)5247GB。在數(shù)據(jù)規(guī)模急劇增長(zhǎng)的同時(shí),數(shù)據(jù)類(lèi)型也越來(lái)越復(fù)雜,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等多種類(lèi)型。其中,采用傳統(tǒng)數(shù)據(jù)處理手段難以處理的非結(jié)構(gòu)化數(shù)據(jù)已接近數(shù)據(jù)總量的75%。
再看看大數(shù)據(jù)的發(fā)展歷程(筆者認(rèn)為的主要時(shí)間節(jié)點(diǎn)):
Google在2003年到2004年公布了關(guān)于GFS、MapReduce和BigTable三篇技術(shù)論文,號(hào)稱(chēng)三駕馬車(chē)。這也成為后來(lái)大數(shù)據(jù)云計(jì)算發(fā)展的重要基石。
2005年Hadoop項(xiàng)目誕生。Hadoop其最初只是雅虎公司用來(lái)解決網(wǎng)頁(yè)搜索問(wèn)題的一個(gè)項(xiàng)目,后來(lái)因其技術(shù)的高效性,被Apache Software Foundation公司引入并成為開(kāi)源應(yīng)用。Hadoop本身不是一個(gè)產(chǎn)品,而是由多個(gè)軟件產(chǎn)品組成的一個(gè)生態(tài)系統(tǒng),這些軟件產(chǎn)品共同實(shí)現(xiàn)全面功能和靈活的大數(shù)據(jù)分析。從技術(shù)上看,Hadoop由兩項(xiàng)關(guān)鍵服務(wù)構(gòu)成:采用Hadoop分布式文件系統(tǒng)(HDFS)的可靠數(shù)據(jù)存儲(chǔ)服務(wù),以及利用一種叫做MapReduce技術(shù)的高性能并行數(shù)據(jù)處理服務(wù)。這兩項(xiàng)服務(wù)的共同目標(biāo)是,提供一個(gè)使對(duì)結(jié)構(gòu)化和復(fù)雜數(shù)據(jù)的快速、可靠分析變?yōu)楝F(xiàn)實(shí)的基礎(chǔ)。
2011年5月,全球知名咨詢(xún)公司麥肯錫全球研究所發(fā)布了一份報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,大數(shù)據(jù)開(kāi)始備受關(guān)注,這也是專(zhuān)業(yè)機(jī)構(gòu)第一次全方面的介紹和展望大數(shù)據(jù)。
2012年,維克托·舍恩伯格《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》宣傳推廣,大數(shù)據(jù)概念開(kāi)始風(fēng)靡全球。
2012年3月,奧巴馬宣布美國(guó)政府五大部門(mén)投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃(Big Data Research and Development Initiative)”,欲大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國(guó)的科研、教育與國(guó)家安全能力。
2012年4月,美國(guó)軟件公司Splunk于19日在納斯達(dá)克成功上市,成為第一家上市的大數(shù)據(jù)處理公司。
2012年7月,聯(lián)合國(guó)在紐約發(fā)布了一份關(guān)于大數(shù)據(jù)政務(wù)的白皮書(shū),總結(jié)了各國(guó)政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)人民。
2013年5月,麥肯錫全球研究所發(fā)布了一份名為《顛覆性技術(shù):技術(shù)改進(jìn)生活、商業(yè)和全球經(jīng)濟(jì)》的研究報(bào)告,報(bào)告確認(rèn)了未來(lái)12種新興技術(shù),而大數(shù)據(jù)是這些新興技術(shù)的基石。
2013 年,我國(guó)多位院士聯(lián)合上書(shū)國(guó)務(wù)院,建議設(shè)立國(guó)家專(zhuān)項(xiàng)開(kāi)展大數(shù)據(jù)技術(shù)研究,將大數(shù)據(jù)上升為國(guó)家戰(zhàn)略。
2015年8月,國(guó)務(wù)院發(fā)表《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,正式將大數(shù)據(jù)提升為國(guó)家戰(zhàn)略,旨在全面推進(jìn)我國(guó)大數(shù)據(jù)的發(fā)展和應(yīng)用,加快建設(shè)數(shù)據(jù)強(qiáng)國(guó)。
后續(xù)大家基本都知道了。
最后,我們?cè)倏纯创髷?shù)據(jù)相關(guān)發(fā)展應(yīng)用情況。
在大數(shù)據(jù)領(lǐng)域,目前已實(shí)用化的國(guó)際知名項(xiàng)目包括:
(1)Google 知識(shí)圖譜和深度學(xué)習(xí)、自動(dòng)駕駛技術(shù)、Google 眼鏡。
(2)Facebook 開(kāi)放社交圖譜數(shù)據(jù)。
(3)NSA 棱鏡計(jì)劃。
(4)IBM Watson。
(5)LinkedIn、Amazon、Netflix 推薦系統(tǒng)等。
國(guó)內(nèi)的主要互聯(lián)網(wǎng)公司,已將大數(shù)據(jù)技術(shù)應(yīng)用到各自的業(yè)務(wù)中,用大數(shù)據(jù)技術(shù)發(fā)揮了重要的作用,取得了巨大的經(jīng)濟(jì)和社會(huì)效益。此外,在能源、醫(yī)療、交通等不同的行業(yè)領(lǐng)域,都用大數(shù)據(jù)產(chǎn)生了不可替代的作用。
在大數(shù)據(jù)技術(shù)人才培養(yǎng)方面,幾十所高校申報(bào)了大數(shù)據(jù)專(zhuān)業(yè),設(shè)置了大數(shù)據(jù)技術(shù)的相關(guān)碩士學(xué)位和課程,多學(xué)科交叉培養(yǎng)大數(shù)據(jù)技術(shù)人才。此外,大數(shù)據(jù)相關(guān)的十幾家大數(shù)據(jù)領(lǐng)域國(guó)家工程實(shí)驗(yàn)室揭牌,各類(lèi)大數(shù)據(jù)研究院也如雨后春筍般相繼成立??吹竭@里,你還覺(jué)得大數(shù)據(jù)技術(shù)真的僅僅是個(gè)噱頭么?可以說(shuō),的確是海量數(shù)據(jù)處理的必殺神技!
題外話(huà)
非噱頭,但是必然存在泡沫,包括被燒熱的互聯(lián)網(wǎng),被風(fēng)吹起來(lái)的飛豬。筆者認(rèn)為,其實(shí)少量的泡沫是必要而且具有推動(dòng)作用的。任何一種神技或者新興概念如果沒(méi)有泡沫,默默無(wú)聞的發(fā)展,最后也將是默默無(wú)聞的死去。具有影響力的概念被炒作,會(huì)在一段時(shí)間內(nèi)形成強(qiáng)大的原動(dòng)力,使各行各業(yè)的人們?yōu)橹冻龌蛘婊蚣?、或?qū)嵒蛱摰呐?,將有力的推?dòng)這項(xiàng)技術(shù)的發(fā)展進(jìn)程。當(dāng)然,物極必反,泡沫太大,光會(huì)吹噓,卻沒(méi)有腳踏實(shí)地,那也最終形成不了生產(chǎn)力。畢竟,飛得太高的豬如果摔下來(lái),也是會(huì)死的。
[1] “飛豬理論”又稱(chēng)“風(fēng)口論”,是指小米創(chuàng)始人雷軍說(shuō)過(guò)的一句話(huà):創(chuàng)業(yè),就是要做一頭站在風(fēng)口上的豬,風(fēng)口站對(duì)了,豬也可以飛起來(lái)。這句話(huà)旋即成為創(chuàng)投圈流行語(yǔ),也是“互聯(lián)網(wǎng)思維”的最重要注腳之一,各行各業(yè)尤其是傳統(tǒng)產(chǎn)業(yè)積極尋找風(fēng)口,大家都希望成為下一個(gè)“飛豬”。
【本文為51CTO專(zhuān)欄作者“中國(guó)保密協(xié)會(huì)科學(xué)技術(shù)分會(huì)”原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)聯(lián)系原作者】


















 
 
 






 
 
 
 