科普篇:什么是大數(shù)據(jù)
對(duì)于“大數(shù)據(jù)”(Big data)研究機(jī)構(gòu)Gartner給出了這樣的定義。“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過(guò)時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。
到底多少數(shù)據(jù)量才算大數(shù)據(jù)?到底是結(jié)構(gòu)化的,還是非結(jié)構(gòu)化的?到底是要精確的真實(shí)的?......
如果我們冷靜的思考一下,就會(huì)發(fā)現(xiàn),大數(shù)據(jù)與我們息息相關(guān)(大數(shù)據(jù)已經(jīng)融入了我們衣食住行的每個(gè)角落),但同時(shí)又會(huì)發(fā)現(xiàn),大數(shù)據(jù)所涉及到的這些特殊技術(shù),離我們又是那么的遙遠(yuǎn)。
我們還是來(lái)看看,大數(shù)據(jù)到底改變了什么?它其實(shí)就是通過(guò)海量的數(shù)據(jù)處理,讓我們做決策時(shí)變的更輕松,更靠譜。比如我們?cè)诰W(wǎng)上購(gòu)物時(shí),它首先會(huì)告訴你某個(gè)商品有多個(gè)人評(píng)價(jià),評(píng)價(jià)越多,也就意味著越多人買;當(dāng)你點(diǎn)擊去之后,就可以看到好評(píng)度是95%,還是98%?如果是在360瀏覽器中打開(kāi)的話,還有一個(gè)價(jià)格趨勢(shì),告訴你歷史價(jià)位走勢(shì)如何,其他電商平臺(tái)是不是更便宜?除此之外,還有其他同類或同價(jià)位商品的推薦與排名等。有了這些信息,你就掌握了做一個(gè)購(gòu)買決策時(shí)的幾個(gè)關(guān)鍵信息:
1、這款商品好不好賣?
2、這款商品口碑好不好?
3、這個(gè)價(jià)格便不便宜,現(xiàn)在是不是最便宜的時(shí)候?
4、有沒(méi)有其他更好的商品?——這個(gè)時(shí)候,是否將這個(gè)商品改進(jìn)購(gòu)物籃并付款,做這個(gè)決定變得非常輕松。
那它是怎么做到的呢?就是化繁為簡(jiǎn),將海量的數(shù)據(jù),歸納整理為幾個(gè)簡(jiǎn)單的指標(biāo)。