【大數(shù)據(jù)分析】紛繁復(fù)雜的數(shù)據(jù)越多越好
傳統(tǒng)的樣本分析師們都很難容忍錯(cuò)誤數(shù)據(jù)的存在,因?yàn)樗麄円簧荚谘芯咳绾畏乐购捅苊忮e(cuò)誤的出現(xiàn)。
在收集樣本的時(shí)候,統(tǒng)計(jì)學(xué)家會(huì)用一整套的策略來減少錯(cuò)誤發(fā)生的概率。
在結(jié)果公布之前,他們也會(huì)測(cè)試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過受過專門訓(xùn)練的專家來采集樣本。但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯(cuò)誤的策略實(shí)施起來還是耗費(fèi)巨大。
尤其是當(dāng)我們收集所有數(shù)據(jù)的時(shí)候,這就行不通了。不僅是因?yàn)楹馁M(fèi)巨大,還因?yàn)樵诖笠?guī)模的基礎(chǔ)上保持?jǐn)?shù)據(jù)收集標(biāo)準(zhǔn)的一致性不太現(xiàn)實(shí)。就算是不讓人們進(jìn)行溝通爭(zhēng)吵,也不能解決這個(gè)問題。
大數(shù)據(jù)時(shí)代要求我們重新審視精確性的優(yōu)勢(shì)。如果將傳統(tǒng)的思維模式運(yùn)用于數(shù)字化、網(wǎng)絡(luò)化的21世紀(jì),就會(huì)錯(cuò)過重要的信息。
執(zhí)迷于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。在那個(gè)信息貧乏的時(shí)代,任意一個(gè)數(shù)據(jù)點(diǎn)的測(cè)量情況都對(duì)結(jié)果至關(guān)重要。所以,我們需要確保每個(gè)數(shù)據(jù)的精確性,才不會(huì)導(dǎo)致分析結(jié)果的偏差。
如今,我們已生活在信息時(shí)代,我們掌握的數(shù)據(jù)庫(kù)越來越全面,它不再只包括我們手頭現(xiàn)象的一點(diǎn)點(diǎn)可憐的數(shù)據(jù),而是包括了與這些現(xiàn)象相關(guān)的大量甚至全部數(shù)據(jù)。我們不再需要那么擔(dān)心某個(gè)數(shù)據(jù)點(diǎn)對(duì)整套分析的不利影響。我們要做的就是要接受這些紛繁的數(shù)據(jù)并從中受益,而不是以高昂的代價(jià)消除所有的不確定性。
在華盛頓州布萊恩市的英國(guó)石油公司切利博因特?zé)捰蛷S里,無線感應(yīng)器遍布于整個(gè)工廠,形成無形的網(wǎng)絡(luò),能夠產(chǎn)生大量實(shí)時(shí)數(shù)據(jù)??釤岬膼毫迎h(huán)境和電氣設(shè)備的存在有時(shí)會(huì)對(duì)感應(yīng)器讀書有所影響,形成錯(cuò)誤的數(shù)據(jù)。
但是數(shù)據(jù)生成的數(shù)量之多可以彌補(bǔ)這些小錯(cuò)誤。隨時(shí)監(jiān)測(cè)管道的承壓使得BP能夠了解到,有些種類的原油比其他種類更具有腐蝕性。以前,這些都是無法發(fā)現(xiàn)也無法防止的。
有時(shí)候,當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。
大數(shù)據(jù)不僅不再讓我們期待精確性,也讓我們無法實(shí)現(xiàn)精確性。
然而,除了一開始會(huì)與我們的直覺相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界。
值得注意的是,錯(cuò)誤性并不是大數(shù)據(jù)本身固有的。它只是我們用來測(cè)量、記錄和交流數(shù)據(jù)的工具的一個(gè)缺陷。
如果說哪天技術(shù)變得完美無缺了,不精確的問題也就不復(fù)存在了。
錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問題,并且有可能長(zhǎng)期存在。
因?yàn)閾碛懈髷?shù)據(jù)量所能帶來的商業(yè)利益遠(yuǎn)遠(yuǎn)超過一點(diǎn)精確性,所以通常我們不會(huì)再花大力氣去提升數(shù)據(jù)的精確性。
這又是一個(gè)關(guān)注焦點(diǎn)的轉(zhuǎn)變,正如以前,統(tǒng)計(jì)學(xué)家們總是把他們的興趣放在提高樣本的隨機(jī)性而不是數(shù)量上。如今,大數(shù)據(jù)給我們帶來的利益,讓我們能夠接受不精確的存在了。