大數(shù)據(jù)讓我們接受不準確的存在?事實證明是這樣
在收集樣本的時候,統(tǒng)計學家會用一整套的策略來減少錯誤發(fā)生的概率。在結(jié)果公布之前,他們也會測試樣本是否存在潛在的系統(tǒng)性偏差。這些策略包括根據(jù)協(xié)議或通過受過專門訓練的專家來采集樣本。
但是,即使只是少量的數(shù)據(jù),這些規(guī)避錯誤的策略實施起來還是耗費巨大。尤其是當我們收集所有數(shù)據(jù)的時候,這就行不通了。
不僅是因為耗費巨大,還因為在大規(guī)模的基礎上保持數(shù)據(jù)收集標準的一致性不太現(xiàn)實。就算是不讓人們進行溝通爭吵,也不能解決這個問題。
大數(shù)據(jù)時代要求我們重新審視精確性的優(yōu)劣。如果將傳統(tǒng)的思維模式運用于數(shù)字化、網(wǎng)絡化的21世紀,就會錯過重要的信息。執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物。
在那個信息貧乏的時代,任意一個數(shù)據(jù)點的測量情況都對結(jié)果至關(guān)重要。所以,我們需要確保每個數(shù)據(jù)的精確性,才不會導致分析結(jié)果的偏差。
有時候,當我們掌握了大量新型數(shù)據(jù)時,精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢。
大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實現(xiàn)精確性。然而,除了一開始會與我們的直覺相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進行預測,也能夠更好地理解這個世界。
值得注意的是,錯誤性并不是大數(shù)據(jù)本身固有的。它只是我們用來測量、記錄和交流數(shù)據(jù)的工具的一個缺陷。如果說哪天技術(shù)變得完美無缺了,不精確的問題也就不復存在了。
錯誤并不是大數(shù)據(jù)固有的特性,而是一個亟需我們?nèi)ヌ幚淼默F(xiàn)實問題,并且有可能長期存在。因為擁有更大數(shù)據(jù)量所能帶來的商業(yè)利益遠遠超過增加一點精確性,所以通常我們不會再花大力氣去提升數(shù)據(jù)的精確性。
這又是一個關(guān)注焦點的轉(zhuǎn)變,正如以前,統(tǒng)計學家們總是把他們的興趣放在提高樣本的隨機性而不是數(shù)量上。如今,大數(shù)據(jù)給我們帶來的利益,讓我們能夠接受不精確的存在了。