大數(shù)據(jù)時代的小數(shù)據(jù)
大數(shù)據(jù)給世界編織了一副美麗的畫面——萬事萬物皆可數(shù)據(jù)化,有數(shù)據(jù)就可以再要一個新世界。似乎人類沒能夠變成全知全能的造物主,就是因為數(shù)據(jù)不夠多、算法不夠好。
這種極端的觀點一定程度反映了當下大數(shù)據(jù)行業(yè)的浮躁?!度祟惡喪贰防镎f到人類一直有想成為神的欲望,大數(shù)據(jù)的過度"神化"也能看到這種欲望的影子。冷靜下來看,數(shù)據(jù)“大”有“大”的問題,數(shù)據(jù)“小”也有“小”的好處 。
大數(shù)據(jù)理念下的野蠻生長
之前工作中經常會碰到一種場景:搞大數(shù)據(jù)嘛,沒數(shù)據(jù)怎么搞,先把數(shù)據(jù)搞過來再說,越多越好,堆到一起再想怎么用。在這種思路驅動下,商業(yè)上各種解決方案投其所好,搞數(shù)據(jù)集市、數(shù)據(jù)工廠、數(shù)據(jù)生態(tài),應用場景想不清楚沒關系,有了數(shù)據(jù)再發(fā)動大家一起想。邏輯看似很清晰,但往往投入不菲,成效不足。大數(shù)據(jù)之“大”是有成本和代價的,不考慮投入產出、不考慮約束限制的野蠻式發(fā)展,長久難以持續(xù)。
大數(shù)據(jù)應用下的信息“偏見”
互聯(lián)網推薦是目前大數(shù)據(jù)應用較為“成功”的一個場景。這種基于行為數(shù)據(jù)的推薦,基本的邏輯是"瀏覽或搜索的越多——>對這類信息越感興趣——>更需要相關的信息",這種應用思路過度泛化的推廣到生產和工作中,會出現(xiàn)過度依賴相關性和經驗性數(shù)據(jù)的傾向,看似客觀數(shù)據(jù)往往帶著“偏見”?;谶@種推送機制,每天被推送的信息日益雷同,無形之中,獲取的信息會局限在一個特定的認知圈中。而實際生活中,無論個人成長還是社會發(fā)展一直處在動態(tài)變化的過程中,一些看似沒有統(tǒng)計意義的小數(shù)據(jù),往往會起到不可忽視的影響。這種機制下對小數(shù)據(jù)的過濾,對個人來說容易形成偏見,應用到決策則可能產生大數(shù)據(jù)"經驗主義"。
大數(shù)據(jù)語境下的數(shù)據(jù)取舍
之前一個搞了很多年大數(shù)據(jù)的客戶在發(fā)愁,大量的沉淀數(shù)據(jù)怎么處理。不維護說不定還有用,維護吧成本很高,而且還不知道猴年馬月能用一回。理想化一點,是數(shù)據(jù)都留著,花大力氣采集清理大量的數(shù)據(jù),真到用的時候,由于采集口徑、數(shù)據(jù)質量等原因還不一定能用上。
一視同仁的對待所有數(shù)據(jù),管理和應用效率是很低的。從業(yè)務角度,數(shù)據(jù)的價值并不相同。因此,要克服數(shù)據(jù)匱乏的焦慮,對數(shù)據(jù)進行取舍。
有時候,用的時候再去采數(shù)據(jù),或者用人工等傳統(tǒng)方法處理和決策,比起“泛濫性缺乏”的大數(shù)據(jù)可能更有效率。
大數(shù)據(jù)的理念和技術無疑是先進的,值得積極探索。但是要正視大數(shù)據(jù)落地實踐中經常出現(xiàn)“理想豐滿,現(xiàn)實骨感”的無奈。不要片面認為“大”就是好的,合適的才是最好的。






















