大數(shù)據(jù)也許不是你想象的那么智能?
大家也許還沒意識到,但實際上數(shù)據(jù)的重要意義已經(jīng)不局限于計算機系統(tǒng)當中的關鍵性要素——數(shù)據(jù)已經(jīng)在各個領域開枝散葉、成為維系整個世界的樞紐。
引用來自摩根大通公司一位常務董事的評價,數(shù)據(jù)已經(jīng)成為“企業(yè)的命脈”。他是在最近剛剛舉辦的一場重要技術會議(以數(shù)據(jù)為主要討論對象)上拋出這番言論的,本次會議還深入解析了各機構走向“數(shù)據(jù)驅動”之路的途徑。
《哈佛商業(yè)評論》雜志稱“數(shù)據(jù)科學家”將成為“二十一世紀最性感的職位”。在這篇刊發(fā)的文章中,作者詳細描述了Netflix如何采集每位用戶所進行的每一項操作,并將我們“從快樂的用戶轉化成無意識的傀儡”。文章還告誡大家稱“海量數(shù)據(jù)分析與處理已經(jīng)成為現(xiàn)實,且有愈演愈烈之勢。”
不顧后果、毫無章法地使用“大數(shù)據(jù)”概念
前面提到的所有文章都在極力鼓吹大數(shù)據(jù)的優(yōu)勢與威能,并希望借此實現(xiàn)大數(shù)據(jù)的宣傳、營銷或者盈利目標——毫無疑問,大數(shù)據(jù)已經(jīng)成為今年最耀眼的技術發(fā)展趨勢。如果讀者朋友自己是技術人士,應該會明顯感覺到如今這個時代開口不談大數(shù)據(jù)簡直沒臉跟同仁打招呼。但與此同時,大家似乎對這個話題都說不出個所以然,因為沒幾個人能真正說清大數(shù)據(jù)是個什么玩意兒。呃,其實這一結論也有點武斷。嚴格來說,目前的大數(shù)據(jù)概念主要從屬于幾股以產(chǎn)品為載體的派別:
• 由于業(yè)界大佬谷歌、Facebook及Amazon對于信息的極度渴求,處于爆炸式增長中的新數(shù)據(jù)被批量收集起來(包括存儲、處理以及分析)。
• 信息的多元化特性愈發(fā)顯著,這一狀況源自網(wǎng)上購物、Facebook狀態(tài)更新、tweet內容、圖片共享以及各類登記資料等等。
• 整個業(yè)界都在渴求一種能夠將如此龐大數(shù)據(jù)盡快、盡可能高效打理好的方案。
然而大數(shù)據(jù)概念似乎正被不顧后果、毫無章法地過度使用;即使偶爾使用方法對路,其適用范圍也并不像技術人員想象的那么寬泛。
前面提到的三種派別都是真實存在的。谷歌公司正在極力攫取來自各類資源的每一字節(jié)信息內容,試圖為盡可能多的用戶創(chuàng)建與其使用習慣相匹配的配置文件。(這種思路無疑是把雙刃劍:就以Google Now為例,它會以‘在客戶發(fā)現(xiàn)需求前推薦合適的產(chǎn)品’為借口大肆進行廣告宣傳——但在這里我們不打算討論道德層面的問題。)
很顯然,這種源自各類源頭的數(shù)據(jù)信息不會以規(guī)則的形式存在。因此谷歌公司可能需要一套獨特的處理工具集來打理這些數(shù)據(jù),至少這類方案不同于過去存在的任何數(shù)據(jù)數(shù)量及類型。
目前聲名最盛的兩大工具分別為Hadoop——一款非關系型分布式數(shù)據(jù)庫框架——與MapReduce——一套由谷歌公司開發(fā)的算法集合,旨在將來自各類資源的多元化數(shù)據(jù)整理為獨立的一套鍵/值對。通過Hadoop與MapReduce,谷歌能夠將海量數(shù)據(jù)集合拆分為可以管理的數(shù)據(jù)塊,并通過服務器群獨立處理這些非狀態(tài)化數(shù)據(jù)塊。
這一切真能成為現(xiàn)實嗎?在無需復雜的預處理過程的前提下將原本無法輕松、快速管理的大數(shù)據(jù)集合通過關系型數(shù)據(jù)庫打理好?有可能。 #p#
谷歌公司的特殊需求
MapReduce真如傳聞中那樣有能力承載數(shù)據(jù)合并技術之王、游戲規(guī)則改寫者的桂冠嗎?答案幾乎是否定的:谷歌公司此項專利技術的合法性一直備受質疑,而且不少現(xiàn)有產(chǎn)品都能夠以更簡單的方式輕松實現(xiàn)相同的功能。目前谷歌在網(wǎng)絡上公布的基本MapReduce實例只有幾十行Java代碼,從這些內容上看我們找不到任何革命性的理念及突破。
但我們姑且假設谷歌公司需要這些工具來滿足自身非常獨特的需求,換言之,我們不妨假定各類現(xiàn)有工具及數(shù)據(jù)庫框架還不足以實現(xiàn)谷歌的技術雄心。在這種情況下,大數(shù)據(jù)顯然并不能成為適用于所有機構、適合處理所有海量計算機應用的方案。盡管大數(shù)據(jù)支持者們始終堅信這一點,但我們對于此類新型數(shù)據(jù)庫及軟件模型尚無法寄托如此級別的厚望。
大量數(shù)據(jù),甚至是海量數(shù)據(jù)的不斷涌現(xiàn)也早已算不上什么新鮮事。在投資銀行領域,高頻交易系統(tǒng)始終需要以微秒為時間單位處理眾多交易事務;市場數(shù)據(jù)引擎多年來也一直需要以秒為單位存儲并處理成千上萬價格標記。
再來說說我的朋友Ken Caldeira,他在斯坦福大學卡內基研究所里埋頭鼓搗氣象科學。正如預料,我發(fā)現(xiàn)他經(jīng)常需要與“PB級數(shù)據(jù)”打交道。我另一位曾在華爾街接受過數(shù)據(jù)分析工程培訓的物理學家同事則在2000年之后花了長時間搞基因組研究,根據(jù)他的說法整個研究過程中存在“數(shù)據(jù)驚人的數(shù)據(jù)需要進行分析”。
在大數(shù)據(jù)的時代,前所未有的龐大數(shù)據(jù)集經(jīng)常被引用、幾乎每個人都或多或少與之有所接觸,而上一代工具面對如此規(guī)模的工作量顯得非常無力。
但在大多數(shù)情況下,Caldeira和我的數(shù)據(jù)分析專家朋友還在使用……Python腳本與C++來解決問題。沒錯,確實有不少大數(shù)據(jù)用戶目前在使用大規(guī)模并行架構、集群及云計算實現(xiàn)處理工作,但這種做法已經(jīng)出現(xiàn)了十年以上;而且如我的朋友所指出,“人們常常分不清自己在云中做出的成果跟他人有何區(qū)別,這是因為云環(huán)境下的數(shù)據(jù)無法明確區(qū)分出不同開發(fā)者做出的貢獻。”利用分布式數(shù)據(jù)庫來贏得更快的速度與更安全的冗余機制對于每位用戶都非常重要,至少能夠幫助我們顯著壓縮現(xiàn)有硬件成本。
你能想象自己信賴的銀行在tweet及Facebook博文中計算賬戶信息嗎?
另一種引發(fā)大數(shù)據(jù)算法變革的因素在于不同類型數(shù)據(jù)的爆炸式增長。正如前文所述,谷歌與Facebook等公司需要為配置文件或來自各類資源的統(tǒng)計信息進行創(chuàng)建及處理工作,更令人頭痛的是這些信息的格式同樣多種多樣。當然,并不是每位用戶都面臨著這樣的問題。當人們討論這些新型、凌亂繁雜的非結構化數(shù)據(jù)時,他們大多數(shù)情況下指的都是來自社交網(wǎng)絡及博客平臺的信息。
銀行領域所使用的核心系統(tǒng)(在處理交易事務方面,老式關系類數(shù)據(jù)庫仍然占據(jù)著絕對的統(tǒng)治地位)真的需要接觸到社交媒體數(shù)據(jù)嗎?庫存系統(tǒng)、數(shù)字目錄或者癌癥研究人士所使用的系統(tǒng)呢?我們還需要考慮,如果數(shù)據(jù)出于某種原因而無法通過分布式、無狀態(tài)的方式處理,大數(shù)據(jù)技術又能起什么作用?
高度非結構化數(shù)據(jù)仍然占據(jù)著專門但規(guī)模相對有限的利基市場,但其表現(xiàn)與地位則相當搶眼。與當下常見的系統(tǒng)不同,大數(shù)據(jù)技術不需要對來自各類資源的合并數(shù)據(jù)提前進行解析、翻譯或者預處理。
如果某家公司在多年之后突然認為自己需要大數(shù)據(jù)技術來讓業(yè)務更進一步,則意味著他們一定在業(yè)務領域迎來了根本性轉變、開始走向與之前的經(jīng)營方式完全不同的發(fā)展道路——很顯然,即使是在極端情況下上述假設也很難成立。 #p#
讓你的系統(tǒng)具備可擴展性,一夜之間大數(shù)據(jù)就可能來到身邊
大數(shù)據(jù)這個概念常常被過度濫用,要么就是被完全錯誤理解。對于某個特定應用程序中數(shù)據(jù)量的增加而言,無論這種增長幅度有多么迅猛,我們都不能就將其稱之為大數(shù)據(jù)應用。我們需要做的是對這套系統(tǒng)進行擴容,而這個過程根本沒那么復雜——只需做一些設計調整,如果系統(tǒng)本身就預留了擴展設計,連調整都不需要。
以計算機為基礎的文本分析工作則始終處于發(fā)展之中。記得二十世紀七十年代就有學者在對莎士比亞的戲劇作品進行分析,希望找出其特定單詞出現(xiàn)的頻率與模式——當時我就被深深吸引住了。如果說如今的大數(shù)據(jù)有什么新突破的話,可能就是將這項工作擴展到范圍更大、數(shù)量更巨的文本內容中來。
如果這些文本在20年前就已經(jīng)出現(xiàn),而我們要在當時對其規(guī)律與模式進行摸索,那簡直是不可能完成的任務??茖W家們紛紛搖頭甩手,表示“我們已經(jīng)有技術基礎了,只是無法真正實現(xiàn)。”即使是在仍不了解這些分析工作細節(jié)的今天,我發(fā)現(xiàn)研究人士仍然很難通過完全不同于傳統(tǒng)排序及搜索思路的方式構建代碼算法??梢哉f大數(shù)據(jù)在這方面并沒有帶來什么開創(chuàng)性成就。
如果DVD光盤租賃公司能夠在上世紀九十年代抓住這類細節(jié)信息,他們可能會很樂于積極捕捉并加以分析。這種令人不安的趨勢引出一個問題:電影租賃公司在擁有這種能力后會如何加以利用、怎樣將其轉化為利潤或者給企業(yè)之間的合作帶來哪些影響?這些數(shù)據(jù)就像拼圖中的圖塊,能夠解開這道謎題將使得企業(yè)擁有絕對的主動權。
“數(shù)據(jù)”并沒有在一夜之間就成為萬惡之源,最多只能說是一躍成為新時代的另一種重要資源。我們既不應該過分迷信大數(shù)據(jù)、將現(xiàn)有非大數(shù)據(jù)技術馬上棄之不顧,也不應該將一切問題都推在大數(shù)據(jù)身上。很顯然,傳統(tǒng)技術不會瞬間“過時”、新技術也無法一手遮天。