第2期:非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)是忽悠
大數(shù)據(jù)概念興起的同時也帶熱了非結(jié)構(gòu)化數(shù)據(jù)分析。傳說一個企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),如果按占據(jù)空間來算,這個比例大體不假,畢竟音視頻這類數(shù)據(jù)真地很大。有這么大的數(shù)據(jù)量,需要進行分析是很自然的事了,而要分析當然就要有相應的技術(shù)手段了。
那為什么說非結(jié)構(gòu)化數(shù)據(jù)分析技術(shù)是忽悠呢?
不存在通用的非結(jié)構(gòu)化數(shù)據(jù)計算技術(shù)
非結(jié)構(gòu)化數(shù)據(jù)五花八門,有聲音圖像、文本網(wǎng)頁、辦公文檔、設備日志、….;每類數(shù)據(jù)的都有各自的計算處理手段,比如語音識別、圖像比對、文本搜索、圖結(jié)構(gòu)計算等等,但是并不存在一種適用于所有非結(jié)構(gòu)化數(shù)據(jù)的通用計算技術(shù)。語音識別的方法不能用于圖像比對、文本搜索和圖結(jié)構(gòu)計算也扯不上關(guān)系。
一個廠商如果擅長某種技術(shù),那一定會直接宣稱自己專業(yè)于該領域,而不會泛泛地說自己精于非結(jié)構(gòu)化數(shù)據(jù)分析。比如人臉識別做得非常精準、或是文本敏感詞挖掘的專業(yè)公司,顯然這樣更容易定位用戶和應用場景。如果一家公司只說自己擅長非結(jié)構(gòu)化數(shù)據(jù)分析而不指明具體的領域,那就不知道到底能做些什么了。
面向非結(jié)構(gòu)化數(shù)據(jù)的通用技術(shù)只是存儲
雖然許多專業(yè)技術(shù)領域都可以歸類為對非結(jié)構(gòu)化數(shù)據(jù)的處理,但總體應用范圍并不廣泛,大多數(shù)用戶還用不上這些專門技術(shù),而只是需要把這些數(shù)據(jù)存儲下來。非結(jié)構(gòu)化數(shù)據(jù)沒有通用的分析計算技術(shù),但存儲和相應的管理(增刪檢索等)是可以通用化的。非結(jié)構(gòu)化數(shù)據(jù)占據(jù)的空間較大,經(jīng)常需要不同于結(jié)構(gòu)化數(shù)據(jù)的特殊存儲手段。
不過,如果不是數(shù)據(jù)量特別大,或者有高并發(fā)的檢索需求,大多數(shù)的網(wǎng)絡文件系統(tǒng)(如HDFS)已經(jīng)能夠勝任存儲和訪問需求。廠家如果只喊能做非結(jié)構(gòu)化數(shù)據(jù)的存儲和基本管理,那會顯得沒什么技術(shù)含量。所以這些廠商會不遺余力地往分析上靠,但沒有實質(zhì)東西。而能提供大容量高性能的訪問的專業(yè)存儲廠商卻只會喊存儲,而不會刻意提及分析。
通用分析技術(shù)在于相伴產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)
采集非結(jié)構(gòu)化數(shù)據(jù)的同時,常常會伴隨著采集許多相關(guān)的結(jié)構(gòu)化數(shù)據(jù),比如音視頻的制作人、制作時間、所屬類別、時長、…;有些非結(jié)構(gòu)化數(shù)據(jù)經(jīng)過處理后也會轉(zhuǎn)變成結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)頁日志中拆解出訪問人IP、訪問時刻、關(guān)鍵搜索詞等。所謂的非結(jié)構(gòu)化數(shù)據(jù)分析,經(jīng)常實際上是針對這些伴生而出的結(jié)構(gòu)化數(shù)據(jù),這個領域有不少較為成熟的通用計算技術(shù)(比如關(guān)系代數(shù)和關(guān)系數(shù)據(jù)庫)。
但現(xiàn)在只喊結(jié)構(gòu)化數(shù)據(jù)顯得不夠時髦,為了吸引用戶,就要把本質(zhì)上的結(jié)構(gòu)化數(shù)據(jù)分析說成是非結(jié)構(gòu)化數(shù)據(jù)分析了。
作為需求方的用戶,這時候需要清楚地知道到底要對這些數(shù)據(jù)做什么處理。如果只是簡單存儲,那上個HDFS這類開源網(wǎng)絡文件系統(tǒng)就夠了;如果有高性能訪問需求,那要找專業(yè)的存儲廠商;如果其實要分析的是伴生出來的結(jié)構(gòu)化數(shù)據(jù),那就是已經(jīng)熟悉的數(shù)據(jù)庫類業(yè)務了;如果真有特定的處理需求,那也是找專門領域的廠商和技術(shù)。總之,不要泛泛地只說需要非結(jié)構(gòu)化數(shù)據(jù)分析。