誰(shuí)會(huì)真的在乎如何定義大數(shù)據(jù)?
看著那么多人在爭(zhēng)論如何定義大數(shù)據(jù),感覺(jué)非常有意思。總是會(huì)有人提出不同的建議,即便只是存在細(xì)微的差別。在任何規(guī)則的背后也都會(huì)有潛在的例外。因此,從商業(yè)角度,而不是單純的學(xué)術(shù)研究方面來(lái)講,我認(rèn)為在這樣的爭(zhēng)論上花很多精力并沒(méi)有太大的實(shí)際價(jià)值。還是讓我們來(lái)一探究竟吧。
數(shù)據(jù)分析的目的是為了利用數(shù)據(jù)去做出更好的商業(yè)決策。這一切都在于它的商業(yè)價(jià)值。判定數(shù)據(jù)本身究竟是“大”與否并沒(méi)有增加任何的商業(yè)價(jià)值。業(yè)界需要關(guān)心的問(wèn)題其實(shí)很簡(jiǎn)單:是否存在一些其本身具有很高的潛在價(jià)值,但目前仍未被收集的數(shù)據(jù)源?如果答案是肯定的,那么它就需要被收集并分析。這便是一個(gè)商業(yè)人士應(yīng)該關(guān)心的核心問(wèn)題。他們并不需要去在意數(shù)據(jù)本身的大還是小,或者介于兩者之間。
讓我們來(lái)想象一個(gè)應(yīng)用場(chǎng)景,一群商業(yè)以及IT人士聚集在一個(gè)大型會(huì)議室,討論一項(xiàng)新的數(shù)據(jù)源。作為座談的一部分,他們達(dá)成一致協(xié)議,認(rèn)為這項(xiàng)新的數(shù)據(jù)源應(yīng)當(dāng)(或不應(yīng)當(dāng))被認(rèn)定為大數(shù)據(jù)。這份結(jié)論對(duì)推動(dòng)會(huì)議進(jìn)程起到了任何作用嗎?什么也沒(méi)有。真正推動(dòng)會(huì)議進(jìn)程的,是這只商業(yè)團(tuán)隊(duì)認(rèn)可這項(xiàng)新的數(shù)據(jù)資源是有用的并且值得分析;是這只IT團(tuán)隊(duì)決定如何基于數(shù)據(jù)本身的特點(diǎn)以***的方式使得數(shù)據(jù)可用。只有當(dāng)致力于使數(shù)據(jù)付諸于工作而不僅僅停留在語(yǔ)義的定奪上,才會(huì)有真正的進(jìn)展。
如上所說(shuō),一旦決定某項(xiàng)數(shù)據(jù)源是重要的,那么數(shù)據(jù)本身的特點(diǎn)會(huì)影響我們?nèi)绾潍@取它以及如何將其應(yīng)用于分析過(guò)程。舉例來(lái)說(shuō),如果這項(xiàng)數(shù)據(jù)通常是大數(shù)據(jù)并且/或者是松散的,我們可能會(huì)需要利用某些與大數(shù)據(jù)相關(guān)的技術(shù)。但是,這僅僅是出于一種技術(shù)實(shí)現(xiàn)方面的考慮。而關(guān)于這項(xiàng)數(shù)據(jù),做出是否具有足夠價(jià)值去收集的重大決定,與我們將其置于怎樣的語(yǔ)言定義范疇,沒(méi)有任何的關(guān)系。
另一個(gè)通常性的錯(cuò)誤是將大數(shù)據(jù)等同于具體工具或技術(shù)的運(yùn)用。但是,工具和技術(shù)的應(yīng)用是廣泛的,并不僅僅局限于大數(shù)據(jù)。舉例來(lái)說(shuō),如果我想為一家全球性組織做一項(xiàng)關(guān)于情緒與所有社會(huì)媒體評(píng)論的分析,我可能有大量的數(shù)據(jù)需要處理。我還需要某些復(fù)雜的文字分析工具和情感計(jì)算法則?,F(xiàn)在讓我們來(lái)假設(shè)我想要做一項(xiàng)關(guān)于情緒與10條對(duì)我的評(píng)論的分析。猜猜會(huì)怎樣呢?我需要完全相同的文本分析工具和情感計(jì)算法則。我只是不需要用相同的標(biāo)準(zhǔn)去衡量他們。
通過(guò)以上觀點(diǎn)可以看到,更多與“大數(shù)據(jù)”相關(guān)的其實(shí)是一個(gè)“不同數(shù)據(jù)類型”的組合。文本數(shù)據(jù)需要不同的工具和技術(shù)。半結(jié)構(gòu)化數(shù)據(jù)比起傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)需要更多不同的處理。但是,這些數(shù)據(jù)類型對(duì)于無(wú)論是大型還是小型數(shù)據(jù)而言都需要不同的處理方式。
對(duì)于負(fù)責(zé)大數(shù)據(jù)技術(shù)實(shí)現(xiàn)的人群,還是有必要去練習(xí)理解各類數(shù)據(jù)的不同,以及他們是被如何定義的。我并不是說(shuō)在這個(gè)領(lǐng)域里的所有努力都是浪費(fèi)時(shí)間。如果你連數(shù)據(jù)本身所包含的內(nèi)容都不理解,那你如何去開(kāi)發(fā)處理數(shù)據(jù)的工具以及技術(shù)呢。我僅僅是認(rèn)為,我們過(guò)多的強(qiáng)調(diào)了涉及客戶的主題,例如那些實(shí)際上并不用去擔(dān)心的商業(yè)客戶。
下一次當(dāng)有人再向你詢問(wèn)如何定義大數(shù)據(jù),或者某一項(xiàng)數(shù)據(jù)來(lái)源是否應(yīng)當(dāng)被認(rèn)定為大數(shù)據(jù)的時(shí)候,考慮下你將如何回答。你們真的需要這樣的討論嗎?或許你們是否需要換個(gè)角度,更多的去研討這項(xiàng)數(shù)據(jù)可能會(huì)具有怎樣的價(jià)值以及應(yīng)當(dāng)怎樣予以分析?我相信,如果選擇了后者,你們將會(huì)取得更大的進(jìn)展,獲取更大的價(jià)值。