大數(shù)據(jù)已經(jīng)說濫了?數(shù)據(jù)落地哪兒那么容易
大數(shù)據(jù)已經(jīng)說濫了?數(shù)據(jù)落地哪兒那么容易
曾經(jīng)有一位業(yè)內(nèi)知名廠商的研發(fā)專家表示,對于數(shù)據(jù)更快的處理和擁有更可靠的數(shù)據(jù)質(zhì)量,以及給應用市場進行更加精細的花費,這些都是未來大數(shù)據(jù)時代我們首當其中要做的。
讓數(shù)據(jù)分析處理速度更快
我們現(xiàn)在每天一覺醒來,全球所產(chǎn)生的數(shù)據(jù)量是很龐大的,并且這些數(shù)據(jù)在每小時、甚至每分鐘當中都是以成指數(shù)倍增長的,正因為大量數(shù)據(jù)成這種增長趨勢,使得我么在數(shù)據(jù)的快速分析技術(shù)方面變得比以前更加緊迫,數(shù)據(jù)不等人!
現(xiàn)在IT業(yè)界凡是在做大數(shù)據(jù)的企業(yè)都在自己產(chǎn)品對于數(shù)據(jù)的處理速度上加大研發(fā)力度和投入,從而大做文章,比如像Hadoop發(fā)布的新品Hadoop 2.0 / YARN,幾乎能實時分析數(shù)據(jù)。而下一代大數(shù)據(jù)的計算牽引框架Apache Spark,它的速度比Hadoop快100倍。
據(jù)行業(yè)內(nèi)部了解,硅谷風險投資機構(gòu)Andreessen Horowitz,已經(jīng)以1400萬美元的價格領(lǐng)投了一家以Apache Spark為業(yè)務(wù)核心的初創(chuàng)企業(yè)Databricks。不久前,亞馬遜也上線了實時流數(shù)據(jù)服務(wù)Kinesis ,來幫助沒有數(shù)據(jù)處理能力的公司解決這一問題。

現(xiàn)在越來越多的廠商開始認識到數(shù)據(jù)處理速度對于大數(shù)據(jù)這個戰(zhàn)場上的重要性了,每秒處理近TB大小的數(shù)據(jù)量已經(jīng)不足為奇,傳感器數(shù)據(jù)分析、物聯(lián)網(wǎng)在工業(yè)和消費級市場快速發(fā)展的勢頭也共同推動了大數(shù)據(jù)的前進,特別是當實時處理的傳感器數(shù)據(jù),激增到一天幾TB的時候。速度!就成了尤為關(guān)鍵的指標。
垃圾數(shù)據(jù)?必須清洗掉!
前面我們說了每天大數(shù)據(jù)數(shù)量成指數(shù)倍的激增趨勢,那么對于數(shù)據(jù)質(zhì)量的強化和過濾分析也就讓很多廠商頭疼了,在這一堆龐大的數(shù)據(jù)面前,垃圾數(shù)據(jù)以及很多無用的數(shù)據(jù)不可避免,然而它們也會給我們的機房乃至數(shù)據(jù)中心帶來數(shù)據(jù)處理上的壓力和負擔。
垃圾數(shù)據(jù)一旦產(chǎn)生,就需要我們在數(shù)據(jù)處理的過程當中,對垃圾數(shù)據(jù)進行過濾和清洗,并且自動決策這些數(shù)據(jù)的去留,這樣的環(huán)境下,如果選擇了一個壞的數(shù)據(jù),就會像病毒一樣,可能引發(fā)連續(xù)的錯誤決策,甚至讓企業(yè)蒙受經(jīng)濟損失。試想一下,利用不同算法在股市進行交易,每天以毫秒計時的股市,一旦出現(xiàn)任何數(shù)據(jù)分析或者垃圾數(shù)據(jù)的事故,這個經(jīng)濟損失是不可估量的。
現(xiàn)在,隨著大數(shù)據(jù)的飛速發(fā)展,數(shù)據(jù)質(zhì)量已經(jīng)形成了服務(wù)級別協(xié)議的重要參數(shù),那些無法被屏蔽掉的劣質(zhì)數(shù)據(jù)提供商將會被自動列入黑名單,并且還會面臨很嚴重的經(jīng)濟處罰,B2B行業(yè)為早期數(shù)據(jù)質(zhì)量的入局者,他們非常重視數(shù)據(jù)的質(zhì)量,來保持商業(yè)運作時的穩(wěn)定性。甚至,許多企業(yè)計劃為數(shù)據(jù)質(zhì)量部署實時的警告系統(tǒng),這些警告會被發(fā)送于負責相應問題的專員,由他們提供問題的解決方案。

機器學習系統(tǒng)部署在一個閉環(huán)的生態(tài)中,通過模式分析與其他的數(shù)據(jù)分析技術(shù),細化原來的數(shù)據(jù)質(zhì)量規(guī)則。而高質(zhì)量的數(shù)據(jù),能夠保證機器進行正確的行為模式分析。
數(shù)據(jù)基礎(chǔ)應用日趨豐富
現(xiàn)在我們正處在大數(shù)據(jù)時代,我們的工作、生活、學習都無時無刻不在感受大數(shù)據(jù),的確,我們?nèi)谌肫渲?。那么我們每一個人也就都想利用大數(shù)據(jù)給我們帶來各種便利,從而讓大數(shù)據(jù)能幫我們解決困難,消滅問題,有業(yè)內(nèi)專家曾經(jīng)預測,在未來,將會有成千上萬的解決某一垂直領(lǐng)域的專業(yè)應用,以應對來自各行各業(yè)的大數(shù)據(jù)挑戰(zhàn)。

現(xiàn)在我們可以看到,已經(jīng)有一些數(shù)據(jù)分析公司,像eHarmony、 Roambi、 Climate Corporation等,它們已經(jīng)在大數(shù)據(jù)領(lǐng)域小有成就,我們也慢慢發(fā)覺越來越多的應用已經(jīng)從不同的渠道慢慢滲透出來,它們不依賴特定的基礎(chǔ)設(shè)備,也不需要雇傭?qū)I(yè)的數(shù)據(jù)科學家,因為上面提到的那些數(shù)據(jù)公司足矣完成這些內(nèi)容。
現(xiàn)在的數(shù)據(jù)公司數(shù)據(jù)企業(yè)已經(jīng)可以為用戶提供用戶所需要的各種應用以及用戶需要的不同類型產(chǎn)品,企業(yè)賺錢也變得更有針對性,吃喝玩樂,衣食住行都在這個數(shù)據(jù)時代得到保證和提高,未來的數(shù)據(jù)生活和數(shù)據(jù)應用也會變得越來越豐富。






















