大數(shù)據(jù)預(yù)測(cè):2020年將帶來(lái)什么
每到歲末年初,行業(yè)專家就會(huì)對(duì)未來(lái)一年的技術(shù)發(fā)展進(jìn)行預(yù)測(cè),而如今,一切始于大數(shù)據(jù)問(wèn)題最關(guān)鍵的方面:數(shù)據(jù)本身。
不可否認(rèn),Hadoop在2019年的發(fā)展經(jīng)歷了艱難的一年。但是它完全消亡了嗎? Alluxio公司創(chuàng)始人兼首席技術(shù)官Haoyuan Li為此表示,以Hadoop分布式文件系統(tǒng)(HDFS)形式存在的Hadoop存儲(chǔ)已失效,但以Apache Spark形式存在的Hadoop計(jì)算仍然存在。
Haoyuan Li說(shuō):“關(guān)于Hadoop消亡的說(shuō)法很多。但是Hadoop生態(tài)系統(tǒng)還有后起之秀。諸如Spark和Presto之類的計(jì)算框架可從數(shù)據(jù)中獲取更多價(jià)值,并已被更廣泛的計(jì)算生態(tài)系統(tǒng)所采用。Hadoop存儲(chǔ)(HDFS)由于其復(fù)雜性和成本以及由于與HDFS保持聯(lián)系,而從根本上無(wú)法彈性擴(kuò)展因此導(dǎo)致消亡。為了獲得實(shí)時(shí)見(jiàn)解,用戶需要云中可用的即時(shí)和靈活的計(jì)算能力。HDFS中的數(shù)據(jù)將遷移到最優(yōu)化和最具成本效益的系統(tǒng),無(wú)論是云存儲(chǔ)還是本地對(duì)象存儲(chǔ)。HDFS將會(huì)消亡,但是Hadoop計(jì)算將持續(xù)存在并且越來(lái)越強(qiáng)大。”
Cloudian公司首席營(yíng)銷官(CMO)Jon Toor表示,隨著HDFS數(shù)據(jù)湖部署的緩慢,Cloudian公司已經(jīng)準(zhǔn)備就緒,可以將數(shù)據(jù)捕獲并將其捕獲到其對(duì)象存儲(chǔ)中。
Toor說(shuō),“在2020年,我們將看到越來(lái)越多的組織利用對(duì)象存儲(chǔ)從非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)建結(jié)構(gòu)化/標(biāo)記數(shù)據(jù),從而允許使用元數(shù)據(jù)來(lái)理解人工智能和機(jī)器工作負(fù)載生成的數(shù)據(jù)海嘯。”
ThoughtSpot公司首席執(zhí)行官Sudheesh Nair表示,像Hadoop這樣的事情的終結(jié)將引發(fā)另一件事的開(kāi)始。
Nair說(shuō):“在過(guò)去的10年中,我們看到了Hadoop的興起、平穩(wěn)發(fā)展和終結(jié)的開(kāi)始。這不是因?yàn)榇髷?shù)據(jù)已經(jīng)死亡。恰恰相反,幾乎每個(gè)組織都在致力于成為大數(shù)據(jù)公司。這是在當(dāng)今商業(yè)環(huán)境下運(yùn)作的要求。數(shù)據(jù)已經(jīng)變得如此龐大,而且對(duì)這種數(shù)據(jù)的靈活性需求如此之大,然而,很多企業(yè)或者正在構(gòu)建自己的數(shù)據(jù)池或數(shù)據(jù)倉(cāng)庫(kù),或者直接進(jìn)入云平臺(tái)。隨著2020年這一趨勢(shì)的加速,我們將看到Hadoop的應(yīng)用繼續(xù)下降。”
當(dāng)數(shù)據(jù)變得足夠大時(shí),就會(huì)施加類似引力的力,使其難以移動(dòng),同時(shí)還可以吸引更多數(shù)據(jù)。Digital Realty公司首席技術(shù)官Chris Sharp說(shuō),了解數(shù)據(jù)的引力將幫助企業(yè)克服數(shù)字化轉(zhuǎn)型的障礙。
Sharp說(shuō):“數(shù)據(jù)的生成速度是許多企業(yè)無(wú)法跟上的。這不僅增加了這種復(fù)雜性,企業(yè)還從難以移動(dòng)和有效利用的多個(gè)位置處理有用卻不實(shí)用的數(shù)據(jù)。這給企業(yè)帶來(lái)了一個(gè)‘數(shù)據(jù)引力’問(wèn)題,這將阻止數(shù)字化轉(zhuǎn)型計(jì)劃向前推進(jìn)。在2020年,我們將看到企業(yè)通過(guò)將應(yīng)用程序更靠近數(shù)據(jù)源而不是將資源傳輸?shù)街醒胛恢脕?lái)解決數(shù)據(jù)引力問(wèn)題。通過(guò)本地化數(shù)據(jù)流量、分析和管理,企業(yè)將更有效地控制其數(shù)據(jù)并擴(kuò)展數(shù)字業(yè)務(wù)。”
在所有條件都相同的情況下,擁有更多數(shù)據(jù)總比擁有更少數(shù)據(jù)更好。TD Ameritrade公司的人工智能、數(shù)據(jù)科學(xué)和新興技術(shù)總監(jiān)Beaumont Vance認(rèn)為,但企業(yè)可以利用現(xiàn)有技術(shù)來(lái)更好地利用已有數(shù)據(jù),從而實(shí)現(xiàn)突破。
Vance說(shuō),“隨著企業(yè)創(chuàng)建新的數(shù)據(jù)池,開(kāi)發(fā)更好的技術(shù)來(lái)理解研究結(jié)果,我們將看到人工智能前所未有的真正價(jià)值。目前,企業(yè)使用的內(nèi)部數(shù)據(jù)不到所有數(shù)據(jù)的20%,但通過(guò)新的人工智能功能,剩下的80%未開(kāi)發(fā)的數(shù)據(jù)將是可用的,并且更容易理解。先前無(wú)法解決的問(wèn)題將有顯著的改善,有助于推動(dòng)行業(yè)和社會(huì)的巨大變革。”
大數(shù)據(jù)很難管理,那么能用小數(shù)據(jù)采用人工智能技術(shù)嗎?Zinier公司首席執(zhí)行官Arka Dhar對(duì)此表示肯定。
Dhar說(shuō):“展望未來(lái),我們將不再需要大量的大數(shù)據(jù)集來(lái)訓(xùn)練人工智能算法。在以往,數(shù)據(jù)科學(xué)家一直需要大量數(shù)據(jù)才能對(duì)人工智能模型進(jìn)行準(zhǔn)確的推斷。人工智能的進(jìn)步使我們能夠以更少的數(shù)據(jù)獲得類似的結(jié)果。”
數(shù)據(jù)的存儲(chǔ)方式?jīng)Q定了應(yīng)該如何處理。GridGain公司首席執(zhí)行官Abe Kleinfeld說(shuō),人們可以使用存儲(chǔ)在內(nèi)存中的數(shù)據(jù)而不是硬盤上做更多的事情。到2020年,人們將看到組織在基于內(nèi)存的系統(tǒng)上存儲(chǔ)更多數(shù)據(jù)。
Kleinfeld說(shuō):“到2020年,隨著數(shù)字轉(zhuǎn)型推動(dòng)企業(yè)大規(guī)模進(jìn)行實(shí)時(shí)數(shù)據(jù)分析和決策,內(nèi)存技術(shù)的采用將繼續(xù)飆升。假設(shè)從一架飛機(jī)上的傳感器收集實(shí)時(shí)數(shù)據(jù),以監(jiān)控性能,并且希望為單臺(tái)發(fā)動(dòng)機(jī)開(kāi)發(fā)預(yù)測(cè)性維護(hù)功能。現(xiàn)在必須將實(shí)時(shí)數(shù)據(jù)流中的異常讀數(shù)與數(shù)據(jù)池中存儲(chǔ)的特定引擎的歷史數(shù)據(jù)進(jìn)行比較。目前,唯一經(jīng)濟(jì)有效的方法是使用內(nèi)存中的數(shù)據(jù)集成中心,它基于一個(gè)內(nèi)存計(jì)算平臺(tái),比如集成了Apache Spark、Apache Kafka,而像Hadoop這樣的DataLake存儲(chǔ)……隨著數(shù)據(jù)集成中心在企業(yè)中的不斷擴(kuò)展,2020年有望成為采用內(nèi)存計(jì)算的關(guān)鍵一年。”
Information Builders公司副總裁Eric Raab和Kabir Choudry表示,大數(shù)據(jù)可以讓企業(yè)的業(yè)務(wù)夢(mèng)想成真,或者也可能會(huì)變成一場(chǎng)噩夢(mèng)。選擇權(quán)在于人們自己。
Raab和Choudry說(shuō):“那些投資于管理、分析和正確操作數(shù)據(jù)的解決方案的企業(yè),將比以往任何時(shí)候都更清楚地了解自己的業(yè)務(wù)和成功之路。那些還沒(méi)有得到信息的組織和人員,將會(huì)留下大量他們無(wú)法真正理解或負(fù)責(zé)任地采取行動(dòng)的信息,使他們做出錯(cuò)誤的決定或使數(shù)據(jù)癱瘓。”
面對(duì)現(xiàn)實(shí):管理大數(shù)據(jù)非常困難。SAS公司數(shù)據(jù)管理和數(shù)據(jù)隱私解決方案負(fù)責(zé)人Todd Wright表示,這一情況在2020年不會(huì)改變,這將使人們重新關(guān)注數(shù)據(jù)編排、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)準(zhǔn)備和模型管理。
Wright說(shuō),“根據(jù)世界經(jīng)濟(jì)論壇的預(yù)測(cè),到2020年,人類產(chǎn)生的數(shù)據(jù)量將達(dá)到驚人的44ZB。大數(shù)據(jù)的前景絕不僅僅來(lái)自于擁有更多的數(shù)據(jù)以及更多的數(shù)據(jù)來(lái)源,而是通過(guò)開(kāi)發(fā)分析模型來(lái)更好地洞察這些數(shù)據(jù)。所有的工作都是為了推進(jìn)分析、人工智能和建模語(yǔ)言的工作,如果企業(yè)沒(méi)有一個(gè)能夠訪問(wèn)、集成、清理和管理所有這些數(shù)據(jù)的數(shù)據(jù)管理程序,這一切都是不可取的。”
企業(yè)正在盡可能快地填充NVMe驅(qū)動(dòng)器,以幫助加速數(shù)據(jù)的存儲(chǔ)和分析,尤其是涉及物聯(lián)網(wǎng)的數(shù)據(jù)。NGD Systems公司首席執(zhí)行官兼創(chuàng)始人Nader Salessi表示,僅憑這一點(diǎn)還不足以確保成功。
Salessi說(shuō),“NVMe提供了一種緩解措施,并證明可以消除現(xiàn)有平臺(tái)的存儲(chǔ)協(xié)議瓶頸,該平臺(tái)會(huì)定期輸出TB和PB規(guī)模的數(shù)據(jù),盡管NVMe的速度要快得多,但是當(dāng)需要對(duì)PB級(jí)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析和處理時(shí),它本身還不夠快。這就是計(jì)算存儲(chǔ)的來(lái)源,它解決了數(shù)據(jù)管理和移動(dòng)的問(wèn)題。”
數(shù)據(jù)集成從未如此簡(jiǎn)單。隨著持續(xù)不斷的數(shù)據(jù)爆炸以及人工智能和機(jī)器學(xué)習(xí)用例的擴(kuò)展,這變得更加困難。Denodo公司高級(jí)副總裁兼首席市場(chǎng)官Ravi Shankar表示,數(shù)據(jù)結(jié)構(gòu)是一個(gè)顯示前景的架構(gòu)概念。
Shankar說(shuō):“通過(guò)實(shí)時(shí)訪問(wèn)來(lái)自結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集的新數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)將使組織在未來(lái)一年更加關(guān)注機(jī)器學(xué)習(xí)和人工智能。隨著智能技術(shù)和物聯(lián)網(wǎng)設(shè)備的發(fā)展,動(dòng)態(tài)數(shù)據(jù)結(jié)構(gòu)通過(guò)邏輯數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)提供了對(duì)大量數(shù)據(jù)的快速、安全和可靠的訪問(wèn)。因此,將會(huì)推動(dòng)人工智能技術(shù)和商業(yè)革命。”
Principal Data公司的Saurav Chakravorty說(shuō),通過(guò)語(yǔ)義人工智能和企業(yè)知識(shí)圖(EKG)了解不同的數(shù)據(jù)集是如何連接的,這為解決數(shù)據(jù)倉(cāng)庫(kù)問(wèn)題提供了其他方法。
Chakravorty說(shuō):“組織的寶貴信息和知識(shí)通常散布在多個(gè)文檔和數(shù)據(jù)孤島中,給企業(yè)造成很大的麻煩。企業(yè)知識(shí)圖(EKG)將允許組織消除零散的知識(shí)格局中的語(yǔ)義不一致性。帶有企業(yè)知識(shí)圖(EKG)的語(yǔ)義人工智能相互補(bǔ)充,可以為企業(yè)在數(shù)據(jù)湖和大數(shù)據(jù)方面的投資帶來(lái)整體價(jià)值。”
MemVerge公司首席執(zhí)行官兼聯(lián)合創(chuàng)始人Charles Fan認(rèn)為,2020年可能是存儲(chǔ)級(jí)內(nèi)存突破的一年。
Fan說(shuō):“隨著數(shù)據(jù)中心應(yīng)用程序需求的增加以及處理速度的提高,將大力推動(dòng)以內(nèi)存為中心的數(shù)據(jù)中心。計(jì)算創(chuàng)新的發(fā)展日新月異,越來(lái)越多的計(jì)算技術(shù)從x86到GPU再到ARM。這將繼續(xù)在CPU和內(nèi)存單元之間開(kāi)辟新的拓?fù)洹1M管當(dāng)前在計(jì)算層和存儲(chǔ)層之間架構(gòu)往往會(huì)更加分散,但我相信很快就會(huì)走向以內(nèi)存為中心的數(shù)據(jù)中心。”
機(jī)器數(shù)據(jù)智能平臺(tái)Circonus公司首席執(zhí)行官Bob Moul表示,人們正在迅速向邊緣部署的融合存儲(chǔ)和處理架構(gòu)邁進(jìn)。
Moul說(shuō),“Gartner公司預(yù)測(cè),到2020年全球?qū)⒂写蠹s200億臺(tái)物聯(lián)網(wǎng)設(shè)備,隨著物聯(lián)網(wǎng)設(shè)備數(shù)量急劇增長(zhǎng)并變得更加先進(jìn),管理它們的資源和工具也必須做到這一點(diǎn)。企業(yè)將需要采用可擴(kuò)展的存儲(chǔ)解決方案來(lái)適應(yīng)數(shù)據(jù)的爆炸式增長(zhǎng),這些數(shù)據(jù)有望超越當(dāng)前技術(shù)的包含、處理和提供有價(jià)值的見(jiàn)解的能力。”
ASG科技公司產(chǎn)品營(yíng)銷副總裁Rob Perry表示,暗數(shù)據(jù)最終將在2020年成為現(xiàn)實(shí)。
Perry說(shuō):“每個(gè)組織都有數(shù)據(jù)孤島,這些數(shù)據(jù)被收集起來(lái),但不再(或可能永遠(yuǎn)不會(huì))用于商業(yè)目的。雖然存儲(chǔ)數(shù)據(jù)的成本大幅下降,但存儲(chǔ)數(shù)據(jù)的風(fēng)險(xiǎn)溢價(jià)卻大幅上升。這些暗數(shù)據(jù)可能包含必須公開(kāi)和保護(hù)的個(gè)人信息。它可能包括受數(shù)據(jù)主體訪問(wèn)請(qǐng)求限制的信息和可能需要?jiǎng)h除的信息,但如果人們不知道它在哪里,則無(wú)法滿足法規(guī)的要求。盡管如此,這些數(shù)據(jù)也可以提供一些洞察力,為推動(dòng)業(yè)務(wù)增長(zhǎng)開(kāi)辟新的機(jī)遇。將其置于暗數(shù)據(jù)中會(huì)增加風(fēng)險(xiǎn),可能會(huì)掩蓋機(jī)會(huì)。各組織將把新的重點(diǎn)放在照亮其暗數(shù)據(jù)上。”
Yugabyte公司創(chuàng)始人兼首席技術(shù)官Karthik Ranganathan預(yù)測(cè),開(kāi)源數(shù)據(jù)庫(kù)在2020年將會(huì)面臨美好發(fā)展的一年。
Ranganathan說(shuō):“十年前,開(kāi)源數(shù)據(jù)庫(kù)在市場(chǎng)上的份額為零,而現(xiàn)在已超過(guò)7%。很明顯,其市場(chǎng)正在發(fā)生變化,到2020年,對(duì)真正開(kāi)源的承諾將會(huì)增加。這與數(shù)據(jù)庫(kù)和數(shù)據(jù)基礎(chǔ)設(shè)施公司放棄其部分或全部核心項(xiàng)目的開(kāi)源許可證的最新趨勢(shì)背道而馳。但是,隨著技術(shù)的飛速發(fā)展,切換到100%開(kāi)放源代碼模型將是數(shù)據(jù)庫(kù)提供商的最大利益,因?yàn)槊赓M(fèi)增值模型需要花費(fèi)更長(zhǎng)的時(shí)間才能使軟件成熟到與真正的開(kāi)放源代碼相同的水平。”
但是在2019年,Confluent、Redis和MongoDB等公司從開(kāi)源業(yè)務(wù)模型中退出。Rockset公司聯(lián)合創(chuàng)始人兼首席技術(shù)官Dhruba Borthakur說(shuō),市場(chǎng)將對(duì)開(kāi)放服務(wù)做出回應(yīng),而不是開(kāi)源軟件。
Borthakur說(shuō),“由于公共云已經(jīng)完全改變了軟件交付和貨幣化的方式,我預(yù)測(cè),到2020年,開(kāi)放式采購(gòu)新的破壞性數(shù)據(jù)技術(shù)的時(shí)間將結(jié)束?,F(xiàn)有的開(kāi)源軟件將繼續(xù)運(yùn)轉(zhuǎn),但是建設(shè)者或用戶沒(méi)有動(dòng)力選擇開(kāi)源而不是開(kāi)放服務(wù)來(lái)提供新的數(shù)據(jù)產(chǎn)品。具有諷刺意味的是,易用性推動(dòng)了開(kāi)源浪潮,并且易于采用開(kāi)放服務(wù),這將導(dǎo)致開(kāi)放源代碼的消亡,尤其是在數(shù)據(jù)管理等領(lǐng)域。就像過(guò)去十年是開(kāi)放源代碼基礎(chǔ)設(shè)施的時(shí)代一樣,未來(lái)十年屬于云中的開(kāi)放服務(wù)。”