如何跨歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析?
當(dāng)下的數(shù)據(jù)分析需求給現(xiàn)有的數(shù)據(jù)基礎(chǔ)設(shè)施帶來(lái)了前所未有的壓力??绮僮骱痛鎯?chǔ)數(shù)據(jù)執(zhí)行實(shí)時(shí)分析通常是成功的關(guān)鍵,但這些操作實(shí)現(xiàn)起來(lái)卻充滿挑戰(zhàn)。
比如一家航空公司,它希望收集和分析來(lái)自其噴氣發(fā)動(dòng)機(jī)的連續(xù)數(shù)據(jù)流,以實(shí)現(xiàn)可預(yù)測(cè)的維護(hù)以及迅速發(fā)現(xiàn)解決方案。每個(gè)引擎都有數(shù)百個(gè)傳感器,監(jiān)測(cè)溫度、速度和振動(dòng)等條件,并不斷將這些信息發(fā)送到物聯(lián)網(wǎng)(IoT)平臺(tái)。物聯(lián)網(wǎng)平臺(tái)對(duì)數(shù)據(jù)進(jìn)行收集、處理和分析后,將數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)湖中(也稱為運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ)),只有最新的數(shù)據(jù)保存在運(yùn)營(yíng)數(shù)據(jù)庫(kù)中。
現(xiàn)在,當(dāng)實(shí)時(shí)數(shù)據(jù)中的異常讀數(shù)觸發(fā)特定引擎的警報(bào)時(shí),航空公司需要跨實(shí)時(shí)操作數(shù)據(jù)和該引擎存儲(chǔ)的歷史數(shù)據(jù)進(jìn)行實(shí)時(shí)分析。然而,航空公司可能會(huì)發(fā)現(xiàn),利用其現(xiàn)有的基礎(chǔ)設(shè)施實(shí)現(xiàn)實(shí)時(shí)分析幾乎是不可能的。
如今,開(kāi)發(fā)大數(shù)據(jù)計(jì)劃的公司通常使用Hadoop將其運(yùn)營(yíng)數(shù)據(jù)的副本存儲(chǔ)在數(shù)據(jù)湖中,數(shù)據(jù)科學(xué)家可以在其中訪問(wèn)數(shù)據(jù)進(jìn)行各種分析。當(dāng)需要跨傳入的操作數(shù)據(jù)以及存儲(chǔ)在數(shù)據(jù)湖中的數(shù)據(jù)子集運(yùn)行實(shí)時(shí)分析時(shí),傳統(tǒng)的基礎(chǔ)設(shè)施將成為絆腳石。在訪問(wèn)存儲(chǔ)在數(shù)據(jù)湖中的數(shù)據(jù)時(shí)可能存在延遲,跨組合數(shù)據(jù)湖和操作數(shù)據(jù)運(yùn)行聯(lián)合查詢也會(huì)遇到挑戰(zhàn)。
內(nèi)存計(jì)算解決方案通過(guò)提供實(shí)時(shí)性能、大規(guī)??缮炜s性和與流行數(shù)據(jù)平臺(tái)的內(nèi)置集成,解決了跨數(shù)據(jù)湖和操作數(shù)據(jù)的實(shí)時(shí)分析的挑戰(zhàn)。這些功能支持混合事務(wù)/分析處理(HTAP),能夠跨數(shù)據(jù)湖和操作數(shù)據(jù)集運(yùn)行實(shí)時(shí)聯(lián)合查詢。
內(nèi)存計(jì)算平臺(tái)功能
內(nèi)存計(jì)算平臺(tái)支持對(duì)操作數(shù)據(jù)的攝取、處理和分析,并支持以下部分或全部的實(shí)時(shí)性能和pb級(jí)可伸縮性:
內(nèi)存中的數(shù)據(jù)網(wǎng)格和內(nèi)存中的數(shù)據(jù)庫(kù)。內(nèi)存中的數(shù)據(jù)網(wǎng)格和數(shù)據(jù)庫(kù)共享服務(wù)器集群的可用內(nèi)存和計(jì)算,允許在內(nèi)存中處理數(shù)據(jù),并消除從磁盤(pán)檢索數(shù)據(jù)的延遲。此外,內(nèi)存中的數(shù)據(jù)網(wǎng)格部署在現(xiàn)有數(shù)據(jù)庫(kù)之上,并保持底層數(shù)據(jù)庫(kù)的同步,而內(nèi)存中的數(shù)據(jù)庫(kù)則在內(nèi)存中維護(hù)完整的數(shù)據(jù)集,定期將數(shù)據(jù)寫(xiě)入磁盤(pán),僅用于備份和恢復(fù)。內(nèi)存中的數(shù)據(jù)網(wǎng)格和數(shù)據(jù)庫(kù)可以部署在場(chǎng)所、公共云或私有云或混合環(huán)境中。
流媒體數(shù)據(jù)處理。內(nèi)存中的計(jì)算平臺(tái)可以收集、處理和分析來(lái)自Apache Kafka等流行流媒體平臺(tái)的具有實(shí)時(shí)性能的大容量數(shù)據(jù)流。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。內(nèi)存計(jì)算平臺(tái)允許使用操作數(shù)據(jù)對(duì)機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)時(shí)訓(xùn)練。將本機(jī)計(jì)算平臺(tái)與深度學(xué)習(xí)平臺(tái)(如TensorFlow)集成在內(nèi)存中,可以極大地降低傳輸數(shù)據(jù)的成本和復(fù)雜性。
聯(lián)合查詢。一些內(nèi)存中的計(jì)算平臺(tái)利用內(nèi)置集成的流數(shù)據(jù)平臺(tái),包括Apache Kafka和Apache Spark,來(lái)支持跨數(shù)據(jù)湖和操作數(shù)據(jù)集的聯(lián)合查詢。Apache Kafka用于構(gòu)建實(shí)時(shí)數(shù)據(jù)管道和流媒體應(yīng)用程序,為實(shí)時(shí)處理傳入數(shù)據(jù)提供數(shù)據(jù)。Apache Spark是一個(gè)統(tǒng)一的分析引擎,可以執(zhí)行大規(guī)模數(shù)據(jù)處理,包括基于跨hadoop數(shù)據(jù)湖和操作數(shù)據(jù)庫(kù)的數(shù)據(jù)運(yùn)行聯(lián)合查詢。
混合事務(wù)/分析處理(HTAP)或混合操作/分析處理(HOAP)。HTAP、HOAP能夠使公司維護(hù)單個(gè)數(shù)據(jù)集,在該數(shù)據(jù)集上可以同時(shí)執(zhí)行事務(wù)和分析處理,從而消除了將數(shù)據(jù)從專用事務(wù)數(shù)據(jù)庫(kù)移動(dòng)到獨(dú)立的專用分析數(shù)據(jù)庫(kù)所需的昂貴成本和復(fù)雜過(guò)程。
從Apache Kafka到Apache Spark再到實(shí)時(shí)洞察
與Kafka、Spark和Hadoop集成的內(nèi)存計(jì)算平臺(tái)能夠使公司跨實(shí)時(shí)操作數(shù)據(jù)和特定引擎的歷史數(shù)據(jù)運(yùn)行實(shí)時(shí)分析。Apache Kafka將實(shí)時(shí)流數(shù)據(jù)提供給內(nèi)存中的計(jì)算平臺(tái)。內(nèi)存中的計(jì)算平臺(tái)在內(nèi)存中維護(hù)操作數(shù)據(jù),并跨這些數(shù)據(jù)集運(yùn)行實(shí)時(shí)查詢。Spark從數(shù)據(jù)湖檢索歷史數(shù)據(jù),從內(nèi)存計(jì)算平臺(tái)檢索熱操作數(shù)據(jù),運(yùn)行查詢并提供更深入的見(jiàn)解。通過(guò)這種架構(gòu),企業(yè)可以立即了解異常讀數(shù)的原因。
現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施能夠預(yù)測(cè)維護(hù),并且能迅速處理問(wèn)題,這將提高客戶滿意度、提高資產(chǎn)利用率和更高的ROI。而且,使用內(nèi)存計(jì)算平臺(tái)對(duì)運(yùn)營(yíng)數(shù)據(jù)和數(shù)據(jù)湖數(shù)據(jù)子集進(jìn)行實(shí)時(shí)分析,可以使實(shí)時(shí)物聯(lián)網(wǎng)服務(wù)成為現(xiàn)實(shí)。