Cloudera 持續(xù)創(chuàng)新 助力企業(yè)以數(shù)據(jù)驅(qū)動未來
原創(chuàng)在大數(shù)據(jù)領(lǐng)域,無人不知隨著 2019年 Cloudera 與 Hortonworks 的合并,兩家公司也進行了能力整合,并且合并了兩家公司的代表產(chǎn)品CDH和HDP,推出新的數(shù)據(jù)平臺 CDP (Cloudera Data Platform)。據(jù) Cloudera 大中華區(qū)區(qū)域副總裁王剛透露,目前,83% 的中國客戶已經(jīng)完成或者部分完成 CDP 的升級?!翱蛻舻年P(guān)鍵任務對于 CDP 平臺還是相對比較依賴的,因此客戶的付費意愿也比較強,也是源于客戶認可 CDP 平臺的價值,認可 CDP 的產(chǎn)品路線圖,從而選擇升級?!?/p>
如今,數(shù)據(jù)量越來越大,產(chǎn)生的速度也越來越快,企業(yè)希望可以實時進行數(shù)據(jù)分析,快速為業(yè)務做出輔助決策。為此,Cloudera 也從產(chǎn)品功能方面進行創(chuàng)新,幫助企業(yè)客戶可以在多個公有云、私有云以及本地數(shù)據(jù)中心訪問和分析數(shù)據(jù),使企業(yè)能夠做出由數(shù)據(jù)驅(qū)動的明智決策,幫助企業(yè)建立由數(shù)據(jù)驅(qū)動的未來。
Cloudera 大中華區(qū)區(qū)域副總裁王剛
動態(tài)數(shù)據(jù)處理讓數(shù)據(jù)管道更強大
眾所周知,數(shù)據(jù)分為兩類,一類是靜態(tài)數(shù)據(jù)(Data at Rest),指駐留在存儲設備上的數(shù)據(jù),這些文件沒有打開,也沒有傳輸?shù)饺魏蔚胤?。另一類是動態(tài)數(shù)據(jù)(Data in motion),是指在兩臺設備之間移動的數(shù)據(jù)。
數(shù)據(jù)的價值隨著時間的流逝而降低,所以企業(yè)希望可以實時訪問數(shù)據(jù),并進行加工處理,而不是緩存后再進行批處理。因此,Cloudera推出動態(tài)數(shù)據(jù)管理產(chǎn)品Cloudera Data-in-Motion,通過 DataFlow & Stream Processing 讓數(shù)據(jù)管道變得更加強大。DataFlow 通過 Apache NiFi 支持的云原生服務,可以連接位于任何地方的任何數(shù)據(jù)源,處理并交付到任何目的地。Cloudera Stream Processing (CSP) 通過提供分析流數(shù)據(jù)復雜模式的能力,并獲得可行動的情報,使客戶能夠?qū)⒘鬓D(zhuǎn)化為數(shù)據(jù)產(chǎn)品。CSP 由 Apache Flink 和 Kafka 提供支持,提供完整的企業(yè)級流管理和有狀態(tài)處理解決方案。
Cloudera 大中華區(qū)技術(shù)總監(jiān)劉隸放詳細介紹了 Cloudera Data-in-Motion 的開源三大組件,并強調(diào)了基于開源組件進行了企業(yè)級產(chǎn)品的管理和支持增強。
Cloudera 大中華區(qū)技術(shù)總監(jiān)劉隸放
一是 Apache Nifi,支撐數(shù)據(jù)的接入到接出,并且針對一些特定的要求完成了標準接口,保證數(shù)據(jù)在流轉(zhuǎn)過程中,特別是在復雜的多對多或多對一的情況下進行數(shù)據(jù)流轉(zhuǎn)的長期支持。讓開發(fā)人員可以連接任何地方,任何數(shù)據(jù)源,任何結(jié)構(gòu)類型的數(shù)據(jù),處理加工并交付到任何地方。
二是 Apache Kafka,Cloudera 在 Kafka 開源標準產(chǎn)品組件之上進行了能力增強。包括Streams Messaging Manager 用于監(jiān)控/操作集群、Streams Replication Manager 用于高可用性/災難恢復部署、Schema Registry 用于集中模式管理,以及Kafka Connect 用于簡潔的數(shù)據(jù)移動和變更數(shù)據(jù)捕獲,巡航控制用于智能重新平衡和自我修復。
三是 Apache Flink,支持低延遲流處理能力,使用戶能夠通過 REST 端點使用行業(yè)標準 SQL 和 API 編寫流應用程序,從而簡化開發(fā)步驟,并且支持多云和混合云模式。
此外,借助 Cloudera SDX 的 Apache Ranger & Apache Atlas 工具,可以保障企業(yè)的數(shù)據(jù)流安全可控,監(jiān)控和得到有效治理。
據(jù)了解,Cloudera Data-in-Motion 動態(tài)數(shù)據(jù)管理產(chǎn)品具有三大優(yōu)勢,一是可以獲得更快的速度,包括數(shù)據(jù)攝取、數(shù)據(jù)處理、全量數(shù)據(jù)分析洞察等方面的速度都可以得到有效提升;二是該平臺可以打破數(shù)據(jù)攝取的豎井,簡化開發(fā)、測試和部署,降低運營復雜性;最后,一個解決方案就可以消除數(shù)據(jù)移動的復制,讓團隊工作效率更高。
三大新產(chǎn)品,滿足企業(yè)多種數(shù)據(jù)需求
為了滿足企業(yè)多種數(shù)據(jù)需求,Cloudera 基于 推出三個新的產(chǎn)品,包括私有云數(shù)據(jù)服務PVC DS、湖倉一體的關(guān)鍵組成部分 Iceberg,以及對象存儲組件 Ozone。
PVC DS(Private Cloud Data Service)是一個私有云數(shù)據(jù)服務,基于 K8s 的對外服務組件,可以實現(xiàn)數(shù)據(jù)加工、數(shù)據(jù)倉庫和機器學習的處理,并且通過統(tǒng)一的安全管理讓企業(yè)的權(quán)限管理變得更加簡單。此外,K8s 具有伸縮性特點,并且可以實現(xiàn)集群之間的絕對隔離,保障了業(yè)務的可用性和安全性。
Iceberg 是開放的湖倉一體架構(gòu)的關(guān)鍵組成部分,集成并統(tǒng)一了數(shù)據(jù)倉庫和數(shù)據(jù)湖的功能,單一平臺即可支持當數(shù)據(jù)倉庫擴展到一定程度時,SQL 調(diào)優(yōu)就很難處理,此外,數(shù)據(jù)倉庫無法支撐更高的機器查詢需求。因此,Cloudera 基于 Iceberg 進行了企業(yè)級的支持和數(shù)據(jù)安全性的保障,包括安全體系的搭建,安全用戶的檢查以及事后溯源等工作,并且提供了各種各樣豐富的功能,例如時間行程、快照隔離、模式演化、隱藏分區(qū)等。
隨著客戶系統(tǒng)數(shù)據(jù)的快速增長,傳統(tǒng)存儲組件存在大量存儲問題,例如小文件存儲、數(shù)據(jù)總量等問題。為此,Cloudera 提供了新的對象存儲組件 Ozone,解決了 HDFS 相對于小文件的規(guī)模限制,并且支持原生
劉隸放表示,未來 Cloudera 會專注在三個方面。首先是私有云和公有云層面對云原生服務的支持;二是在湖倉一體方面,在引入 Iceberg 后,會持續(xù)進行投入,從而引領(lǐng)社區(qū)發(fā)展;三是在存儲方面,在 CDP 平臺支持更多小文件、更大的數(shù)據(jù)量存儲。