偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從數(shù)據(jù)到洞察 數(shù)據(jù)湖時代到來

原創(chuàng)
云計算 大數(shù)據(jù) 數(shù)據(jù)湖
我們經(jīng)歷過數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等不同概念時期,應對了不同種類、量級、形式的數(shù)據(jù)。隨著人工智能的快速發(fā)展,以及產(chǎn)業(yè)互聯(lián)網(wǎng)的轉型,處理數(shù)據(jù)的技術也在升級,再加上云計算的計算能力,企業(yè)可以快速獲取洞察,實現(xiàn)業(yè)務創(chuàng)新。

【51CTO.com原創(chuàng)稿件】數(shù)據(jù),無疑是企業(yè)最有價值的資產(chǎn)。數(shù)據(jù)的價值在于從數(shù)據(jù)本身提出真正有用的信息,將信息變成知識,從而指導我們行動。從數(shù)據(jù)到洞察,從而幫助企業(yè)進行業(yè)務運營,創(chuàng)造更大的價值。

我們經(jīng)歷過數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖等不同概念時期,應對了不同種類、量級、形式的數(shù)據(jù)。隨著人工智能的快速發(fā)展,以及產(chǎn)業(yè)互聯(lián)網(wǎng)的轉型,處理數(shù)據(jù)的技術也在升級,再加上云計算的計算能力,企業(yè)可以快速獲取洞察,實現(xiàn)業(yè)務創(chuàng)新。

數(shù)據(jù)復雜性增加

過去,數(shù)據(jù)只有像數(shù)據(jù)科學家、數(shù)據(jù)工程師才會使用,而如今,企業(yè)中的每個人都可以是數(shù)據(jù)的使用者,可以是企業(yè)的管理人員,也可以是營銷、財務、業(yè)務人員,還可以是產(chǎn)品經(jīng)理、開發(fā)者、運營人員等。而數(shù)據(jù)分析的應用場景也關聯(lián)到社會的方方面面,例如市場客戶服務方面,消費者的細分、客戶的忠誠度、客戶的流失度等,金融的風險管控和評估,市場促銷活動和需求分析,醫(yī)療領域的疾病傳播、藥物發(fā)現(xiàn)等,都會涉及到數(shù)據(jù)分析。

然而,隨著社交網(wǎng)絡的興起,電商外賣、娛樂視頻、社交媒體、交友戀愛等各種新型互聯(lián)網(wǎng)應用的普及,致使數(shù)據(jù)的復雜性也在增加。而企業(yè)的數(shù)據(jù)分析也要求更加具有即時性以及預測性,從而為業(yè)務決策帶來指導意義。

過去數(shù)據(jù)都是從業(yè)務系統(tǒng)中獲取,如今,移動設備、可穿戴設備、物聯(lián)網(wǎng)設備等不同設備的互聯(lián),數(shù)據(jù)的獲取端也變得更加豐富。而用戶數(shù)量和業(yè)務請求量的增長,也導致了數(shù)據(jù)以指數(shù)級速度在增長。數(shù)據(jù)的獲取來源多樣、數(shù)據(jù)量增加、數(shù)據(jù)格式多元,也給數(shù)據(jù)本身的縮放性、經(jīng)濟性帶來了挑戰(zhàn),企業(yè)需要速及時地將數(shù)據(jù)展示出來,并從中進行分析獲取價值。

數(shù)據(jù)湖的出現(xiàn)

對于數(shù)據(jù)的處理,最傳統(tǒng)的方法就是通過數(shù)據(jù)庫來管理,尤其是交易型數(shù)據(jù)庫。過去,企業(yè)的數(shù)據(jù)都來源于像ERP、CRM等各種業(yè)務系統(tǒng),都是存放在數(shù)據(jù)庫中。后來,各個業(yè)務系統(tǒng)應用都會產(chǎn)生并存儲大量的數(shù)據(jù),而這些數(shù)據(jù)并不能被其他系統(tǒng)應用所使用,這就產(chǎn)生了數(shù)據(jù)孤島。數(shù)據(jù)倉庫應運而生。數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎之上,將系統(tǒng)應用產(chǎn)生的數(shù)據(jù)經(jīng)過一定的分類、提煉、整理后,全部存儲在集中式的數(shù)據(jù)倉庫中,各個部門根據(jù)自己的需要導出相關數(shù)據(jù)進行使用分析。

數(shù)據(jù)倉庫只能存儲結構化數(shù)據(jù),并且需要提前定義好,面對如今大量的非結構化、半結構化數(shù)據(jù),以及數(shù)據(jù)分析的時效性的高要求,數(shù)據(jù)倉庫就顯得“力不從心”。數(shù)據(jù)湖就此誕生。

數(shù)據(jù)湖的概念有很多,AWS首席云計算企業(yè)戰(zhàn)略顧問張俠博士則認為,數(shù)據(jù)湖就是一個中心數(shù)據(jù)存儲的容器,可以處理結構化、非結構化等各種各樣的數(shù)據(jù),數(shù)據(jù)量級可以快速縮放,并且進行查詢和分析。

張俠舉例說道,過去數(shù)據(jù)匯總后像一條小河,河里的水量是可以預知的,然后設計一個河道,水來后有閘門可以進行處理。但是互聯(lián)網(wǎng)時代,視頻以及移動終端的信息蜂擁而至,我們很難掌握數(shù)據(jù)的性質(zhì),水量大并且來勢洶涌,需要耗費大量時間進行處理。于是就需要先將數(shù)據(jù)存放在湖里,然后通過工具進行查詢分析。

數(shù)據(jù)湖的兼容與靈活

也許有人會認為,數(shù)據(jù)湖本質(zhì)上沒有技術創(chuàng)新,只是一個概念的拼湊,然而,在數(shù)字化轉型變革中,數(shù)據(jù)湖真正可以幫助企業(yè)實現(xiàn)技術轉型,應對快速發(fā)展下的數(shù)據(jù)需求。

數(shù)據(jù)湖可以存儲海量、多源的數(shù)據(jù),業(yè)務系統(tǒng)、智能設備等產(chǎn)生的數(shù)據(jù)都可以以原始的自然數(shù)據(jù)進行存儲,同時支持結構化數(shù)據(jù)和非結構化數(shù)據(jù)。此外,結合云計算能力,數(shù)據(jù)湖可以快速地縮放存儲海量數(shù)據(jù),并且通過建目錄和數(shù)據(jù)的轉移、抽取等工作,將數(shù)據(jù)歸類,然后快速地進行各種各樣的分析。

但是,值得注意的是,數(shù)據(jù)湖存儲的是原始的自然數(shù)據(jù),自然有些是無用數(shù)據(jù),并且還占用存儲空間,那么,如何處理無用數(shù)據(jù)以及縮小存儲成本呢?張俠告訴51CTO,如果數(shù)據(jù)進來的都是垃圾,很可能后續(xù)的存儲和分析也都是垃圾,因此企業(yè)要盡可能地對原始數(shù)據(jù)進行合理的管控、設計、把握,從而提高數(shù)據(jù)質(zhì)量,同時也可以減少原始數(shù)據(jù)量。此外,企業(yè)還可以將冷、熱數(shù)據(jù)分級處理,通過生命周期管理功能根據(jù)數(shù)據(jù)的量級和特點性質(zhì)進行存儲和處理,從而減少數(shù)據(jù)成本。

張俠指出,由于數(shù)據(jù)湖對所有數(shù)據(jù)都可以兼容,并且保持了靈活性,因此特別適用于數(shù)據(jù)科學家、數(shù)據(jù)研究人員進行探索性、預測性、研究性的數(shù)據(jù)查詢和分析。

AWS的“數(shù)據(jù)家族”

一般,數(shù)據(jù)湖的搭建分為幾步:首先先將數(shù)據(jù)設置好并存儲,然后將數(shù)據(jù)移動加載到不同的地方,清理數(shù)據(jù)后編寫數(shù)據(jù)目錄,配置數(shù)據(jù)安全性與合規(guī)性策略并進行存儲管理,在需要分析的時候通過工具調(diào)取數(shù)據(jù)進行分析。為了簡化搭建步驟,AWS提供了AWS Lake Formation,將建立數(shù)據(jù)湖的方法自動化,幫助企業(yè)在數(shù)天內(nèi)完成數(shù)據(jù)的建設工作。張俠透露,AWS Lake Formation會在今年在中國推出。

除了搭建數(shù)據(jù)湖以外,數(shù)據(jù)的存儲也很重要。在AWS數(shù)據(jù)湖層面,包括了Amazon S3和AWS Glue。Amazon S3可以存儲任何二進位為基礎的任何信息,包括結構化和非結構化數(shù)據(jù),并且具有11個9的數(shù)據(jù)持久性,云端三個可用區(qū)存儲六份,互為備份。在Amazon S3后端是冷存儲Amazon Glacier,如果數(shù)據(jù)不常用,可以存儲在Amazon Glacier,降低存儲費用。AWS Glue包括兩大功能,全托管的數(shù)據(jù)提取、轉換和加載 (ETL) 服務以及元數(shù)據(jù)目錄,用戶可以更加容易準備數(shù)據(jù),加載數(shù)據(jù)到數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖,并且用于數(shù)據(jù)分析。AWS Glue服務已經(jīng)在AWS中國(寧夏)區(qū)域正式上線。

除了數(shù)據(jù)湖相關的產(chǎn)品,AWS還在數(shù)據(jù)層面提供了更多的功能,包括底層數(shù)據(jù)的遷移和移動工具,存儲不同類型數(shù)據(jù)的數(shù)據(jù)存儲層,上層有各種分析工具以及機器學習功能。

最底層是數(shù)據(jù)遷移和移動工具,AWS提供 AWS Database Migration Service數(shù)據(jù)庫遷移服務、AWS Snowball(雪球)可以將數(shù)據(jù)存儲在專用硬盤的裝置中快遞到AWS、AWS Storage Gateway通過數(shù)據(jù)門戶網(wǎng)關轉換數(shù)據(jù),AWS Backup數(shù)據(jù)備份服務。

數(shù)據(jù)移動的上一層是數(shù)據(jù)存儲層,通過各種數(shù)據(jù)庫來存儲各種不同類型的數(shù)據(jù),包括Amazon DynamoDB存儲鍵值和文檔,Amazon RDS托管型關系數(shù)據(jù)庫,Amazon Aurora云原生數(shù)據(jù)庫,Amazon ElasticCach內(nèi)存式數(shù)據(jù)庫,Amazon Neptune圖形數(shù)據(jù)庫。

在數(shù)據(jù)湖層之上是分析層,AWS提供了Amazon Redshift數(shù)據(jù)倉庫,Amazon EMR大數(shù)據(jù)分析,AWS Glue無服務器處理,Amazon Athena交互式分析,Amazon Elasticsearch運維分析,Amazon Kinesis實時分析。

最上層是機器學習,包括Amazon QuickSight圖形可視化,Amazon Polly文字轉語音功能,Amazon Transcribe語音轉文字功能,Amazon SageMaker機器學習工具,幫助用戶將數(shù)據(jù)分析結果進行展現(xiàn)。

AWS期望提供全面、安全、經(jīng)濟高效、易于構建、應用廣泛的數(shù)據(jù)相關的工具和服務,幫助企業(yè)應對各種數(shù)據(jù)的需求,快速將數(shù)據(jù)轉化成洞察,從而加速業(yè)務創(chuàng)新。而亞馬遜也是AWS的用戶。亞馬遜曾是Oracle全球數(shù)據(jù)庫最大的用戶,使用了7500個數(shù)據(jù)庫,數(shù)據(jù)量達到75PB,然而由于擴展困難且昂貴,亞馬遜在去年11月完成了從Oracle數(shù)據(jù)庫遷移至AWS上相關數(shù)據(jù)庫,數(shù)據(jù)庫成本費用減少了60%,數(shù)據(jù)庫的管理費用減少了70%。此外,亞馬遜在內(nèi)部建立了數(shù)據(jù)湖名叫Galaxy(銀河),整合亞馬遜所有數(shù)據(jù)進行分析,加快了從數(shù)據(jù)匯總挖掘有用信息的速度同時減少成本。

結語

數(shù)據(jù)湖的概念從2011年首次提出,如今已經(jīng)走過九年,如今人工智能的興起也成為了數(shù)據(jù)湖快速發(fā)展的最大驅動力。張俠認為,在數(shù)據(jù)湖時代,大數(shù)據(jù)會變得更加實時、更加面向未來,人工智能成為了關鍵性的因素。人工智能有能力處理大量數(shù)據(jù),使得海量數(shù)據(jù)的價值有所提高。隨著時間的推移,數(shù)據(jù)分析和人工智能的很大部分都會密切結合。

雖然,數(shù)據(jù)湖在中國的發(fā)展還處于早期階段,但隨著下一代互聯(lián)網(wǎng)、5G、邊緣計算等技術的發(fā)展,與之相對應的數(shù)據(jù)存儲和分析的道路也會加速。

【51CTO原創(chuàng)稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

 

責任編輯:鳶瑋 來源: 51cto
相關推薦

2023-11-09 15:56:26

數(shù)據(jù)倉庫數(shù)據(jù)湖

2021-05-07 05:54:43

數(shù)據(jù)庫數(shù)據(jù)湖數(shù)據(jù)

2017-01-22 15:43:47

數(shù)據(jù)架構演進

2015-08-03 10:02:45

塊數(shù)據(jù)標志時代

2012-05-17 09:20:21

業(yè)務洞察分析IBMBAO

2015-05-14 15:56:27

2011-07-25 16:55:39

人才測評北森

2025-05-12 09:34:39

2017-12-15 10:14:00

數(shù)據(jù)聯(lián)通大數(shù)據(jù)

2018-12-06 13:08:30

數(shù)據(jù)科學家大數(shù)據(jù)數(shù)據(jù)科學

2012-06-20 09:25:49

大數(shù)據(jù)

2015-05-05 11:35:04

云計算大數(shù)據(jù)BDaas

2017-06-07 10:28:30

諸葛io數(shù)據(jù)分析數(shù)據(jù)應用

2019-09-05 10:29:06

大數(shù)據(jù)人工智能IBM

2020-01-08 21:53:06

大數(shù)據(jù)數(shù)據(jù)倉庫數(shù)據(jù)湖

2014-06-25 17:27:24

2024-09-22 09:48:02

數(shù)據(jù)飛輪智能

2011-09-16 17:02:15

云存儲時代

2023-05-17 19:37:53

點贊
收藏

51CTO技術棧公眾號