亞馬遜云科技陳曉建:面向未來云原生數(shù)據(jù)基礎(chǔ)設(shè)施的四大要素
原創(chuàng)總計(jì)5萬多客戶和合作伙伴參加線下活動(dòng),超過30萬人參與線上會(huì)議,亞馬遜云科技第11屆re:Invent峰會(huì)落下帷幕。每年的re:Invent全球大會(huì)都會(huì)發(fā)布許多重磅的新服務(wù)、功能和應(yīng)用,來支持遍及全球各地、來自千行百業(yè)的客戶進(jìn)行不斷的創(chuàng)新和重塑。亞馬遜云科技始終致力于通過技術(shù)的不斷創(chuàng)新,讓全球包括中國的客戶能凌云馭勢(shì)、重塑未來。
近日,亞馬遜云科技正式開啟2022 re:Invent中國巡展活動(dòng),展示2022 re:Invent全球大會(huì)的最新產(chǎn)品和技術(shù)、前沿趨勢(shì)以及最佳實(shí)踐。
數(shù)據(jù)爆炸不是未來,而是現(xiàn)實(shí)。分析人士預(yù)測(cè),未來五年產(chǎn)生的數(shù)據(jù)量將會(huì)是數(shù)字時(shí)代開始以來的兩倍多。如何管理海量數(shù)據(jù),挖掘數(shù)據(jù)價(jià)值,對(duì)每個(gè)組織來說都是巨大的挑戰(zhàn)。亞馬遜云科技通過提供端到端的全面數(shù)據(jù)解決方案,幫助客戶打造從數(shù)據(jù)的攝入,數(shù)據(jù)存儲(chǔ)與查詢,到數(shù)據(jù)分析,商業(yè)智能,再到人工智能與機(jī)器學(xué)習(xí)創(chuàng)新,并通過安全合規(guī)的方式進(jìn)行集團(tuán)內(nèi)或公司之間的共享和輸出。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建提到,構(gòu)建端到端數(shù)據(jù)戰(zhàn)略的三個(gè)核心為:建立面向未來的云原生數(shù)據(jù)基礎(chǔ)設(shè)施;實(shí)現(xiàn)高效、跨組織的數(shù)據(jù)一體化融合;借助教育和工具,使數(shù)據(jù)普惠化。
其中,一個(gè)面向未來的云原生數(shù)據(jù)基礎(chǔ)設(shè)施應(yīng)該有四個(gè)核心要素:面對(duì)不同類型的工作負(fù)載,提供合適的工具;在大規(guī)模運(yùn)行的情況下仍然保持高性能;通過智能化手段和工具為客戶降低運(yùn)營復(fù)雜性,有效提升工作效率;提供最高級(jí)別的可靠性和安全性,來保護(hù)數(shù)據(jù)存儲(chǔ)。
亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建
用合適的數(shù)據(jù)庫工具應(yīng)對(duì)所有類型的工作負(fù)載
在工具方面,亞馬遜云科技擁有最完整的數(shù)據(jù)庫,包括關(guān)系數(shù)據(jù)庫(如 Amazon Aurora)和 8 個(gè)專用數(shù)據(jù)庫(如Amazon DynamoDB)為應(yīng)用程序提供數(shù)據(jù)工作負(fù)載支持。同時(shí),亞馬遜云科技為分析工作負(fù)載提供最全面的服務(wù),例如使用 Amazon Redshift 的 SQL 分析、使用 Amazon EMR 的大數(shù)據(jù)分析、使用 Amazon QuickSight 的商業(yè)智能以及使用 Amazon OpenSearch 的交互式日志分析。此外,亞馬遜云科技還提供一系列廣泛的功能來支持機(jī)器學(xué)習(xí)工作負(fù)載,包括 PyTorch 和 TensorFlow 等深度學(xué)習(xí)框架、可以更輕松地創(chuàng)建 ML 模型的 Amazon SageMaker 等服務(wù),以及具有內(nèi)置機(jī)器學(xué)習(xí)功能的 AI 服務(wù),例如Amazon Transcribe 和Amazon Polly。
在本次大會(huì)上,亞馬遜云科技宣布推出了適用于 Apache Spark 的 Amazon Athena,讓用戶使用Athena來調(diào)用Spark,在短短一秒內(nèi)即可開始 在Apache Spark運(yùn)行交互式數(shù)據(jù)分析任務(wù),用戶無需準(zhǔn)備基礎(chǔ)架構(gòu)配置。同時(shí),客戶還只需為使用的資源付費(fèi)。
亞馬遜云科技還宣布了針對(duì) Apache Spark 的新 Amazon Redshift 集成預(yù)覽,通過這一功能,客戶可以通過Amazon EMR 或者Amazon Glue這樣的Spark引擎來消費(fèi)Amazon Redshift中的數(shù)據(jù)。與現(xiàn)有的 Amazon Redshift-Spark連接器相比,這種集成使Spark引擎對(duì)Amazon Redshift的數(shù)據(jù)抽取速度提高了10倍。
除了發(fā)布新特性,亞馬遜云科技也在持續(xù)優(yōu)化性能??蛻粼?Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift 和Amazon Athena 上運(yùn)行經(jīng)過優(yōu)化的Spark runtime,可以獲得比開源版本 Spark 快 3 倍的性能。
在大規(guī)模的情況下保持高性能
Amazon Aurora的自動(dòng)擴(kuò)展功能可以將每個(gè)數(shù)據(jù)庫實(shí)例可自動(dòng)擴(kuò)展到最大128TB,而只有其他傳統(tǒng)企業(yè)級(jí)數(shù)據(jù)庫大概1/10的 使用成本;DynamoDB在2022年的Amazon Prime Day期間每秒處理超過一億次的請(qǐng)求;上萬個(gè)Amazon Redshift用戶每天都會(huì)處理超過EB級(jí)別的數(shù)據(jù)總量,它也具備超過其他的云數(shù)倉約5倍的更好的性價(jià)比,同時(shí),在高并發(fā)和低延時(shí)的場(chǎng)景下,比如報(bào)表和dashboard的應(yīng)用,Amazon Redshift的性價(jià)比是其他方案的7倍。
在這些強(qiáng)大能力的基礎(chǔ)上,本次re:Invent再次發(fā)布了多項(xiàng)數(shù)據(jù)庫新特性,包括:Amazon DocumentDB Elastic Clusters,將Amazon DocumentDB集群彈性擴(kuò)展到支撐百萬級(jí)讀寫每秒和PB級(jí)存儲(chǔ)容量的規(guī)模;Amazon RDS寫優(yōu)化,將數(shù)據(jù)寫入吞吐量最高提升兩倍;Amazon RDS讀優(yōu)化,將數(shù)據(jù)查詢性能最高提升50%。
消除繁重的工作
亞馬遜云科技通過自動(dòng)化和機(jī)器學(xué)習(xí)的內(nèi)置智能來減少手動(dòng)任務(wù)。Amazon SageMaker支持新的地理空間機(jī)器學(xué)習(xí)功能Geospatial ML,客戶只需單擊幾下即可從Amazon SageMaker訪問不同的數(shù)據(jù)源上的地理 空間數(shù)據(jù)。內(nèi)置可視化工具使您能夠使用 3D加速圖形在交互式地圖上分析數(shù)據(jù)和探索模型預(yù)測(cè)。本次大會(huì)還發(fā)布了Amazon OpenSearch Serveless,補(bǔ)上了分析服務(wù)Serverless化的最后一塊拼圖。
可靠性和安全性
本次大會(huì)新發(fā)布了Amazon RDS藍(lán)/綠部署。為客戶開辟一個(gè)測(cè)試環(huán)境進(jìn)行補(bǔ)丁或者新配置的測(cè)試,當(dāng)測(cè)試成功之后快速將測(cè)試環(huán)境切換為生產(chǎn)環(huán)境。這樣的功能極大地節(jié)省了數(shù)據(jù)庫團(tuán)隊(duì)運(yùn)維中的操作壓力,同時(shí)提升運(yùn)維效率,保證數(shù)據(jù)零損失。
新發(fā)布的Amazon Redshift Multi-AZ多可用區(qū)功能,實(shí)現(xiàn)了Amazon Redshift的跨可用區(qū)容災(zāi)。這樣的功能與Amazon Redshift本來具備的自動(dòng)備份和恢復(fù)功 能相結(jié)合,為客戶的關(guān)鍵分析負(fù)載加上了雙保險(xiǎn)。
連接數(shù)據(jù)的能力與云原生數(shù)據(jù)基礎(chǔ)設(shè)施一樣重要。亞馬遜云科技提出“零ETL”的未來:無需再次手動(dòng)構(gòu)建數(shù)據(jù)管道。亞馬遜云科技在本次大會(huì)上發(fā)布了多項(xiàng)全新的集成功能,幫助客戶實(shí)現(xiàn)“Zero-ETL”(零ETL)。例如,Amazon Aurora 將首次支持與 Amazon Redshift 的 Zero-ETL(提取、轉(zhuǎn)換和加載)集成,將事務(wù)數(shù)據(jù)與分析功能結(jié)合在一起,消除了在 Aurora 和 Redshift 之間構(gòu)建和管理自定義數(shù)據(jù)管道的所有工作。用戶不必構(gòu)建和維護(hù)復(fù)雜的數(shù)據(jù)管道來執(zhí)行提取、轉(zhuǎn)換和加載(ETL)操作。又如:亞馬遜云科技打造出 Amazon DataZone,用于分類、發(fā)現(xiàn)、共享和管理數(shù)據(jù)的數(shù)據(jù)管理服務(wù),可以集成 Redshift、Athena 和 QuickSight,以及對(duì)第三方數(shù)據(jù)源提供 API 接口,可實(shí)現(xiàn)細(xì)粒度數(shù)據(jù)管理,其中包含由機(jī)器學(xué)習(xí)填充的數(shù)據(jù)目錄,易于使用業(yè)務(wù)術(shù)語進(jìn)行搜索。