數(shù)據(jù)規(guī)模爆炸性增長(zhǎng),云原生數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)化運(yùn)營(yíng)實(shí)戰(zhàn)分享
在日前的2021阿里云金融數(shù)據(jù)智能峰會(huì)——《云原生驅(qū)動(dòng)數(shù)智化運(yùn)營(yíng)的“增長(zhǎng)黑馬”》專場(chǎng)上,阿里云數(shù)據(jù)庫(kù)資深技術(shù)專家魏闖先 從數(shù)據(jù)價(jià)值鏈路角度切入,為大家解讀云原生數(shù)據(jù)倉(cāng)庫(kù)如何支撐數(shù)據(jù)化運(yùn)營(yíng)、全鏈路營(yíng)銷和阿里集團(tuán)雙11業(yè)務(wù),并展示金融客戶最佳實(shí)踐案例和應(yīng)用場(chǎng)景。本文內(nèi)容根據(jù)演講錄音及PPT整理而成。
阿里云數(shù)據(jù)庫(kù)資深技術(shù)專家魏闖先
一、背景與趨勢(shì)
(一)阿里巴巴15年云計(jì)算實(shí)踐
回顧阿里巴巴十五年來(lái)云原生發(fā)展的道路,大致分為三個(gè)階段。
第一個(gè)階段是2006年~2015年的應(yīng)用架構(gòu)互聯(lián)網(wǎng)化階段,是云原生從0到1的過(guò)程。最早的時(shí)候,阿里巴巴在淘寶上做中間件,那是最早的云的雛形。當(dāng)時(shí)我們研究的是Oracle數(shù)據(jù)庫(kù)和IBM的小型機(jī)。但阿里巴巴發(fā)現(xiàn)一個(gè)問(wèn)題,就是隨著淘寶流量越來(lái)越大,Oracle的機(jī)器無(wú)法繼續(xù)滿足業(yè)務(wù)需求,三個(gè)月之后,我們的數(shù)據(jù)將存不下也算不了。這是非常嚴(yán)重的問(wèn)題,所以當(dāng)時(shí)阿里巴巴啟動(dòng)了去IOE的計(jì)劃。
這個(gè)時(shí)候,阿里巴巴發(fā)現(xiàn)我們的業(yè)務(wù)做得非常好,但技術(shù)上有很多挑戰(zhàn)。因此,阿里巴巴在2009年成立了阿里云,自研飛天操作系統(tǒng),開(kāi)啟云化時(shí)代,淘寶和天貓合并建設(shè)業(yè)務(wù)中臺(tái),屆時(shí)三大中間件核心系統(tǒng)上線。
飛天操作系統(tǒng)基于Apsara,是一個(gè)分布式的操作系統(tǒng)。在基礎(chǔ)公共模塊之上有兩個(gè)最核心的服務(wù):盤(pán)古和伏羲。盤(pán)古是存儲(chǔ)管理服務(wù),伏羲是資源調(diào)度服務(wù),飛天內(nèi)核之上應(yīng)用的存儲(chǔ)和資源的分配都是由盤(pán)古和伏羲管理。飛天核心服務(wù)分為:計(jì)算、存儲(chǔ)、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)。
為了幫助開(kāi)發(fā)者便捷地構(gòu)建云上應(yīng)用,飛天提供了豐富的連接、編排服務(wù),將這些核心服務(wù)方便地連接和組織起來(lái),包括:通知、隊(duì)列、資源編排、分布式事務(wù)管理等等。
飛天最頂層是阿里云打造的軟件交易與交付第一平臺(tái)----云市場(chǎng)。它如同云計(jì)算的“App Store”,用戶可在阿里云官網(wǎng)一鍵開(kāi)通“軟件+云計(jì)算資源”。云市場(chǎng)上架在售商品幾千個(gè),支持鏡像、容器、編排、API、SaaS、服務(wù)、下載等類型的軟件與服務(wù)接入。
這就是最早的云的基礎(chǔ)框架,也是一個(gè)云原生的架構(gòu)。
從2011年開(kāi)始,我們開(kāi)始做容器調(diào)度,在集團(tuán)里面開(kāi)始做在線業(yè)務(wù),在線的業(yè)務(wù)開(kāi)始走容器化。到了2013年,自研飛天操作系統(tǒng)全面支撐集團(tuán)業(yè)務(wù)。
2015年,阿里云的云原生技術(shù)不單是給阿里巴巴的內(nèi)部業(yè)務(wù)使用,也開(kāi)始對(duì)外做商業(yè)化,以上就是第一階段。
第二階段是2016年~2019年的核心系統(tǒng)全面云原生化階段。
從2017年開(kāi)始,我們不只做在線了,離線也全部采用了云原生的技術(shù)。雙11購(gòu)物節(jié)有大量的交易數(shù)據(jù),這些數(shù)據(jù)的后臺(tái)分析和后期處理都是交給離線完成。我們基于云原生把在線和離線的底層資源池統(tǒng)一,支撐百萬(wàn)級(jí)規(guī)模電商交易。
到了2019年,阿里巴巴核心系統(tǒng)100%上云,這其實(shí)非常難,因?yàn)榘⒗锇桶偷臉I(yè)務(wù)量非常巨大,任何普通的系統(tǒng)都無(wú)法支撐。
第三階段是2020年至今,是全面升級(jí)下一代云原生技術(shù)的階段。阿里巴巴成立云原生技術(shù)委員會(huì),云原生升級(jí)為阿里技術(shù)新戰(zhàn)略。阿里巴巴核心系統(tǒng)全面使用云原生產(chǎn)品支撐大促。阿里云云原生技術(shù)全面升級(jí),Serverless時(shí)代開(kāi)啟。
(二)阿里云對(duì)于云計(jì)算的斷言
阿里巴巴是怎樣看待云計(jì)算的?云計(jì)算和傳統(tǒng)技術(shù)的差別到底是什么?
舉個(gè)例子,在一個(gè)家家戶戶都需要挖井的村莊里,每家根據(jù)自家人口數(shù)量、大概需要的出水量、是否會(huì)有客人來(lái)等等因素,決定挖多寬的井。如果遇上家里客人比較多或者干旱了等狀況,水可能就不夠用了。除了挖井的成本外,日常維護(hù)這口井,也需要很高的成本。
上述場(chǎng)景映射到企業(yè)中,就是企業(yè)基于自己的IT基礎(chǔ),還要到運(yùn)營(yíng)商那里買(mǎi)個(gè)機(jī)房,買(mǎi)幾臺(tái)服務(wù)器來(lái)支撐自己的服務(wù)。如果后續(xù)這些機(jī)器閑置的話,企業(yè)仍然需要支付一大筆費(fèi)用,成本非常高。
云解決的問(wèn)題就是通過(guò)虛擬化的技術(shù)實(shí)現(xiàn)資源池化,用上方挖井例子來(lái)形容就是建一個(gè)自來(lái)水廠。自來(lái)水廠和井的差別在于,第一,供水量很大,即使來(lái)100個(gè)客人,供水量也能滿足需求。第二,前期不需要投入大量成本去挖井,而是根據(jù)用水需求按量計(jì)費(fèi)。即使接通自來(lái)水管道,如果不用,那么永遠(yuǎn)也不需要為它付費(fèi)。
這為企業(yè)帶來(lái)了兩大好處,第一個(gè)是企業(yè)需要做快速?zèng)Q策的時(shí)候,不用花大量時(shí)間去“挖井”,而是開(kāi)箱即用。第二是前期投入成本很低。
這就是云帶來(lái)的好處,那么什么是云原生呢?
云原生是個(gè)標(biāo)準(zhǔn)服務(wù),很多東西我們不需要提前規(guī)劃。比如我要做數(shù)字化轉(zhuǎn)型,需求很簡(jiǎn)單。我需要有人給我提供這個(gè)服務(wù),我要多少,他給我分配多少,不需要我去做提前的準(zhǔn)備。隨著我業(yè)務(wù)的增長(zhǎng),它底下的基礎(chǔ)設(shè)施能夠隨之一起增長(zhǎng),具有非常好的彈性。這也大大地減少企業(yè)成本與精力,可以更加專注地去做最擅長(zhǎng)的事情,大幅提升效率。
通過(guò)以上的例子,下面這幾點(diǎn)就非常好理解了。
首先,我們認(rèn)為容器+K8s會(huì)成為云計(jì)算的新界面,這是未來(lái)的一個(gè)趨勢(shì)。
其次,整個(gè)軟件生命周期也會(huì)發(fā)生變化。原來(lái)軟件的生命周期很長(zhǎng),現(xiàn)在通過(guò)云原生的技術(shù)可以做到迭代速度越來(lái)越快,向下延伸軟硬一體化、向上延伸架構(gòu)現(xiàn)代化等都可以去做。
最后,加速企業(yè)數(shù)字化升級(jí)。原來(lái)做企業(yè)數(shù)字化轉(zhuǎn)型非常復(fù)雜,可能要買(mǎi)機(jī)器、買(mǎi)數(shù)據(jù)庫(kù)、買(mǎi)應(yīng)用,需要三年五載的時(shí)間來(lái)完成。而如今的企業(yè)數(shù)字化轉(zhuǎn)型,只花短短數(shù)月的時(shí)間,便可實(shí)現(xiàn)完全轉(zhuǎn)型。
(三)業(yè)界趨勢(shì):數(shù)據(jù)生產(chǎn)/處理正在發(fā)生質(zhì)變
從業(yè)界趨勢(shì)上看,未來(lái)數(shù)據(jù)會(huì)發(fā)生什么變化,給應(yīng)用帶來(lái)什么變化?
首先,我們認(rèn)為未來(lái)數(shù)據(jù)一定會(huì)規(guī)模爆炸性增長(zhǎng)。2020年全球數(shù)據(jù)規(guī)模約為40 ZB。40 ZB是什么概念?舉個(gè)例子,假設(shè)每部電影是1GB,假設(shè)全世界每個(gè)人都去看一部電影,那么這些數(shù)據(jù)量加起來(lái)大概就是40ZB。
除此之外,我們預(yù)計(jì)2025年的全球數(shù)據(jù)規(guī)模將會(huì)是2020年的430%,全球數(shù)據(jù)規(guī)模每年都在增長(zhǎng)。
第二個(gè)是數(shù)據(jù)生產(chǎn)/處理實(shí)時(shí)化。原先我們可能一個(gè)月看一次報(bào)表,經(jīng)過(guò)大數(shù)據(jù),我們可以每天看一次昨天的數(shù)據(jù)。數(shù)據(jù)越來(lái)越實(shí)時(shí)化,能夠?qū)崿F(xiàn)秒級(jí)響應(yīng)。以營(yíng)銷場(chǎng)景為例,在雙十一購(gòu)物節(jié)場(chǎng)景,當(dāng)商家發(fā)現(xiàn)店鋪的某個(gè)活動(dòng)不能產(chǎn)生效果,那么可以在一分鐘或者數(shù)分鐘之內(nèi)調(diào)整廣告或投放策略,從而達(dá)到更好的營(yíng)銷效果。如果數(shù)據(jù)是按天反饋,在11月12日看到數(shù)據(jù)的時(shí)候,做活動(dòng)帶來(lái)的效果已經(jīng)大大降低了。因此,數(shù)據(jù)實(shí)時(shí)化在這樣類似的場(chǎng)景中,扮演著十分重要的角色,數(shù)據(jù)的實(shí)時(shí)也會(huì)帶來(lái)應(yīng)用的實(shí)時(shí)。
第三是數(shù)據(jù)生產(chǎn)/處理智能化。目前在所有數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)占比80%,主要包括文本、圖形、圖像、音頻、視頻等,尤其是在當(dāng)下熱門(mén)的直播領(lǐng)域,對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行智能化處理,能夠知道觀眾的喜好與其他信息,方便業(yè)務(wù)更好地開(kāi)展。除此之外,非結(jié)構(gòu)化數(shù)據(jù)以每年增加55%的速度持續(xù)增長(zhǎng),未來(lái)將成為數(shù)據(jù)分析非常重要的一個(gè)來(lái)源。
第四個(gè)是數(shù)據(jù)加速上云。我們認(rèn)為數(shù)據(jù)上云勢(shì)不可擋,正如汽油車終將被電車代替一樣。預(yù)計(jì)到2025年的時(shí)候,數(shù)據(jù)存儲(chǔ)云上規(guī)模為49%,2023年數(shù)據(jù)庫(kù)上云規(guī)模75%。
(四)業(yè)界趨勢(shì):云計(jì)算加速數(shù)據(jù)庫(kù)系統(tǒng)演進(jìn)
另一個(gè)業(yè)界趨勢(shì)不容忽略:云計(jì)算加速數(shù)據(jù)庫(kù)系統(tǒng)演進(jìn)。
首先我們看一下數(shù)據(jù)庫(kù)發(fā)展歷程。早在八九十年代數(shù)據(jù)庫(kù)就已經(jīng)誕生,那時(shí)候主要是商業(yè)數(shù)據(jù)庫(kù),如Oracle、IBM DB2等,這里面有些數(shù)據(jù)庫(kù)還占據(jù)這如今的市場(chǎng)。
到90年代,開(kāi)源數(shù)據(jù)庫(kù)開(kāi)始涌現(xiàn),如PostgreSQL、MySQL等。國(guó)內(nèi)用MySQL比較多,國(guó)外用PostgreSQL比較多。到90年代以后,數(shù)據(jù)量越來(lái)越大,原來(lái)數(shù)量小的時(shí)候可能用PostgreSQL或MySQL,單機(jī)就可以解決問(wèn)題,隨著數(shù)據(jù)量爆炸性增長(zhǎng),就需要像分布式或小型機(jī)的方式去解決大量數(shù)據(jù)和分析問(wèn)題。
數(shù)據(jù)分析的重要性體現(xiàn)在哪里?
舉個(gè)例子,有個(gè)數(shù)據(jù)倉(cāng)庫(kù)Snowflake的公司在剛上市的時(shí)候就達(dá)到1000億美金的市值,如今也有700億美金,對(duì)于一個(gè)只做一款產(chǎn)品的公司來(lái)說(shuō),這是一個(gè)非常高的市值。為什么它的市值這么高?
前段時(shí)間和一位老師交流,他說(shuō)對(duì)于現(xiàn)在的企業(yè),尤其是電商或直播等互聯(lián)網(wǎng)企業(yè),早先他們企業(yè)最大的成本是人力,員工工資占據(jù)主要支出。但如今最大的支出是信息和數(shù)據(jù),為了公司未來(lái)的發(fā)展規(guī)劃,需要擁有大量的數(shù)據(jù)來(lái)分析當(dāng)前客戶最想要什么,最需要什么,業(yè)界的發(fā)展是什么。因此,公司需要大量購(gòu)買(mǎi)數(shù)據(jù)、做大量的數(shù)據(jù)分析,這方面的成本已經(jīng)超過(guò)了人員成本。這也是為什么一個(gè)只做數(shù)據(jù)倉(cāng)庫(kù)的公司,市值能夠達(dá)到700億美金。
2000年以后大家開(kāi)始用Hadoop、Spark,2010年開(kāi)始出現(xiàn)云原生、一體化分布式等產(chǎn)品,例如AWS、AnalyticDB等。
(五)業(yè)界趨勢(shì):數(shù)據(jù)倉(cāng)庫(kù)加速?gòu)腂ig Data向 Cloud-Native + Fast Data 演進(jìn)
上方是數(shù)據(jù)倉(cāng)庫(kù)的演進(jìn)歷史,計(jì)算方式從離線到在線,再到離在線一體化,然后到分布式。功能從統(tǒng)計(jì)到AI,數(shù)據(jù)類型也從結(jié)構(gòu)化到結(jié)構(gòu)化與非結(jié)構(gòu)化多模融合,負(fù)載從OLAP到HTAP,硬件也升級(jí)為軟硬件一體化,交付從On-Premise 到Cloud - Native + Serverless。
在演進(jìn)的不同進(jìn)程中,有著各式各樣的產(chǎn)品做支撐。
(六)數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)演進(jìn)
上圖為數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu)演進(jìn),簡(jiǎn)單的邏輯可以理解為,原來(lái)是一個(gè)廠房一個(gè)人干活,后來(lái)變成一個(gè)廠房十個(gè)人干活,然后再發(fā)展成多個(gè)廠房多個(gè)人干活,這就是整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展歷史,由原來(lái)的單機(jī)變成分布式,并且一份數(shù)據(jù)多個(gè)人使用。
數(shù)據(jù)庫(kù)的發(fā)展也跟人類工作一樣,原來(lái)有的店夫妻二人就可以維持,一個(gè)人負(fù)責(zé)生產(chǎn),另一個(gè)人負(fù)責(zé)銷售。隨著發(fā)展,店里的顧客越來(lái)越多,店還是一個(gè)店,但員工可能有十個(gè)人了。再后來(lái),業(yè)務(wù)發(fā)展更多大了,一下招10萬(wàn)個(gè)員工,然后在10個(gè)場(chǎng)地去干,這就是分布式云原生數(shù)據(jù)倉(cāng)庫(kù)。
(七)業(yè)界趨勢(shì):云原生數(shù)據(jù)庫(kù)關(guān)鍵技術(shù)
上方是云原生數(shù)據(jù)庫(kù)的關(guān)鍵技術(shù)。
這里簡(jiǎn)單說(shuō)兩個(gè)技術(shù),首先是云原生,云原生是什么意思呢?假如某位用戶買(mǎi)了個(gè)數(shù)據(jù)庫(kù),當(dāng)業(yè)務(wù)量少的時(shí)候,或者在法定節(jié)假日不使用的時(shí)候,收費(fèi)就少,而在業(yè)務(wù)量大的時(shí)候,收費(fèi)就多一些。按需按量收費(fèi),這是我們對(duì)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)要求。
另外一個(gè)是安全可信,舉個(gè)例子,阿里巴巴有一個(gè)投資部,假如給A公司投了500萬(wàn),給B公司投了100萬(wàn),這些信息都是高度私密,不可對(duì)外泄露的。假如這些信息是由員工進(jìn)行管理,員工存在離職的可能,而一旦離職后發(fā)生泄密行為,這在法律層面也很難追責(zé)。如何讓這種高度私密的信息完全加密,使得就算是擁有最高權(quán)限的DBA也無(wú)法查看這類信息,做到安全可信。后文將對(duì)此做詳細(xì)展開(kāi)。
二、云原生與大數(shù)據(jù)應(yīng)用
(一)業(yè)務(wù)面臨的挑戰(zhàn)
業(yè)務(wù)面臨著許多挑戰(zhàn),主要有四個(gè)方面。
首先是數(shù)據(jù)散亂、不一致,也有非常多的數(shù)據(jù)源,把數(shù)據(jù)收集起來(lái)是一個(gè)很大挑戰(zhàn)。
其次是系統(tǒng)極其復(fù)雜,系統(tǒng)或組件有40+個(gè)。原來(lái)可能基于Hadoop,現(xiàn)在需要非常多的系統(tǒng)或組件,底下可能是HDFS,上面是YARN、HBase,再往上還有Hive、Flink等許多東西,非常復(fù)雜。
除此之外還有分析不實(shí)時(shí),它的數(shù)據(jù)只能做T+1,是傳統(tǒng)大數(shù)據(jù)架構(gòu)。
最后是高學(xué)習(xí)成本,不同技術(shù)的版本迭代速度很快,學(xué)習(xí)成本很高。
(二)云原生數(shù)據(jù)倉(cāng)庫(kù)+云原生數(shù)據(jù)湖構(gòu)建新一代數(shù)據(jù)存儲(chǔ)、處理方案
阿里云當(dāng)時(shí)采用的是從一個(gè)最簡(jiǎn)單的架構(gòu),通過(guò)一個(gè)或兩個(gè)產(chǎn)品就能解決整套產(chǎn)品的架構(gòu),能夠讓用戶用得更簡(jiǎn)單,用SQL就可以解決各種各樣的問(wèn)題。比方原來(lái)的OSS數(shù)據(jù),各個(gè)生產(chǎn)處理的數(shù)據(jù)大集中分析等。
(三)云原生數(shù)據(jù)倉(cāng)庫(kù):云原生
云原生數(shù)據(jù)倉(cāng)庫(kù)的云原生特性主要體現(xiàn)在,如果就一條數(shù)據(jù),那么只會(huì)分配一條數(shù)據(jù)的存儲(chǔ),如果數(shù)據(jù)量增長(zhǎng),它會(huì)自動(dòng)分配更多的存儲(chǔ)。
同樣的,計(jì)算也是這樣,如果沒(méi)有計(jì)算需求或者分析需求,它不會(huì)分配資源,只有來(lái)了需求,才會(huì)分配資源進(jìn)行計(jì)算或分析,整個(gè)做到按需按量付費(fèi),加上資源的彈性。
(四)云原生數(shù)據(jù)倉(cāng)庫(kù):數(shù)據(jù)庫(kù)與大數(shù)據(jù)一體化
上面是云原生數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵技術(shù),例如行列混存,能夠支持高吞吐寫(xiě)入和高并發(fā)查詢。
其次是混合負(fù)載,就是上面既可以跑ETL,又可以做查詢。
此外還有智能索引。數(shù)據(jù)庫(kù)里面很重要的一個(gè)點(diǎn)是需要理解業(yè)務(wù),理解Index,要知道什么對(duì)查詢有影響,什么對(duì)寫(xiě)入有影響,所以我們希望這個(gè)東西能夠做得更智能,讓用戶不用管理這些東西。
(五)新一代數(shù)據(jù)倉(cāng)庫(kù)解決方案
上方為新一代數(shù)據(jù)倉(cāng)庫(kù)解決方案架構(gòu)圖。最底層是數(shù)倉(cāng),上面是數(shù)倉(cāng)模型,阿里在淘寶指數(shù),數(shù)據(jù)洞察等方面做了非常多的模型,包括通過(guò)一個(gè)ID把所有的信息關(guān)聯(lián)起來(lái)。這些信息匯聚成模型。模型上有數(shù)據(jù)構(gòu)建管理引擎,可以做數(shù)倉(cāng)規(guī)劃,代碼研發(fā),數(shù)據(jù)資產(chǎn)管理,數(shù)據(jù)服務(wù)等。
最上面是業(yè)務(wù)賦能,有許多的應(yīng)用,包括監(jiān)管報(bào)送類,經(jīng)營(yíng)決策類,風(fēng)險(xiǎn)預(yù)警類和營(yíng)銷與運(yùn)營(yíng)類。
(六)云上數(shù)據(jù)安全
關(guān)于云上數(shù)據(jù)安全的問(wèn)題,我們展開(kāi)來(lái)講。每個(gè)公司都有絕密的數(shù)據(jù),這些數(shù)據(jù)面臨著許多安全問(wèn)題,例如管理員/用戶越權(quán)操作,竊取數(shù)據(jù)備份,惡意修改數(shù)據(jù)等。除此之外,還有數(shù)據(jù)在存儲(chǔ)、查詢、共享過(guò)程中全程加密,任何人(包括管理員)無(wú)法獲取明文數(shù)據(jù)。保證日志在不可信環(huán)境中的完整性,任何人(包括管理員)無(wú)法篡改日志文件。保證查詢結(jié)果在不可信環(huán)境中的正確性,任何人(包括管理員)無(wú)法篡改查詢結(jié)果。
以前的解法很簡(jiǎn)單,就是寫(xiě)到數(shù)據(jù)庫(kù)的時(shí)候就把數(shù)據(jù)加密了,例如寫(xiě)進(jìn)去叫123,通過(guò)加密就變成了亂序,如213,312等。這個(gè)看似是一個(gè)很好的方法,但它有什么問(wèn)題呢?它沒(méi)有辦法做查詢,比方我們要查超過(guò)50塊錢(qián)的交易,但是因?yàn)?0通過(guò)加密以后就不是50了,可能就變成了500,而原來(lái)500加密完就是50,因此這個(gè)查詢無(wú)法進(jìn)行,相當(dāng)于它變成了一個(gè)存儲(chǔ),無(wú)法做分析查詢。
(七)云端全程加密數(shù)據(jù)永不泄露
有沒(méi)有一種方法能讓我們做數(shù)據(jù)分析,同時(shí)既能保密,原來(lái)的SQL也都能去做?
這里面核心的事情就是我們采用的硬件,通過(guò)ApsaraDB RDS(PostgreSQL版)+神龍裸金屬服務(wù)器(安全芯片TEE技術(shù)),可以提前把Key存到里面去,然后所有的計(jì)算和邏輯都在加密硬件中進(jìn)行。由于整個(gè)過(guò)程受加密硬件保護(hù),即使有人把系統(tǒng)的內(nèi)存全部復(fù)制出來(lái),復(fù)制出來(lái)的數(shù)據(jù)也全是加密過(guò)的,這就保證運(yùn)維人員就算拿到絕密數(shù)據(jù)也沒(méi)有泄露的風(fēng)險(xiǎn)。
三、最佳實(shí)踐
下面我們看一下幾個(gè)最佳實(shí)踐:
DMP:全鏈路營(yíng)銷
DMP(Data Management Platform)表示數(shù)據(jù)管理平臺(tái),也叫數(shù)據(jù)營(yíng)銷平臺(tái)。
營(yíng)銷最核心的事情是什么?營(yíng)銷最核心的事情是找人,找到最關(guān)心的一群人,專業(yè)詞稱為圈人。
舉個(gè)例子,什么場(chǎng)景需要圈人?比如今天我們想找一下對(duì)云原生感興趣的人來(lái)一起討論云原生。把對(duì)云原生感興趣的人找到,這個(gè)過(guò)程就叫圈人。
還有一種是類似于天貓?zhí)詫殘?bào)告,例如在雙十一前的一段時(shí)間,商家認(rèn)為某位客戶今年可能要買(mǎi)個(gè)衣服或買(mǎi)一個(gè)包,是潛在客戶,于是就去給TA推一些消費(fèi)券等。
這里面最關(guān)鍵的就是精準(zhǔn)人群的定位,能夠精準(zhǔn)地把人群區(qū)分出來(lái)。中國(guó)大概有電商消費(fèi)人群大概有8億人,給對(duì)某樣物品感興趣的人群推送消息,這里面最核心的就是圈人的事情。
阿里巴巴基于數(shù)倉(cāng)去做圈人的事情,首先去找一些種子人群,這些種子人群數(shù)量大概為幾百萬(wàn)人,是我們認(rèn)為的高優(yōu)質(zhì)客戶,比如每個(gè)月在淘寶上花5000塊以上或1萬(wàn)塊以上的人。把人群全出來(lái)后,第二步是將群體進(jìn)行聚類。
聚類的意思是把幾百萬(wàn)人再分成幾個(gè)小類,每一類里面可能喜歡一個(gè)類別,比方這一類喜歡買(mǎi)化妝品,另一類喜歡數(shù)碼產(chǎn)品,還有一類喜歡買(mǎi)書(shū)。劃分完小類以后,比如愛(ài)買(mǎi)化妝品的可能有10萬(wàn)人,但這10萬(wàn)人可能大部分之前已經(jīng)買(mǎi)過(guò)化妝品了,這次大概率不買(mǎi)了。
因此,我們需要在在8億消費(fèi)人群中找到真正可能買(mǎi)化妝品的人,該怎么做呢?
我們需要把每個(gè)客戶的消費(fèi)行為和歷史購(gòu)買(mǎi)記錄轉(zhuǎn)成AI模型的一個(gè)向量,如果有兩位客戶的購(gòu)買(mǎi)行為是類似的,那么他們的向量距離就會(huì)非常小,這樣的話我們的做法就很簡(jiǎn)單。例如,我們對(duì)數(shù)碼產(chǎn)品感興趣的人作為種子放到8億里面去找,跟這些人種子向量距離最近的假如有1000萬(wàn)人,然后對(duì)這1000萬(wàn)人去發(fā)數(shù)碼產(chǎn)品的廣告或優(yōu)惠券等,用這種方式去做業(yè)務(wù)營(yíng)銷。
這個(gè)過(guò)程最核心的有幾個(gè)方面。
第一個(gè)是將人群進(jìn)行聚類,把人群劃分,知道TA的歷史交易,數(shù)據(jù)必須要能夠支持任意維度多維分析。
第二個(gè)是能夠?qū)φ麄€(gè)數(shù)倉(cāng)里面的數(shù)據(jù)做具體的分析。
第三個(gè)是聚類后的向量近似度檢索,找出與每個(gè)類向量相近的人群進(jìn)行消息推送。
這就是我們擁有的能力,目前是基于AnalyticDB實(shí)現(xiàn)。
還有一個(gè)事情是要做Ad-hoc查詢。例如,我們要找到對(duì)數(shù)碼感興趣的人群,,且去年沒(méi)有買(mǎi)過(guò)比如iPhone 12的人,這樣他今年才可能買(mǎi)iPhone12。或者說(shuō)去年買(mǎi)了iPhone12,同時(shí)又買(mǎi)了AirPods的人,那我們認(rèn)為大概率他可能會(huì)買(mǎi)蘋(píng)果的鍵盤(pán),或者是蘋(píng)果的電腦等。我們需要對(duì)這些人做各種各樣的交易查詢,從而精準(zhǔn)地找到我們的目標(biāo)人群。
廣告精細(xì)化管理
業(yè)務(wù)挑戰(zhàn):
1)投放關(guān)鍵詞搜索事件需要高并發(fā)實(shí)時(shí)入庫(kù);
2)所有用戶通過(guò)儀表板同時(shí)查詢轉(zhuǎn)化率,復(fù)雜查詢 QPS高;
3)響應(yīng)時(shí)間要求高,避免錯(cuò)過(guò)調(diào)價(jià)黃金時(shí)段。
業(yè)務(wù)價(jià)值:
1)多個(gè)站點(diǎn)、多個(gè)店鋪的關(guān)鍵詞統(tǒng)一管理;
2)處理上萬(wàn)TPS并發(fā)寫(xiě);
3)海量數(shù)據(jù)實(shí)時(shí)分析,按時(shí)段智能調(diào)價(jià);
4)鍵詞快速識(shí)別分析,最大化收益。
在線電商
業(yè)務(wù)挑戰(zhàn):
1)傳統(tǒng)MySQL數(shù)據(jù)庫(kù)分析滿,千萬(wàn)級(jí)/億級(jí)復(fù)雜報(bào)表無(wú)法返回;
2)復(fù)雜報(bào)表秒級(jí)返回;
3)兼容MySQL生態(tài);
4)業(yè)務(wù)發(fā)展迅速,對(duì)計(jì)算存儲(chǔ)有不同要求。
業(yè)務(wù)價(jià)值:
1)RDS + AnalyticDB 實(shí)現(xiàn)HTAP聯(lián)合方案,業(yè)務(wù)和分析隔離;
2)2-10倍分析性能提升;
3)分布式架構(gòu),橫向擴(kuò)展,靈活變配,支持?jǐn)?shù)據(jù)量和訪問(wèn)量的不同需求
這就是2020年至今,全面升級(jí)下一代云原生技術(shù)的階段----Serverless時(shí)代。阿里巴巴成立云原生技術(shù)委員會(huì),云原生升級(jí)為阿里技術(shù)新戰(zhàn)略,未來(lái)云原生數(shù)據(jù)倉(cāng)庫(kù)還會(huì)有更多新功能,為行業(yè)解決更核心的痛點(diǎn),敬請(qǐng)期待。