偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

螞蟻集團 EB 級大數(shù)據治理架構與實踐

大數(shù)據
本文將分享螞蟻集團在大數(shù)據治理實踐過程中沉淀的經驗。螞蟻的數(shù)據來源眾多,包括行為日志、系統(tǒng)服務端收集的數(shù)據等。從類型上看,有DB 類、日志類、log 類等,還有消息類的和非結構化的數(shù)據。

一、數(shù)據治理概況

業(yè)界對于數(shù)據治理的定義有很多種,螞蟻在數(shù)據治理時主要關注對企業(yè)運轉非常關鍵的架構、安全、合規(guī)、質量和價值這五個方面。

圖片

為什么是這五個方面呢?

  • 首先,要保證整個數(shù)據在業(yè)務上是可以流轉起來的、是可用的,包含兩個基本要求:首先是要符合最近關注度非常高的用戶隱私、反洗錢等監(jiān)管法律的要求,保障數(shù)據是合規(guī)的;第二是要保證數(shù)據在各個環(huán)境上的存儲、流轉和使用都是安全的。這些是在安全合規(guī)領域要重點去解決的問題。
  • 其次,交付給業(yè)務的數(shù)據不能錯漏,也不能延遲,這屬于數(shù)據質量范疇,這個領域主要解決讓業(yè)務敢用數(shù)據的問題。
  • 另外,大數(shù)據領域有非常多的人在協(xié)同開發(fā),希望產出的數(shù)據是有序的,既是可復用的又是好用的,所以,需要重點做好數(shù)據架構的規(guī)劃和治理,包括數(shù)據模型設計、數(shù)據標準規(guī)范和主數(shù)據等。
  • 最后,數(shù)據是一個閉環(huán)的生態(tài),從拿到數(shù)據到加工數(shù)據,再到賦能業(yè)務,希望整個過程是可持續(xù)的,在這個可持續(xù)的過程中需要有數(shù)據價值的體現(xiàn)。價值可以分成兩類,一類是負向的價值成本,包括數(shù)據運轉過程中計算、存儲、數(shù)據資產帶來的機器資源成本;另一類是正向的業(yè)務價值,是指數(shù)據被使用消費過程中發(fā)揮的價值。業(yè)界一直在關注數(shù)據的正向價值,從數(shù)據要素來講,核心是將數(shù)據從原來的資源或者產品,轉化成面向未來的商品。對數(shù)據價值的衡量是未來一大趨勢。

本次分享聚焦于其中的兩個命題:數(shù)據質量治理和計存治理。接下來將分別進行介紹。

二、數(shù)據質量治理

1. 數(shù)據質量產生分析

圖片

螞蟻的數(shù)據來源眾多,包括行為日志、系統(tǒng)服務端收集的數(shù)據等。從類型上看,有DB 類、日志類、log 類等,還有消息類的和非結構化的數(shù)據。大模型出來之后,我們通過一系列工具,將這些數(shù)據都存儲到了螞蟻一站式的大數(shù)據工作平臺上,經過批流的處理進行分析洞察、決策服務。也就是說,數(shù)據從業(yè)務中來,通過模型算法加工,最終又回到了業(yè)務中去。整個流轉過程非常復雜,涉及到很多的工具引擎,中間任何環(huán)節(jié)和操作都可能引發(fā)數(shù)據質量問題。提供給業(yè)務的數(shù)據錯了、漏了或者延遲了,是經常遇到的一個痛點。

2. 數(shù)據質量治理挑戰(zhàn)

在介紹螞蟻如何進行數(shù)據質量治理之前,先來了解一下螞蟻的業(yè)務形態(tài)。第一部分是大家感知的“冰山之上”的 C 端業(yè)務,包含芝麻分、螞蟻森林、花唄、借唄等;第二部分是面向機構監(jiān)管的“冰山之下”的業(yè)務,包括機構清算、計息、計提等,這些業(yè)務需要大量的技術支撐,甚至是數(shù)據加算法融匯,以追求價值的最大化。在金融業(yè)務極度嚴苛的要求下,做好整體的數(shù)據質量保障是非常重要的。

圖片

數(shù)據質量治理面臨著諸多挑戰(zhàn),主要包括:

  • 業(yè)務方面:螞蟻業(yè)務發(fā)展快,變更非常多,任何一次變更出錯都可能有很大的影響。無論從用戶體驗,還是智能化角度,對數(shù)據產出的時效都有非常高的要求。
  • 數(shù)據方面:大部分是金融層面的業(yè)務,對數(shù)據質量的要求也非常高。
  • 用戶方面:整條鏈路上有非常多的角色參與,比如有 BI 團隊、技術團隊、數(shù)據團隊和產品運營團隊等等。每個人的基本認知和專業(yè)水平都不一樣,人為操作可能也會帶來一定的風險。

目前螞蟻整體日均變更任務量在幾千次以上,每天日運行任務調度實例達到了百萬次以上,數(shù)據應用的核心消費場景有數(shù)萬個,數(shù)據質量已經成為螞蟻業(yè)務發(fā)展的基石和驅動器之一。這也是為什么今天螞蟻非常重視數(shù)據質量建設的原因。

3. 數(shù)據質量頂層設計

在這么復雜的情況下,怎么解決數(shù)據質量的問題呢?單點處理問題很難全面保障數(shù)據質量,很有可能拆東墻補西墻,或者這里解決了那里卻漏掉了。進行全面的數(shù)據質量治理,需要有良好的頂層設計,我們將風險分成三類:數(shù)據技術引擎風險、數(shù)據內容風險及數(shù)據應用風險。

圖片

具體落地的核心思路如下。首先,保障目標重點聚焦于高可用和資金安全業(yè)務場景:

  • 事前,做到整體的研發(fā)質量保障,包括測試、仿真等工作;
  • 事中,重點解決變更風險的管控;
  • 事后,當出現(xiàn)問題的時候,要確保整個生產運行是高可用的,需要重點建設主動發(fā)現(xiàn)和快速恢復的能力。
  • 另外,還成立了數(shù)據和技術的聯(lián)合藍軍對整個保障體系去做攻擊,來驗證布防是否可靠。

4. 數(shù)據質量治理架構

圖片

從縱向來看,螞蟻的數(shù)據質量治理架構總體分為三層:

  • 能力層,包含質量管控、質量識別、故障恢復和風險治理的能力,并建立了統(tǒng)一質量元數(shù)據中心,為后面 AI 加質量的嘗試及相關能力的演進打下了一個非常好的基礎。建議在做質量風險保障時,要重視元數(shù)據的建設,而且前期就要做好規(guī)劃。同時,圍繞元數(shù)據,我們結合大規(guī)模機器學習等算法去嘗試探索智能化的波動、異常、離散等異常及風險點的識別。
  • 系統(tǒng)層,主要圍繞數(shù)據測試、發(fā)布管控、變更管理、質量監(jiān)控、應急演練和質量治理建設六大產品的能力。
  • 業(yè)務層,作為數(shù)據中臺,產品能力開放給業(yè)務數(shù)據團隊、質量團隊使用,幫助建設每個業(yè)務數(shù)據質量的門戶,包含整個應用分級管控研發(fā)流程、全鏈路的質量監(jiān)控運維平臺等。

從橫向來看,質量治理貫穿全鏈路系統(tǒng),并建設了組織文化和制度規(guī)范。組織文化包含數(shù)據攻防、質量審計、質量保障小組等,做到了全局高效拉通。制度規(guī)范包含質量保障規(guī)范、基線管理手冊、發(fā)布變更手冊等,形成了全局制度上的規(guī)范。

在整個實施過程中,重點是以止損量/故障數(shù)核心指標為抓手,發(fā)現(xiàn)保障體系里面的問題,通過核心指標驅動整個體系持續(xù)地迭代和優(yōu)化。

5. 數(shù)據質量治理方案

接下來深入介紹數(shù)據質量治理圍繞事前、事中、事后的技術能力。技術上處理離線數(shù)據故障有一個核心目標——“五分鐘內發(fā)現(xiàn)故障,五十分鐘內恢復執(zhí)行”。處理線上數(shù)據故障的目標是“一分鐘發(fā)現(xiàn)問題,五分鐘定位問題,十分鐘恢復執(zhí)行”。之所以離線和線上的目標不同,是因為離線數(shù)據整條鏈路比較長,定位和恢復需要較長的時間,另外,當前的故障發(fā)現(xiàn)能力、元數(shù)據時效性等也存在一定局限性。

圖片

執(zhí)行的核心策略包括事前、事中、事后三部分。

  • 事前要做到可管控、可仿真和可灰度,在需求階段做分級變更定義,在研發(fā)階段做規(guī)范、測試和發(fā)布,在預發(fā)階段做仿真回放和 AB 灰度;
  • 事中要做到可監(jiān)控、可演練、可應急,數(shù)據全鏈路和應急監(jiān)控等各個環(huán)節(jié)都能做演練和巡檢;
  • 事后要做到可度量、可審計和可持續(xù),包括事件管理、問題故障審計報告、案例學習和晉級可晉級考試等,螞蟻每年會有一次公司級別的數(shù)據紅藍攻防,也有一年兩到三次的必須參加的安全生產晉級考試的運營活動。

6. 數(shù)據質量治理案例

(1)數(shù)據變更免疫

數(shù)據變更免疫的核心目標是希望讓錯誤代碼不發(fā)布到生產。為了實現(xiàn)這一目標構建了幾道防線:事前構建變更準入防線,將變更必須滿足的“三板斧”要求、發(fā)布窗口要求等風險底線要求植入到變更準入的防線;事中構建變更灰度防線,在變更生效之前,用真實的流程去預驗驗證,提前發(fā)現(xiàn)問題;事后重點是變更監(jiān)控,變更生效之后,能夠持續(xù)監(jiān)控變更的業(yè)務變化,有問題快速進行恢復。

下面這張圖,是面向發(fā)布環(huán)節(jié)研發(fā)的發(fā)布管控產品。

圖片

所有的變更在通過該產品發(fā)布都需要進行校驗,類似于現(xiàn)在業(yè)界比較火 DataOps,將測試、灰度、仿真、監(jiān)控全部納入到流程中,做到在發(fā)布的時候自動化地進行質量監(jiān)控和巡檢。

(2)紅藍攻防

紅藍攻防的核心思路是通過故障的注入,對生產鏈路進行模擬攻擊,發(fā)現(xiàn)防控體系的薄弱點。

圖片

模擬在線環(huán)境,用任務攻擊和數(shù)據攻擊兩種方法進行攻擊。在進行數(shù)據紅藍攻防的過程中需要解決三個核心問題:

  • 如何不影響生產?因為數(shù)據是一條鏈,上游污染了,整條數(shù)據就污染了,而且恢復成本極高。在生產環(huán)境中,構建仿真無損環(huán)境進行無差別的供給,通過攻防平臺相應的數(shù)據鏈路在無損環(huán)境里面去植入,從而不影響生產環(huán)境。
  • 如何選擇攻擊對象?主要選擇數(shù)據入口,比如數(shù)據同步、回流任務、人群標簽、有時效性保障的業(yè)務基線場景等,要重點關注有止損、有輿情的場景,比如算錢等更重要的且效果更顯性化的場景。
  • 如何有效地攻擊?要確保所有的攻擊字段能夠幫助業(yè)務發(fā)現(xiàn)有效的生產風險,核心是通過歷史故障的分析和平移,以及重大業(yè)務變更的演練。另外,在核心的攻擊能力方面,構建了 SQL 注入等能力,以及數(shù)據大幅度波動、內容格式突然異常、資金字段錯位、任務重復的回流等多種方法。

紅藍攻防在螞蟻連續(xù)組織了四到五年,整個公司級別的紅藍攻防自動化的攻擊次數(shù)達到四十多萬次,推動數(shù)據質量核對規(guī)則和配置超過了五十萬家,也發(fā)現(xiàn)了非常多的潛在問題。

三、數(shù)據計存治理

1. 數(shù)據計存治理面臨的挑戰(zhàn)

下面這張圖是 2019 年螞蟻離線集群存儲使用率的曲線圖,安全存儲的水位線是 85%,一旦超過了 85% 就可能引發(fā)異常問題。從圖中不難發(fā)現(xiàn),2019 年下半年集群存儲使用率都在 85% 以上,當時出了不少安全生產問題。

圖片

計存治理會影響到安全生產。當時集群的物理容量規(guī)模已經達到了 EB 級,大概有幾百萬張數(shù)據表,參與數(shù)據研發(fā)的人員數(shù)量是幾千級別的。在這樣一個背景下,我們開始思考計存治理的方案。

2. 數(shù)據計存治理核心思路

圖片

計存治理的核心思路是從組織設計、規(guī)范制定和平臺建設三個方面去落地。執(zhí)行的時候,通過戰(zhàn)役拉動支撐整個業(yè)務并進行資產升級,通過運營活動進行成本規(guī)范的傳播和文化的建設。

  • 在組織設計層面,成立了數(shù)據架構小組。從架構域的維度統(tǒng)籌整個公司的數(shù)據架構和成本治理的工作。設立數(shù)據管理崗位和晉升的通道,制定研發(fā)協(xié)作機制和流程。其中,數(shù)據管理的崗位和晉升通道的設置非常關鍵,因為數(shù)據治理和數(shù)據管理,與數(shù)據研發(fā),雖然都屬于數(shù)據域領域,但能力與技能要求是不一樣的,成長需要以不同的視角去看,所以設計了獨立的晉升通道。
  • 在規(guī)范制定層面,產出了螞蟻數(shù)據架構規(guī)范、研發(fā)管理規(guī)范和數(shù)據治理管控規(guī)則。
  • 在平臺建設層面,研發(fā)側正向地提升研發(fā)質量和管控資產無序增長,治理側搭建平臺化的治理工具,形成一套自動化的治理機制。

3. 數(shù)據計存治理策略

從開源和節(jié)流兩個方面具體落地實施。

圖片


  • 開源:數(shù)倉原來的資源是獨享的,數(shù)倉和在線是分開的,而且數(shù)倉資源需求量非常大。在線數(shù)據庫的資源使用率不高,基本在 25% 左右,夜間使用率可能更低,而輸出儲藏在夜間有非常高的計算資源需求,能不能把在線數(shù)據庫空閑的資源共享給數(shù)倉離線計算呢?
  • 節(jié)流:整體邏輯是數(shù)倉從任務和數(shù)據的角度盡可能去優(yōu)化和節(jié)約,包含存儲治理、計算治理、任務治理。

4. 面向開源的數(shù)據計存治理方案

圖片

以前數(shù)倉是獨立的專用集群,機器、存儲均獨立購買。為了提供高效服務,在線應用會在本地化進行多層部署。要能與在線應用混合部署,首先要把數(shù)倉集群的架構變更到能跟在線應用混部的跨層模式,既可以提升資源利用率,又能保證穩(wěn)定性。如果做成這樣的“機房架構”,有兩個問題必須解決:首先,如何確保數(shù)倉在高峰期不受在線資源的搶占,保證數(shù)倉高保業(yè)務在高峰期仍然可以穩(wěn)定運行;其次,數(shù)倉有大量的數(shù)據交互,一旦跨層會有大量的跨層數(shù)據訪問,從而帶來大量的網絡開銷,這也會直接影響數(shù)倉的正常運行。

為了解決這兩個問題,核心有三件事:

  • 將數(shù)倉應用層的數(shù)據訪問統(tǒng)一收斂到數(shù)據中間層;
  • 對數(shù)據中間層的熱數(shù)據做跨層冗余;
  • 將業(yè)務進行分級,對于高保的業(yè)務給予獨占的資源,跟在線資源做適當?shù)母綦x,防止資源擠占。

存量的數(shù)據任務都是開放讀取的,也存在大量的跨層訪問,需要將存量也無風險遷移到整個混部的集群上來。

圖片

事前做項目規(guī)劃,對業(yè)務項目劃分、資源使用進行評估,產出遷移的列表;事中進行遷移的改造工作,包括部署巡檢規(guī)則、進行代碼改造和架構的升級、部署發(fā)布管控,避免熱度及大表跨集群拷貝等;事后,做日常的巡檢和持續(xù)優(yōu)化,包括對跨層任務持續(xù)的監(jiān)控、對不合理的代碼進行改造、對熱表做集群的緩存等,減少網絡帶寬帶來的集群負載。

完成混合部署后,數(shù)倉可以共享在線資源,在沒有額外增加機器成本的情況下,整個數(shù)倉增加了 50% 的可用彈性計算資源,而且數(shù)倉任務平均等待時長降低了 50%,同時,在線應用的 CPU 利用率也從 25% 提高到了 40%,從全局來看,資源利用率提升非常明顯。

總結來說,開源的思路就是在做數(shù)據治理的時候不僅僅是只看數(shù)倉,還要將數(shù)倉的上下游及周邊環(huán)節(jié)協(xié)同起來,作為一個整體來看。

5. 面向節(jié)流的數(shù)據計存治理方案

圖片

面向節(jié)流的優(yōu)化可以分成幾類:

  • 引擎優(yōu)化,比如參數(shù)優(yōu)化,調度優(yōu)化;
  • 模型優(yōu)化,比如數(shù)倉架構的鏈路、數(shù)倉設計、代碼語法、數(shù)據壓縮格式等;
  • 代碼優(yōu)化,比如 join 的優(yōu)化、UDF 的優(yōu)化等;
  • 資產管理優(yōu)化,如果整個鏈路在業(yè)務上都沒有應用,則考慮鏈路的整體下線,實現(xiàn)更敏捷的下線。

節(jié)流的整體思路就是用技術的方法提升治理自動化率,實現(xiàn)自動識別、歸因分析、自動清理,形成常態(tài)化的管控能力。

下面分享兩個“小成本,大收益”的案例。

(1)漸進計算

圖片

漸進計算的適用場景是固定窗口或者滑動窗口指標計算。有固定起止日期的時間段叫固定窗口(比如年度、1 月 1 日至今等),有固定時長的時間段叫做滑動窗口(比如近 30 天)。固定窗口和滑動窗口計算相同指標時有很多共性,兩者在計算過程中的中間表是可以復用的,如果每次查詢都重新計算就會造成計算資源的浪費。漸進計算的核心原理是“用空間換時間”,自動生成可持續(xù)滾動中間表,將中間計算的過程表保留下來,每次查詢時用哈希的方式快速去讀取,不用再重復計算。上圖右側是一個風控業(yè)務的案例,用漸進計算優(yōu)化后,每天計算消耗從 795 CU 降到了 22 CU,收益非常顯著。

(2)存儲歸檔

圖片

存儲歸檔適用于數(shù)據查詢頻次不高的冷數(shù)據場景。通過對數(shù)倉數(shù)據的初步分析發(fā)現(xiàn),一般訪問當天數(shù)據的頻率在 80% 左右,訪問前一天數(shù)據的頻率在 10%-15% 左右,3 天前的數(shù)據很少被訪問。同時,考慮到一旦對冷數(shù)據進行壓縮或者重排之后,存儲空間雖然會下降,但是讀取時的計算性能會消耗比較大,綜合考慮,將一定時間內(比如 7 天、30 天等)未被讀取的數(shù)據定為冷數(shù)據,對其進行壓縮處理。當然也不是“一刀切”的方式,可以基于更精細的分析進行冷數(shù)據的定義和處理。

冷數(shù)據的處理邏輯分為兩類:

一類叫歸檔,核心就是采用 RAID 格式的存儲,用 n 個數(shù)據塊和 m 個校驗塊的模式建設歸檔的能力。這樣,用 8 個數(shù)據塊和 3 個校驗塊就達到了 1.375 的備份,一般都是 3 備份。

另一類是重排壓縮,是 distribute 和 sort by 的結合,與電腦的磁盤整理一樣,當很多空間是碎片化存儲的時候,通過重排壓縮把行與行之間相似的字段壓縮存儲。比如,相鄰兩行都有彭歡,存儲的時候只存一個彭歡,并且告知兩行都有彭歡的信息,用這種模式去優(yōu)化存儲。用技術的方法,不需要進行各個團隊到每個人的存儲或者優(yōu)化,就可以帶來非常大的收益。在一個案例中,網關流量日志重排壓縮后,減少了約 30% 的存儲容量。當然在進行重排壓縮的時候也有一些注意事項:distribute 環(huán)節(jié)不要將數(shù)據打散;不適合 Json 串類型字段,重復率不?;不需要 order by 全局排序,sort by 分區(qū)內排序即可;歸檔操作降低了可靠性,不如默認的 3 副本。

進一步,希望根據數(shù)據的冷熱程度,建立自動化的識別和分級存儲方案,從而實現(xiàn)成本的分級優(yōu)化。

圖片

將數(shù)據分級成四類,在用戶無感知的情況下進行自動化的數(shù)據差異化存儲。

  • 高頻訪問:熱點數(shù)據,1 SSD  + 3 HDD
  • 熱數(shù)據:訪問頻率正常,3HHD
  • 歸檔數(shù)據:數(shù)據需要長期保留,訪問頻次低的,1.375 RAID HDD 歸檔模式
  • 冷備存儲:數(shù)據需長期保留,訪問頻次極低(比如監(jiān)管數(shù)據等),單獨建立了冷備集群,壓縮比非常高,但是讀取時耗費的計算資源比較高,一般是以 90 天的邏輯長期保留。

四、對數(shù)據治理未來的思考

最后,分享對數(shù)據治理未來的幾點思考。

  • 一體化:數(shù)據在哪里治理就在哪里,隨著大模型、ChatGPT、AI 的出現(xiàn),以及螞蟻自身業(yè)務的發(fā)展,目前關注在傳統(tǒng)離線上的數(shù)據治理,未來會轉變?yōu)榛诤}一體(在線、離線、實時、圖計算等)做一體化的數(shù)據治理,解決成本、合規(guī)和效率的問題。
  • 價值化:數(shù)據作為生產要素,從內部的產品變?yōu)榱魍ǖ纳唐?,涉及到共享交易和開放,在數(shù)據確權價值的衡量及隱私保護方面去探索和突破價值點。
  • 智能化:加入大模型做更智能的數(shù)據治理,原來是人工走向規(guī)則,接下來會探索更智能的方向。
責任編輯:姜華 來源: DataFunTalk
相關推薦

2020-11-19 15:01:26

京東大數(shù)據數(shù)據平臺

2024-10-15 08:14:51

2024-04-22 07:56:32

數(shù)據倉庫數(shù)據中臺數(shù)據服務

2024-01-11 08:15:52

大數(shù)據成本治理Hadoop

2024-03-26 06:46:52

大數(shù)據數(shù)據治理大數(shù)據資產治理

2015-05-26 09:41:45

china-pub

2023-04-10 07:34:30

2022-12-30 15:27:13

2021-06-10 19:10:32

大數(shù)據大數(shù)據應用大數(shù)據技術

2024-10-21 08:43:16

2023-06-15 07:24:11

數(shù)據治理EB級數(shù)倉

2020-03-06 05:42:47

大數(shù)據隊架構工作指標

2024-11-13 08:47:24

2023-04-21 13:15:01

2021-09-06 15:39:00

大數(shù)據技術醫(yī)療

2021-05-21 16:26:46

數(shù)據安全治理

2023-09-07 20:31:48

外灘大會螞蟻集團圖學習系統(tǒng)

2021-12-23 13:50:33

數(shù)據安全

2023-01-31 15:27:13

數(shù)據治理數(shù)據管理

2022-05-13 11:24:09

數(shù)據美團
點贊
收藏

51CTO技術棧公眾號