應對大規(guī)模數據集群治理,聯(lián)通大數據這么做
維克多在2012年出版的《大數據時代》一書中曾預測:數據列入企業(yè)資產負債表只是時間問題。如今,伴隨著新興科技手段的融合創(chuàng)新,大數據已經應用到了我們生活中的方方面面,數據資產的概念已逐漸得到國內外企業(yè)的強烈認同。
但是,數據和企業(yè)資產可以直接劃等號嗎?實際情況是,沒有經過系統(tǒng)管理和規(guī)劃治理的數據集群,不僅很難為企業(yè)創(chuàng)造實際效益,而且還將帶來權限混亂、計算能力下降、冗余存儲計算、資源浪費等問題,使整個數據集群處于“亞健康”狀態(tài)。
那么,是否有正本清源的應對方案呢?聯(lián)通大數據有限公司技術部負責人李大中日前在2019大數據產業(yè)峰會-大數據前沿技術論壇進行分享,他以《聯(lián)通大規(guī)模數據集群治理實踐》為主題,分享運營商在數據資產管理方面的經驗和對策。
下文為李大中演講內容整理:
聯(lián)通大數據有限公司承擔著聯(lián)通大數據能力建設和對外服務運營職能,目前平臺存儲容量達100PB,Hadoop集群超過6000個節(jié)點,數據模型數量達2000余個。作為運營商在數據治理過程中,既要面對大數據量的實時處理需求,也必須從成本角度考慮集群算力配置、安全合規(guī)等方面的要求。大數據是一個高成本行業(yè),集群算力成本是其中主要部分。
通過參考行業(yè)的治理經驗,并結合公司業(yè)務和組織架構特點,我們總結出了一套適合公司業(yè)務發(fā)展的數據資產管理體系,也就是“疏整促+巡山+DataValue”數據資產管理體系:基于“疏整促”工程構建的全生命周期數據管控治理體系,基于“巡山”工程構建的大規(guī)模集群治理體系,基于“DataValue”工程實現(xiàn)對外數據價值經營,三大工程同步推進,形成數據治理+集群治理+數據價值的整體協(xié)同效應。
在實際執(zhí)行中,“巡山”工程作為 切入點首先啟動,效果也最為明顯。在大規(guī)模集群計算環(huán)境處于亞健康的狀態(tài)下,我們將治理工作分解為兩階段:首要任務是解決亞健康問題,即保障集群資源算力可用、確保集群穩(wěn)定性、業(yè)務連續(xù)性;長期和更為重要任務是保持健康狀態(tài),即持續(xù)有效的監(jiān)督數據治理工程的效果。
關于大規(guī)模數據集群治理的推進方法論,由于集群治理涉及到從采集、清洗到模型加工,從平臺運維崗到產品開發(fā)崗,幾乎涵蓋了公司的整個技術線和產品線上百人工作內容,所以采用自上而下的頂層設計的方式是不現(xiàn)實的,我們采用的是自下而上、自發(fā)協(xié)同、精益推進式的數據集群治理文化。從發(fā)現(xiàn)問題點入手,由點帶面找到原因、制定解決策略并建立相應的監(jiān)督點,最終逐漸形成體系;通過某幾個環(huán)節(jié)治理成果顯性化,帶動整個公司生產組織體系逐漸形成治理文化。
在治理過程中,針對我們遇到過的幾個重要的點向大家介紹一下思路:
1. HDFS&YARN作業(yè)深度監(jiān)控
針對小文件過多、文件量過大、耗資源大等情況,聯(lián)通大數據通過自主研發(fā)一套統(tǒng)一元數據實時采集平臺對Fsimage和EditLog進行反序列化解析,實時批量獲取資源隊列信息、文件目錄、作業(yè)任務信息等內容,通過多維關聯(lián)畫像洞察疑似異常作業(yè),推動作業(yè)優(yōu)化和監(jiān)控優(yōu)化效果。最終集群文件數量從接近8000萬下降為3000萬,平均文件大小提升4倍。集群資源負載從每天幾乎處于打滿狀態(tài),下降為不到70%。每年節(jié)約固定資產投入上千萬元。
2. RPC請求和關鍵服務預警
針對集群RPC經常出現(xiàn)請求延時過大,甚至達到秒級,導致集群處于停擺不可用狀態(tài),通過采集JMX指標、服務連接數、堆棧信息、GC等信息進行關聯(lián)畫像,并下鉆洞察相關作業(yè),精準定位待優(yōu)化作業(yè)。優(yōu)化后集群RPC請求延時大幅減少,下降為毫秒級別。
3. 重復加工/冗余計算挖掘
針對數據重復加工、冗余計算等情況,估計大家的系統(tǒng)中或多或少都存在,這種情況直接導致資源被浪費。我們通過對HDFS JOB BINARY FILE分析,定位疑似冗余計算作業(yè),這種方式同組織架構復雜度無關、不依賴上層業(yè)務輸入,其核心思想就是通過提取出具有相同輸入路徑的作業(yè),以目錄維度視角挖掘疑似重復作業(yè),優(yōu)化后集群資源降低10%以上。
4. 重構元數據管理、血緣分析應用
針對數據加工流向追溯、敏感數據難以有效跟蹤等情況,通過對HIVE執(zhí)行日志進行SOL解析,以及通過對SPARK作業(yè)輸入輸出目錄畫像,以無侵入方式建設企業(yè)級全域元數據平臺,提供全域物理視圖、業(yè)務視圖、元數據變更跟蹤監(jiān)控、全域數據血緣關系圖等核心功能,滿足復雜的追溯需求以及故障范圍評估。
談及在治理過程中的感受,李大中指出:“大規(guī)模數據集群治理并非單人、單項目組能夠完成的,而是需要以文化滲透的形式動員到公司生產開發(fā)組織體系中,采用自下而上自發(fā)協(xié)同,以OKR而非KPI的方式管理,在解決問題的過程中不斷調整目標,從而建成持續(xù)優(yōu)化的治理體制。當然,技術人員也要擁抱和吃透大數據開源技術,采用開創(chuàng)性的思維去解決問題。”