偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

為什么說(shuō)建立統(tǒng)一數(shù)據(jù)平臺(tái)是重要的

原創(chuàng)
大數(shù)據(jù) 開(kāi)發(fā)
由51CTO舉辦的WOT2016互聯(lián)網(wǎng)運(yùn)維與開(kāi)發(fā)者峰會(huì)上,來(lái)自前優(yōu)酷土豆的大數(shù)據(jù)開(kāi)放平臺(tái)研發(fā)負(fù)責(zé)人楊大海做了以 “建立統(tǒng)一數(shù)據(jù)平臺(tái)的重要性”為主題的演講。本文章是把本次分享干貨亮點(diǎn)整理成文字形式,呈獻(xiàn)廣大的用戶(hù)。

本文是WOT2016互聯(lián)網(wǎng)運(yùn)維與開(kāi)發(fā)者大會(huì)的現(xiàn)場(chǎng)干貨,  新一屆主題為WOT2016企業(yè)安全技術(shù)峰會(huì)將在2016年6月24日-25日于北京珠三角JW萬(wàn)豪酒店隆重召開(kāi)!

楊大海表示,對(duì)于一個(gè)外行人或剛?cè)腴T(mén)的人來(lái)說(shuō),建立一個(gè)數(shù)據(jù)平臺(tái)就是搭一個(gè)Hadoop集群而已。但基于這個(gè)集群,想要把它很好的用起來(lái)會(huì)暴露很多的問(wèn)題。那么針對(duì)這些問(wèn)題就需要研發(fā)很多系統(tǒng)來(lái)應(yīng)對(duì),所以建立統(tǒng)一數(shù)據(jù)平臺(tái)是非常重要的。

[[167358]]

為什么說(shuō)建立統(tǒng)一數(shù)據(jù)平臺(tái)是重要的

門(mén)檻,這里楊大海表示,并不是現(xiàn)在做大數(shù)據(jù)的門(mén)檻有多高,因?yàn)檎麄€(gè)大數(shù)據(jù)領(lǐng)域的技術(shù)非常成熟,人員也很多,很多公司都自己的團(tuán)隊(duì)做大數(shù)據(jù)。這里所說(shuō)的門(mén)檻是指非大數(shù)據(jù)領(lǐng)域的一些人,如分析師可能只會(huì)寫(xiě)一些SQL語(yǔ)句或只能看懂一些數(shù)據(jù),出一些報(bào)表,如果讓這類(lèi)人寫(xiě)Mapreduce或數(shù)據(jù)收集研發(fā)東西,就會(huì)覺(jué)得非常難,如果建立一個(gè)完善的數(shù)據(jù)平臺(tái),可有效幫助他們。

共享, 假設(shè)某公司有很多技術(shù)團(tuán)隊(duì)、不同部門(mén)、不同業(yè)務(wù)團(tuán)隊(duì)。如每個(gè)團(tuán)隊(duì)都搭一套Hadoop群,中間的數(shù)據(jù)共享就成了問(wèn)題。還就是資源浪費(fèi),像人力資源浪費(fèi)和服務(wù)器資源浪費(fèi)等。

規(guī)范,基于大數(shù)據(jù)系統(tǒng)做一個(gè)數(shù)據(jù)產(chǎn)品,需要數(shù)據(jù)采集、收集、存儲(chǔ)和計(jì)算等多個(gè)步驟,這樣整個(gè)流程是非常長(zhǎng),花30%時(shí)間做業(yè)務(wù)系統(tǒng)開(kāi)發(fā),70%時(shí)間用于平臺(tái)搭建或一些開(kāi)源的完善,是非常不劃算的。設(shè)想做數(shù)據(jù)產(chǎn)品之前就已經(jīng)有系統(tǒng)供選擇,有數(shù)據(jù)需要采集,有新計(jì)算模型需要誕生時(shí)候只需要接入,不需要再花時(shí)間調(diào)研。制定規(guī)范之后,日志放在哪,通過(guò)標(biāo)準(zhǔn)配置,就可以把日志采上來(lái)供使用。這樣一來(lái),就保證盡可能縮短數(shù)據(jù)采集整個(gè)的流程。

成本,這里指人力成本和服務(wù)器,就是硬件資源的成本。有統(tǒng)一數(shù)據(jù)平臺(tái),就可以做很多優(yōu)化。面對(duì)一千臺(tái)規(guī)模的服務(wù)器,可通過(guò)一些修改原碼、參數(shù)優(yōu)化等提升10%,就可節(jié)省約64G或者128G、4核服務(wù)器一百臺(tái)。

時(shí)間,開(kāi)發(fā)一套業(yè)務(wù)系統(tǒng),大可不必花一個(gè)月的時(shí)間調(diào)研Hadoop,花一個(gè)月時(shí)間的調(diào)研Kafka,因?yàn)檫@些不在業(yè)務(wù)團(tuán)隊(duì)的競(jìng)爭(zhēng)范圍之內(nèi)。更多的精力應(yīng)放在產(chǎn)品或系統(tǒng),如何把系統(tǒng)做得更***,而不是怎么把Hadoop打好。

Hadoop集群的發(fā)展進(jìn)程

Hadoop發(fā)展規(guī)模

如上圖,楊大海表示,從2012年到2016年,Hadoop集群在不斷進(jìn)化發(fā)展中。集群最初起點(diǎn)比較低,只是為了滿(mǎn)足數(shù)據(jù)分析團(tuán)隊(duì)和推薦團(tuán)隊(duì)使用,只有三四十臺(tái)的規(guī)模。在2012年到2013年的時(shí)間,集群擴(kuò)張的非??臁5?013年接入很多用戶(hù),公司其他團(tuán)隊(duì)如廣告、分成等團(tuán)隊(duì)接進(jìn)。集群膨脹厲害,半年時(shí)間翻了四五倍,到200臺(tái)左右的規(guī)模。到2016年時(shí)間,整個(gè)集群將近一千臺(tái)規(guī)模,中間做了一次升級(jí),就是1.3升級(jí)2.3,當(dāng)時(shí)升級(jí)是為了滿(mǎn)足周邊的一些生態(tài)圈。

 Hadoop集群發(fā)展過(guò)程中遇到的問(wèn)題

hadoop問(wèn)題演變

如上圖,楊大海表示,整個(gè)集群發(fā)展過(guò)程中遇到的問(wèn)題是隨著階段的推移不斷地變化的,也就是說(shuō)不同階段遇到的不同的問(wèn)題各不一樣。

50臺(tái)規(guī)模時(shí),整個(gè)生態(tài)圈不完善,像Hive等本身還有很多Bug,但因?yàn)閯傞_(kāi)始,應(yīng)用簡(jiǎn)單所以并沒(méi)有發(fā)現(xiàn)。此時(shí)團(tuán)隊(duì)技術(shù)功底非常差,集群管理基本上沒(méi)做,直接搭了一條集群,裸奔的集群。

200百臺(tái)規(guī)模時(shí),遇到的問(wèn)題相對(duì)多一些,楊大海在這里介紹了權(quán)限問(wèn)題、用戶(hù)管理、資源調(diào)度、調(diào)度系統(tǒng)、數(shù)據(jù)安全、目錄規(guī)范、參數(shù)規(guī)范、本地化八大問(wèn)題。

  • 權(quán)限問(wèn)題, 用戶(hù)增多,十個(gè)上百個(gè),那權(quán)限就成了問(wèn)題。
  • 用戶(hù)管理,如何把用戶(hù)管理好,保證用戶(hù)的作業(yè)及時(shí)提交,而不是因?yàn)槟硞€(gè)用戶(hù)提交一個(gè)大作業(yè),把整個(gè)集群資源占完,其他的腳本沒(méi)法跑。如何保證這個(gè)用戶(hù)存儲(chǔ)不會(huì)***擴(kuò)張。如何給用戶(hù)規(guī)劃存儲(chǔ)。
  • 資源調(diào)度,保證用戶(hù)一定獨(dú)立空間,控制占有的資源數(shù)目,不至于把整個(gè)集群的資源給占完。
  • 調(diào)度系統(tǒng),一臺(tái)服務(wù)器,一臺(tái)客戶(hù)端,可能會(huì)給三個(gè)團(tuán)隊(duì)用,每天晚上會(huì)有上萬(wàn)個(gè),甚至幾千個(gè)、幾百個(gè)作業(yè)來(lái)提交,通過(guò)這臺(tái)機(jī)器來(lái)提交。調(diào)度系統(tǒng)是為了解決客戶(hù)端單節(jié)點(diǎn)的問(wèn)題,單點(diǎn)故障的問(wèn)題。
  • 數(shù)據(jù)安全,公司內(nèi)部雖是同一個(gè)集團(tuán)公司,但分為不同的BU,這些BU之間的數(shù)據(jù)是需要共享、也需隔離。
  • 目錄規(guī)范,日志如何存儲(chǔ),用戶(hù)目錄如何規(guī)劃,目錄需要多大的空間,如果超過(guò)空間我如何提醒刪除。
  • 參數(shù)規(guī)范,Hadoop有很多參數(shù),需要增加,也需要優(yōu)化。
  • 本地化 ,有時(shí)需對(duì)Mapreduce本地化,因?yàn)橥蝗婚g上了兩百臺(tái)機(jī)器,Mapreduce從中取數(shù)據(jù),但本地沒(méi)有需遠(yuǎn)程,這還需要對(duì)本地化參數(shù)做優(yōu)化。

1000臺(tái)左右高可用多計(jì)算模型共存時(shí),問(wèn)題就更多,更加繁瑣。如用戶(hù)水平、高可用、小文件、數(shù)據(jù)遷移、任務(wù)問(wèn)題、存儲(chǔ)計(jì)劃、機(jī)房瓶頸、歸檔、資源爭(zhēng)強(qiáng)分類(lèi)、資源隔離、任務(wù)監(jiān)控、列隊(duì)監(jiān)控等。

  • 用戶(hù)水平,用戶(hù)水平有低有高,這就需要有一個(gè)人專(zhuān)門(mén)解答每天用戶(hù)的問(wèn)題。
  • 高可用,這里需要做HHA,因?yàn)殄礄C(jī)后影響太大,所有團(tuán)隊(duì)的任務(wù)都需要重跑,所有團(tuán)隊(duì)的數(shù)據(jù)都需要重鋪。
  • 小文件,集群有一千臺(tái)服務(wù)器,小文件數(shù)是非常多。內(nèi)目錄內(nèi)存現(xiàn)在已經(jīng)用到150G左右,這就需要對(duì)文件數(shù)進(jìn)行控制,對(duì)近兩年文件做歸檔。
  • 任務(wù),需要看許多指標(biāo)找出問(wèn)題,這更強(qiáng)大的監(jiān)控系統(tǒng)來(lái)支持。
  • 存儲(chǔ)計(jì)劃,同運(yùn)維報(bào)一個(gè)存儲(chǔ)計(jì)劃,如集群打算一個(gè)月擴(kuò)多少臺(tái)服務(wù)器、如根據(jù)流量、數(shù)據(jù)量、任務(wù)量去申報(bào)。因?yàn)椴豢赡墁F(xiàn)在突然間擴(kuò)一百個(gè)機(jī)器,運(yùn)維也不一定有兩百臺(tái)的機(jī)器提供。
  • 資源爭(zhēng)搶?zhuān)潜容^嚴(yán)重的問(wèn)題,集群升級(jí)變快,但突然間可能提交不上去。
  • 因?yàn)楫?dāng)時(shí)的調(diào)度策略,在做版本迭代升級(jí)時(shí),有一些新功能剛推出,很多特徑還不支持。
  • 資源隔離,這個(gè)是之后需要做的事情。如一個(gè)任務(wù)死循環(huán)把整個(gè)服務(wù)器跑掛問(wèn)題的解決。

 Hadoop數(shù)據(jù)平臺(tái)的發(fā)展現(xiàn)狀

數(shù)據(jù)平臺(tái)現(xiàn)狀

楊大海表示,上圖是現(xiàn)在數(shù)據(jù)平臺(tái)的發(fā)展現(xiàn)狀。最上層系統(tǒng)如團(tuán)隊(duì)、廣告、推薦、分析、云娛樂(lè)、直播、搜索、分成、移動(dòng)等,這些系統(tǒng)最原始的它們需要數(shù)據(jù),所以有一套日志系統(tǒng),把數(shù)據(jù)采集并存儲(chǔ)。日志系統(tǒng)是研發(fā)的,因?yàn)樾枰鉀Q跨機(jī)房的問(wèn)題。日志收集需要遍布在全國(guó)很多個(gè)機(jī)房,機(jī)房日志收集是需要聚合,最終的數(shù)據(jù)都要聚合到一個(gè)點(diǎn)。左邊是數(shù)據(jù)的計(jì)算部分,可直接讀取日志系統(tǒng)的數(shù)據(jù)。右邊用戶(hù)管理系統(tǒng)是為了滿(mǎn)足用戶(hù)申請(qǐng)賬號(hào)、放文件、需要?dú)w屬一個(gè)團(tuán)隊(duì)、訪(fǎng)問(wèn)團(tuán)隊(duì)資源。監(jiān)控報(bào)警系統(tǒng),來(lái)做統(tǒng)一的監(jiān)控報(bào)警。

Hadoop數(shù)據(jù)平臺(tái)的未來(lái)

hadoop平臺(tái)未來(lái)

楊大海表示,上圖是集群的未來(lái)的樣子,現(xiàn)在我們已經(jīng)做到90%,但還沒(méi)有完全解決。未來(lái)整個(gè)存儲(chǔ)分為實(shí)時(shí)和離線(xiàn)兩部分。HDFS存儲(chǔ)可能會(huì)遍布到大數(shù)據(jù)所有服務(wù)器,很多團(tuán)隊(duì)是不做存儲(chǔ)的,所以可以把存儲(chǔ)遍布到所有的服務(wù)器,給你團(tuán)隊(duì)的賬號(hào)?;赮arn話(huà)會(huì)做虛擬化,完全把解決資源,資源無(wú)法隔離的痛點(diǎn)?;赮arn開(kāi)發(fā)更多的計(jì)算模型出來(lái),如自定義的一些計(jì)算模型。

Hadoop平臺(tái)將要面臨的挑戰(zhàn)

Hadoop平臺(tái)將要面臨的挑戰(zhàn)

如上圖,楊大海表示,Hadoop平臺(tái)將要面臨的挑戰(zhàn)分為三部分HDFS、Yarn、Client。針對(duì)HDFS面臨的挑戰(zhàn)有Namenode性能瓶頸、日志大小的控制、節(jié)點(diǎn)操作的API、多機(jī)房方案、集群規(guī)模太大Namenode性能瓶頸等。針對(duì)Yarn面對(duì)的挑戰(zhàn)有調(diào)度個(gè)性化分類(lèi)、資源隔離、數(shù)據(jù)倉(cāng)庫(kù)的必要性、基于標(biāo)簽調(diào)度完善、更強(qiáng)大的監(jiān)控平臺(tái)等。針對(duì)Client面對(duì)的挑戰(zhàn)有Docker統(tǒng)一管理、配置問(wèn)題、業(yè)務(wù)依賴(lài)升級(jí)問(wèn)題等。

 Hadoop數(shù)據(jù)平臺(tái)的運(yùn)營(yíng)問(wèn)題

關(guān)于Hadoop數(shù)據(jù)平臺(tái)的運(yùn)營(yíng)問(wèn)題 ,楊大海這樣說(shuō),對(duì)內(nèi)部運(yùn)營(yíng)是非常有必要的,綜上那么多問(wèn)題,就因?yàn)槌跗谶\(yùn)營(yíng)預(yù)料到這些問(wèn)題,但沒(méi)有做好,導(dǎo)致后期花非常大的代價(jià)去挽回。他還從規(guī)范、計(jì)劃、流程和策略四方面針對(duì)運(yùn)營(yíng)問(wèn)題,做了講解。

  • 規(guī)范,就是目錄怎么存,可以放多大文件,放多少文件,占用多少資源。讓用戶(hù)一開(kāi)始就了解這個(gè)事情,以免一起限制導(dǎo)致客戶(hù)煩感。
  • 計(jì)劃,集群要做一下計(jì)劃,不同的時(shí)間做不同的事情,滿(mǎn)足用戶(hù)更個(gè)性化的需求,如何時(shí)完善更多的計(jì)算模型。
  • 流程,用戶(hù)在使用平臺(tái)期間詳細(xì)的知道整套的流程,如用戶(hù)賬號(hào)申請(qǐng),如用HDFS的話(huà)做那些事,用Kafka的話(huà)做哪些事等等。所有系統(tǒng)之間的賬號(hào)全部打通,一個(gè)賬號(hào)全部搞定。
  • 策略,很多時(shí)間需要制定策略來(lái)限制用戶(hù),這里說(shuō)的限制并不是讓用戶(hù)用的不爽,是讓它更健康的發(fā)展下去。

在演講***,楊大海提到了兩個(gè)問(wèn)題數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)服務(wù)。建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),對(duì)數(shù)據(jù)平臺(tái)來(lái)說(shuō)表面上看起來(lái)是兩件毫不相關(guān)的事情,一個(gè)是做數(shù)據(jù)底層,一個(gè)是做數(shù)據(jù)服務(wù)。其實(shí)兩邊關(guān)系非常大,如果沒(méi)有一個(gè)數(shù)據(jù)倉(cāng)庫(kù),做底層的會(huì)非常痛苦。這里的痛苦并不是技術(shù)滿(mǎn)足不了,而是要不斷的擴(kuò)容。數(shù)據(jù)服務(wù)更大的意義是保證數(shù)據(jù)的一致性,如廣告團(tuán)隊(duì)算了一個(gè)視頻的VV量和播放量和分析團(tuán)隊(duì)算的一個(gè)視頻的播放量不一致,這個(gè)數(shù)據(jù)是沒(méi)法解釋的。其實(shí)大家原數(shù)據(jù)都一樣,統(tǒng)計(jì)口徑不一樣,才造成這個(gè)問(wèn)題。所以數(shù)據(jù)服務(wù)是把一部分可以公開(kāi)的數(shù)據(jù)算好,通過(guò)接口去公開(kāi),部分不可以公開(kāi)數(shù)據(jù),做成帶有偷窺認(rèn)證,帶有用戶(hù)認(rèn)證數(shù)據(jù)結(jié)構(gòu)提供出去。盡可能做到的把公司的業(yè)務(wù)前面的幾個(gè)主題做倉(cāng)庫(kù)。

演講視頻:

http://edu.51cto.com/lesson/id-100760.html

http://edu.51cto.com/lesson/id-101082.html

【講師簡(jiǎn)介】

[[167359]]

楊大海,前優(yōu)酷土豆大數(shù)據(jù)平臺(tái)高級(jí)架構(gòu)師,優(yōu)酷土豆的大數(shù)據(jù)開(kāi)放平臺(tái)研發(fā)負(fù)責(zé)人,主要負(fù)責(zé)優(yōu)酷土豆開(kāi)放大數(shù)據(jù)平臺(tái)的研發(fā)和運(yùn)營(yíng)。曾就職于亞信聯(lián)創(chuàng)負(fù)責(zé)bi商業(yè)智能產(chǎn)品的研發(fā)。

責(zé)任編輯:王雪燕 來(lái)源: 51CTO
相關(guān)推薦

2022-05-10 09:53:45

數(shù)據(jù)治理數(shù)據(jù)開(kāi)發(fā)DataOps

2022-08-24 15:03:21

數(shù)據(jù)智能數(shù)據(jù)分析

2021-02-25 14:09:55

人工智能數(shù)據(jù)機(jī)器學(xué)習(xí)

2020-09-17 16:36:37

戴爾

2020-12-31 10:57:01

云計(jì)算云安全數(shù)據(jù)

2022-03-14 08:33:09

TypeScriptJavaScript前端

2020-07-03 14:05:26

Serverless云服務(wù)商

2021-11-29 18:27:12

Web Wasmjs

2023-03-28 07:26:37

2020-06-18 07:16:22

聯(lián)網(wǎng)車(chē)隊(duì)物聯(lián)網(wǎng)IOT

2023-07-19 08:00:00

Raft分布式系統(tǒng)

2022-05-20 11:41:00

數(shù)據(jù)科學(xué)編程語(yǔ)言Python

2018-01-03 22:14:31

華為

2022-09-09 16:06:15

API開(kāi)發(fā)者命名API

2021-07-12 11:24:00

流利說(shuō)可觀(guān)察性平臺(tái)阿里云

2021-06-24 12:46:40

數(shù)據(jù)管理模型

2021-10-21 05:30:48

Data Fabric數(shù)據(jù)管理架構(gòu)邊緣計(jì)算

2020-09-15 15:53:31

邊緣計(jì)算云計(jì)算5G

2021-06-02 10:52:01

HTTP3Linux

2015-10-22 11:04:07

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)