偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

乘云向未來 | 字節(jié)跳動多云演進及降本之實踐

云計算
在11月10日-24日舉辦的“乘云·向未來”火山引擎公共云·城市分享會上,火山引擎以“字節(jié)跳動多云演進及降本實踐”為題,介紹分享了字節(jié)跳動多云算力架構(gòu)和火山引擎云原生技術(shù),以及如何解決多云環(huán)境下的部署、運維、數(shù)據(jù)和成本等挑戰(zhàn)。

在萬物上云的時代,多云架構(gòu)已經(jīng)成為企業(yè)上云戰(zhàn)略的重要趨勢。據(jù)IDC報告,到2023年,全球85%的企業(yè)將采用多云架構(gòu)。與單一云服務(wù)相比,多云架構(gòu)具有更高的彈性和可擴展性,可以更好地應(yīng)對企業(yè)的業(yè)務(wù)需求和突發(fā)的云服務(wù)問題。

然而,如何讓不同的云平臺之間實現(xiàn)業(yè)務(wù)系統(tǒng)的無縫對接?如何將資源利用率發(fā)揮到極致?為了防止出現(xiàn)“信息孤島”等問題,云原生的實踐者們不斷探索多云環(huán)境下的解決方案。

在11月10日-24日舉辦的“乘云·向未來”火山引擎公共云·城市分享會上,火山引擎以“字節(jié)跳動多云演進及降本實踐”為題,介紹分享了字節(jié)跳動多云算力架構(gòu)和火山引擎云原生技術(shù),以及如何解決多云環(huán)境下的部署、運維、數(shù)據(jù)和成本等挑戰(zhàn)。

以下為演講實錄:


圖片

字節(jié)跳動為什么選擇多云

火山引擎技術(shù)脫胎于字節(jié)跳動的技術(shù),同時融入到字節(jié)業(yè)務(wù)中。伴隨字節(jié)業(yè)務(wù)的發(fā)展,火山引擎的技術(shù)也在不斷發(fā)展進步。

談到多云化,大家會談到字節(jié)為什么選擇多云?概括起來講是三個原因。

第一是業(yè)務(wù)性方面的訴求2017—2018年,抖音快速發(fā)展從1萬DAU增長到1億DAU,有著極大的資源需求,而任何單朵云都不能在短時間供應(yīng),這個時候選擇多云是業(yè)務(wù)發(fā)展不可回避的問題。同時,不同的業(yè)務(wù)有不同的硬件和算力需求,而不同的云服務(wù)商也有不同的算力供給。企業(yè)在選擇云服務(wù)時,會考慮稀缺資源和業(yè)務(wù)支撐的因素。直播電商近年來風靡,需要分布式資源的支撐。如果自建IDC和資源,業(yè)務(wù)上會耗時較長,隨著業(yè)務(wù)發(fā)展,企業(yè)采購云資源是必要的。

第二個重要因素就是經(jīng)濟性。具有大量互聯(lián)網(wǎng)化業(yè)務(wù)的公司,如果持有大量資源,會造成一定的經(jīng)濟損失,所以會選擇云服務(wù)進行支撐。還有,不同資源的成本不同,所以不同公司也會根據(jù)自己的需求,選擇合適的云服務(wù)商。

第三個重要因素就是安全性。數(shù)據(jù)主權(quán)、安全合規(guī)、防綁定等問題,會導致企業(yè)在業(yè)務(wù)發(fā)展中不自覺地選擇多家云服務(wù)商,形成多云的現(xiàn)象。

由于上述問題的存在,字節(jié)跳動的技術(shù)團隊堅定地選擇了多云作為基礎(chǔ)架構(gòu)發(fā)展的主要路徑。


圖片

字節(jié)多云下的云原生之路

那么在多云情況之下,如何用好云呢?這是一個非常關(guān)鍵的命題。在談如何用好多云之前,先回顧一下字節(jié)跳動多云下的云原生之路。

2016年,由于字節(jié)跳動不同業(yè)務(wù)使用了不同的自管資源,導致出現(xiàn)了資源浪費、管理開發(fā)、運維困難、容量口徑不一致等問題,影響了業(yè)務(wù)的穩(wěn)定性和效率。伴隨頭條的快速增長,字節(jié)跳動啟動了云建設(shè)。

2017年,互聯(lián)網(wǎng)競爭格局加劇,我們需要大量開發(fā)人員快速開發(fā)和迭代系統(tǒng),這時候就要招聘大量的開發(fā)人員。但是新招聘的開發(fā)人員不熟悉公司的開發(fā)體系,需要培訓和適應(yīng)。如何讓開發(fā)人員用自己的原生熟悉的方式,快速進入到業(yè)務(wù)的開發(fā)過程中,從而對業(yè)務(wù)的發(fā)展起到助力作用,這是不得不解決的問題。由于各個團隊技能不一樣,開發(fā)出來的業(yè)務(wù)系統(tǒng)也會對線上的互聯(lián)互通相應(yīng)的管理治理造成一些挑戰(zhàn),所以需要把這些技術(shù)和經(jīng)驗沉淀下來。于是,我們采用了服務(wù)網(wǎng)格的架構(gòu),統(tǒng)一監(jiān)控告警的方式,支持多種語言適配服務(wù)網(wǎng)格,幫助不同業(yè)務(wù)開發(fā)人員快速進入業(yè)務(wù)迭代中去,把服務(wù)治理能力、穩(wěn)定性治理能力、流量調(diào)動能力等公共能力沉淀到底層平臺,賦能平臺的發(fā)展。

我們在2019年做了很多市場活動,比如央視春晚紅包,需要大量的云資源。我們的推廣業(yè)務(wù)原來是大顆粒的,要適配和調(diào)優(yōu)不同的云,成本很高。這種局面之下,對于推廣大顆粒的業(yè)務(wù)而言,要去適配不同云的資源,又產(chǎn)生了適配和調(diào)優(yōu)成本。在活動過程中我們發(fā)現(xiàn),有一些推廣側(cè)的業(yè)務(wù),可以進行一定程度的降級,額外節(jié)約出來很多資源,更好地支撐對應(yīng)活動的展開。如果還像過往方式展開,成本是非常不經(jīng)濟的,因此需要提高云資源彈性,更敏捷地響應(yīng)活動需求,從而降低資源成本。

2020年,隨著推廣業(yè)務(wù)完成演進,通過把離線在線混合在一起,提高了使用率。我們對存儲進行了大范圍的改造,推高了整體的運行效率。

業(yè)務(wù)發(fā)展過程中,由于資源需求很大,我們經(jīng)常要在多云之間切換,增加了運維成本。云原生應(yīng)用多云的能力幫助我們節(jié)省時間,快速適配不同的云。目前,抖音和頭條能夠?qū)崿F(xiàn)1周左右快速適配不同的云,快速解決云的切換,這對業(yè)務(wù)來說是非常有幫助的。

2021年,從資源多云到應(yīng)用多云,字節(jié)跳動正式實現(xiàn)了全場景應(yīng)用編排和資源管理的標準化和統(tǒng)一化。

字節(jié)今天擁有500多個k8s生產(chǎn)集群,其聯(lián)邦管理節(jié)點數(shù)超過21萬,單集群規(guī)模達到20000以上,微服務(wù)數(shù)超過10萬級別。每天,生產(chǎn)系統(tǒng)有3萬次服務(wù)更新,這為迭代和創(chuàng)新提供了強大的支撐,同時保證了業(yè)務(wù)的穩(wěn)定性。此外,離線任務(wù)容器數(shù)高達240M+,通過云原生的混合部署,有效地節(jié)省了企業(yè)的資源成本。

圖片

多云面臨的四大挑戰(zhàn)

多云發(fā)展的整個過程,并不是一帆風順的,需要解決各個方面的問題??偨Y(jié)來講,是以下四個點:


  • 部署/運維復雜度:應(yīng)用/服務(wù)多云部署方式,容器、主機、云上服務(wù)等不同類型的部署方式都額外增加了部署和運維的難度
  • 打通/互操作性:網(wǎng)絡(luò)打通、身份/權(quán)限打通、運維打通、數(shù)據(jù)訪問打通、流量管理,多云條件下,帶來互操作性的復雜度
  • 數(shù)據(jù)管理/合規(guī)難度:數(shù)據(jù)離散分布之后數(shù)據(jù)資產(chǎn)的管理難度加大,數(shù)據(jù)合規(guī)挑戰(zhàn)加大、數(shù)據(jù)泄漏風險和追蹤難度加大
  • 成本控制復雜度:業(yè)務(wù)、成本、資產(chǎn)的管理難度

圖片

字節(jié)多云算力架構(gòu)

從字節(jié)跳動業(yè)務(wù)部署情況來看,整體形成了「多云管控+多云多活」的模式。在本地,采用多地方部署的方式,通過底層的存儲技術(shù),打通了本地多地方之間的差異性;通過網(wǎng)絡(luò)層面的專線,實現(xiàn)了近距離的一體性。這樣,不同的業(yè)務(wù)單元可以靈活地分配在不同的機房。

另外,通過多云、遠程等方式,為業(yè)務(wù)提供了靈活的容災能力。為了保持多云層面的穩(wěn)定性,沒有采用多機房的方式。當某個國家或省份的業(yè)務(wù)出現(xiàn)問題時,可以在不同的機房進行流量調(diào)配,保證業(yè)務(wù)的連續(xù)性。

在數(shù)據(jù)安全可回溯性方面,我們采取了以下措施:通過整體數(shù)據(jù)雙向同步網(wǎng)關(guān),保證了可追溯性和數(shù)據(jù)外出的透明性;通過多控制面,保證了整體的容災性;通過超級控制面,確保了一致性體驗。這樣,不同地域的開發(fā)人員可以在同一個平臺上進行作業(yè),提高了業(yè)務(wù)開發(fā)的效率和穩(wěn)健性。

今天整個字節(jié)跳動多云算力架構(gòu)分為兩大算力平臺:一是分布式云原生平臺,它將不同地域的公有云、信息群和地域性的資源統(tǒng)一納管;二是離線實時計算平臺,它有不同類型的存儲服務(wù),通過大數(shù)據(jù)加速技術(shù),將不同的數(shù)據(jù)關(guān)聯(lián)起來,并為上層的各種計算類型提供統(tǒng)一的視圖,使得上層的各個系統(tǒng)變得更加簡單。

然而,這種架構(gòu)依然呈現(xiàn)出兩種計算類型或體系的結(jié)構(gòu),如何讓資源利用率更高呢?為了解決這個問題,字節(jié)跳動采用了以下兩個策略:一是云原生離線調(diào)度Serverless Yarn,它可以簡單地適配各種開源的離線調(diào)度工具,無需對業(yè)務(wù)進行改造,就可以接入在線的統(tǒng)一資源管理。通過這種方式,成功將離線和在線的資源融合在一起,混合運營在一起。二是離在線混部調(diào)度器Katalyst,它可以感知離在線的差異,提高云原生的調(diào)度能力,提升整體的資源利用率。此外,還有離在線資源管理器,它是一種云原生的資源管理工具,可以在運行過程中,精確地控制資源的使用,保證業(yè)務(wù)的穩(wěn)健性。

圖片

降低運維部署以及離線資源管理復雜度

如果更進一步深入看,在分布式云原生平臺上,為了支撐在線業(yè)務(wù),提供了以下幾種能力:

1、統(tǒng)一資源管理能力。這里包括多集群納管能力,它可以連接多地域、多基礎(chǔ)設(shè)施之上的集群,無縫接管業(yè)務(wù)在多種云上的存量集群,還有統(tǒng)一資源監(jiān)管的能力,通過統(tǒng)一的控制鏈和界面,方便管理和調(diào)度資源。

2、統(tǒng)一應(yīng)用管理。統(tǒng)一的應(yīng)用分發(fā)能力可以根據(jù)用戶的策略、集群的特征、業(yè)務(wù)的層面和依賴關(guān)系,進行多樣化的分發(fā)策略,讓業(yè)務(wù)無需關(guān)心底層的細節(jié)。另外,為了連接不同云上的集群,還需要完全兼容現(xiàn)有的生態(tài)。如果在歷史和業(yè)務(wù)層面上存在不兼容的問題,就會在接入過程中遇到挑戰(zhàn)。因此,接管應(yīng)用體系之后,還要提供更強的運維和治理能力。

3、統(tǒng)一應(yīng)用觀測,通過對各種系統(tǒng)的集群層面上的統(tǒng)一收集,可以進行更強的感知。一旦遇到問題,除了集群本身具備的自我恢復能力,還可以通過智能化手段,讓運維人員及時進行處理。

4、統(tǒng)一治理。為了解決地域性的穩(wěn)定性問題,我們也提供了一些統(tǒng)一的授權(quán)管控、服務(wù)追蹤、流量治理等能力,可以靈活地調(diào)配資源,保證業(yè)務(wù)的穩(wěn)健運行。

另外,統(tǒng)一資源湖偏向于離線的算力平臺。我們對數(shù)據(jù)的使用做了一些圖層面上的整合,我們發(fā)現(xiàn),在多云的情況下,如果一個公司是深度使用數(shù)據(jù)的,其90%以上的數(shù)據(jù)都是相互關(guān)聯(lián)的。這就給單業(yè)務(wù)層面上的單元化部署帶來了很大的挑戰(zhàn)。業(yè)務(wù)無法給出準確的答案,如何擺放資源,如何處理相應(yīng)的關(guān)系。為了解決這個問題,很多方案是把離線的算力連成一片,但這對多機房層面上的算力調(diào)度和存儲遠程拉取帶來了挑戰(zhàn),同時又會造成專線無限制的被使用。

字節(jié)跳動內(nèi)部采用資源湖的方式,通過數(shù)據(jù)驅(qū)動的理念和技術(shù)工具,可以做到智能化的感知,根據(jù)需要甚至提前進行資源的搬遷。比如,通過把A機房的資源搬到B機房,就可以快速地加速業(yè)務(wù)運行。所有這些搬遷動作都是自動化,都是通過資源湖和基于云原生的就近計算技術(shù),完成自動化的搬遷能力。通過這種方式,把離線計算速度提升了1.3—1.4倍,節(jié)約了30%—60%帶寬。

此外,還有一個非常重要的能力,就是對離線帶寬的調(diào)度。因為離線帶寬有限,如果不進行調(diào)度,就會影響業(yè)務(wù)的穩(wěn)定性。這就是離線算力平臺帶給業(yè)務(wù)和上層計算引擎的好處。通過資源湖進行統(tǒng)一管理,通過ServerlessYARN解決云原生的問題,我們可以實現(xiàn)離線算力平臺的高效運行。

圖片

降本之提升資源利用率

解決離在線問題的一個有效手段是靠隔離,那么如何進行更好地隔離,如何進行更加精準地隔離?這是一個很大的挑戰(zhàn)。

在字節(jié)跳動內(nèi)部,我們根據(jù)作業(yè)的延時敏感程度和業(yè)務(wù)的不同,進行兩個維度的劃分,實現(xiàn)分級化作業(yè)管理。根據(jù)CPU、IO和網(wǎng)絡(luò)的不同,選擇不同的隔離方案,有經(jīng)驗型的,也有業(yè)務(wù)自配型的,還有機器學習出來的適配模型。通過把隔離手段精準地應(yīng)用到對應(yīng)的業(yè)務(wù)上,實現(xiàn)離在線的完美結(jié)合,保證資源的充分利用,不影響在線的穩(wěn)定性。這是字節(jié)跳動的實踐。

今天,我們實現(xiàn)了幾十萬臺服務(wù)器的常態(tài)化在離線混部,這套技術(shù)在多云和多集群下帶來了很多好處。但是,實現(xiàn)這一過程并不容易,需要很多的歷程和技術(shù)開發(fā)工作。

我們根據(jù)技術(shù)難度和落地難度,總結(jié)了一些常態(tài)下可以使用的手段,包括:一是應(yīng)用畫像的透視,可以對應(yīng)用的特征和需求進行分析;二是規(guī)格的智能推薦,可以避免資源的浪費和不足;三是高低峰的分配,可以根據(jù)業(yè)務(wù)的波動進行調(diào)整;四是針對活動的離在線能力,可以應(yīng)對突發(fā)的情況。這些資源效能能力,都是原子能力,可以被應(yīng)用任意組合使用,降低資源使用成本。

圖片

多云的未來發(fā)展趨勢

在回顧字節(jié)跳動的發(fā)展歷程后,我們再來看看多云層面上的未來趨勢。我們發(fā)現(xiàn),有以下幾個方面的變化:一是隨著AI技術(shù)的發(fā)展,特殊架構(gòu)的算力,如GPU、FPGA等崛起了,這就給管理這些算力帶來了額外的挑戰(zhàn),這是多云層面上必須考慮和面對的問題;二是如何把這些算力更精準地匹配到不同的業(yè)務(wù)上,這也是一個挑戰(zhàn)。我們需要對算力的效率和業(yè)務(wù)之間的匹配,有更精準的感知;三是由于不同云和地域帶來的成本差異,我們需要對這部分進行感知;四是不同業(yè)務(wù)對于延遲層面的要求不同,我們需要對業(yè)務(wù)的體驗進行感知。這些都會造成整個分布式云和多云層面,在未來發(fā)展上,需要更加精準的自適應(yīng)和智能感知的能力,這是在資源和調(diào)度上呈現(xiàn)出來的趨勢。

此外,我們還介紹了字節(jié)跳動在數(shù)據(jù)合規(guī)方面的一些手段,以及一些更加智能化的手段。最近幾年,隱私增強的計算,如聯(lián)邦學習、數(shù)據(jù)安全等,實現(xiàn)了跨云、跨用戶的數(shù)據(jù)交互和計算,而不是數(shù)據(jù)交換。這就防止了數(shù)據(jù)的泄露,提升了合規(guī)和安全性。

最后,隨著多云化的不可避免的趨勢,管理、使用、運營都會帶來更多的挑戰(zhàn)。整個應(yīng)用層面,也必然向多云化轉(zhuǎn)變。對于各家廠商和用戶而言,需要更強的針對多云的平臺,從而能夠提升他們的體驗和效率。這樣的平臺,必須是開放和標準的,才能夠?qū)崿F(xiàn)互聯(lián)互通和多云協(xié)同。

責任編輯:張燕妮 來源: 51CTO技術(shù)棧
相關(guān)推薦

2023-11-29 22:12:29

云計算實踐

2023-12-04 18:38:05

2023-12-08 18:40:36

字節(jié)跳動云原生火山引擎

2023-12-01 17:42:10

2022-12-23 08:58:35

字節(jié)跳動YARN架構(gòu)

2023-11-20 07:27:00

云原生Spark

2024-04-23 10:16:29

云原生

2023-12-04 18:41:17

云架構(gòu)運營

2023-12-06 18:47:35

云實踐算力

2024-09-25 15:57:56

2023-11-15 09:44:23

火山技術(shù)

2023-12-08 20:57:38

字節(jié)跳動火山引擎公共云

2023-01-10 09:08:53

埋點數(shù)據(jù)數(shù)據(jù)處理

2022-08-21 21:28:32

數(shù)據(jù)庫實踐

2022-12-23 09:04:33

字節(jié)跳動數(shù)據(jù)治理架構(gòu)

2024-03-14 12:13:35

火山引擎公共云

2024-03-14 12:09:59

火山引擎公共云

2022-07-12 16:54:54

字節(jié)跳動Flink狀態(tài)查詢

2021-06-16 09:38:50

數(shù)據(jù)中心云計算綠色數(shù)據(jù)中心

2022-06-30 10:56:18

字節(jié)云數(shù)據(jù)庫存儲
點贊
收藏

51CTO技術(shù)棧公眾號