偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

解密 Uber 數(shù)據(jù)團(tuán)隊(duì)的基礎(chǔ)數(shù)據(jù)架構(gòu)優(yōu)化之路

大數(shù)據(jù) 架構(gòu)
Uber 在現(xiàn)實(shí)世界和虛擬世界的十字路口有令人羨慕的一席之地。這令每天在各個(gè)城市穿行的數(shù)十萬(wàn)司機(jī)大軍趨之若鶩。當(dāng)然這也會(huì)一個(gè)相對(duì)淺顯的數(shù)據(jù)問(wèn)題。但是,就像 Uber數(shù)據(jù)部門(mén)的主管 Aaron Schildkrout所說(shuō):商業(yè)計(jì)劃的簡(jiǎn)單明了帶給Uber利用數(shù)據(jù)優(yōu)化服務(wù)的巨大機(jī)會(huì)。

如果你用過(guò)Uber,你一定會(huì)注意到它的操作是如此的簡(jiǎn)單。你一鍵叫車(chē),隨后車(chē)就來(lái)找你了,***自動(dòng)完成支付,整個(gè)過(guò)程行云流水。但是,在這簡(jiǎn)單的流程背后其實(shí)是用Hadoop和Spark這樣復(fù)雜的基礎(chǔ)大數(shù)據(jù)架構(gòu)來(lái)支撐的。

Uber 在現(xiàn)實(shí)世界和虛擬世界的十字路口有令人羨慕的一席之地。這令每天在各個(gè)城市穿行的數(shù)十萬(wàn)司機(jī)大軍趨之若鶩。當(dāng)然這也會(huì)一個(gè)相對(duì)淺顯的數(shù)據(jù)問(wèn)題。但是,就像 Uber數(shù)據(jù)部門(mén)的主管 Aaron Schildkrout所說(shuō):商業(yè)計(jì)劃的簡(jiǎn)單明了帶給Uber利用數(shù)據(jù)優(yōu)化服務(wù)的巨大機(jī)會(huì)。

“這本質(zhì)上來(lái)說(shuō)是一個(gè)數(shù)據(jù)問(wèn)題”,Schildkrout 最近在一個(gè)Uber和Databricks的演講記錄中說(shuō)道。“因?yàn)槭虑槭侨绱藴\顯,我們想讓用車(chē)體驗(yàn)變得自動(dòng)化。在某種程度上,我們正在嘗試為全世界的載客司機(jī)提供智能、自動(dòng)化、實(shí)時(shí)的服務(wù)并且支撐服務(wù)的規(guī)?;?。”

不論是Uber在峰時(shí)計(jì)價(jià)、幫助司機(jī)規(guī)避事故還是為司機(jī)尋找***盈利位置,這一切 Uber 的計(jì)算服務(wù)都依賴(lài)于的數(shù)據(jù)。這些數(shù)據(jù)問(wèn)題是一道數(shù)學(xué)和全球目的地預(yù)測(cè)的真正結(jié)晶。他說(shuō):”這使得這里的數(shù)據(jù)非常振奮人心,也驅(qū)動(dòng)我們斗志昂揚(yáng)地用Spark解決這些問(wèn)題”

Uber 的大數(shù)據(jù)之道

在Data bricks的演講中,Uber 工程師描述了(顯然是***公開(kāi)演講)一些在應(yīng)用擴(kuò)展和滿(mǎn)足需求上公司遇到的挑戰(zhàn)。

作為負(fù)責(zé)Uber 數(shù)據(jù)架構(gòu)的總負(fù)責(zé)人,Vinoth Chandar說(shuō)道:Spark 已經(jīng)是”必備神器了”。

在舊的架構(gòu)下,Uber依賴(lài)于Kafka的數(shù)據(jù)流將大量的日志數(shù)據(jù)傳輸?shù)紸WS的S3上,然后使用EMR來(lái)處理這些數(shù)據(jù)。然后再?gòu)腅MR導(dǎo)入到可以被內(nèi)部用戶(hù)以及各個(gè)城市總監(jiān)使用的關(guān)系型數(shù)據(jù)庫(kù)中。

Chandar說(shuō)道:”原來(lái)的 Celery+Python的ETL架構(gòu)其實(shí)運(yùn)轉(zhuǎn)得挺好的,但是當(dāng)Uber想要規(guī)?;瘯r(shí)就遇到了一些瓶頸”。隨著我們擴(kuò)展的城市越來(lái)越多,這個(gè)數(shù)據(jù)規(guī)模也不斷增加,在現(xiàn)有的系統(tǒng)上我們遇到了一系列的問(wèn)題,尤其是在數(shù)據(jù)上傳的批處理過(guò)程。

Uber 需要確保最重要的數(shù)據(jù)集之一的行程數(shù)據(jù),這里成百上千的真實(shí)準(zhǔn)確的消費(fèi)記錄將會(huì)影響到下游的用戶(hù)和應(yīng)用。Chandar 說(shuō)道:”這個(gè)系統(tǒng)原來(lái)并不是為了多數(shù)據(jù)中心設(shè)計(jì)的。我們需要用一系列的融合方式將數(shù)據(jù)放到一個(gè)數(shù)據(jù)中心里面。”

解決方案演化出了一個(gè)所謂的基于Spark的流式IO架構(gòu),用來(lái)取代之前的Celery/Python ETL 架構(gòu)。新系統(tǒng)從關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)表模型將原始數(shù)據(jù)攝取做了必要的解耦。Chandar說(shuō):”你可以在HDFS上獲取數(shù)據(jù)然后再依賴(lài)于一些像Spark這樣的工具來(lái)處理大規(guī)模的數(shù)據(jù)處理。”

因此,取而代之的是在一個(gè)關(guān)系模型中從多個(gè)分布式數(shù)據(jù)中心聚合行程數(shù)據(jù),公司新的架構(gòu)使用Kafka從本地?cái)?shù)據(jù)中心來(lái)提供實(shí)時(shí)數(shù)據(jù)日志,并且加載他們到中心化的Hadoop集群中。接著,系統(tǒng)用Spark SQL 將非結(jié)構(gòu)化的JSON轉(zhuǎn)化為更加結(jié)構(gòu)化的可以使用Hive來(lái)做SQL分析的Parquet文件。

他說(shuō):”這解決了一系列我們遇到的額外問(wèn)題,而且我們現(xiàn)在處在一個(gè)利用Spark和Spark Streaming 將系統(tǒng)變得長(zhǎng)期穩(wěn)定運(yùn)行的節(jié)點(diǎn)上。我們也計(jì)劃從訪(fǎng)問(wèn)和獲取原始數(shù)據(jù)也都用Spark任務(wù)、Hive、機(jī)器學(xué)習(xí)以及所有有趣的組件,將Spark的潛能徹底釋放出來(lái)。”

Paricon 和 Komondor

在 Chandar 給出了 Uber 涉險(xiǎn)進(jìn)入Spark的概況之后,另外兩名 Uber 工程師,Kelvin Chu 和 Reza Shiftehfar 提供了關(guān)于 Paricon 和 Shiftehfar 的更多細(xì)節(jié)。而這其實(shí)是Uber 進(jìn)軍Spark的兩個(gè)核心項(xiàng)目。

雖然非結(jié)構(gòu)化數(shù)據(jù)可以輕松搞定,Uber最終還是需要通過(guò)數(shù)據(jù)管道生成結(jié)構(gòu)化數(shù)據(jù),因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者之間生成的”契約”可以有效避免”數(shù)據(jù)破損”。

這就是為什么Parino 會(huì)進(jìn)入這個(gè)藍(lán)圖,Chu說(shuō)道,Parino 這個(gè)工具是由4個(gè) Spark為基礎(chǔ)的任務(wù)組成的:轉(zhuǎn)移、推斷、轉(zhuǎn)化并且驗(yàn)證。”因此不論誰(shuí)想要改變這個(gè)數(shù)據(jù)結(jié)構(gòu),他們都將進(jìn)入這個(gè)系統(tǒng),并且必須使用我們提供的工具來(lái)修改數(shù)據(jù)結(jié)構(gòu)。然后系統(tǒng)將運(yùn)行多個(gè)驗(yàn)證和測(cè)試來(lái)確保這個(gè)改變不會(huì)有任何問(wèn)題。”

Paricon 的一大亮點(diǎn)是所謂的”列式剪枝”。我們有許多寬表,但是通常我們每次都不會(huì)用到所有的列,因此剪枝可以有效節(jié)約系統(tǒng)的IO。他說(shuō)道:”Paricon 也可以處理一些”數(shù)據(jù)縫合”工作。一些Uber的數(shù)據(jù)文件很大,但是大多數(shù)都是比HDFS區(qū)塊來(lái)得小的,因此我司將這些小數(shù)據(jù)縫合在一起對(duì)齊HDFS文件大小并且避免IO的運(yùn)轉(zhuǎn)失常。加之Spark的”數(shù)據(jù)結(jié)構(gòu)聚合”功能也幫助我們用Paricon 工作流工具直觀簡(jiǎn)化的方式處理Uber數(shù)據(jù)。”

與此同時(shí), Shiftehfar 為Komondor、Spark Streaming內(nèi)建的數(shù)據(jù)攝取服務(wù)提供了架構(gòu)級(jí)別的諸多細(xì)節(jié)。而數(shù)據(jù)源是”烹飪”的基礎(chǔ),原始非結(jié)構(gòu)數(shù)據(jù)從Kafka流入HDFS然后準(zhǔn)備被下游應(yīng)用消費(fèi)。

在 Komondor 之前,它是用來(lái)為每個(gè)獨(dú)立應(yīng)用確保數(shù)據(jù)準(zhǔn)確性的工具(包括獲取他們正在處理的數(shù)據(jù)的上游數(shù)據(jù))并且在必要的時(shí)候做數(shù)據(jù)備份?,F(xiàn)在通過(guò) Komondor 可以自動(dòng)處理或多或少的數(shù)據(jù)。如果用戶(hù)需要加載數(shù)據(jù),使用 Spark Streaming 就相對(duì)簡(jiǎn)單得多。

為了處理每天***的事件和請(qǐng)求正在重金投入 Spark 并且打算撬動(dòng)更多的 Spark技術(shù)棧,包括使用MLib和GraphX庫(kù)做機(jī)器學(xué)習(xí)和圖計(jì)算。更多細(xì)節(jié),可以觀看下面演講的整個(gè)視頻。

責(zé)任編輯:Ophira 來(lái)源: segmentfault
相關(guān)推薦

2016-08-21 14:33:28

IFTTT數(shù)據(jù)架構(gòu)

2022-05-09 11:29:42

架構(gòu)數(shù)據(jù)

2023-08-09 08:00:00

數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)架構(gòu)

2022-09-01 08:42:36

SQL數(shù)據(jù)項(xiàng)目

2024-02-05 13:28:00

Excel優(yōu)化服務(wù)器

2023-06-29 08:22:43

數(shù)據(jù)Excel模板

2021-07-28 05:30:38

Uber陷入數(shù)據(jù)安全

2015-09-29 14:13:27

滴滴uber打車(chē)

2015-06-12 14:20:35

2016-05-23 15:10:52

小米技術(shù)架構(gòu)大數(shù)據(jù)

2012-02-06 17:15:42

2022-12-08 16:02:39

數(shù)據(jù)架構(gòu)工具

2017-03-03 14:10:50

電商基礎(chǔ)架構(gòu)建設(shè)

2024-10-25 15:43:57

2017-04-24 22:32:08

2020-10-22 08:28:04

大數(shù)據(jù)架構(gòu)技術(shù)

2017-04-07 13:30:08

數(shù)據(jù)安全治理

2015-08-31 14:57:11

大數(shù)據(jù)處理

2023-02-23 06:51:45

游戲推薦項(xiàng)目

2010-10-28 15:37:36

高可用架構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)