偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

專訪京東云大數據平臺技術負責人廖曉輝:揭秘Spark與云服務

原創(chuàng)
云計算 Spark
云已經成為在互聯網圈里出現頻率最高的一個詞了。無論是公有云、私有云、開發(fā)云,測試云; 也不僅僅是互聯網企業(yè),傳統企業(yè)也因為云做出了或多或少的改變。云已經成為像水、電一樣不可或缺的資源。

[[123835]]

云已經成為在互聯網圈里出現頻率最高的一個詞了。無論是公有云、私有云、開發(fā)云,測試云,也不僅僅是互聯網企業(yè),傳統企業(yè)也因為云做出了或多或少的改變。云已經成為像水、電一樣不可或缺的資源。

隨著“云”滲透進生活的方方面面,無論是自建,還是利用已有資源,各大公司都紛紛開始搭建云平臺。都想在云上分一杯羹。

自主研發(fā)的京東云

京東作為國內最大的電商之一,也在搭建自己的云平臺,而且大部分的技術都是自主研發(fā)。為什么不選擇現有的資源而要自己研發(fā)?

京東云大數據平臺技術負責人廖曉輝說:“京東全產業(yè)鏈的電商模式,在國內是獨一無二的,沒有成熟產品可以借鑒,很多技術問題都需要創(chuàng)新的方式去解決。只有自主研發(fā)才能打造出最適合京東的信息系統。第二,“技術驅動”一直是京東的發(fā)展戰(zhàn)略,我們自主研發(fā)的信息系統和積累技術,是京東的核心競爭力之一。但是事實上京東并沒有完全自主研發(fā)所有的系統,也應用了一些開源的的技術。再結合京東自身的業(yè)務,去解決京東遇到的問題,從而更好地為我們業(yè)務去服務,為用戶去服務。”

京東的云平臺卻包含很多分支包括宙斯、云鼎,移動平臺等,是什么原因讓京東打算做這么復雜的云平臺?

廖曉輝認為,京東云對外所推出的公有云服務,都是基于私有云技術的產品。京東自身業(yè)務發(fā)展非常需要有一個穩(wěn)定,完善的私有云做基礎。在私有云技術產品穩(wěn)定后我們就對京東生態(tài)內的合作伙伴、對社會開放。云平臺是京東技術產業(yè)化的先鋒,要以云技術和云模式,構建一個電商云生態(tài),讓京東生態(tài)內的賣家和合作伙伴以及讓全社會做電商的企業(yè)都能在京東云上享受到京東的電商服務。

隨著京東的發(fā)展,京東的賣家越來越多,所有的電商平臺都存在這樣一個問題:多個租戶共享同一數據庫實例必然需要一個有效的隔離方案,防止一個用戶的慢查詢請求或惡意請求影響其他用戶訪問。

廖曉輝說:“就做云數據庫來講,在京東云里面提供的服務既有共享型的數據庫,也有獨享型的數據庫。一些用戶特別關注的資源隔離對于這個問題,我們的做法是用獨立的虛機方式去做部署,或者基于容器技術—Docker去實現不同級別的資源隔離。”

大數據環(huán)境下的Spark

毫無疑問京東的數據量一定大的驚人,那么在大數據環(huán)境下進行數據分析,更多人都會選擇Spark,因為大家都知道它是基于內存上面進行運算,這樣的話可能處理的數據會有限。

廖曉輝告訴記者:“就spark來講,它出現時間不長發(fā)展的卻很快,它的RDD分布式內存結構概念和容錯性支持,以及利用DAG做執(zhí)行優(yōu)化,即性能和可靠性的表現,使得它非常有吸引力。但在內存受限的情況下,確實會影響它的性能表現。對于內存等資源限制的情況下,還需要對大量數據做低延遲處理,,這種場景我們可能需要考慮采取近似計算方式,但 如果計算結果的精度要求不能降低,可能我們要走增量計算的方式:持續(xù)性地對一些增量數據做一些累進式的實時計算,來得到實時地計算結果來滿足業(yè)務或用戶的需求,相當于把全量數據的離線計算,轉變成一種持續(xù)性的增量的計算方式。”

在數據存儲上大致有幾類,像通常的key-value數據庫,文檔型的數據庫mongodb,列式分布式數據庫HBase等等,京東是如何考量和選擇的HBase的?

廖曉輝書:其實各種不同的數據庫類型我們都有用到,包括HBase和mongodb。選擇哪一種需要結合我們的業(yè)務需求,考慮數據存取的計算方式以及開發(fā)效率。mongodb它對各種語言都非常友好并提供相對豐富的API,它數據在數據量不是非常大的情況下,會有非常好的性能表現。而對于HBase來說,它屬于Hadoop生態(tài)里面的一款產品,它適合random access場景或少數據量scan,隨著數據增長易于擴容同時維持高的讀寫性能;列存儲對于稀疏矩陣數據存儲,加上壓縮,能提高存儲的效率。我們還是根據業(yè)務需要,以及數據量的規(guī)模,考慮以后的擴容以及項目研發(fā)效率來選擇。

傳統上,若是使用Hadoop MapReduce框架,雖然可以容易地實現較為復雜的統計需求,但實時性卻無法得到保證;反之若是采用Storm這樣的流式框架,實時性雖可以得到保 證,但需求的實現復雜度也大大提高了我們。Spark Streaming在兩者之間找到了一個平衡點?

廖曉輝解答 :“Hadoop MapReduce計算模式實際上降低了做并行計算、大數據處理的門檻,適合于高吞吐量的批處理場景。而Storm和Spark-Streaming,它們都是流式計算的框架。Storm以其低延遲、易擴展性和容錯機制等特點發(fā)展至今已經非常成熟,也非常優(yōu)秀,為許多互聯網公司所青睞。Spark-Streaming它基于spark將流式數據拆分為mini-batch做持續(xù)計算,從目前來看,它的處理延遲可能稍高,但也基本滿足實時計算地要求,且它有豐富的計算和轉換類API,并易于使用。雖然內部使用Scala去實現但是也支持JAVA的開發(fā),在開發(fā)效率方面還是非常高的,此外,我們自己的經驗是在生產環(huán)境驗證了它的穩(wěn)定性和可靠性。如果對兩者進行比較,個人認為,storm適合對實時性要求更高的場合,因為它可以把延遲控制在亞秒級或者更低。而Spark-Streaming作為Spark Stack中的一員,如果熟悉了Spark下的開發(fā)方式,對Spark-streaming的開發(fā)非常容易上手;大部分的大數據處理需求,不同的workload,Spark Stack中有相應的技術產品可供選擇,可避免維護不同的計算框架。選擇Spark-Streaming就要考慮這個生態(tài)系統里的其他產品以及開發(fā)效率。Spark社區(qū)很火,在今年出現1.0版本之后,很快就出現了1.1版本,有非常好的勢頭,也在實際應用中用它的優(yōu)異表現在贏得越來越多的用戶。”

雙十一過去不久京東作為國內首屈一指的電商平臺在雙十一期間如何保證服務器在大量請求、訪問的的正常運轉而不宕機的?

廖曉輝說:“雙十一保障是一項有組織有計劃地工作。在雙十一之前會有一個比較長的籌備時間,會對雙十一的流量和業(yè)務的增長做一個預估,有計劃的去做線上的系統擴容以及完善監(jiān)控,并對可能的異常做好演練并制定預案。雙十一期間近一周左右時間,京東的研發(fā)部包括云平臺的研發(fā)人員會安排人員24小時值班,來解決任何可能出現的線上問題。雙十一之后對雙十一的情況做一個總結,積累經驗,從而提升系統的穩(wěn)定性。

另外,從服務系統架構層面,要有HA, Loadbalance 設計,有故障只降服不停服,可彈性擴容;要有非常及時和完善的監(jiān)控,保障異常情況下,第一時間處理,縮短故障時間。再有就是防攻擊系統和災備方案進一步提供保障。”

介紹一下京東云中大數據的云服務,你們的技術實現,對Spark的應用,以及產品路線和遇到的挑戰(zhàn)。

廖曉輝說:“云海是京東云提供的大數據開放服務,是商家驅動的數據開發(fā)平臺,商家授權數據,ISV來開發(fā)相關數據產品,服務于商家的數據驅動、精細化運營的需求。同時用戶也可以上傳自己的數據,作為京東平臺電商數據的補充。

云海中的Spark

云海不僅提供大數據存儲和計算資源,同時還有云端的數據挖掘和開發(fā)工作臺,這背后所涉及到的交互查詢分析,批處理計算,實時計算,機器學習算法工具,在線OLAP分析,都涉及到Spark相關技術的應用。我們在依托Spark來搭建高效的計算平臺和工具集,目的是使挖掘數據價值的過程變得更敏捷,而且是一套全云端的解決方案。

京東有大數據平臺建設的豐富經驗,同時數據驅動業(yè)務,數據驅動決策,基于大數據的精細化運營上也有成熟的經驗,這些個經驗也能幫助在京東上做生意的商家,可以借鑒用于改善運營效率,提高用戶滿意度。這個價值輸出,通過云海,做的方式就是團結在電商領域期望結合大數據提供數字化運營解決方案的軟件商這個群體,搭建一個平臺以數據為核心,連接商家需求和ISV數據產品服務,同時對ISV的數據產品做一些引導,在解決商家的實際問題中產生價值。

在云海的建設過程中我們碰到很多挑戰(zhàn),有大數據處理的技術方面的,對于這類問題,我們也結合業(yè)務,基于Spark做自主地研發(fā)工作或改進框架本身。同時數據開放的有效和可行方式,我們也在探索中。近些年大數據概念的“熱”以及大數據在一些互聯網公司,電商企業(yè),以及金融等領域的應用的示范作用,讓各組織越來越重視數據資產,現階段,由于數據的敏感性,對數據收集、處理、挖掘大多限于組織內部。但從另一方面,相信很多人都同。在數據的網絡里,數據連接數據,匯聚各領域的數據,數據開放共享、供給不斷,讓更多人、個體有機會及時、便捷地分析和挖掘其中的價值,勢必能讓數據發(fā)揮更大的作用,甚至把社會信息化帶入一個更高的層次。因為這兩面性,即在數據資產保護和開放之間求得一種平衡,建立數據交換可行、可信的平臺,同時是可持續(xù)的,值得更多的組織和個人來探索,合作。

責任編輯:chenqingxiang 來源: 51CTO
相關推薦

2015-04-03 17:04:13

2016-08-29 11:33:23

京東云云計算云安全

2014-05-21 16:04:38

面試面試規(guī)則

2014-01-21 16:13:01

2018-01-11 13:46:52

云服務蘋果數據

2013-12-18 11:39:51

微軟windows Azu亞馬遜

2020-04-07 15:36:25

IBM云計算克里希納

2024-01-05 10:43:50

金山云人工智能

2015-11-03 15:00:09

技術周刊

2013-04-19 09:17:28

Internet2大數據SDN

2013-04-23 11:32:32

Internet2大數據SDN

2009-04-01 10:43:26

雅虎產品技術離職

2015-11-20 14:38:59

新浪云SAEGITC

2018-07-05 14:29:58

大數據

2010-05-13 14:18:48

云計算百度

2012-09-26 13:44:52

Android谷歌阿里云

2014-06-27 14:49:41

SDN

2016-01-15 10:47:08

技術團隊能力

2017-03-13 15:30:22

慕尼黑WindowsLiMux

2023-09-11 11:14:54

IT團隊CIO
點贊
收藏

51CTO技術棧公眾號