偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一點資訊田超出席WOT:深度透析點擊反饋平臺

新聞
第一部分是實時畫像中的后驗指標(biāo),包括了用戶畫像,內(nèi)容畫像和頻道畫像等。第二部分,應(yīng)用場景是我們實時的數(shù)據(jù)分析,讓我們在做不同實驗時,了解到不同人群、文章點擊率的變化。第三部就是在線的機(jī)器學(xué)習(xí)

   日前,由51CTO傳媒精心打造的WOT2016大數(shù)據(jù)峰會在北京盛大開幕。本次大會議題涵蓋實時計算、機(jī)器學(xué)習(xí)、等九大數(shù)據(jù)領(lǐng)域前沿技術(shù)專場,百度大數(shù)據(jù)平臺架構(gòu)師侯玨、HBase核心貢獻(xiàn)者 Ted Yu、一點資訊大數(shù)據(jù)平臺研發(fā)總監(jiān)田超等應(yīng)邀出席并發(fā)表演講。

一點資訊大數(shù)據(jù)平臺研發(fā)總監(jiān)田超發(fā)表演講

  在大會現(xiàn)場,一點資訊大數(shù)據(jù)總監(jiān)田超深度透析用戶點擊反饋背后的系統(tǒng)設(shè)計,并以一點資訊實時反饋平臺為例,分享了支撐一點資訊億級別用戶實時計算系統(tǒng)的設(shè)計理念和心得。

  他表示,實時的數(shù)據(jù)處理能力對于一個現(xiàn)代互聯(lián)網(wǎng)公司來說是必要的組成部分,一點資訊作為一家融合了“搜索”和“推薦”的興趣引擎平臺,根據(jù)不同場景、頻道下的點擊反饋形成數(shù)據(jù)矩陣,對數(shù)據(jù)進(jìn)行深層次挖掘,并通過大規(guī)模實時點擊反饋系統(tǒng)和大規(guī)模機(jī)器學(xué)習(xí)進(jìn)行智能推薦,從而為用戶提供兼具共性與個性的移動價值閱讀,實現(xiàn)了用戶體驗的提升。

  以下是演講節(jié)選:

  大家好,很高興今天與大家分享一點資訊關(guān)于大數(shù)據(jù)技術(shù)的一些心得。作為近兩年來在移動資訊領(lǐng)域發(fā)展最快的公司之一,目前,一點資訊的日活達(dá)4800萬。此外,我想在這里特別強(qiáng)調(diào)的是,一點資訊主動訂閱用戶數(shù)已達(dá)4700萬。作為一家融合了搜索和推薦的技術(shù)驅(qū)動資訊平臺,與單純被動根據(jù)用戶歷史記錄進(jìn)行推薦不同,我們更注重自由訂閱來給予用戶主動表達(dá)的出口,通過全網(wǎng)化的智能客戶端,不僅為大家?guī)碛腥?、有料的新聞,也更提供有用、有品的資訊。

  實時點擊反饋平臺打造***推薦服務(wù)

  上圖是今天我們主要講的,點擊反饋相關(guān)推薦的部分。主要包括兩個,左手邊叫Neo的系統(tǒng)是今天的主題,也就是點擊反饋計算平臺。

  因為這次論壇的主題是實時計算,所以我們也回顧一下整個推薦系統(tǒng)里面實時計算所涉及的三個方面的應(yīng)用場景:***部分是實時畫像中的后驗指標(biāo),包括了用戶畫像,內(nèi)容畫像和頻道畫像等。第二部分,應(yīng)用場景是我們實時的數(shù)據(jù)分析,讓我們在做不同實驗時,了解到不同人群、文章點擊率的變化。第三部就是在線的機(jī)器學(xué)習(xí),后面我會詳細(xì)介紹。

  值得注意的是,雖然推薦服務(wù)系統(tǒng)為我們帶來很多便利,但同時也面臨不少問題和挑戰(zhàn),下面我將從一點資訊的平臺為例,為大家分別闡述五個方面的主要問題以及解決方式。

  問題1:如何統(tǒng)一各種近似的實時Pipeline

  ***個問題就是近似的pipeline大家怎么樣去統(tǒng)一?做實時計算時,大家常常發(fā)現(xiàn)你的Storm、spark跑著各種各樣相近但又不同的作業(yè),這些作業(yè)中80%運(yùn)算是相同的。

  在一點資訊內(nèi)部,我們設(shè)計了一套叫Neo的點擊反饋平臺系統(tǒng),統(tǒng)一了主要的實時點擊反饋計算邏輯。Neo系統(tǒng)的核心數(shù)據(jù)結(jié)構(gòu)是一個Multi-Dimensional Matrix,用以描述用戶在各個維度和粒度的興趣屬性和基礎(chǔ)屬性兩部分,可以在不同維度和數(shù)據(jù)粒度上進(jìn)行各種聚合運(yùn)算。其次,我們圍繞著核心數(shù)據(jù)結(jié)構(gòu)構(gòu)造了整個運(yùn)行時的framwork,可以支持用戶自定義自己的算子。

  問題2:實時計算和離線計算的統(tǒng)一

  第二個問題說實時計算和離線計算怎么樣統(tǒng)一?

  實時計算與離線計算的統(tǒng)計是流式計算領(lǐng)域里的研究熱點之一,對于我們的生產(chǎn)工作來說也有著比較重要的實際意義,市面上有一些開源和技術(shù)和論文包括Spark、SummingBird、Google DataFlow等都對如何實現(xiàn)有自己的解決方案。一點資訊采用的是Lambda architecture,對于核心計算邏輯有一套統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)抽象和計算算子抽象。我們本質(zhì)上處理的是事件流在不同矩陣上以不同粒度聚合的問題,這里尤其是對于矩陣的Delta和Base之間的計算,我們給出了一套比較完整的抽象。這一套核心代碼可以同時跑在Storm/JStorm, Spark、Mapeduce上。

  問題3:數(shù)據(jù)變化如何追蹤與Debug

  我們的平臺除了考慮到了上面所述的數(shù)據(jù)結(jié)構(gòu)和計算模型外,還考慮到了時間的因素。時間是一個非常重要的維度,對于我們的計算引擎也是一個挑戰(zhàn)??偨Y(jié)來說,包括這幾個問題:不同類型的Feature需要不同的淘汰策略,需要能夠計算各種時間周期上的feature、需要能夠知道數(shù)據(jù)歷史變化的狀態(tài)、數(shù)據(jù)分析需要追蹤指標(biāo)變化曲線。

  對于這些問題,我們構(gòu)建了比較完整的windowingmodol的實時計算模型:在hbase上存儲細(xì)粒度的delta數(shù)據(jù),這一部分的數(shù)據(jù)是實時更新的,每次更新時計算pipeline會通過kafka寫入一個WAL,有一個Pusher組件會監(jiān)聽這個WAL,并可以根據(jù)自定義的策略對不同的數(shù)據(jù)表采用不同的window計算模型;在pusher層面,支持各種時間窗口淘汰策略,包括Fixedwindow,session window,slidingwindow,decay,last value win等,

  問題4:高性能存儲引擎

  一點資訊在高峰期產(chǎn)生的2M+QPS的讀請求,和200K+的更新量,因此對我們線上的分布式存儲系統(tǒng)會有比較高的性能要求,市面上線程的分布式存儲方案都不能解決我們面臨的問題。

  因此我們開發(fā)了自己的分布式存儲系統(tǒng)NeoDB,底層基于Rocksdb,上層使用ThriftRPC,我們對系統(tǒng)層次做了很多的優(yōu)化,,包括把一些部分計算可以推到***下節(jié)點上、減少Compaction的層次,控制Compaction對于讀請求的影響、控制寫放大,優(yōu)化緩存***率等。

  問題5:如何監(jiān)控和維護(hù)整個系統(tǒng)

  ***一個問題怎么樣做監(jiān)控和維護(hù)整個系統(tǒng)。這里面涉及到一些問題,主要包括怎么對數(shù)據(jù)流lag做監(jiān)控報警。對流式計算如何做profiling,線上如何做負(fù)載均衡等。我們針對這些問題開發(fā)了兩個系統(tǒng),一個是監(jiān)控我們做了YMetric的監(jiān)控系統(tǒng)??蛻舳思嫒輈odahale metrics庫,會將metric匯總發(fā)送到Kafka中,并由我們統(tǒng)一的Storm Pipeline進(jìn)行聚合計算,結(jié)果存儲在openTSDB之中。我們的這套系統(tǒng)支持多Metric的自定義計算、報警、Trending預(yù)測等。

  另外一個系統(tǒng)是ycluster服務(wù),她有點像Apache Helix,但是我們做的更為簡單易用,YCluster是一套基于Zookeeper的分布式負(fù)載均衡和機(jī)群管理系統(tǒng),支持Multiple Service Namespace、Hash Sharding、Multiple Replica。同時我們基于YCluster做了Neo系統(tǒng)的Smart Client,通過這套Smart Client完成路由和負(fù)載均衡的工作,我們支持多種不同負(fù)載均衡的算法,包括簡單的Random和Round-Robin、,同時我們做了一個叫做link Scheduler的負(fù)載均衡的算法,可以支持多數(shù)據(jù)中心中的本地優(yōu)先調(diào)度,并支持相同副本的優(yōu)先調(diào)度,從而大幅度提升了緩存***率。

  我們這套東西大概線上跑了一年多了不到兩年,目前承擔(dān)了一點資訊一直以來快速服務(wù)的增長,這里面就是今天我跟大家介紹的東西,另外補(bǔ)充一點是說,我們也歡迎對一點資訊感興趣的同學(xué)加入進(jìn)來。

責(zé)任編輯:張誠 來源: 51CTO
相關(guān)推薦

2016-11-04 17:58:15

大數(shù)據(jù)資訊WOT

2021-09-28 18:54:26

信息流大數(shù)據(jù)人工智能

2014-11-25 11:52:15

.NET

2016-09-29 09:44:06

資訊AI智能

2018-08-29 14:58:26

一點資訊

2018-08-24 14:12:07

一點資訊

2010-05-20 15:29:43

優(yōu)化IIS

2016-04-05 10:12:58

HiveSQLHadoop

2018-08-15 14:03:17

2013-01-08 10:06:43

創(chuàng)業(yè)創(chuàng)業(yè)方法

2012-03-27 08:49:19

Json

2009-09-14 19:44:27

LINQ To SQL

2009-07-09 15:09:05

JDK卸載

2025-05-29 00:00:00

UI 庫前端模塊化

2011-03-15 10:41:05

內(nèi)部類

2009-12-15 14:27:30

Ruby存取器

2018-10-15 21:12:08

2009-09-14 20:17:05

并行LINQ

2014-06-04 10:48:38

Swift蘋果iOS
點贊
收藏

51CTO技術(shù)棧公眾號