偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

微博推薦系統(tǒng)架構(gòu)揭秘:基于機(jī)器學(xué)習(xí)的個(gè)性化Push應(yīng)用實(shí)踐

原創(chuàng)
開(kāi)發(fā) 架構(gòu)
Push 作為一種有效的召回用戶(hù)的產(chǎn)品,近幾年來(lái)被各類(lèi) App 廣泛應(yīng)用。但是 Push 存在兩面性,如果推薦的消息準(zhǔn)確,則能夠有效地召回用戶(hù),反之,就會(huì)對(duì)用戶(hù)造成騷擾。

【51CTO.com原創(chuàng)稿件】Push 作為一種有效的召回用戶(hù)的產(chǎn)品,近幾年來(lái)被各類(lèi) App 廣泛應(yīng)用。但是 Push 存在兩面性,如果推薦的消息準(zhǔn)確,則能夠有效地召回用戶(hù),反之,就會(huì)對(duì)用戶(hù)造成騷擾。

通過(guò)機(jī)器學(xué)習(xí)進(jìn)行個(gè)性化 Push,給用戶(hù)推送其感興趣的內(nèi)容,既能最大程度地降低對(duì)用戶(hù)的騷擾,同時(shí)也能有效地提升 Push 的打開(kāi)率。

2018 年 5 月 18-19 日,由 51CTO 主辦的全球軟件與運(yùn)維技術(shù)峰會(huì)在北京召開(kāi)。

在“人工智能技術(shù)探索”分會(huì)場(chǎng),新浪微博的技術(shù)專(zhuān)家齊彥杰,給大家?guī)?lái)了《機(jī)器學(xué)習(xí)在微博個(gè)性化 Push 的應(yīng)用》的主題演講。

他和大家分享了微博個(gè)性化 Push 如何基于海量數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)有效提升打開(kāi)效果的一些做法和思路。

本文按照如下四個(gè)部分展開(kāi):

  • 為什么要做 Push 業(yè)務(wù)
  • 微博個(gè)性化 Push 的場(chǎng)景
  • 微博個(gè)性化 Push 的機(jī)制
  • 微博基于機(jī)器學(xué)習(xí)的個(gè)性化 Push 應(yīng)用

為什么要做 Push 業(yè)務(wù)

??

 

眾所周知,微博是社交媒體中的領(lǐng)跑者,它于 2009 年 8 月份上線(xiàn);2013 年底,MAU(月活用戶(hù)數(shù))突破了一億;2015 年 9 月,DAU(日活用戶(hù)數(shù))突破了一億。

2017 年 9 月,MAU 達(dá)到 3.76 億;2018 年 3 月,微博的MAU突破了 4.11 億。該增長(zhǎng)速度是相當(dāng)驚人的。


 

當(dāng)微博的 MAU 超過(guò) 4.1 億之后,這么龐大的用戶(hù)體量以及用戶(hù)關(guān)系,本身必定會(huì)更大發(fā)揮其社交媒體的屬性。

下面我們來(lái)看為何要去做 Push 業(yè)務(wù)。如上圖右邊所示,這些都是大家印象非常深刻的事件。

如果我們能夠在第一時(shí)間把這些事件推送給目標(biāo)用戶(hù),一定會(huì)滿(mǎn)足用戶(hù)對(duì)重大消息及時(shí)性的需求。

所以,每當(dāng)國(guó)內(nèi)、外有重大事件發(fā)生的時(shí)候,我們都會(huì)做一些提醒發(fā)給大家。

同時(shí)我們又是一個(gè)社交媒體,當(dāng)用戶(hù)所關(guān)注的博主發(fā)出博文的時(shí)候,他們都希望能夠以?xún)?nèi)容提醒的方式,收到自己感興趣的通知類(lèi)消息。

??

 

根據(jù)上述需求,我們將微博上的 Push 大概分為:熱點(diǎn) Push、個(gè)性化 Push、關(guān)系 Push、區(qū)域 Push 和直播 Push 等類(lèi)型。

上圖右側(cè)是微博 Push 的展現(xiàn)形態(tài),它們包括一些文案和簡(jiǎn)介,且都是在通知欄里展現(xiàn)出來(lái)的。

??

 

可見(jiàn),Push 本身具有站方主動(dòng)推送的特征,而用戶(hù)則處于一種被動(dòng)提醒的狀態(tài)。

然而它的挑戰(zhàn)性是:用戶(hù)在信息流中通過(guò)一次性刷新,就能帶來(lái)十多條的信息曝光,命中用戶(hù)興趣點(diǎn)的概率較大,而 Push 是單條曝光,命中的概率小了很多。

但是,如果 Push 的發(fā)送過(guò)于頻繁,則會(huì)引起用戶(hù)的反感。因此,我們希望在盡量少發(fā)的前提下,盡快找到用戶(hù)的興趣點(diǎn)。

它具有一定的復(fù)雜性和挑戰(zhàn)性。即在降低對(duì)用戶(hù)騷擾的同時(shí),提升用戶(hù)的點(diǎn)擊規(guī)模。

所以,我認(rèn)為 Push 的本質(zhì)就是一個(gè)高效的內(nèi)容分發(fā)系統(tǒng),它能夠在較短的時(shí)間內(nèi)為各種內(nèi)容找到其目標(biāo)群體,并且發(fā)送給相應(yīng)的消費(fèi)者。

同時(shí),對(duì)于個(gè)人用戶(hù)來(lái)說(shuō),它應(yīng)該是一個(gè)擁有足夠豐富經(jīng)驗(yàn)的私人秘書(shū),幫助用戶(hù)在海量的內(nèi)容源中,找到喜歡的消息,并及時(shí)的提醒用戶(hù)進(jìn)行查閱。

微博個(gè)性化 Push 場(chǎng)景

??

 

下面我們來(lái)看看個(gè)性化 Push 的場(chǎng)景。上圖是 2017 年對(duì)于微博用戶(hù)的分析,用戶(hù)從 18 歲以下到 41 歲以上有著廣泛的年齡層次分布。

相對(duì)于微博這種體量的平臺(tái),就算 41 歲以上的人群僅占 5.6%,其絕對(duì)數(shù)量也有幾千萬(wàn)的群體。

??

 

就地域而言,一、二、三、四線(xiàn)、及港澳臺(tái)城市,都有大量用戶(hù)的分布。

??

 

同時(shí)微博用戶(hù)的興趣點(diǎn)也是非常分散的。內(nèi)容涉及明星、汽車(chē)、電影、美食等方面。

??

 

在如此龐大的用戶(hù)群體和用戶(hù)喜好分布的情況下,微博本身的內(nèi)容品種也是非常豐富的。

如上圖左側(cè)所列的、微博熱門(mén)的首頁(yè)分類(lèi),以及右側(cè)是某一時(shí)刻的、熱門(mén)話(huà)題的列表,可見(jiàn)它是多么的豐富和繁雜。

?[[248845]]?

 

鑒于用戶(hù)有如此廣泛的興趣,我們?cè)撊绾卧谳^短的時(shí)間內(nèi),為他們匹配并推送喜歡的內(nèi)容呢?

這就是我們個(gè)性化 Push 所要解決的問(wèn)題。我們需要構(gòu)建一個(gè)推薦系統(tǒng),有針對(duì)性地為不同的用戶(hù)找到他們所喜歡的內(nèi)容。

微博個(gè)性化 Push 機(jī)制

??

 

由于所有的推薦系統(tǒng),基本上都是從內(nèi)容源頭上去尋找用戶(hù)喜歡的資源。那么對(duì)于微博而言,其源頭就是全量的原創(chuàng)博文。

每天,這些博文以幾千萬(wàn)的量級(jí)產(chǎn)生,但并非所有的內(nèi)容都適合被推薦給用戶(hù)的,因此我們需要進(jìn)行機(jī)器和人工的雙重篩選。

機(jī)器篩選,能幫助我們找到優(yōu)質(zhì)的素材。但由于 Push 本身是一個(gè)推送的過(guò)程,當(dāng)它所推送的內(nèi)容包含一些不良內(nèi)容時(shí),就會(huì)給用戶(hù)帶來(lái)巨大的困擾,因此,為了規(guī)避風(fēng)險(xiǎn),我們加入了人工審核的環(huán)節(jié)。

在人工審核完成之后,我們會(huì)得到適合推薦的集合,該集合再利用算法去匹配博文和用戶(hù),即如果兩者之間匹配的分?jǐn)?shù)高,我們就會(huì)通過(guò)分發(fā)控制將內(nèi)容下發(fā)過(guò)去。

同時(shí),我們通過(guò)對(duì)“已讀、已發(fā)”進(jìn)行過(guò)濾,以保證所發(fā)出去的內(nèi)容不是用戶(hù)已經(jīng)看過(guò)的。

另外,大家使用微博的時(shí)間偏好會(huì)有所不同。如果我們?cè)谟脩?hù)工作的時(shí)候給他發(fā)送博文消息,那么由于他在此時(shí)并不想消費(fèi)內(nèi)容,因此會(huì)構(gòu)成一定的騷擾。

而到了中午,當(dāng)有空再去查看時(shí),該內(nèi)容已經(jīng)過(guò)時(shí)了。所以我們需要選擇用戶(hù)最想看微博的時(shí)間段,將內(nèi)容發(fā)送過(guò)去。

??

 

有了前面推薦系統(tǒng)的流程概念,我們具體來(lái)看一下評(píng)分的過(guò)程。首先,我們通過(guò)物料生成模型進(jìn)行審核,篩選出全量?jī)?yōu)質(zhì)的內(nèi)容,并放入物料池之中。而物料池需要實(shí)時(shí)地更新其互動(dòng)的內(nèi)容。

例如,物料池根據(jù)某條博文在當(dāng)前時(shí)間點(diǎn)的轉(zhuǎn)發(fā)次數(shù)與評(píng)論次數(shù),予以實(shí)時(shí)更新。

在完成更新之后,我們會(huì)以分鐘為間隔單位,去拉取所需的物料和參與計(jì)算的用戶(hù),使用 Rank 模型算出分值和排序,并從中篩選出對(duì)于用戶(hù)最感興趣的博文予以下發(fā)。

上圖的 Rank 模型旁邊是“協(xié)同推薦”。在一般系統(tǒng)中,會(huì)將協(xié)同作為一種召回的方式,將協(xié)同所產(chǎn)生的內(nèi)容,放在物料召回的部分中再做推薦。

但是在該場(chǎng)景下,根據(jù)我們做過(guò)的測(cè)試,協(xié)同推薦的效果好于排序模型,因此我們認(rèn)為沒(méi)有必要再“走”一遍排序模型,完全可以直接發(fā)送下去了。

而在經(jīng)歷了基礎(chǔ)過(guò)濾的下發(fā)后,我們會(huì)實(shí)時(shí)地收取下發(fā)日志和點(diǎn)擊日志。這兩種日志再通過(guò)更新物料池,影響物料生成模型和運(yùn)營(yíng)審核部分,從而為篩選環(huán)節(jié)提供幫助。

微博基于機(jī)器學(xué)習(xí)的個(gè)性化 Push 應(yīng)用

理解了推薦系統(tǒng)的結(jié)構(gòu),我們?cè)賮?lái)看如何將機(jī)器學(xué)習(xí)在個(gè)性化 Push 中進(jìn)行具體應(yīng)用。

??

 

上圖是我們整體的架構(gòu),其最下端是博文信息、用戶(hù)信息、行為信息等。我們會(huì)根據(jù)這些信息挖掘出各種非常具象的特征。

利用這些特征進(jìn)行模型訓(xùn)練和評(píng)估,就能得出排序模型和物料模型。當(dāng)新模型達(dá)到需求,我們就會(huì)將這些模型運(yùn)用到線(xiàn)上,進(jìn)行排序策略、和 CTR 預(yù)估。

最后線(xiàn)上的數(shù)據(jù)被再次“傳導(dǎo)”回來(lái),成為下面的基礎(chǔ)數(shù)據(jù)部分,以供模型下一次的訓(xùn)練與迭代。

特征構(gòu)建

上面提到了特征的構(gòu)建,那么我們?nèi)绾蝸?lái)具象各種特征呢?

興趣維度

??

 

對(duì)于一篇博文而言,微博通過(guò)“三級(jí)標(biāo)簽體系”來(lái)具現(xiàn)它所代表的特征含義。通過(guò)記錄用戶(hù)對(duì)博文的消費(fèi)來(lái)記錄其興趣方向。

如上圖所示:首先,最上面的是比較寬泛的,如“體育領(lǐng)域”;其次是“足球”;“足球”下面會(huì)有“梅西”、“C 羅”。

在某個(gè)用戶(hù)消費(fèi)了帶有“梅西”標(biāo)簽的博文后,只要他多次打開(kāi)或互動(dòng),我們就認(rèn)為該用戶(hù)是對(duì)于“梅西”感興趣的,就會(huì)把“梅西”標(biāo)簽記錄在用戶(hù)信息中。

我們把用戶(hù)興趣標(biāo)簽和博文標(biāo)簽作為特征加入到模型中,進(jìn)行訓(xùn)練,就能表示用戶(hù)對(duì)博文內(nèi)容的興趣程度。

關(guān)系維度

??

 

檢查某個(gè)用戶(hù)與其關(guān)注的博主是否有過(guò)直接的互動(dòng)行為。如果他們?cè)跉v史上的互動(dòng)次數(shù)非常頻繁的話(huà),我們就認(rèn)為該博主所會(huì)產(chǎn)生的博文特別契合此用戶(hù)的需求,那么他們的關(guān)系也可以作為一個(gè)緯度特征,被加入進(jìn)來(lái)。

實(shí)時(shí)維度

??

 

或稱(chēng)“先驗(yàn)”緯度。由于 Push 在其應(yīng)用的場(chǎng)景中所使用的物料相對(duì)較少,其“曝光”的機(jī)會(huì)更少,因此所推送的內(nèi)容必須是熱點(diǎn)中的熱點(diǎn)。

我們通常會(huì)將各種博文在其他領(lǐng)域里的消費(fèi)點(diǎn)擊率作為“先驗(yàn)”數(shù)據(jù)傳導(dǎo)回來(lái),通過(guò)導(dǎo)入至模型中,以給我們提供幫助。

環(huán)境維度

包括推送的時(shí)間、設(shè)備的網(wǎng)絡(luò)信息、和設(shè)備本身的信息等。

模型升級(jí)

??

 

有了上述各種特征之后,我們?cè)儆懻撘幌?Push 業(yè)務(wù)的模型升級(jí)過(guò)程。首先,我們從 LR(Logistic Regression)開(kāi)始做了一個(gè) Base Line。

由于 LR 模型在實(shí)踐中不但非常簡(jiǎn)單,同時(shí)解釋性也不錯(cuò),而且它特別適合于大規(guī)模的計(jì)算,因此我們將其作為 Base Line 之后,就有了一個(gè)基礎(chǔ)性的數(shù)據(jù)。

在那之后,我們升級(jí)到了FM(Factorization Machines)模型,以及現(xiàn)在所做的 Wide&Deep 模型。

線(xiàn)性模型

??

 

上圖是對(duì) LR 模型的介紹。由于該模型比較難以捕捉用戶(hù)的組合特征,因此在被使用時(shí),大家往往會(huì)增加一些人工的組合特征進(jìn)去。

??

 

例如,我們?cè)诖烁倪M(jìn)為“兩兩特征組合”,當(dāng)然也可使用多維特征的組合方式。

不過(guò)它存在的問(wèn)題是:由于本身特征就很稀疏,如果做了組合,其對(duì)應(yīng)的樣本變得更加稀少。

而對(duì)于模型而言,樣本是至關(guān)重要的,因此我們使用該模型無(wú)法學(xué)習(xí)到足夠多的信息。

FM 模型

??

 

在此基礎(chǔ)上,業(yè)內(nèi)專(zhuān)家想了一種模型--FM 模型,它是把 LR 模型+“Dense 化兩兩特征組合”。

即并不直接對(duì) WIJ 進(jìn)行求導(dǎo),而是把 WIJ 拆分成了兩個(gè)向量緯度的乘積予以表現(xiàn)。

同時(shí),它的向量與所有特征共同計(jì)算,因此它在泛化能力上有所提升。

??

 

具體實(shí)現(xiàn)方式如上圖所示。該模型在上線(xiàn)之后,在 Push 業(yè)務(wù)效果的提升非常明顯。

Wide&Deep 模型

??

 

有了上述的兩兩特征組合之后,我們還引入了 Wide&Deep 模型。即:通過(guò)把 Wide 模型和 Deep 模型相結(jié)合,既保留了 Wide 模型里面的記憶能力,又具有一些高階的特征組合優(yōu)勢(shì)。

因此,該模型具有更強(qiáng)的表現(xiàn)能力。當(dāng)然,它也帶來(lái)了計(jì)算量增加的問(wèn)題。

??

 

深度模型通常網(wǎng)絡(luò)節(jié)點(diǎn)很多,用于線(xiàn)上業(yè)務(wù)計(jì)算量比較大,因此我們相對(duì)于原論文,進(jìn)行了適當(dāng)?shù)夭眉簟?/p>

我們使用該模型的網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示,三層網(wǎng)絡(luò)節(jié)點(diǎn)分別是 64、128、256。盡量保證在離線(xiàn)指標(biāo)下降較小的情況下,簡(jiǎn)化網(wǎng)絡(luò)。

模型訓(xùn)練

??

 

下面和大家分享一下,我們?cè)诠ぷ髦杏龅竭^(guò)的一些問(wèn)題和使用的技巧。

對(duì)于微博中不同頻次的用戶(hù)而言,由于他們的使用習(xí)慣差異較大,如果簡(jiǎn)單地將其放入同一個(gè)模型,則效果不佳。

因此,我們對(duì)于不同用戶(hù)的頻次進(jìn)行了拆分,分別訓(xùn)練了高頻次、中頻次和低頻次類(lèi)型的用戶(hù)。同時(shí),我們?cè)谪?fù)樣本的選擇上做了一些調(diào)整。

由于服務(wù)器在做推送(Push)的時(shí)候,用戶(hù)不一定能真的收到、收到了也不一定會(huì)被系統(tǒng)所展示出來(lái)、就算系統(tǒng)展示出來(lái)了也不一定會(huì)被用戶(hù)所看到。

因此我們不能簡(jiǎn)單地將推送曝光的樣本作為負(fù)樣本,而應(yīng)當(dāng)選取歷史上有過(guò)正樣本的用戶(hù),將他們?cè)讷@得正樣本觸發(fā)時(shí),所并未點(diǎn)擊到的上下幾條曝光,來(lái)作為負(fù)樣本。

籍此,我們的表現(xiàn)能力、點(diǎn)擊量和點(diǎn)擊率都有了顯著的提升。

??

 

其他的方法與技巧還包括:

  • 在物料模型上,我們采取的是機(jī)器投稿+人工審核的方式。
  • 在物料召回上,我們采用了興趣領(lǐng)域召回、熱點(diǎn)召回、和文本 embedding 召回等。
  • 在排序的方面,我們使用了分片批量計(jì)算。因?yàn)槲覀兠刻煲l(fā)送幾個(gè)億規(guī)模的推送量,如果每次都是進(jìn)行全量計(jì)算的話(huà),對(duì)于服務(wù)器的資源消耗會(huì)過(guò)大,當(dāng)然也沒(méi)有必要。

??

 

下面分享我們的兩個(gè)方案。

BoostPush 方案

如果某個(gè)物料在未經(jīng)充分驗(yàn)證的情況下,對(duì)所有的用戶(hù)進(jìn)行計(jì)算,那么就可能因?yàn)槟骋惶卣鞯挠绊憣?dǎo)致分值特別高,而造成過(guò)大范圍的下發(fā)。

如此,該不良物料會(huì)被展現(xiàn)給成百上千萬(wàn)用戶(hù)。因此,我們首先會(huì)在一個(gè)特別小的范圍內(nèi)進(jìn)行嘗試,如果點(diǎn)擊率特別高的話(huà),我們?cè)僦饾u擴(kuò)大其權(quán)限,層層擴(kuò)量,直至全站。

通過(guò)該 BoostPush 方式,我們既控制了不良物料下發(fā)的范圍,又將曝光的機(jī)會(huì)讓給了充分驗(yàn)證完成的物料。通過(guò)此法,我們的點(diǎn)擊量得到了大幅提升。

協(xié)同過(guò)濾方案

Push 除了能給用戶(hù)帶來(lái)最及時(shí)的消息推送以外,它還有一項(xiàng)非常重要的作用--給 App 的服務(wù)方提供“拉活”效果。

對(duì)于一般不常打開(kāi) App 的用戶(hù)而言,推送在“拉活”方面的效果并不明顯。

因此,我們需要選取曾經(jīng)時(shí)常點(diǎn)擊并打開(kāi) Push 消息的那些用戶(hù),以他們的行為作為推送的參考,來(lái)進(jìn)行各種相應(yīng)的協(xié)同下發(fā)方面的嘗試。這對(duì)于我們“拉來(lái)”新的用戶(hù)會(huì)十分有效。

上面就是我們?cè)趯?shí)際生產(chǎn)過(guò)程中所遇到過(guò)的問(wèn)題,和相應(yīng)的解決方案。

?[[248846]]?

 

齊彥杰,新浪微博技術(shù)專(zhuān)家。畢業(yè)于鄭州大學(xué)計(jì)算機(jī)系,微博研發(fā)中心技術(shù)專(zhuān)家。曾任職于某搜索公司高級(jí)架構(gòu)師,多年從事爬蟲(chóng)、索引、檢索、數(shù)據(jù)分析等方向的研發(fā)工作。目前在微博 User Growth 方向中,關(guān)注領(lǐng)域在數(shù)據(jù)挖掘、用戶(hù)畫(huà)像、自然語(yǔ)言處理、個(gè)性化推薦系統(tǒng)等領(lǐng)域,負(fù)責(zé)訪(fǎng)客信息流推薦、Push 平臺(tái)信息推薦、用戶(hù)轉(zhuǎn)化等業(yè)務(wù)。

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

??

 

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2018-05-24 17:44:44

pushFM微博

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺(tái)

2023-07-26 07:51:30

游戲中心個(gè)性化

2022-11-01 07:19:45

推薦系統(tǒng)非個(gè)性化

2019-09-06 08:29:33

Netflix架構(gòu)推薦系統(tǒng)

2023-08-22 15:37:45

深度學(xué)習(xí)人工智能

2024-07-02 09:41:11

2016-04-08 11:39:49

用戶(hù)畫(huà)像個(gè)性化推薦標(biāo)簽

2022-09-06 17:43:02

??AISummit數(shù)據(jù)運(yùn)營(yíng)

2016-01-07 13:23:35

構(gòu)建實(shí)時(shí)推薦系統(tǒng)

2017-06-27 15:35:02

機(jī)器學(xué)習(xí)Spark微博應(yīng)用

2018-04-19 10:20:19

機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)音樂(lè)

2015-11-09 10:12:08

大數(shù)據(jù)個(gè)性化推薦

2022-05-17 09:43:11

因果模型數(shù)據(jù)建模

2018-04-26 11:30:29

OracleBronto產(chǎn)品推薦

2017-09-29 14:56:28

深度學(xué)習(xí)CTR預(yù)估

2018-04-27 16:23:27

Oracle Bron個(gè)性化產(chǎn)品

2022-04-08 14:21:56

App個(gè)性化推薦算法推薦管理

2021-04-01 14:26:09

亞馬遜云科技Amazon Pers

2017-10-13 13:13:14

人工智能深度學(xué)習(xí)微博
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)