偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

圖機(jī)器學(xué)習(xí)在螞蟻集團(tuán)推薦業(yè)務(wù)中的應(yīng)用

人工智能 新聞
推薦網(wǎng)絡(luò)中UI邊的記錄是非常少的,我們的關(guān)注點(diǎn)也是低活目標(biāo)的推薦。

本文將介紹圖機(jī)器學(xué)習(xí)在螞蟻推薦系統(tǒng)中的應(yīng)用。在螞蟻的實(shí)際業(yè)務(wù)中,有大量的額外信息,比如知識(shí)圖譜、其他業(yè)務(wù)的用戶行為等,這些信息通常對(duì)推薦業(yè)務(wù)很有幫助,我們利用圖算法連接這些信息和推薦系統(tǒng),來(lái)增強(qiáng)用戶興趣的表達(dá)。全文主要圍繞以下幾方面內(nèi)容展開(kāi):

  • 背景
  • 基于圖譜的推薦
  • 基于社交和文本的推薦
  • 基于跨域的推薦

01 背景

圖片

支付寶除了最主要的支付功能外還有大量的推薦場(chǎng)景,包括腰封推薦、基金推薦和消費(fèi)券推薦等等。支付寶域內(nèi)的推薦相比于其他推薦最大的區(qū)別是用戶的行為稀疏,活躍度較低,很多用戶打開(kāi)支付寶只是為了支付,不會(huì)關(guān)注其他東西。所以推薦網(wǎng)絡(luò)中UI邊的記錄是非常少的,我們的關(guān)注點(diǎn)也是低活目標(biāo)的推薦。比如為了提升DAU,可能只會(huì)給低活用戶在腰封投放內(nèi)容,正常用戶是看不到的;基金推薦板塊我們更關(guān)注的是那些沒(méi)有理財(cái)或理財(cái)持倉(cāng)金額較低的用戶,引導(dǎo)他們買一些基金進(jìn)行交易;消費(fèi)券的推薦也是為了促進(jìn)低活用戶的線下消費(fèi)。

圖片

?低活用戶歷史行為序列信息很少,一些直接根據(jù)UI歷史行為序列來(lái)推薦的方法可能不太適用于我們的場(chǎng)景。因此我們引入了下面三個(gè)場(chǎng)景信息來(lái)增強(qiáng)支付寶域內(nèi)的UI關(guān)系信息:

  • 社交網(wǎng)絡(luò)的UU關(guān)系
  • II圖譜關(guān)系
  • 其他場(chǎng)景的UI關(guān)系

通過(guò)社交網(wǎng)絡(luò)的UU關(guān)系可以獲取低活用戶好友的點(diǎn)擊偏好,根據(jù)同質(zhì)性就可以推斷出該用戶的點(diǎn)擊偏好,物品與物品之間的圖譜關(guān)系可以發(fā)現(xiàn)、擴(kuò)展用戶對(duì)相似物品的喜好信息,最后跨域場(chǎng)景下的用戶行為對(duì)當(dāng)前場(chǎng)景的推薦任務(wù)也有很大幫助。

02基于圖譜的推薦

很多推薦場(chǎng)景中用戶的行為是稀疏的,尤其是在對(duì)新用戶進(jìn)行刻畫時(shí),可利用的行為信息很少,所以通常要引入很多輔助信息,比如attribute、contexts、images等等,我們這里引入的是knowledge graph—知識(shí)圖譜。

1. 現(xiàn)存挑戰(zhàn)

圖片

?知識(shí)圖譜是一個(gè)大而全的歷史專家知識(shí),有助于我們的算法推薦,但是還存在兩個(gè)問(wèn)題:

一是圖譜本身可能并不是為了這個(gè)業(yè)務(wù)而設(shè)計(jì)的,所以里面包含很多無(wú)用信息,訓(xùn)練過(guò)程也非常耗時(shí)。一個(gè)常用的解決辦法是只保留圖譜中能關(guān)聯(lián)上我們商品的邊,把其他邊都刪掉,但這又可能會(huì)造成一些信息損失,因?yàn)槠渌呉彩怯杏玫摹?/span>

二是圖譜用做輔助信息時(shí),沒(méi)辦法將用戶的偏好聚合到圖譜內(nèi)部的邊上。如上圖所示,用戶1喜歡電影1和電影2的原因可能是因?yàn)樗鼈冇型粋€(gè)主演,而用戶2喜歡電影2和電影3的原因是它們的類型相同。如果只用普通的圖模型的UI、II關(guān)系來(lái)建模,只能得到用戶和電影的相關(guān)性,而沒(méi)辦法將用戶的這些潛在意圖聚合到圖譜中。

所以我們后面主要解決圖譜蒸餾和圖譜精煉這兩個(gè)問(wèn)題。

2. 現(xiàn)有方法

 基于Embedding的模型

基于Embedding的方法先通過(guò)圖譜表征學(xué)習(xí)的方法把圖譜中的節(jié)點(diǎn)轉(zhuǎn)化為一個(gè)Embedding,然后將Embedding直接接入到UI模型中。這類方法提前學(xué)習(xí)了圖譜中的相關(guān)性,并把其轉(zhuǎn)為一個(gè)Embedding,所以很難再衡量用戶與知識(shí)邊的相似性,沒(méi)有解決圖譜蒸餾和圖譜精煉的問(wèn)題。

② 基于Path的模型

基于Path的方法根據(jù)圖譜中的知識(shí)邊把圖譜分解為多條meta-path,但是構(gòu)建meta-path 的過(guò)程需要很多專家知識(shí),同時(shí)也沒(méi)有體現(xiàn)出用戶對(duì)知識(shí)邊的偏好。

 基于GCN的模型

基于GCN 的方法通過(guò)UI和II關(guān)系建模,一般通過(guò)attention的方法根據(jù)不同類型的邊取不同的權(quán)重,但邊的權(quán)重只和邊兩端的節(jié)點(diǎn)表征相關(guān),與目標(biāo)節(jié)點(diǎn)的表征無(wú)關(guān)。

3. 解決方案

圖片

?我們提出的模型主要分為4個(gè)部分,首先通過(guò)圖譜表征學(xué)習(xí)得到圖譜表征,利用知識(shí)依賴傳播來(lái)學(xué)習(xí)、聚合得到不同邊的重要性,然后通過(guò)一個(gè)蒸餾模塊對(duì)圖譜中的邊采樣、去噪,再加入條件注意力做圖譜精煉,最后做一個(gè)雙塔模型得到結(jié)果。

下面介紹每一部分的具體細(xì)節(jié):

 圖譜表征學(xué)習(xí)層

圖片

我們這里使用的是傳統(tǒng)的TransH圖譜表征模型,因?yàn)槲覀兊膱D譜中有很多many-to-one和one-to-many的邊。通過(guò)TransH把每一個(gè)節(jié)點(diǎn)都映射到邊對(duì)應(yīng)的空間中,在這個(gè)空間上衡量?jī)蓚€(gè)邊的相似性。

 圖譜表征學(xué)習(xí)層

圖片

學(xué)習(xí)完圖譜邊的表征后,在鄰居內(nèi)聚合圖譜邊的表征,再通過(guò)求不同的邊空間的cos距離作為點(diǎn)的加權(quán)聚合圖譜點(diǎn)的表征。因?yàn)閳D譜中的邊的噪聲很大,所以我們會(huì)做一個(gè)額外的采樣,根據(jù)我們學(xué)到的權(quán)重在目標(biāo)子圖上進(jìn)行采樣,目標(biāo)子圖就是用戶和商品的二階子圖合在一起,經(jīng)過(guò)采樣得到更小的子圖。

 圖譜表征學(xué)習(xí)層

圖片

得到子圖之后,我們做一個(gè)條件注意力,在給定用戶和商品的情況下衡量邊的重要性。邊的重要性可以分為兩部分,一部分是這個(gè)邊本身很重要,另一部分是用戶很關(guān)注這個(gè)邊。邊本身的重要性已經(jīng)在上一步中的知識(shí)依賴注意力中學(xué)習(xí)了,不用再做額外訓(xùn)練,用戶對(duì)邊的重要性是通過(guò)將所有目標(biāo)集合的表征和邊兩端點(diǎn)的表征拼接做一個(gè)注意力得到條件注意力,再根據(jù)條件注意力做點(diǎn)的聚合。

④ 雙塔模型 

圖片

?最后做一個(gè)雙塔模型衡量pairwise loss,用類Adam方法同時(shí)優(yōu)化圖譜表征學(xué)習(xí)loss和推薦系統(tǒng)的目標(biāo)loss,我們的算法復(fù)雜度與點(diǎn)和邊的數(shù)量呈線性關(guān)系。

4. 實(shí)驗(yàn)結(jié)果

 實(shí)驗(yàn)數(shù)據(jù)集和基準(zhǔn)模型選擇 

圖片

?我們選取了一些推薦系統(tǒng)加知識(shí)圖譜的數(shù)據(jù)集和我們業(yè)務(wù)的基金推薦數(shù)據(jù)集,baseline主要有基于正則的CKE方法,基于矩陣分解的NMF方法,基于Path的異構(gòu)圖的方法RippleNet和基于GCN的KGAT。

②注意力可視化 

圖片

?左邊的Knowledge attention中,每條邊上的數(shù)值只和兩端節(jié)點(diǎn)相關(guān),在右上角的U532i1678上的值很小,后面就不容易采樣到這條邊。右邊的兩個(gè)圖用戶都是U0,但商品不一樣,整個(gè)圖的權(quán)重就完全不同。在預(yù)測(cè)U0-i2466以及U0-i780的相關(guān)性時(shí),兩個(gè)圖最右一條路的權(quán)重就完全不同,并且U0-i2466的最右一條路徑的權(quán)重更大一些,因?yàn)樵陬A(yù)測(cè)U0-i2466的相關(guān)性時(shí)最右邊的一條路要更重要一些。

模型評(píng)價(jià)

圖片

?我們?cè)赥op-K推薦和CTR點(diǎn)擊任務(wù)上衡量了模型效果,相比于baseline模型都有很大提升,在線上做基金推薦A/B testing實(shí)驗(yàn)也帶來(lái)效果的提升。最后我們做了消融實(shí)驗(yàn),結(jié)果顯示去掉條件注意力或知識(shí)注意力模型效果都會(huì)下降,證明了我們所做改進(jìn)的有效性。

03基于社交和文本的推薦

我們這里的基于社交和文本的推薦不是一個(gè)傳統(tǒng)意義上的推薦場(chǎng)景,主要是為了幫助運(yùn)營(yíng)理解用戶意圖,給用戶創(chuàng)造一些新內(nèi)容、新廣告來(lái)引導(dǎo)用戶增長(zhǎng)。比如腰封推薦的封面如何設(shè)計(jì),運(yùn)營(yíng)只有在充分理解用戶意圖后才能設(shè)計(jì)出符合用戶心理預(yù)期的內(nèi)容。

1. 現(xiàn)存挑戰(zhàn)

圖片

一個(gè)自然的方法就是使用Topic Model來(lái)衡量用戶到意圖,意圖到商品的分布,把用戶當(dāng)做一個(gè)文檔,商品當(dāng)做一個(gè)單詞分解出用戶意圖。但實(shí)際上用戶的點(diǎn)擊是稀疏的,尤其是我們的目標(biāo)客戶是低活用戶時(shí),并且商品的點(diǎn)擊服從長(zhǎng)尾分布,也很難獲取用戶的興趣和意圖。

2. 解決方案 

圖片

?首先我們將UU關(guān)系和UI關(guān)系都加入到GNN中來(lái)學(xué)習(xí),衡量用戶的點(diǎn)擊行為,然后我們對(duì)學(xué)習(xí)到的用戶—意圖先驗(yàn)分布做一個(gè)近似,傳統(tǒng)的Topic Model的先驗(yàn)分布是一個(gè)狄利克雷分布,我們這里用的是一個(gè)Logistic Normal的分布,它和狄利克雷分布長(zhǎng)得很像,可以通過(guò)一些重參數(shù)化的工作使得這個(gè)分布的學(xué)習(xí)是可導(dǎo)的。

圖片

?學(xué)習(xí)完用戶與用戶之間的關(guān)系后,下一步學(xué)習(xí)語(yǔ)料間的關(guān)系。上圖中有一個(gè)小程序,里面有一段文本描述,利用skip-gram模型計(jì)算item與正、負(fù)樣本的相似度,得到單詞的相似度,并通過(guò)一個(gè)DNN將單詞的相似度映射為用戶意圖表征,最后通過(guò)KL散度約束分布調(diào)整為我們想要的形式。

3. 實(shí)驗(yàn)結(jié)果

我們的數(shù)據(jù)集是用戶的連續(xù)7天的點(diǎn)擊數(shù)據(jù),其中包括大約50萬(wàn)用戶,9206件商品和2億用戶歷史點(diǎn)擊行為,社交網(wǎng)絡(luò)中包括700萬(wàn)條邊,每個(gè)用戶平均有14-15個(gè)鄰居節(jié)點(diǎn)。

圖片

我們分別做了離線和在線實(shí)驗(yàn)測(cè)試,離線實(shí)驗(yàn)衡量了不同數(shù)量Topic下的用戶間的相似性和語(yǔ)義間的相似性。在線實(shí)驗(yàn)通過(guò)我們的模型預(yù)測(cè)出的用戶意圖反饋給運(yùn)營(yíng),運(yùn)營(yíng)根據(jù)用戶意圖設(shè)計(jì)描述文本和展示頁(yè)面做線上推薦。整體模型的實(shí)驗(yàn)鏈路可能比較長(zhǎng),因?yàn)檫\(yùn)營(yíng)中間會(huì)產(chǎn)出一些素材,線上A/B實(shí)驗(yàn)的目標(biāo)分為兩部分,一部分是運(yùn)營(yíng)根據(jù)我們的模型反饋設(shè)計(jì)素材,一部分是利用歷史專家經(jīng)驗(yàn)做產(chǎn)出。實(shí)驗(yàn)結(jié)果顯示我們的模型在離線、在線實(shí)驗(yàn)中都相較于之前有了很大提升。

04基于跨域的推薦

圖片

?我們的推薦目標(biāo)是低活用戶,他們可能沒(méi)有標(biāo)簽,沒(méi)有特征,甚至從來(lái)沒(méi)有使用過(guò)支付寶。上圖中我們首先分析了用戶之間的相似性,其中與藍(lán)色代表陌生人的行為相似性,紅色代表與朋友的行為相似性,結(jié)果顯示關(guān)系更接近的朋友行為重疊度更高,所以我們可以使用用戶的好友行為信息作為用戶信息的一個(gè)補(bǔ)充。然后我們分析了活躍用戶和不活躍用戶的好友數(shù)量,發(fā)現(xiàn)活躍用戶的好友數(shù)量是遠(yuǎn)多于不活躍用戶的,所以我們想能不能把活躍用戶的點(diǎn)擊信息遷移到其不活躍的好友信息上來(lái)輔助推薦。

圖片

?所以我們模型的一個(gè)核心思想就是對(duì)齊活躍用戶和不活躍用戶的特征空間,因?yàn)椴换钴S用戶在很多特征上都是缺失的,所以他和活躍用戶的特征空間本質(zhì)上是不一樣的。這里我們使用GNN學(xué)習(xí)用戶的表征,將用戶的表征映射到一個(gè)共同空間。如上圖所示,CD-GNN的結(jié)構(gòu)上層是我們想預(yù)測(cè)的一個(gè)活躍用戶,下層是我們想預(yù)測(cè)的一個(gè)不活躍用戶,他們經(jīng)過(guò)兩個(gè)GNN的學(xué)習(xí)再通過(guò)一個(gè)領(lǐng)域不變層映射到一個(gè)共享的表征上,最后對(duì)活躍用戶和非活躍用戶都做一個(gè)label的預(yù)測(cè)。

圖片

具體來(lái)說(shuō),圖模型包括Social網(wǎng)絡(luò)和User-Page網(wǎng)絡(luò),對(duì)兩個(gè)網(wǎng)絡(luò)做不同的聚合,通過(guò)Domain Invariant Layer將活躍用戶和非活躍用戶映射到同一空間,最終的loss=Source loss+Target loss-Domain invariant loss。線上的A/B實(shí)驗(yàn)效果顯示我們的模型相較于GCN在CTR上提升很大,在行為稀疏的情況下我們的模型仍然能取得一個(gè)好的效果。

圖片

?上面是我們團(tuán)隊(duì)近期發(fā)表的一些成果,我講的主要是上面3篇的工作。

05互動(dòng)問(wèn)答

Q1:CD-GNN層的參數(shù)是不是共享的?

A1:不是共享的,因?yàn)榛钴S用戶的一些特征,比如ID特征是遠(yuǎn)多于不活躍用戶的,兩者的特征分布并不一致,所以這里我們沒(méi)有做共享 。

Q2:跨域推薦的問(wèn)題中不活躍用戶的Target Label數(shù)量很少,導(dǎo)致模型對(duì)不活躍用戶的Target Embedding學(xué)習(xí)很差,這類問(wèn)題應(yīng)該怎么考慮?

A2:可以用一些pre-trained方法來(lái)提前增加一些表征信息,或者把缺失的特征通過(guò)一些方法補(bǔ)充上。可以邊做圖模型邊做特征的補(bǔ)充,把鄰居的特征也補(bǔ)充過(guò)來(lái),而不是只簡(jiǎn)單把鄰居特征聚合,其中再添加類似于特征重構(gòu)的loss可能會(huì)幫助解決這個(gè)問(wèn)題。

Q3:第一個(gè)基于圖譜的方法是在精排場(chǎng)景落地的?里面的GNN一般做到幾階?

A3:我們的基金推薦板塊給用戶曝光的只有5個(gè)基金,不像其他場(chǎng)景下推薦出一個(gè)列表,底下可能有幾百條信息,用戶可以一眼看到這5個(gè)基金,重排的影響不是很大。我們模型的結(jié)果直接接到線上,是一個(gè)精排模型。一般就做到兩階GNN,三階在一些任務(wù)上的提升不是很大,并且線上的時(shí)延太長(zhǎng)了。

責(zé)任編輯:張燕妮 來(lái)源: DataFunTalk
相關(guān)推薦

2023-09-07 20:31:48

外灘大會(huì)螞蟻集團(tuán)圖學(xué)習(xí)系統(tǒng)

2019-06-06 08:52:00

2022-03-18 17:53:14

機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)工業(yè)物聯(lián)網(wǎng)

2022-04-18 11:36:43

機(jī)器學(xué)習(xí)制造業(yè)人工智能

2017-04-14 08:33:47

2021-07-21 11:25:17

機(jī)器學(xué)習(xí)?AI人工智能

2017-08-14 17:00:21

機(jī)器學(xué)習(xí)電商應(yīng)用

2021-04-13 09:00:00

機(jī)器學(xué)習(xí)鐵路技術(shù)

2020-02-27 14:47:11

人工智能機(jī)器學(xué)習(xí)故障檢測(cè)

2021-11-01 21:36:02

人工智能AI機(jī)器學(xué)習(xí)

2022-12-30 15:35:30

智慧醫(yī)療人工智能

2023-08-22 15:37:45

深度學(xué)習(xí)人工智能

2021-10-26 14:44:28

人工智能AI深度學(xué)習(xí)

2024-10-21 08:43:16

2020-08-10 11:15:07

機(jī)器學(xué)習(xí)ML人工智能

2021-07-29 09:55:40

人工智能AI深度學(xué)習(xí)

2020-11-02 10:15:54

螞蟻集團(tuán)IPO投資者

2022-03-02 09:11:09

機(jī)器學(xué)習(xí)網(wǎng)絡(luò)

2022-02-21 16:05:26

機(jī)器學(xué)習(xí)優(yōu)勢(shì)Python

2024-02-05 09:30:10

推薦算法深度學(xué)習(xí)內(nèi)容過(guò)濾
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)