連續(xù)遷移學(xué)習(xí)跨域推薦排序模型在淘寶推薦系統(tǒng)的應(yīng)用
本文探討了如何在工業(yè)界的連續(xù)學(xué)習(xí)的框架下實(shí)現(xiàn)跨域推薦模型,提出了連續(xù)遷移學(xué)習(xí)這一新的跨域推薦范式,利用連續(xù)預(yù)訓(xùn)練的源域模型的中間層表征結(jié)果作為目標(biāo)域模型的額外知識(shí),設(shè)計(jì)了一個(gè)輕量級(jí)的Adapter模塊實(shí)現(xiàn)跨域知識(shí)的遷移,并在有好貨推薦排序上取得了顯著業(yè)務(wù)效果。
背景
近些年隨著深度模型的應(yīng)用,工業(yè)界的推薦系統(tǒng)的推薦效果取得了顯著的提升,隨著模型的持續(xù)優(yōu)化,使得僅依賴場(chǎng)景內(nèi)數(shù)據(jù)優(yōu)化模型結(jié)構(gòu)和特征變得較為困難。在淘寶這樣的大規(guī)模電商平臺(tái)上,為了滿足不同用戶的多樣化需求,存在一系列不同規(guī)模大小的推薦場(chǎng)景,如信息流推薦(首頁(yè)猜你喜歡)、有好貨、購(gòu)后推薦、聚劃算等,這些場(chǎng)景共享淘寶商品體系,但在具體的選品池、核心用戶和業(yè)務(wù)目標(biāo)等方面存在顯著差異,且不同場(chǎng)景的規(guī)模差異極大。我們的場(chǎng)景有好貨是淘寶精選商品的導(dǎo)購(gòu)場(chǎng)景,和信息流推薦、主搜索等場(chǎng)景相比規(guī)模相對(duì)較小,因此如何利用遷移學(xué)習(xí)、跨域推薦等方法提升模型效果一直以來是有好貨排序模型優(yōu)化的重點(diǎn)之一。
淘寶不同業(yè)務(wù)場(chǎng)景的商品和用戶雖有重合,但由于場(chǎng)景差異顯著,信息流推薦等大場(chǎng)景的排序模型直接應(yīng)用于有好貨場(chǎng)景上效果不佳。因此,團(tuán)隊(duì)在跨域推薦方向做了相當(dāng)多的嘗試,包括利用預(yù)訓(xùn)練-微調(diào)、多場(chǎng)景聯(lián)合訓(xùn)練、全域?qū)W習(xí)等一系列已有方法。這些方法要么效果不夠明顯,要么在實(shí)際上線應(yīng)用中存在相當(dāng)多的問題。連續(xù)遷移學(xué)習(xí)項(xiàng)目就是針對(duì)這些方法在業(yè)務(wù)中應(yīng)用的一系列問題,提出的簡(jiǎn)單有效的新的跨域推薦方法。該方法利用連續(xù)預(yù)訓(xùn)練的源域模型的中間層表征結(jié)果作為目標(biāo)域模型的額外知識(shí),并在淘寶有好貨推薦排序上取得了顯著業(yè)務(wù)效果。
本文詳細(xì)版本Continual Transfer Learning for Cross-Domain Click-Through Rate Prediction at Taobao已發(fā)布在ArXiv https://arxiv.org/abs/2208.05728。
方法
? 現(xiàn)有工作及其不足
分析現(xiàn)有的學(xué)術(shù)界和工業(yè)界的跨域推薦(Cross-Domain Recommendation, CDR)的相關(guān)工作,主要可分為兩大類:聯(lián)合訓(xùn)練(Joint Learning)和預(yù)訓(xùn)練-微調(diào)(Pre-training & Fine-tuning)。其中,聯(lián)合訓(xùn)練方法同時(shí)優(yōu)化源域(Source Domain)和目標(biāo)域(Target Domain)模型。然而,這一類方法需要在訓(xùn)練中引入源域的數(shù)據(jù),而源域樣本通常規(guī)模很大,從而消耗巨大的計(jì)算和存儲(chǔ)資源,很多較小業(yè)務(wù)難以承擔(dān)如此大的資源開銷。另一方面,這一類方法需同時(shí)優(yōu)化多個(gè)場(chǎng)景目標(biāo),場(chǎng)景之間的差異也可能帶來目標(biāo)沖突的負(fù)面影響,因此預(yù)訓(xùn)練-微調(diào)類方法在工業(yè)界很多場(chǎng)景有著更廣泛的應(yīng)用。
工業(yè)界推薦系統(tǒng)一個(gè)重要的特點(diǎn)是模型訓(xùn)練遵循連續(xù)學(xué)習(xí)(Continual Learning)范式,即模型需要使用最新的樣本,利用離線增量更新(Incremental Learning)或在線學(xué)習(xí)(Online Learning)等方式學(xué)習(xí)最新的數(shù)據(jù)分布。對(duì)于本文研究的跨域推薦任務(wù)而言,源域和目標(biāo)域的模型都是遵循連續(xù)學(xué)習(xí)的訓(xùn)練方式。我們由此提出了一個(gè)學(xué)術(shù)和工業(yè)上將有廣泛應(yīng)用的新問題:連續(xù)遷移學(xué)習(xí)(Continual Transfer Learning),定義為從一個(gè)隨時(shí)間變化的領(lǐng)域到另一個(gè)也隨時(shí)間變化的領(lǐng)域的知識(shí)遷移。我們認(rèn)為,現(xiàn)有的跨域推薦和遷移學(xué)習(xí)方法在工業(yè)推薦系統(tǒng)、搜索引擎、計(jì)算廣告等的應(yīng)用應(yīng)當(dāng)遵循連續(xù)遷移學(xué)習(xí)范式,即遷移的過程應(yīng)當(dāng)是持續(xù)的、多次的。原因在于數(shù)據(jù)分布變化較快,只有通過連續(xù)的遷移才可以保證穩(wěn)定的遷移效果。結(jié)合這一工業(yè)推薦系統(tǒng)的特點(diǎn),我們可以發(fā)現(xiàn)預(yù)訓(xùn)練-微調(diào)在實(shí)際應(yīng)用上的問題。由于源域和目標(biāo)域的場(chǎng)景差異,通常需要用大量樣本才可以利用源域模型微調(diào)得到一個(gè)效果較好的結(jié)果。而為了實(shí)現(xiàn)連續(xù)遷移學(xué)習(xí),我們需要每隔一段時(shí)間都利用最新的源域模型重新微調(diào),造成了非常巨大的訓(xùn)練代價(jià),這樣的訓(xùn)練方式也是難以上線的。此外,利用這些大量樣本微調(diào)也可能使得源域模型遺忘掉保留的有用知識(shí),避免模型出現(xiàn)災(zāi)難性遺忘(Catastrophic Forgetting)問題;利用源域模型參數(shù)去替換掉原有的目標(biāo)域已經(jīng)學(xué)好的參數(shù)也丟棄了原有模型歷史上獲得的有用知識(shí)。因此,我們需要設(shè)計(jì)一個(gè)更加高效,適用于工業(yè)推薦場(chǎng)景的連續(xù)遷移學(xué)習(xí)模型。
本文提出了一個(gè)簡(jiǎn)單有效的模型CTNet(Continual Transfer Network,連續(xù)遷移網(wǎng)絡(luò))解決了上述問題。不同于傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)類方法,CTNet的核心思想是不能遺忘和丟棄所有模型在歷史上獲取的知識(shí), 保留了原有的源域模型和目標(biāo)域模型的所有參數(shù)。這些參數(shù)中保存了通過非常久的歷史數(shù)據(jù)學(xué)習(xí)得到的知識(shí)(例如淘寶有好貨的精排模型已經(jīng)連續(xù)增量訓(xùn)練兩年以上)。CTNet采用了簡(jiǎn)單的雙塔結(jié)構(gòu),利用了一個(gè)輕量級(jí)的Adapter層將連續(xù)預(yù)訓(xùn)練(Continually Pre-trained)的源域模型中間層表示結(jié)果映射并作為目標(biāo)域模型的額外知識(shí)。不同于預(yù)訓(xùn)練-微調(diào)類方法需回溯數(shù)據(jù)以實(shí)現(xiàn)連續(xù)遷移學(xué)習(xí),CTNet只需要增量數(shù)據(jù)進(jìn)行更新,從而實(shí)現(xiàn)了高效的連續(xù)遷移學(xué)習(xí)。
方法  | 無需利用大量的源域樣本  | 不受源域場(chǎng)景目標(biāo)影響  | 只需要增量數(shù)據(jù)即可實(shí)現(xiàn)連續(xù)遷移學(xué)習(xí)  | 
聯(lián)合訓(xùn)練  | 否  | 否  | 是  | 
預(yù)訓(xùn)練-微調(diào)  | 是  | 是  | 否  | 
本文提出的CTNet  | 是  | 是  | 是  | 
表1:CTNet和現(xiàn)有的跨域推薦模型的對(duì)比
? 問題定義
本文探討的是連續(xù)遷移學(xué)習(xí)這一新問題:
給定隨時(shí)間持續(xù)變化的源域和目標(biāo)域,連續(xù)遷移學(xué)習(xí)(Continual Transfer Learning)希望能夠利用歷史或者當(dāng)前獲得的源域和目標(biāo)域知識(shí)提升在未來目標(biāo)域上的預(yù)測(cè)準(zhǔn)確率。
我們將連續(xù)遷移學(xué)習(xí)這一問題應(yīng)用在淘寶的跨域推薦任務(wù)上。該任務(wù)具有如下特點(diǎn):
- 不同推薦場(chǎng)景規(guī)模相差很大,可以利用較大的源域訓(xùn)練的模型的知識(shí)提升目標(biāo)域的推薦效果。
 - 不同場(chǎng)景的用戶和商品共享同一個(gè)大底池。但不同場(chǎng)景由于精選商品池、核心用戶、圖文等展示效果不同存在較為明顯的領(lǐng)域差異。
 - 所有推薦場(chǎng)景的模型都是基于最新數(shù)據(jù)持續(xù)增量訓(xùn)練的。
 

圖1:模型部署示意圖
上圖展示了我們的方法部署上線的情景。在
時(shí)刻之前源域模型和目標(biāo)域模型都是只利用各自場(chǎng)景的監(jiān)督數(shù)據(jù)單獨(dú)連續(xù)增量訓(xùn)練的。從
時(shí)刻開始,我們?cè)谀繕?biāo)域上部署了跨域推薦模型CTNet,該模型將在不能遺忘歷史上獲取的知識(shí)的情況下,繼續(xù)在目標(biāo)域數(shù)據(jù)上持續(xù)增量訓(xùn)練,同時(shí)連續(xù)不斷地從最新的源域模型中遷移知識(shí)。
? 連續(xù)遷移網(wǎng)絡(luò)模型(CTNet)

圖2:連續(xù)遷移網(wǎng)絡(luò)CTNet
如圖2所示,我們提出的連續(xù)遷移網(wǎng)絡(luò)(Continual Transfer Network, CTNet)模型在原有的目標(biāo)域的精排模型中嵌入了源域模型的全部特征及其網(wǎng)絡(luò)參數(shù),形成一個(gè)雙塔的結(jié)構(gòu),其中CTNet的左塔為源塔(Source Tower),右塔為目標(biāo)塔(Target Tower)。不同于常見的只利用源域模型最終打分分?jǐn)?shù)或只利用一些淺層表示(如Embedding)的方法,我們通過一個(gè)輕量化的Adapter網(wǎng)絡(luò)將源域模型MLP的所有中間隱藏層(特別是源域MLP深層蘊(yùn)含的user和item的高階特征交互信息)的表示結(jié)果
映射到目標(biāo)推薦域,并將結(jié)果加入到Target Tower的對(duì)應(yīng)層
中(下面公式表示了
的情況)。
CTNet效果提升的關(guān)鍵就是利用了MLP中深層表征信息的遷移。借鑒Gated Linear Units(GLU)的思想,Adapter網(wǎng)絡(luò)采用了門控的線性層,可以有效實(shí)現(xiàn)對(duì)源域特征的自適應(yīng)特征選擇,模型里有用的知識(shí)會(huì)做遷移,而與場(chǎng)景特點(diǎn)不符的的信息可被過濾掉。由于源域模型持續(xù)不斷的使用最新的源域監(jiān)督數(shù)據(jù)進(jìn)行連續(xù)預(yù)訓(xùn)練,在我們的訓(xùn)練過程中,Source Tower也將持續(xù)不斷的加載最新更新的源域模型參數(shù)并在反向傳播過程中保持固定,保證了連續(xù)遷移學(xué)習(xí)的高效進(jìn)行。因此,CTNet模型非常適用于連續(xù)學(xué)習(xí)范式,使得目標(biāo)域模型持續(xù)的學(xué)習(xí)到源域模型提供的最新知識(shí)以適應(yīng)最新的數(shù)據(jù)分布變化。同時(shí)由于模型僅在目標(biāo)域數(shù)據(jù)上進(jìn)行訓(xùn)練,保證了模型不受源域訓(xùn)練目標(biāo)的影響,且完全不需要源域數(shù)據(jù)訓(xùn)練,避免了大量的存儲(chǔ)和計(jì)算開銷。此外,這樣的網(wǎng)絡(luò)結(jié)構(gòu)采用了加法的設(shè)計(jì)方法,使得遷移過程中無需改變?cè)寄P蚆LP層的維數(shù),Target Tower完全由原有的目標(biāo)域線上模型初始化,避免MLP層重新隨機(jī)初始化,可以在最大程度上保證原有模型的效果不受損害,僅需較少增量數(shù)據(jù)就可得到很好的效果,實(shí)現(xiàn)了模型的熱啟動(dòng)。

我們定義源域模型為
,原有的單域推薦的目標(biāo)域模型為
,新部署的目標(biāo)域跨域推薦模型為
,
為跨域推薦模型部署上線時(shí)間,該模型連續(xù)增量更新至?xí)r刻
。Adapter、Source Tower和Target Tower的參數(shù)分別為
、
和
。CTNet訓(xùn)練的流程如下所示:?

圖3:CTNet的訓(xùn)練
實(shí)驗(yàn)
? 離線效果

表2:離線實(shí)驗(yàn)結(jié)果
如上表所示,我們?cè)谟泻秘洏I(yè)務(wù)的兩個(gè)子場(chǎng)景(表中Domain B和C)的對(duì)應(yīng)的生產(chǎn)數(shù)據(jù)集上進(jìn)行了一系列離線實(shí)驗(yàn),其中源域(表中Domain A)為首頁(yè)信息流推薦場(chǎng)景??梢钥闯觯苯永眯畔⒘魍扑](首頁(yè)猜你喜歡)排序模型打分結(jié)果(表中的Source Domain Model)在有好貨業(yè)務(wù)上效果并不好,對(duì)比線上全量模型分別有絕對(duì)值GAUC-5.88%和GAUC-9.06%的顯著差距,證明了場(chǎng)景之間存在的差異。
我們還對(duì)比了一系列傳統(tǒng)的跨域推薦的Baseline方法,包括常見的預(yù)訓(xùn)練-微調(diào)類方法和聯(lián)合訓(xùn)練的方法(如MLP++、PLE、MiNet、DDTCDR、DASL等),提出的CTNet在兩個(gè)數(shù)據(jù)集上均明顯優(yōu)于已有方法。對(duì)比線上全量主模型,CTNet在兩個(gè)數(shù)據(jù)集上分別取得GAUC+1.0%和+3.6%的顯著提升。我們進(jìn)一步通過實(shí)驗(yàn)分析了連續(xù)遷移(Continual Transfer)相比單次遷移的優(yōu)勢(shì)。在CTNet的框架下,單次遷移帶來的效果提升會(huì)隨著模型的增量更新有所衰減,而連續(xù)遷移學(xué)習(xí)可以保證模型效果的穩(wěn)定提升。

圖4: 連續(xù)遷移學(xué)習(xí)相比單次遷移的優(yōu)勢(shì)
下表展示了傳統(tǒng)的預(yù)訓(xùn)練-微調(diào)的效果,我們使用完整的源域模型在目標(biāo)域數(shù)據(jù)上訓(xùn)練。由于領(lǐng)域之間的差異,需要非常多的樣本(如120天樣本)才可以將模型的效果調(diào)到一個(gè)和線上全量Base模型相當(dāng)?shù)乃健榱藢?shí)現(xiàn)連續(xù)遷移學(xué)習(xí),我們需要每隔一段時(shí)間都利用最新的源域模型重新調(diào)整,每一次調(diào)整帶來的巨大代價(jià)也使得該方法不適用于連續(xù)遷移學(xué)習(xí)。此外,該方法并沒有在效果上超越無遷移的Base模型,主要原因是使用海量的目標(biāo)域樣本訓(xùn)練也使得模型遺忘掉了原有的源域的知識(shí),最終訓(xùn)練得到的模型效果也近似于一個(gè)只在目標(biāo)域數(shù)據(jù)訓(xùn)練的效果。在預(yù)訓(xùn)練-微調(diào)的范式下,只加載一些Embedding參數(shù)的效果反而比復(fù)用所有參數(shù)更好(如表2所示)。

表3: 使用預(yù)訓(xùn)練的源域模型在目標(biāo)域上訓(xùn)練的效果
? 線上效果
CTNet最早在2021年底完成,于2022年2月在有好貨推薦業(yè)務(wù)全量上線。在兩個(gè)推薦場(chǎng)景上相比上一代全量模型分別取得顯著業(yè)務(wù)指標(biāo)提升:B場(chǎng)景:CTR+2.5%,加購(gòu)+6.7%,成交筆數(shù) +3.4%,GMV+7.7%C場(chǎng)景:CTR+12.3%, 停留時(shí)長(zhǎng)+8.8%,加購(gòu)+10.9%,成交筆數(shù)+30.9%,GMV+31.9%
CTNet采用了并行的網(wǎng)絡(luò)結(jié)構(gòu),為了節(jié)省計(jì)算資源我們共享了部分Attention層的參數(shù)和結(jié)果,使得Source Tower和Target Tower相同部分的Attention層只需計(jì)算一次。和Base模型相比,CTNet的線上響應(yīng)時(shí)間(RT)基本持平。
總結(jié)和展望
本文探討了如何在工業(yè)界的連續(xù)學(xué)習(xí)的框架下實(shí)現(xiàn)跨域推薦模型,提出了連續(xù)遷移學(xué)習(xí)這一新的跨域推薦范式,利用連續(xù)預(yù)訓(xùn)練的源域模型的中間層表征結(jié)果作為目標(biāo)域模型的額外知識(shí),設(shè)計(jì)了一個(gè)輕量級(jí)的Adapter模塊實(shí)現(xiàn)跨域知識(shí)的遷移,并在有好貨推薦排序上取得了顯著業(yè)務(wù)效果。這一方法雖針對(duì)有好貨的業(yè)務(wù)特點(diǎn)實(shí)現(xiàn),但也是較為通用的建模方式,相關(guān)的建模方式和思想可以應(yīng)用于諸多其他類似業(yè)務(wù)場(chǎng)景的優(yōu)化。由于現(xiàn)有的CTNet的連續(xù)預(yù)訓(xùn)練的源域模型僅利用信息流推薦場(chǎng)景,未來我們考慮將連續(xù)預(yù)訓(xùn)練的源域模型升級(jí)為包括推薦、搜索、私域等更多場(chǎng)景在內(nèi)的全域?qū)W習(xí)預(yù)訓(xùn)練模型。
團(tuán)隊(duì)介紹
我們是大淘寶技術(shù)-內(nèi)容算法-有好貨算法團(tuán)隊(duì)。有好貨是淘寶基于口碑推薦的,旨在幫助消費(fèi)者發(fā)現(xiàn)好物的導(dǎo)購(gòu)場(chǎng)景。團(tuán)隊(duì)負(fù)責(zé)有好貨商品推薦和短視頻內(nèi)容推薦業(yè)務(wù)的全鏈路算法優(yōu)化,以提高優(yōu)勢(shì)商品挖掘能力和頻道導(dǎo)購(gòu)能力。目前主要的技術(shù)方向?yàn)檫B續(xù)遷移學(xué)習(xí)跨域推薦、無偏學(xué)習(xí),推薦系統(tǒng)全鏈路建模、序列建模等。在創(chuàng)造業(yè)務(wù)價(jià)值的同時(shí),我們還在SIGIR等國(guó)際會(huì)議上發(fā)表數(shù)篇論文,主要成果有PDN,UMI,CDAN等。















 
 
 














 
 
 
 