高效利用多級用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer
推薦系統(tǒng)作為一種智能化的信息過濾技術(shù),已在實(shí)際場景中得到廣泛的應(yīng)用。然而,推薦系統(tǒng)的成功往往建立在大量的用戶數(shù)據(jù)之上,而這些數(shù)據(jù)可能涉及用戶的私密和敏感信息。在用戶信息受到隱私保護(hù)限制或無法獲取的場景下,傳統(tǒng)的推薦系統(tǒng)往往難以發(fā)揮良好的效果。因此,如何在保證隱私安全性的前提下,構(gòu)建可信賴的推薦系統(tǒng),是一個亟待解決的問題。
近年來,隨著用戶對自身隱私的重視程度不斷提高,越來越多的用戶傾向于在使用在線平臺時不進(jìn)行登錄操作,這也使得匿名的基于會話的推薦成為一個重要的研究方向。近日,來自香港科技大學(xué)、北京大學(xué)、微軟亞研等機(jī)構(gòu)的研究者提出了一種高效利用多級用戶意圖的新模型 Atten-Mixer。研究論文獲得 WSDM2023 最佳論文榮譽(yù)提名。
論文鏈接:https://dl.acm.org/doi/abs/10.1145/3539597.3570445
研究背景
基于會話的推薦 (Session-based recommendation, SBR) 是一種基于用戶在短暫、動態(tài)的會話(即用戶的行為序列)進(jìn)行推薦的方法。
與傳統(tǒng)的基于用戶或物品的推薦系統(tǒng)相比,SBR 更側(cè)重于捕捉用戶在當(dāng)前會話中的即時需求,能夠更有效地適應(yīng)用戶興趣的快速演化和長尾效應(yīng)的挑戰(zhàn)。
在 SBR 模型的演進(jìn)過程中,從基于循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network, RNN) 的模型,到基于卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN) 的模型,再到近期的 SBR 研究中廣泛采用基于圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Network, GNN) 的模型來更好地挖掘物品之間復(fù)雜的轉(zhuǎn)移關(guān)系。
然而,這些模型在基準(zhǔn)數(shù)據(jù)集上的性能提升與其模型復(fù)雜度的指數(shù)級增長相比顯得十分有限。面對這種現(xiàn)象,本文提出了如下問題:這些基于 GNN 的模型是不是對于 SBR 來說過于簡單或者過于復(fù)雜了?
初步分析
為了回答這個問題,作者試圖解構(gòu)現(xiàn)有的基于 GNN 的 SBR 模型,并分析它們在 SBR 任務(wù)上的作用。
一般來說,典型的基于 GNN 的 SBR 模型可以分解為兩個部分:
(1)GNN 模塊。參數(shù)可以分為圖卷積的傳播權(quán)重和將原始嵌入和圖卷積輸出融合的 GRU 權(quán)重。
(2)Readout 模塊。參數(shù)包括用于生成長期表示的注意力池化權(quán)重和用于生成會話表示以進(jìn)行預(yù)測的轉(zhuǎn)換權(quán)重。
接下來,作者分別在這兩個部分上采用 Sparse Variational Dropout(SparseVD),一種常用的神經(jīng)網(wǎng)絡(luò)稀疏化技術(shù),并在訓(xùn)練模型時計算參數(shù)的密度比 (density ratio)。
參數(shù)的 density ratio 指的是參數(shù)的權(quán)重中大于某個閾值的元素數(shù)與總元素數(shù)的比例,其數(shù)值可用于衡量參數(shù)的重要性。
GNN 模塊。
由于 GNN 有很多參數(shù),隨著隨機(jī)初始化,在一開始會有許多要更新的知識。因此我們可以看到圖卷積傳播權(quán)重的 density ratio 在一開始的幾個 batch 數(shù)據(jù)上會有波動。隨著訓(xùn)練趨于穩(wěn)定,該 density ratio 會趨于 0。
Readout 模塊。
我們可以發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,注意力池化權(quán)重的 density ratio 可以保持在一個較高水平。在其他數(shù)據(jù)集和其他 GNN-based SBR 模型上,我們也可以觀測到相同的趨勢。
因此,作者發(fā)現(xiàn) GNN 模塊的許多參數(shù)在訓(xùn)練過程中都是冗余的。 基于此,作者提出了以下用于 SBR 的更簡單而更有效的模型設(shè)計準(zhǔn)則:
(1) 不過分追求復(fù)雜的 GNN 設(shè)計,作者傾向于刪除 GNN 傳播部分,僅保留初始嵌入層;
(2) 模型設(shè)計者應(yīng)該更加關(guān)注基于注意力的 Readout 模塊。
由于注意力池化權(quán)重參數(shù)保持了較高的密度比,作者推測在基于注意力的 readout 方法上進(jìn)行更先進(jìn)的架構(gòu)設(shè)計將會更有利。
由于本文放棄了對 GNN 傳播部分的依賴,Readout 模塊應(yīng)該承擔(dān)更多模型推理上的責(zé)任。
考慮到現(xiàn)有的基于實(shí)例視圖 (instance-view) 的 Readout 模塊的推理能力有限,本文需要設(shè)計具有更強(qiáng)的推理能力的 Readout 模塊。
如何設(shè)計具有更強(qiáng)推理能力的 Readout 模塊
根據(jù)精神病理學(xué)的研究,人類推理本質(zhì)上是一種多層次信息處理的過程。
例如,通過綜合考慮 Alice 交互的底層商品,人類可以獲得一些更高層次的概念,比如 Alice 是否打算籌備婚禮或者裝飾新房子。在確定 Alice 很可能是在籌備婚禮后,人類接著會考慮與花束相關(guān)的婚禮用品,如婚禮氣球,而不是與花束相關(guān)的裝飾用品,如壁畫。
在推薦系統(tǒng)中采用這種多層次推理策略可以幫助剪枝大量的搜索空間,避免局部最優(yōu)解,通過考慮用戶的整體行為趨勢,收斂到更令人滿意的解決方案。
因此,本文希望在 Readout 模塊設(shè)計中引入這種多層推理的機(jī)制。
然而,獲得這些高層概念不是一件容易事,因為單純地枚舉這些高層概念并不現(xiàn)實(shí),并且很可能引入無關(guān)的概念并干擾模型的性能。
為了應(yīng)對這個挑戰(zhàn),本文采用兩個 SBR 相關(guān)的歸納偏置 (inductive biases): 即局部不變性 (local invariance) 和固有優(yōu)先級 (inherent priority),來縮減搜索空間。
- 固有優(yōu)先級指的是 session 中后幾個 item 更能反映用戶的當(dāng)前興趣;
- 局部不變性指的是 session 中后幾個 item 的相對順序并不影響用戶的興趣,因此在實(shí)踐中可以通過不同數(shù)目的尾部 item 形成 group,通過這些 group 來構(gòu)建相關(guān)的高層概念。
在這里尾部 item 對應(yīng)固有優(yōu)先級,group 對應(yīng)局部不變性,而不同數(shù)目則代表本文考慮多層的高層概念。
提出模型
因此,本文提出了一個名為 Atten-Mixer 的模型。該模型可以與各種編碼器集成。對于輸入 session,模型從 embedding 層中獲取每個 item 的 embedding。然后,模型對生成的 group representation 應(yīng)用 linear transformation,以生成多級用戶意圖查詢(multi-level user intent queries)。
其中 Q1 是 instance-view attention query,而其他的則是更高級別的 attention query,具有不同的感受野和局部不變信息。接下來,模型使用生成的 attention queries 來 attend 該 session 中每個 item 的 hidden state,并獲得最終的 session representation。
實(shí)驗及結(jié)果
在離線實(shí)驗中,本文采用了三個不同領(lǐng)域的數(shù)據(jù)集:Diginetica 是電子商務(wù)交易的數(shù)據(jù)集,Gowalla 是社交網(wǎng)絡(luò)的數(shù)據(jù)集,Last.fm 是音樂推薦的數(shù)據(jù)集。
離線實(shí)驗結(jié)果
(1) 整體對比
作者將 Atten-Mixer 與基于 CNN、基于 RNN、基于 GNN 和基于 readout 的四種基準(zhǔn)方法進(jìn)行了對比。
實(shí)驗結(jié)果表明,Atten-Mixer 在三個數(shù)據(jù)集上都在準(zhǔn)確性和效率方面超越了基準(zhǔn)方法。
(2) 性能提升分析
此外,作者還將 Atten-Mixer 模塊嵌入到 SR-GNN 和 SGNN-HN 中,以驗證該方法對原始模型的性能提升作用。
離線實(shí)驗結(jié)果顯示,Atten-Mixer 在所有數(shù)據(jù)集上都顯著提升了模型性能,尤其是在評價指標(biāo)中的 K 值較小時,說明 Atten-Mixer 能夠幫助原始模型生成更精確和用戶友好的推薦。
在線實(shí)驗結(jié)果
作者還于 2021 年 4 月將 Atten-Mixer 部署到了大規(guī)模電商在線服務(wù)中,線上實(shí)驗顯示多級注意力混合網(wǎng)絡(luò) (Atten-Mixer) 在各種線上業(yè)務(wù)指標(biāo)上都取得了顯著提升。
實(shí)驗結(jié)論
總結(jié)一下,Atten-Mixer 具備多級推理能力,在準(zhǔn)確性和效率方面展現(xiàn)了優(yōu)異的在線和離線性能。以下是一些主要貢獻(xiàn):
- 復(fù)雜的模型架構(gòu)并不是 SBR 的必要條件,而基于注意力的 readout 方法的創(chuàng)新架構(gòu)設(shè)計則是一種有效的解決方案。
- 多級概念相關(guān)性有助于捕捉用戶的興趣,利用歸納偏差是發(fā)現(xiàn)信息豐富的高階概念的有效途徑。
研究過程
最后,值得一提的是,這篇文章在獲得 WSDM2023 最佳論文榮譽(yù)提名的背后還有一段曲折的開發(fā)經(jīng)歷,如文章作者之一來自 UIUC 的 Haohan Wang 介紹的那樣,這篇文章其實(shí)先后因為太過簡單而在投稿過程中拒絕過多次,值得慶幸的是,文章的作者并沒有為了中文章而去迎合審稿人的口味,而是堅持了自己簡單的方法,并最終讓這篇文章獲得了榮譽(yù)。