偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

高效利用多級用戶意圖,港科大、北大等提出會話推薦新模型Atten-Mixer

人工智能 新聞
Atten-Mixer 模型的研究論文獲得了 WSDM2023 最佳論文榮譽(yù)提名。

推薦系統(tǒng)作為一種智能化的信息過濾技術(shù),已在實(shí)際場景中得到廣泛的應(yīng)用。然而,推薦系統(tǒng)的成功往往建立在大量的用戶數(shù)據(jù)之上,而這些數(shù)據(jù)可能涉及用戶的私密和敏感信息。在用戶信息受到隱私保護(hù)限制或無法獲取的場景下,傳統(tǒng)的推薦系統(tǒng)往往難以發(fā)揮良好的效果。因此,如何在保證隱私安全性的前提下,構(gòu)建可信賴的推薦系統(tǒng),是一個亟待解決的問題。

近年來,隨著用戶對自身隱私的重視程度不斷提高,越來越多的用戶傾向于在使用在線平臺時不進(jìn)行登錄操作,這也使得匿名的基于會話的推薦成為一個重要的研究方向。近日,來自香港科技大學(xué)、北京大學(xué)、微軟亞研等機(jī)構(gòu)的研究者提出了一種高效利用多級用戶意圖的新模型 Atten-Mixer。研究論文獲得 WSDM2023 最佳論文榮譽(yù)提名。

圖片

論文鏈接:https://dl.acm.org/doi/abs/10.1145/3539597.3570445

研究背景

基于會話的推薦 (Session-based recommendation, SBR) 是一種基于用戶在短暫、動態(tài)的會話(即用戶的行為序列)進(jìn)行推薦的方法。

與傳統(tǒng)的基于用戶或物品的推薦系統(tǒng)相比,SBR 更側(cè)重于捕捉用戶在當(dāng)前會話中的即時需求,能夠更有效地適應(yīng)用戶興趣的快速演化和長尾效應(yīng)的挑戰(zhàn)。

在 SBR 模型的演進(jìn)過程中,從基于循環(huán)神經(jīng)網(wǎng)絡(luò) (Recurrent Neural Network, RNN) 的模型,到基于卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network, CNN) 的模型,再到近期的 SBR 研究中廣泛采用基于圖神經(jīng)網(wǎng)絡(luò) (Graph Neural Network, GNN) 的模型來更好地挖掘物品之間復(fù)雜的轉(zhuǎn)移關(guān)系。

圖片

然而,這些模型在基準(zhǔn)數(shù)據(jù)集上的性能提升與其模型復(fù)雜度的指數(shù)級增長相比顯得十分有限。面對這種現(xiàn)象,本文提出了如下問題:這些基于 GNN 的模型是不是對于 SBR 來說過于簡單或者過于復(fù)雜了?

初步分析

為了回答這個問題,作者試圖解構(gòu)現(xiàn)有的基于 GNN 的 SBR 模型,并分析它們在 SBR 任務(wù)上的作用。 

一般來說,典型的基于 GNN 的 SBR 模型可以分解為兩個部分:

(1)GNN 模塊。參數(shù)可以分為圖卷積的傳播權(quán)重和將原始嵌入和圖卷積輸出融合的 GRU 權(quán)重。 

(2)Readout 模塊。參數(shù)包括用于生成長期表示的注意力池化權(quán)重和用于生成會話表示以進(jìn)行預(yù)測的轉(zhuǎn)換權(quán)重。

圖片

接下來,作者分別在這兩個部分上采用 Sparse Variational Dropout(SparseVD),一種常用的神經(jīng)網(wǎng)絡(luò)稀疏化技術(shù),并在訓(xùn)練模型時計算參數(shù)的密度比 (density ratio)。

參數(shù)的 density ratio 指的是參數(shù)的權(quán)重中大于某個閾值的元素數(shù)與總元素數(shù)的比例,其數(shù)值可用于衡量參數(shù)的重要性。

圖片

GNN 模塊。 

由于 GNN 有很多參數(shù),隨著隨機(jī)初始化,在一開始會有許多要更新的知識。因此我們可以看到圖卷積傳播權(quán)重的 density ratio 在一開始的幾個 batch 數(shù)據(jù)上會有波動。隨著訓(xùn)練趨于穩(wěn)定,該 density ratio 會趨于 0。 

圖片

Readout 模塊。 

我們可以發(fā)現(xiàn),隨著訓(xùn)練的進(jìn)行,注意力池化權(quán)重的 density ratio 可以保持在一個較高水平。在其他數(shù)據(jù)集和其他 GNN-based SBR 模型上,我們也可以觀測到相同的趨勢。

因此,作者發(fā)現(xiàn) GNN 模塊的許多參數(shù)在訓(xùn)練過程中都是冗余的。 基于此,作者提出了以下用于 SBR 的更簡單而更有效的模型設(shè)計準(zhǔn)則: 

(1) 不過分追求復(fù)雜的 GNN 設(shè)計,作者傾向于刪除 GNN 傳播部分,僅保留初始嵌入層; 

(2) 模型設(shè)計者應(yīng)該更加關(guān)注基于注意力的 Readout 模塊。

由于注意力池化權(quán)重參數(shù)保持了較高的密度比,作者推測在基于注意力的 readout 方法上進(jìn)行更先進(jìn)的架構(gòu)設(shè)計將會更有利。

由于本文放棄了對 GNN 傳播部分的依賴,Readout 模塊應(yīng)該承擔(dān)更多模型推理上的責(zé)任。

考慮到現(xiàn)有的基于實(shí)例視圖 (instance-view) 的 Readout 模塊的推理能力有限,本文需要設(shè)計具有更強(qiáng)的推理能力的 Readout 模塊。

如何設(shè)計具有更強(qiáng)推理能力的 Readout 模塊

根據(jù)精神病理學(xué)的研究,人類推理本質(zhì)上是一種多層次信息處理的過程。 

例如,通過綜合考慮 Alice 交互的底層商品,人類可以獲得一些更高層次的概念,比如 Alice 是否打算籌備婚禮或者裝飾新房子。在確定 Alice 很可能是在籌備婚禮后,人類接著會考慮與花束相關(guān)的婚禮用品,如婚禮氣球,而不是與花束相關(guān)的裝飾用品,如壁畫。

在推薦系統(tǒng)中采用這種多層次推理策略可以幫助剪枝大量的搜索空間,避免局部最優(yōu)解,通過考慮用戶的整體行為趨勢,收斂到更令人滿意的解決方案。

因此,本文希望在 Readout 模塊設(shè)計中引入這種多層推理的機(jī)制

圖片

然而,獲得這些高層概念不是一件容易事,因為單純地枚舉這些高層概念并不現(xiàn)實(shí),并且很可能引入無關(guān)的概念并干擾模型的性能。

為了應(yīng)對這個挑戰(zhàn),本文采用兩個 SBR 相關(guān)的歸納偏置 (inductive biases): 即局部不變性 (local invariance) 和固有優(yōu)先級 (inherent priority),來縮減搜索空間。

  • 固有優(yōu)先級指的是 session 中后幾個 item 更能反映用戶的當(dāng)前興趣; 
  • 局部不變性指的是 session 中后幾個 item 的相對順序并不影響用戶的興趣,因此在實(shí)踐中可以通過不同數(shù)目的尾部 item 形成 group,通過這些 group 來構(gòu)建相關(guān)的高層概念。

在這里尾部 item 對應(yīng)固有優(yōu)先級,group 對應(yīng)局部不變性,而不同數(shù)目則代表本文考慮多層的高層概念。

圖片

提出模型

因此,本文提出了一個名為 Atten-Mixer 的模型。該模型可以與各種編碼器集成。對于輸入 session,模型從 embedding 層中獲取每個 item 的 embedding。然后,模型對生成的 group representation 應(yīng)用 linear transformation,以生成多級用戶意圖查詢(multi-level user intent queries)。

圖片

其中 Q1 是 instance-view attention query,而其他的則是更高級別的 attention query,具有不同的感受野和局部不變信息。接下來,模型使用生成的 attention queries 來 attend 該 session 中每個 item 的 hidden state,并獲得最終的 session representation。

圖片

實(shí)驗及結(jié)果

在離線實(shí)驗中,本文采用了三個不同領(lǐng)域的數(shù)據(jù)集:Diginetica 是電子商務(wù)交易的數(shù)據(jù)集,Gowalla 是社交網(wǎng)絡(luò)的數(shù)據(jù)集,Last.fm 是音樂推薦的數(shù)據(jù)集。

圖片

離線實(shí)驗結(jié)果

(1) 整體對比

作者將 Atten-Mixer 與基于 CNN、基于 RNN、基于 GNN 和基于 readout 的四種基準(zhǔn)方法進(jìn)行了對比。

實(shí)驗結(jié)果表明,Atten-Mixer 在三個數(shù)據(jù)集上都在準(zhǔn)確性和效率方面超越了基準(zhǔn)方法。

圖片

(2) 性能提升分析

此外,作者還將 Atten-Mixer 模塊嵌入到 SR-GNN 和 SGNN-HN 中,以驗證該方法對原始模型的性能提升作用。

離線實(shí)驗結(jié)果顯示,Atten-Mixer 在所有數(shù)據(jù)集上都顯著提升了模型性能,尤其是在評價指標(biāo)中的 K 值較小時,說明 Atten-Mixer 能夠幫助原始模型生成更精確和用戶友好的推薦。

圖片

在線實(shí)驗結(jié)果

作者還于 2021 年 4 月將 Atten-Mixer 部署到了大規(guī)模電商在線服務(wù)中,線上實(shí)驗顯示多級注意力混合網(wǎng)絡(luò) (Atten-Mixer) 在各種線上業(yè)務(wù)指標(biāo)上都取得了顯著提升。

圖片

實(shí)驗結(jié)論

總結(jié)一下,Atten-Mixer 具備多級推理能力,在準(zhǔn)確性和效率方面展現(xiàn)了優(yōu)異的在線和離線性能。以下是一些主要貢獻(xiàn):

  • 復(fù)雜的模型架構(gòu)并不是 SBR 的必要條件,而基于注意力的 readout 方法的創(chuàng)新架構(gòu)設(shè)計則是一種有效的解決方案。
  • 多級概念相關(guān)性有助于捕捉用戶的興趣,利用歸納偏差是發(fā)現(xiàn)信息豐富的高階概念的有效途徑。

研究過程

最后,值得一提的是,這篇文章在獲得 WSDM2023 最佳論文榮譽(yù)提名的背后還有一段曲折的開發(fā)經(jīng)歷,如文章作者之一來自 UIUC 的 Haohan Wang 介紹的那樣,這篇文章其實(shí)先后因為太過簡單而在投稿過程中拒絕過多次,值得慶幸的是,文章的作者并沒有為了中文章而去迎合審稿人的口味,而是堅持了自己簡單的方法,并最終讓這篇文章獲得了榮譽(yù)。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-04-21 10:18:25

人工智能機(jī)器學(xué)習(xí)技術(shù)

2022-09-30 15:15:41

模型框架

2025-05-06 15:32:23

模型AI測試

2024-07-08 08:47:00

2025-05-29 09:20:00

模型研究推理

2024-11-04 09:35:00

2023-11-27 13:55:00

ChatGPT性能數(shù)據(jù)

2024-03-18 09:54:32

開源AI模型

2024-08-07 13:00:00

2023-11-17 23:02:38

模型學(xué)習(xí)

2024-10-11 09:32:48

2023-04-18 17:20:00

算法訓(xùn)練

2022-07-17 13:07:26

模型開源

2024-11-11 07:03:00

HK-O1aw人工智能法律推理大模型

2025-01-07 07:05:00

生成式檢索系統(tǒng)GenAI人工智能

2023-08-09 17:10:01

論文獲獎

2024-12-30 13:40:00

2023-04-23 15:42:18

圖像視頻

2024-08-28 14:20:00

數(shù)據(jù)模型

2024-11-18 11:00:00

模型安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號