偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

解碼智能推薦:多模態(tài)大模型在網(wǎng)易云音樂(lè)的創(chuàng)新應(yīng)用

人工智能
本文將分享多模態(tài)大模型在網(wǎng)易云音樂(lè)推薦場(chǎng)景的落地應(yīng)用。

一、背景介紹

1. 背景

大語(yǔ)言模型作為人工智能領(lǐng)域的前沿技術(shù),近年來(lái)取得了顯著進(jìn)展,并且在眾多領(lǐng)域得到了廣泛應(yīng)用。除了主打文本形態(tài)的大語(yǔ)言模型之外,能夠處理文本、圖像、音頻和視頻等多種模態(tài)數(shù)據(jù)的多模態(tài)大模型,正以其強(qiáng)大的內(nèi)容理解與個(gè)性化生成等能力引領(lǐng)著行業(yè)變革,也為音樂(lè)領(lǐng)域的不斷優(yōu)化創(chuàng)造了更多可能。

圖片

在音樂(lè)推薦場(chǎng)景中,包含了豐富的多模態(tài)數(shù)據(jù),比如歌詞文本、專輯圖片、音頻,都是天然的應(yīng)用大模型的陣地。目前云音樂(lè)推薦的核心場(chǎng)景包括:

  • 每日推薦:是列表式推薦,主要的推薦形式是每日更新。
  • 私人漫游:是流式推薦,是一種實(shí)時(shí)更新的推薦形式。
  • UGC 歌單:屬于歌單推薦類型,UGC 歌單是基于用戶生產(chǎn),歌單中的內(nèi)容是千人一面的;MGC 歌單是機(jī)器生產(chǎn),其內(nèi)容千人千面,不同的用戶會(huì)看到不同的結(jié)果。

除了上述場(chǎng)景,還有私人定制、心動(dòng)模式等其它一些場(chǎng)景。

圖片

云音樂(lè)推薦場(chǎng)景是云音樂(lè)的核心業(yè)務(wù),是促進(jìn)用戶增長(zhǎng)、提升用戶粘性的核心手段。同時(shí),場(chǎng)景眾多,可控占比高,因此對(duì)推薦系統(tǒng)提出了更高的要求,也帶來(lái)了一些挑戰(zhàn)。

首先是馬太效應(yīng)的問(wèn)題,1% 的歌曲占據(jù)用戶大部分的播放歌曲 PV 量,存在嚴(yán)重的數(shù)據(jù)傾斜。推薦系統(tǒng)是基于用戶行為去進(jìn)行建模的,因此數(shù)據(jù)傾斜會(huì)導(dǎo)致對(duì)長(zhǎng)尾歌曲分發(fā)的打壓,形成一個(gè)不好的推薦生態(tài)。

另外,新內(nèi)容的冷啟動(dòng),以及新歌的分發(fā)效率也面臨挑戰(zhàn)。云音樂(lè)每天會(huì)生產(chǎn)大量的新歌,這些新歌都是沒(méi)有用戶播放行為的,對(duì)于個(gè)性化的分發(fā)系統(tǒng)來(lái)說(shuō),也同樣天然會(huì)去打壓這些新內(nèi)容,因此如何去做好新內(nèi)容的冷啟動(dòng),以及如何提升新歌的分發(fā)效率,也是需要解決的問(wèn)題。

圖片

針對(duì)上述問(wèn)題,大模型的興起與發(fā)展提供了比較好的解決方案。首先,音樂(lè)中包含了大量的多模態(tài)特征,比如專輯封面圖片、歌曲歌詞,還有歌曲的基礎(chǔ)屬性(如歌曲名、歌手語(yǔ)種、曲風(fēng)、樂(lè)器和獎(jiǎng)項(xiàng)),還有用戶的一些熱門評(píng)論,以及音頻信息,這些信息都可以通過(guò)多模態(tài)大模型進(jìn)行多模態(tài)表征的抽取,并應(yīng)用到推薦系統(tǒng)中去。

圖片

基于大模型的多模態(tài)音樂(lè)表征能為推薦系統(tǒng)帶來(lái)的最大幫助就是提效。

  • 首先,可以全方位地生成音樂(lè)內(nèi)容表征,來(lái)加深推薦系統(tǒng)對(duì)音樂(lè)的理解能力。
  • 第二,可以緩解馬太效應(yīng),提升長(zhǎng)尾歌曲的分發(fā)效率,讓更多優(yōu)質(zhì)的長(zhǎng)尾歌曲能夠分發(fā)給用戶。
  • 第三,緩解新歌的冷啟動(dòng),能夠讓新歌能夠及時(shí)被分發(fā)出來(lái)展示給用戶,以此來(lái)改善云音樂(lè)的推薦生態(tài)。

2. 難點(diǎn)

在推薦系統(tǒng)中基于大模型進(jìn)行多模態(tài)表征的抽取,主要面臨以下難點(diǎn):

  • 基于 LLM 的多模態(tài)表征生產(chǎn)方面的難點(diǎn)主要集中在兩部分,一是 prompt 的設(shè)計(jì)以及構(gòu)造;二是基于大模型的多模態(tài)表征穩(wěn)定生產(chǎn)鏈路的搭建,實(shí)現(xiàn)天級(jí)別的多模態(tài)表征的抽取,以及天級(jí)別的覆蓋新歌的多模態(tài)表征。
  • 大模型知識(shí)與推薦領(lǐng)域?qū)R方面,多模態(tài)表征和推薦系統(tǒng)的 ID-base 的表征是存在差異的,所以將多模態(tài)表征與 ID 表征對(duì)齊也是非常重要的一項(xiàng)工作。

3. 成果總結(jié)

基于多模態(tài)大模型的多模態(tài)表征抽取已應(yīng)用于推薦系統(tǒng)中的核心推薦場(chǎng)景,包括每日推薦、私人漫游、歌單推薦、長(zhǎng)音頻推薦等。目前在各項(xiàng)指標(biāo)上取得了顯著效果,人均播放時(shí)長(zhǎng)增長(zhǎng) 3%,點(diǎn)擊率增長(zhǎng) 3%,歌單分發(fā)數(shù)量增加 50%,新歌分發(fā)效率提升了 3%,長(zhǎng)音頻曝光人均播放時(shí)長(zhǎng)提升了 4%。

二、整體框架設(shè)計(jì)

1. 系統(tǒng)框架

系統(tǒng)框架的關(guān)鍵詞為:自底向上,協(xié)同統(tǒng)一。整體分為三層:數(shù)據(jù)層、特征層、應(yīng)用層。

數(shù)據(jù)層又分為兩部分,首先是天級(jí)別定時(shí)調(diào)度更新歌曲的基礎(chǔ)屬性,比如用戶的評(píng)論、專輯封面、歌詞、音頻等一系列信息。然后基于基礎(chǔ)屬性設(shè)計(jì) prompt 的構(gòu)造,包括歌曲文本的 prompt 的構(gòu)造,依賴于歌曲基礎(chǔ)屬性、用戶的評(píng)論以及歌詞信息。

特征層:通過(guò)模型倉(cāng)庫(kù)中對(duì)大模型的選擇來(lái)實(shí)現(xiàn)多模態(tài)表征的特征抽取,并進(jìn)一步去做數(shù)據(jù)降維,最后進(jìn)行 faiss 離線的數(shù)據(jù)校驗(yàn),保證數(shù)據(jù)降維之后的 embedding 表征的正確性。

應(yīng)用層:提取并降維后的 embedding 目前主要應(yīng)用在召回側(cè)和統(tǒng)一精排模型中。召回主要側(cè)重于新歌以及長(zhǎng)尾歌曲的分發(fā);統(tǒng)一多場(chǎng)景的精排模型能夠及時(shí)地覆蓋到全場(chǎng)景,主要設(shè)計(jì)的就是多模態(tài)的對(duì)齊模塊,目前是已經(jīng)覆蓋到包括音樂(lè)推薦、歌單推薦、長(zhǎng)音頻推薦等一系列核心業(yè)務(wù)。

圖片

2. 基于大模型的多模態(tài)表征抽取

下圖中展示了多模態(tài)表征的生產(chǎn)鏈路,主要通過(guò) Hugging Face 下載大模型,比如 LLaMA、Baichuan 等,然后依賴于底層的數(shù)據(jù)調(diào)度,并行處理多模態(tài) embedding 表征的提取,接著進(jìn)行離線數(shù)據(jù)降維,再進(jìn)行數(shù)據(jù)驗(yàn)證,最后提供給線上使用。

圖片

3. 模型架構(gòu)

模型架構(gòu)采用基于 LLM 的開放世界知識(shí)空間與推薦領(lǐng)域的端到端的對(duì)齊方式。在大模型的知識(shí)空間下的表征和私有推薦領(lǐng)域下的表征是存在空間差異的,所以對(duì)齊模塊是主要需要去做的工作。

以下結(jié)構(gòu)圖是在歌單中的一個(gè)精排模型的多模態(tài)融合的架構(gòu)。第一個(gè)是通過(guò)語(yǔ)言大模型對(duì)于歌單文本的簡(jiǎn)單抽取 embedding 的表征;第二個(gè)是通過(guò)視覺(jué)大模型對(duì)于圖片的表征抽取,獲取到多模態(tài)表征 embedding 來(lái)表征用戶在歌單行為的興趣,然后同時(shí)建模到統(tǒng)一歌單精排模型中。

圖片

三、技術(shù)方案

接下來(lái)介紹一些技術(shù)方案的細(xì)節(jié)。

1. Prompt 構(gòu)造

首先是基于大模型的多模態(tài)表征抽取。以一首歌曲為例,歌曲文本的 prompt 構(gòu)造主要包括以下幾部分:

  • instruction:歌曲的簡(jiǎn)介,包括歌曲的基礎(chǔ)屬性,如曲風(fēng)、語(yǔ)種等一系列信息。
  • 用戶的樂(lè)評(píng)以及樂(lè)器,比如小提琴、鋼琴。
  • 歌詞信息。
  • 歌曲的圖片特征和音頻特征

這些都作為大模型的輸入。

圖片

2. 特征抽取

使用多 worker 的方式并行處理數(shù)據(jù),加速推理速度。目前使用 Baichuan 大模型進(jìn)行文本抽取,使用 Vit-base-patch 進(jìn)行封面抽取,使用 MERT 進(jìn)行音頻抽取,應(yīng)用到排序模型以及召回中去做新歌和長(zhǎng)尾歌曲的分發(fā)。

圖片

3. 離線驗(yàn)證

接下來(lái)介紹一些離線驗(yàn)證的 case。首先是基于文本的百川語(yǔ)言大模型提取的召回結(jié)果,通過(guò)對(duì)用傳統(tǒng)的基于行為的協(xié)同過(guò)濾的召回結(jié)果和傳統(tǒng)的 NLP 模型關(guān)聯(lián)出來(lái)的結(jié)果去做對(duì)比,發(fā)現(xiàn)傳統(tǒng)的 NLP 模型更多偏向于字符的匹配和文字的相似度,而大模型召回的結(jié)果則會(huì)更多地抓住文字中對(duì)情緒的感受。對(duì)于情感的理解,在推薦系統(tǒng)中,特別是音樂(lè)推薦系統(tǒng)中是非常重要的。

圖片

第二個(gè) case 展示了大模型在世界知識(shí)上的能力,能夠更好地捕捉到與“節(jié)假日”的相似度,檢索的歌單的效果要好于經(jīng)典的協(xié)同過(guò)濾算法以及傳統(tǒng)的 NLP 召回的結(jié)果。LLM 相比傳統(tǒng)的語(yǔ)言模型,能夠運(yùn)用世界知識(shí)和推理,更好地產(chǎn)生廣泛的關(guān)聯(lián)性的構(gòu)建,比如對(duì)情緒、詩(shī)意、民俗的理解,對(duì)于推薦系統(tǒng)的精排模型是非常有價(jià)值的。

圖片

另一個(gè) case 是針對(duì)視覺(jué)大模型的召回結(jié)果,基于傳統(tǒng)的協(xié)同過(guò)濾召回的結(jié)果,直觀上來(lái)看和召回源是非常不相似的,更多是基于用戶行為的召回。而基于視覺(jué)模態(tài)特征關(guān)聯(lián)出來(lái)的結(jié)果,不管在曲風(fēng)上,還是圖片的相似度上,都做到了更高相似度的召回。

圖片

4. 大模型與推薦域空間對(duì)齊

多模態(tài)融合精排對(duì)齊建模,主要工作如下:

  • 融合精排建模:基于多模態(tài)表征的用戶行為序列的興趣建模,多模態(tài)表征是不參與到精排模型的梯度更新的。
  • 多模態(tài)表征映射層:引入了多模態(tài)表征映射層來(lái)實(shí)現(xiàn)多模態(tài)表征與推薦系統(tǒng)的 ID 表征的空間對(duì)齊。
  • 構(gòu)建輔助網(wǎng)絡(luò):通過(guò)構(gòu)建輔助 loss 的方式來(lái)實(shí)現(xiàn)更好的對(duì)齊。
  • 對(duì)比對(duì)齊方式:使用對(duì)比學(xué)習(xí)的方式來(lái)實(shí)現(xiàn)構(gòu)建 user-user、item-item 的對(duì)齊方式。
  • 二階段建模:解決在預(yù)訓(xùn)練多模態(tài)對(duì)齊中模型訓(xùn)練不充分以及多模態(tài)表征融合和篩選的問(wèn)題。

圖片

四、LLM 助力音樂(lè)推薦業(yè)務(wù)

接下來(lái)介紹一下 LLM 助力云音樂(lè)推薦業(yè)務(wù)的進(jìn)展。

1. 歌曲推薦

云音樂(lè)首頁(yè)中的封面推薦場(chǎng)景(主要是日推封面和私人漫游封面)對(duì)于模塊點(diǎn)擊是非常重要的,引入封面的多模態(tài)數(shù)據(jù)可以有效助力首頁(yè)模塊的點(diǎn)擊率提升。

歌曲基礎(chǔ)信息、樂(lè)評(píng)、樂(lè)器、獎(jiǎng)項(xiàng)、歌詞、音頻信息可以助力歌曲的多樣性分發(fā)以及新歌分發(fā),進(jìn)而優(yōu)化整個(gè)推薦生態(tài)。

在精排側(cè)基于多模態(tài)大模型的特征增強(qiáng),可顯著提升個(gè)性化服務(wù)水平。

圖片

以下簡(jiǎn)單介紹一下融合的方式:

  • 構(gòu)建多模態(tài)特征行為序列:基于歌曲的基礎(chǔ)屬性、歌詞、評(píng)論等數(shù)據(jù)融合成內(nèi)容文本表征,基于歌曲封面抽取圖片表征,再加上音頻表征,綜合這些多模態(tài)表征,從多維度構(gòu)建 user emb。
  • 輔助網(wǎng)絡(luò)下的 user/item 的多模態(tài)與 ID 特征對(duì)齊:基于多模態(tài)表征的用戶興趣向量,結(jié)合輔助網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)多模態(tài)表征與用戶行為序列的 ID 表征的特征對(duì)齊。包括參數(shù)共享,以及輔助網(wǎng)絡(luò)輸出的中間向量,輸入到推薦的主塔中,以此來(lái)進(jìn)一步加深多模態(tài)信息和精排推薦模型的信息融合。

這些工作已全量更新到核心推薦業(yè)務(wù)中,對(duì)人均播放時(shí)長(zhǎng)、首頁(yè) UCTR 以及新歌分發(fā)效率均有顯著提升。

圖片

2. 歌單推薦

另外一塊核心業(yè)務(wù)是歌單推薦??梢苑浅V庇^地看到,推薦歌單的封面和標(biāo)題文本都是由用戶自主選擇和創(chuàng)作的,蘊(yùn)含了豐富的個(gè)性化信息,是用戶情感和審美的體現(xiàn)。因此在歌單場(chǎng)景下使用多模態(tài)大模型對(duì)封面和文本進(jìn)行提取,可以更好地獲取用戶的情感和審美的特征,從而提升個(gè)性化能力和新歌單分發(fā)能力。

圖片

歌單推薦系統(tǒng)融合多模態(tài)表征,與歌曲建模其實(shí)是異曲同工的,基于統(tǒng)一的歌單的推薦精排大模型,在構(gòu)建好多模態(tài)輔助網(wǎng)絡(luò)后,也快速應(yīng)用到了各類歌單推薦場(chǎng)景,顯著提升了歌單的分發(fā)數(shù)量。

圖片

3. 長(zhǎng)音頻推薦

長(zhǎng)音頻推薦包括寶藏播客、有聲書模塊、音樂(lè)播客模塊等,含有豐富的多模態(tài)信息,比如圖片、聲音、長(zhǎng)音頻聲音的簡(jiǎn)介等等。

圖片

通過(guò)上述由多模態(tài)大模型實(shí)現(xiàn)的多模態(tài)表征抽取應(yīng)用到統(tǒng)一精排長(zhǎng)音頻的推薦系統(tǒng)中,使人均播放時(shí)長(zhǎng)、長(zhǎng)音頻的分發(fā)效率和長(zhǎng)音頻的分發(fā)數(shù)都得到了顯著的提升。多模態(tài)表征和推薦系統(tǒng)中的 ID 表征的對(duì)齊模塊,也是參考了歌曲推薦系統(tǒng)的對(duì)齊模塊,實(shí)現(xiàn)了復(fù)用。

圖片

五、未來(lái)展望

最后介紹一下未來(lái)將開展的主要工作。

  • 空間對(duì)齊方式的進(jìn)一步探索
    引入對(duì)比學(xué)習(xí)的方式實(shí)現(xiàn)對(duì)比對(duì)齊,構(gòu)建 user-user、item- item 的對(duì)齊方式,結(jié)合精排端到端的進(jìn)一步探索。
  • 二階段建模
    預(yù)訓(xùn)練多模態(tài)對(duì)齊模型解決訓(xùn)練不充分等問(wèn)題;多模態(tài)數(shù)據(jù)對(duì)線上負(fù)擔(dān)較大,因此需要提升多模態(tài)表征融合與篩選的能力。
  • 更多多模態(tài)大模型的應(yīng)用探索
    比如利用 LLAVA,同時(shí)輸入多模態(tài)數(shù)據(jù),直接實(shí)現(xiàn)表征的融合。

目前,多模態(tài)表征已深入融合到了我們的統(tǒng)一精排模型中,未來(lái)將進(jìn)一步深入挖掘多模態(tài)表征,加強(qiáng)對(duì)多模態(tài)音樂(lè)內(nèi)容的理解,并融合入推薦系統(tǒng)中,使推薦系統(tǒng)個(gè)性化分發(fā)能力得到更大的提升,建設(shè)更好的音樂(lè)推薦生態(tài)。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2024-08-08 10:38:40

算法云音樂(lè)多場(chǎng)景建模

2024-12-30 00:01:00

多模態(tài)大模型Python

2023-11-14 07:16:51

冷啟動(dòng)技術(shù)推薦系統(tǒng)

2025-01-08 08:21:16

2024-05-10 06:59:06

2024-11-22 08:22:58

2013-03-04 10:57:01

網(wǎng)易云音樂(lè)

2024-11-11 15:11:23

2025-05-28 03:30:00

AI人工智能大數(shù)據(jù)

2024-12-12 00:25:09

2024-05-17 16:02:00

2023-06-12 07:44:21

大數(shù)據(jù)數(shù)據(jù)治理

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2024-09-25 16:08:52

2023-10-20 07:50:33

多模態(tài)大模型算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)