偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

主搜索與店鋪內(nèi)搜索聯(lián)合優(yōu)化的初步探索與嘗試

原創(chuàng)
人工智能 深度學(xué)習(xí)
基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)和優(yōu)化技術(shù)目前大量的應(yīng)用于這些場(chǎng)景中,并已經(jīng)取得了不錯(cuò)的效果——在單場(chǎng)景內(nèi)的A/B測(cè)試上,點(diǎn)擊率、轉(zhuǎn)化率、成交額、單價(jià)都能看到顯著提升。

背景與簡(jiǎn)介

在淘寶平臺(tái)上有非常多的子場(chǎng)景,例如搜索、推薦、廣告。每個(gè)子場(chǎng)景又有非常多細(xì)分,例如搜索包括默認(rèn)排序、店鋪內(nèi)搜索、店鋪搜索等;推薦內(nèi)有猜你喜歡、今日推薦、每日好店等。基于數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)和優(yōu)化技術(shù)目前大量的應(yīng)用于這些場(chǎng)景中,并已經(jīng)取得了不錯(cuò)的效果——在單場(chǎng)景內(nèi)的A/B測(cè)試上,點(diǎn)擊率、轉(zhuǎn)化率、成交額、單價(jià)都能看到顯著提升。 然而,目前各個(gè)場(chǎng)景之間是完全獨(dú)立優(yōu)化的,這樣會(huì)帶來幾點(diǎn)比較嚴(yán)重的問題:

  a. 用戶在淘寶上購(gòu)物會(huì)經(jīng)常在多個(gè)場(chǎng)景之間切換,例如:從主搜索到猜你喜歡,從猜你喜歡到店鋪內(nèi)。不同場(chǎng)景的商品排序僅考慮自身,會(huì)導(dǎo)致用戶的購(gòu)物體驗(yàn)是不連貫或者雷同的。例如:從冰箱的詳情頁(yè)進(jìn)入店鋪,卻展示手機(jī);各個(gè)場(chǎng)景都展現(xiàn)趨同,都包含太多的U2I(點(diǎn)擊或成交過的商品)。

  b. 多場(chǎng)景之間是博弈(競(jìng)爭(zhēng))關(guān)系,期望每個(gè)場(chǎng)景的提升帶來整體提升這一點(diǎn)是無法保證的。很有可能一個(gè)場(chǎng)景的提升會(huì)導(dǎo)致其他場(chǎng)景的下降,更可怕的是某個(gè)場(chǎng)景帶來的提升甚至小于其他場(chǎng)景更大的下降。這并非是不可能的,那么這種情況下,單場(chǎng)景的A/B測(cè)試就顯得沒那么有意義,單場(chǎng)景的優(yōu)化也會(huì)存在明顯的問題。因?yàn)檫@一點(diǎn)尤為重要,因此我們舉一個(gè)更簡(jiǎn)單易懂的例子,如下圖。

一個(gè)1000米長(zhǎng)的沙灘上有2個(gè)飲料攤A和B,沙灘上均分分布者很多游客,他們一般會(huì)找更近的飲料攤?cè)ベI飲料。最開始A和B分別在沙灘250米和750米的位置,此時(shí)沙灘左邊的人會(huì)去A買,右邊的人去B買。然后A發(fā)現(xiàn),自己往右邊移動(dòng)的時(shí)候,會(huì)有更多的用戶(A/B測(cè)試的結(jié)論),因此A會(huì)右移,同樣B會(huì)左移。A和B各自‘優(yōu)化’下去,***會(huì)都在沙灘中間的位置,從博弈論的角度,到了一個(gè)均衡點(diǎn)。然而,***‘優(yōu)化’得到的位置是不如初始位置的,因?yàn)闀?huì)有很多游客會(huì)因?yàn)樘h(yuǎn)而放棄買飲料。這種情況下,2個(gè)飲料攤各自優(yōu)化的結(jié)果反而是不如不優(yōu)化的。

多場(chǎng)景問題實(shí)際并不止存在于淘寶上,目前比較大型的平臺(tái)或者無線APP都不止一個(gè)場(chǎng)景。即使不談Yahoo,Sina等綜合性網(wǎng)站,像Baidu、Google等功能比較單一、集中的應(yīng)用,也會(huì)有若干場(chǎng)景(如網(wǎng)頁(yè)、咨詢、地圖等)。那么這些平臺(tái)或應(yīng)用都會(huì)面臨類似的問題。 綜上,研究大型在線平臺(tái)上的多子場(chǎng)景聯(lián)合優(yōu)化,無論從淘寶平臺(tái)的應(yīng)用上,還是從科研的角度,都具有重要意義。

為了解決上述的問題,本文提出一個(gè)多場(chǎng)景聯(lián)合排序算法,旨在提升整體指標(biāo)。我們將多場(chǎng)景的排序問題看成一個(gè)完全合作的、部分可觀測(cè)的多智能體序列決策問題,利用Multi-Agent Reinforcement Learning的方法來嘗試著對(duì)問題進(jìn)行建模。

該模型以各個(gè)場(chǎng)景為Agent,讓各個(gè)場(chǎng)景不同的排序策略共享同一個(gè)目標(biāo),同時(shí)在一個(gè)場(chǎng)景的排序結(jié)果會(huì)考慮該用戶在其他場(chǎng)景的行為和反饋。這樣使得各個(gè)場(chǎng)景的排序策略由獨(dú)立轉(zhuǎn)變?yōu)楹献髋c共贏。由于我們想要使用用戶在所有場(chǎng)景的行為,而DRQN中的RNN網(wǎng)絡(luò)可以記住歷史信息,同時(shí)利用DPG對(duì)連續(xù)狀態(tài)與連續(xù)動(dòng)作空間進(jìn)行探索,因此我們算法取名MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)。

系統(tǒng)總覽

傳統(tǒng)的單場(chǎng)景優(yōu)化

目前,單場(chǎng)景排序策略的大體結(jié)構(gòu)如下,每個(gè)商品用一組特征來表示<人氣分,ctr分……>,排序策略通過給出一組特征權(quán)重來決定排序的結(jié)果,商品的分?jǐn)?shù)即為各個(gè)特征的加權(quán)相加。主搜索和店鋪內(nèi)搜索都有自己的排序策略,獨(dú)立優(yōu)化,互不影響。

多場(chǎng)景聯(lián)合優(yōu)化

目前,單場(chǎng)景排序策略的大體結(jié)構(gòu)如下,每個(gè)商品用一組特征來表示<人氣分,ctr分……>,排序策略通過給出一組特征權(quán)重來決定排序的結(jié)果,商品的分?jǐn)?shù)即為各個(gè)特征的加權(quán)相加。主搜索和店鋪內(nèi)搜索都有自己的排序策略,獨(dú)立優(yōu)化,互不影響。

 

具體的方法與應(yīng)用請(qǐng)點(diǎn)擊查看

 

責(zé)任編輯:王雪燕 來源: 51CTO
相關(guān)推薦

2022-08-12 12:23:28

神經(jīng)網(wǎng)絡(luò)優(yōu)化

2022-06-30 07:45:29

搜索聯(lián)合搜索索引

2024-10-10 08:19:50

2013-10-25 14:02:05

SAP

2023-06-28 08:33:10

業(yè)務(wù)系統(tǒng)SM-X

2022-07-07 11:27:14

技術(shù)搜索模型

2025-03-21 13:25:14

2012-07-06 16:01:26

華為服務(wù)器

2017-05-24 11:29:10

蘑菇街搜索推薦

2011-06-19 11:03:30

搜索引擎SERP

2013-12-08 21:33:31

谷歌移動(dòng)搜索應(yīng)用內(nèi)搜索

2011-06-08 15:08:38

MySQLWhere優(yōu)化

2011-12-26 09:48:11

HTML 5

2023-10-16 08:32:29

開源工具

2023-10-10 08:52:36

射與分析相開源

2009-06-12 08:35:43

微軟Windows 7操作系統(tǒng)

2024-12-26 15:35:33

2022-06-07 15:33:51

Android優(yōu)化實(shí)踐

2022-04-28 09:36:47

Redis內(nèi)存結(jié)構(gòu)內(nèi)存管理

2023-03-27 08:00:00

機(jī)器學(xué)習(xí)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)