快手強(qiáng)化學(xué)習(xí)與多任務(wù)推薦
一、Two-Stage Constrained Actor-Critic for Short Video Recommendation
第一篇工作是快手自研的,主要針對(duì)的是帶約束的多任務(wù)場(chǎng)景。
1. 短視頻多任務(wù)推薦場(chǎng)景

這篇工作主要針對(duì)的是短視頻的一個(gè)比較專業(yè)化的場(chǎng)景,多任務(wù)的用戶反饋分為觀看時(shí)長和互動(dòng),比較常見的互動(dòng)包括點(diǎn)贊、收藏、關(guān)注還有評(píng)論,這些反饋各有特點(diǎn)。我們通過線上系統(tǒng)觀察發(fā)現(xiàn),時(shí)長信號(hào)實(shí)際上非常稠密,而且因?yàn)樗沁B續(xù)值,能夠非常準(zhǔn)確地反映用戶對(duì)該視頻的喜好程度,所以我們?cè)趦?yōu)化過程中,把這個(gè)信號(hào)作為主要優(yōu)化目標(biāo)。相比之下互動(dòng)信號(hào)更加稀疏,而且一般都是離散值,隨機(jī)性也更高,準(zhǔn)確度不足,但是又需要進(jìn)行一定優(yōu)化,所以在我們的系統(tǒng)中將它作為輔助目標(biāo)進(jìn)行優(yōu)化。在整個(gè)系統(tǒng)的目標(biāo)設(shè)定上,基于之前的觀察,將時(shí)長作為主要目標(biāo),互動(dòng)作為輔助優(yōu)化,盡量保證互動(dòng)的信號(hào)不損失,作為優(yōu)化的整體目標(biāo)。

這樣就可以非常直觀地將問題描述成一個(gè)帶約束的優(yōu)化問題,有一個(gè)主目標(biāo) utility 的優(yōu)化,輔助目標(biāo)是滿足一個(gè)下界即可。有別于常見的 Pareto 優(yōu)化問題,這里是需要分主次的。

解決這個(gè)問題的一個(gè)常用手段,就是把它轉(zhuǎn)化成拉格朗日對(duì)偶問題,這樣就可以直接合到一個(gè)優(yōu)化的目標(biāo)函數(shù)里面,無論是整體優(yōu)化還是交替優(yōu)化,可以合成一個(gè)整體目標(biāo)進(jìn)行優(yōu)化。當(dāng)然,需要去控制不同目標(biāo)的相關(guān)性以及影響因子。

這種直觀的 formulation 仍存在一些問題,因?yàn)橛脩魻顟B(tài)動(dòng)態(tài)變化,尤其是在短視頻場(chǎng)景下,變化速度非??臁A硗庖?yàn)樾盘?hào)不統(tǒng)一,尤其是主要目標(biāo)優(yōu)化和稀疏的輔助目標(biāo)優(yōu)化存在非常不一致的分布問題,現(xiàn)有的解決方案很難處理。如果把它統(tǒng)一到一個(gè)目標(biāo) function,其中一個(gè)信號(hào)就可能 dominate 另外一個(gè)信號(hào)。
2. Multi-task Reinforcement Learning

基于第一點(diǎn),考慮到用戶的動(dòng)態(tài)變化問題經(jīng)常被描述成 MDP,也就是用戶與系統(tǒng)的交替互動(dòng)的 sequence,而這個(gè) sequence 描述成 Markov Decision Process 之后就可以使用強(qiáng)化學(xué)習(xí)的手段求解。具體地,在描述成 Markov Decision Process 之后,因?yàn)橥瑫r(shí)還需要區(qū)分主要目標(biāo)和輔助目標(biāo),所以需要額外聲明一下,在用戶反饋時(shí),要區(qū)分兩種不同目標(biāo),此外輔助目標(biāo)也可能有多個(gè)。強(qiáng)化學(xué)習(xí)在定義長期優(yōu)化目標(biāo)時(shí),會(huì)將要優(yōu)化的主目標(biāo)定義成一個(gè)長期價(jià)值函數(shù),叫做 value function。同樣對(duì)于輔助目標(biāo),也會(huì)有對(duì)應(yīng)的 value function。相當(dāng)于每一個(gè)用戶的反饋,都會(huì)有一個(gè)長期價(jià)值評(píng)估,相比于之前做 utility function,現(xiàn)在變成了一個(gè)長期價(jià)值的 value function。

同樣地,結(jié)合強(qiáng)化學(xué)習(xí)時(shí)會(huì)產(chǎn)生一些新的問題,比如強(qiáng)化學(xué)習(xí)如何區(qū)分不同的折扣系數(shù)。另外,因?yàn)橐肓烁嗟?constraints,參數(shù)的搜索空間也變得更大,強(qiáng)化學(xué)習(xí)將變得更困難。
3. Solution: Two-Stage Multi-Critic Optimization

這篇工作的解決方案是把整個(gè)優(yōu)化分成兩個(gè)階段,第一個(gè)階段優(yōu)化輔助目標(biāo),第二個(gè)階段優(yōu)化主要目標(biāo)。
在第一個(gè)階段輔助目標(biāo)優(yōu)化時(shí),采取了典型的 actor critic 優(yōu)化方式,針對(duì)例如點(diǎn)贊和關(guān)注等輔助目標(biāo)的優(yōu)化,分別優(yōu)化一個(gè) critic,用來預(yù)估當(dāng)前 state 的優(yōu)劣。長期價(jià)值預(yù)估準(zhǔn)確之后,再去優(yōu)化 actor 時(shí)就可以使用 value function 來引導(dǎo)它的學(xué)習(xí)。公式(2)是 critic 的優(yōu)化,公式(3)是 actor 的優(yōu)化,針對(duì) critic 的優(yōu)化,在訓(xùn)練時(shí)會(huì)用到當(dāng)前的 state 和下一步的 state 以及當(dāng)前 action 的采樣。根據(jù) Bellman equation 可以得到 action,再加上未來的 state 的 value 預(yù)估,應(yīng)該趨近于當(dāng)前 state 的預(yù)估,這樣去優(yōu)化就可以逐漸逼近準(zhǔn)確的長期價(jià)值預(yù)估。在引導(dǎo) actor 學(xué)習(xí),也就是推薦策略學(xué)習(xí)時(shí),會(huì)采用一個(gè) advantage function。Advantage function 就是當(dāng)采用某個(gè) action 之后,其效果是否比平均預(yù)估更強(qiáng),這個(gè)平均預(yù)估叫做 baseline。Advantage 越大,說明 action 越好,采用這個(gè)推薦策略的概率就會(huì)越大。這是第一階段,輔助目標(biāo)的優(yōu)化。

第二階段是優(yōu)化主要目標(biāo),我們采用的是時(shí)長。輔助目標(biāo)在約束主要目標(biāo)時(shí),采用了近似的策略,我們希望主要目標(biāo)輸出的 action 分布盡可能接近不同的輔助目標(biāo),只要不斷接近輔助目標(biāo),輔助目標(biāo)的結(jié)果應(yīng)該就不會(huì)太差。在得到近似的 formulation 之后,通過 completion of square 就可以得到一個(gè)閉式解,即加權(quán)的方式。整個(gè)主要目標(biāo)的 actor critic 的優(yōu)化方式,在 critic 層面和 value function 估計(jì)層面上,其實(shí)沒有太大區(qū)別。但在 actor 時(shí),我們引入了通過閉式解得到的權(quán)重。該權(quán)重的含義是,某個(gè)輔助策略 I 對(duì)應(yīng)的影響因子越大,它對(duì)整體權(quán)重的影響也越大。我們希望策略輸出的分布盡可能接近所有輔助目標(biāo)策略的平均值,得出來的閉式解的 behavior 時(shí)有這樣的現(xiàn)象。
4. Experiments

我們?cè)?offline 的數(shù)據(jù)集上測(cè)試了多目標(biāo)優(yōu)化的效果,這里的主要目標(biāo)是 watch time 即觀看時(shí)長,輔助目標(biāo)是 click、like、comment 和 hate 等互動(dòng)指標(biāo)??梢钥吹轿覀兲岢龅?two-stage 的 actor-critic 能夠拿到最優(yōu)效果。

同樣我們也在線上系統(tǒng)做了相應(yīng)的對(duì)比實(shí)驗(yàn),線上系統(tǒng)的設(shè)定采用了 actor 加 ranking 的推薦模式,這里的 action 是權(quán)重,最終的 ranking 是由每一個(gè) item 和權(quán)重做內(nèi)積得出來的結(jié)果。線上實(shí)驗(yàn)也可以看到,watch time 能夠在提升的同時(shí)對(duì)其它互動(dòng)有約束效果,相比于之前的優(yōu)化策略,它能夠更好地約束互動(dòng)指標(biāo)。
以上就是對(duì)第一篇工作的介紹。
二、Multi-Task Recommendations with Reinforcement Learning
第二個(gè)工作同樣也是強(qiáng)化學(xué)習(xí)在多任務(wù)優(yōu)化的應(yīng)用,只不過這是比較傳統(tǒng)的優(yōu)化。這篇工作是快手和港城大的合作項(xiàng)目,一作是 Liu Ziru。
1. Background and Motivation

這篇工作主要討論的問題是典型的多任務(wù)聯(lián)合訓(xùn)練,其挑戰(zhàn)是需要平衡不同任務(wù)之間的系數(shù),傳統(tǒng)的 MTL 的解決方案一般會(huì)考慮線性組合方式,且會(huì)忽略 session 維度,即長期的動(dòng)態(tài)變化。這篇工作提出的 RMTL 通過長期的預(yù)估來改變加權(quán)方式。
2. Problem Formulation

問題設(shè)定是定義 CTR 和 CVR 的預(yù)估的聯(lián)合優(yōu)化。同樣我們也有一個(gè) MDP(Markov Decision Process)的定義,但這里 action 不再是推薦列表,而是對(duì)應(yīng)的 CTR 和 CVR 預(yù)估。如果要預(yù)估準(zhǔn)確,reward 就應(yīng)該定義為 BCE 或者對(duì)應(yīng)的任何一個(gè)合理的 loss。在整體的目標(biāo)定義上,一般情況下會(huì)定義成不同的任務(wù)加權(quán)之后再對(duì)整個(gè) session 以及所有的 data sample 進(jìn)行求和。

可以看到,它的權(quán)重系數(shù)除了 Gamma 的 discount 之外,還會(huì)受到一個(gè)需要調(diào)整的系數(shù)的影響。
3. Solution Framework

我們的解決方案是讓這個(gè)系數(shù)的調(diào)整和 session 維度的預(yù)估相關(guān)。這里給出了一個(gè) ESMM 的 backbone,當(dāng)然其它 baseline 的使用也是通用的,都可以用我們的方法進(jìn)行改進(jìn)。
下面詳細(xì)介紹一下 ESMM,首先有一個(gè) task specific 的 actor,對(duì)每一個(gè)任務(wù)都會(huì)有一個(gè) target 和 current actor 的優(yōu)化,優(yōu)化時(shí)用到了類似之前提到的 actor critic 的 framework。優(yōu)化過程中,BCE loss 在引導(dǎo) actor 學(xué)習(xí)時(shí),需要對(duì) task specific 的權(quán)重進(jìn)行調(diào)整。在我們的解決方案里,這個(gè)權(quán)重需要根據(jù)未來的價(jià)值評(píng)估進(jìn)行相應(yīng)的更改。該設(shè)定的意思是,如果未來的評(píng)估價(jià)值較高,說明當(dāng)前 state 和當(dāng)前 action 是比較準(zhǔn)確的,對(duì)它的學(xué)習(xí)就可以放慢。相反,如果對(duì)未來的預(yù)估較差,說明該模型對(duì) state 和 action 的未來并不看好,就應(yīng)該增加它的學(xué)習(xí),weight 采用這種方式進(jìn)行了調(diào)整。這里的未來評(píng)估同樣采用前文提到的 critic network 進(jìn)行學(xué)習(xí)。

critic 的學(xué)習(xí)也同樣采用未來 state 和當(dāng)前 state 的差值,但區(qū)別于 value function,這里差值的學(xué)習(xí)采用的是 Q function,需要用到 state 和 action 的聯(lián)合評(píng)估。在做 actor 更新時(shí),還要同時(shí)使用不同 task 對(duì)應(yīng)的 actor 的學(xué)習(xí)。這里 soft update 是一個(gè)通用的 trick,在增加 RL 學(xué)習(xí)穩(wěn)定性的時(shí)候比較有用,一般會(huì)同時(shí)優(yōu)化 target 和當(dāng)前的 critic。
4. Experiment

通過對(duì)兩個(gè)公開數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),可以看出,我們的方法可以結(jié)合現(xiàn)有的優(yōu)化方式包括 ESMM、MMoE 以及 PLE,得到的效果都能夠?qū)χ暗?baseline 有所提升。

PLE 在我們的觀測(cè)中是最好的 baseline,我們根據(jù)觀測(cè)現(xiàn)象的歸因是在學(xué)習(xí)不同 task 時(shí),PLE 能夠更好地學(xué)習(xí)到 shared embedding。

相比之下,ESMM 在 Kuairand task 上面可以達(dá)到更好的 CVR 的評(píng)估。我們推測(cè)這與 click 和 conversion 在這個(gè) dataset 里更強(qiáng)的相關(guān)性有關(guān)。
5. Transferability Study

除此之外我們也做了 transferability 的 test,因?yàn)槲覀兊?critic 是可以直接嫁接到其他模型上的。比如可以通過最基礎(chǔ)的 RMTL 學(xué)習(xí)出 actor critic,然后用 critic 直接去提升其他模型的效果。我們發(fā)現(xiàn),在嫁接時(shí)都能夠穩(wěn)定提升效果。
6. Ablation Study

最后我們做了 ablation study,對(duì)不同的加權(quán)方式進(jìn)行了對(duì)比,目前最好的效果都是由我們的 RMTL 得出來的。
三、Conclusion
最后總結(jié)一下 RL 和 MTL 的一些經(jīng)驗(yàn)。

我們發(fā)現(xiàn)推薦系統(tǒng)在長期優(yōu)化時(shí),尤其是在長期優(yōu)化復(fù)雜指標(biāo)時(shí),是非常典型的強(qiáng)化學(xué)習(xí)和多任務(wù)優(yōu)化的場(chǎng)景。如果是主副目標(biāo)聯(lián)合優(yōu)化,可以通過 soft regularization 去約束主要目標(biāo)學(xué)習(xí)。多目標(biāo)聯(lián)合優(yōu)化時(shí),如果考慮到不同目標(biāo)的動(dòng)態(tài)變化,也能夠提升其優(yōu)化效果。
除此之外也存在一些挑戰(zhàn),比如在強(qiáng)化學(xué)習(xí)不同模塊結(jié)合時(shí),會(huì)對(duì)系統(tǒng)的穩(wěn)定性帶來很多挑戰(zhàn)。我們的經(jīng)驗(yàn)是,對(duì)數(shù)據(jù)質(zhì)量的把控、label 的準(zhǔn)確性的把控和模型預(yù)估準(zhǔn)確率的監(jiān)督是非常重要的途徑。除此之外,由于推薦系統(tǒng)和用戶是直接交互的,不同目標(biāo)僅能片面反映用戶體驗(yàn),所以得到的推薦策略也會(huì)非常不同。如何在不斷變化的用戶狀態(tài)下,聯(lián)合優(yōu)化全面提升用戶體驗(yàn),在未來將是一個(gè)非常重要的課題。
四、Q&A
Q1:快手的時(shí)長信號(hào)和互動(dòng)信號(hào)一般用的是什么 loss,是分類還是回歸,互動(dòng)目標(biāo)和觀看目標(biāo)離線評(píng)估一般看哪些指標(biāo)?
A1:時(shí)長指標(biāo)是一個(gè)典型的回歸任務(wù)。但是我們同樣也注意到,時(shí)長預(yù)估是和視頻本身的長度強(qiáng)相關(guān)的,比如短視頻和長視頻的分布會(huì)非常不一樣,所以在預(yù)估時(shí)會(huì)先對(duì)它做分類處理,然后再做 regression。最近我們?cè)?KDD 也有一篇工作,講用樹方法拆分時(shí)長信號(hào)預(yù)估的方法,如果大家感興趣可以關(guān)注。大概意思是,比如把時(shí)長分成長視頻和短視頻,長視頻預(yù)估會(huì)有一個(gè)預(yù)估的范圍,短視頻會(huì)有一個(gè)短視頻的預(yù)估范圍。也可以用樹方法進(jìn)行更細(xì)致的下分,長視頻可以分成中視頻和長視頻,短視頻也可以分成超短視頻和短視頻。當(dāng)然也有純用分類方法解決時(shí)長預(yù)估的,我們也有做測(cè)試。整體效果上來看,目前還是在分類的框架下,再做 regression,效果會(huì)稍微好一點(diǎn)。其他的互動(dòng)的指標(biāo)預(yù)估,一般和現(xiàn)有的預(yù)估方法差不多。離線評(píng)估時(shí),一般 AUC 和 GAUC 是比較強(qiáng)的信號(hào),目前看這兩個(gè)信號(hào)還是比較準(zhǔn)確的。
Q2:回歸類的比如時(shí)長指標(biāo)離線看什么指標(biāo)?
A2:我們的系統(tǒng)主要看的是 online 的指標(biāo),離線一般是用 MAE 和 RMSE。但我們同樣看到離線和線上的評(píng)估也存在差異,如果離線評(píng)估沒有比較明顯的提升,那線上也不一定能看到對(duì)應(yīng)的提升效果,它的實(shí)際對(duì)應(yīng)關(guān)系在沒有達(dá)到一定顯著性的時(shí)候,區(qū)別不會(huì)太大。
Q3:類似轉(zhuǎn)發(fā)等比較稀疏的目標(biāo),建模上有沒有方法可以使其估得更準(zhǔn)?
A3:對(duì)用戶轉(zhuǎn)發(fā)的理由分析,做一些觀測(cè)等可能會(huì)有比較好的收效。目前我們?cè)谧鲛D(zhuǎn)發(fā)預(yù)估的時(shí)候,在我們的鏈路下做和其他的互動(dòng)目標(biāo)的預(yù)估方式差距不太大。有個(gè)比較通用的思路,就是 label 的定義尤其是負(fù)反饋信號(hào)的定義,會(huì)非常大程度上影響模型訓(xùn)練準(zhǔn)確率。除此之外就是數(shù)據(jù)來源的優(yōu)化,數(shù)據(jù)和線上的分布是否有偏,也會(huì)影響到預(yù)估準(zhǔn)確率,所以我們很多工作也在做消偏。因?yàn)樵谕扑]場(chǎng)景下,很多預(yù)估的指標(biāo)實(shí)際上是間接的信號(hào),它在下一步才會(huì)影響到推薦效果。所以以推薦效果為主導(dǎo)去優(yōu)化指標(biāo),是我們這邊的應(yīng)用場(chǎng)景。
Q4:快手這邊這個(gè)多目標(biāo)融合是怎么做的?是強(qiáng)化學(xué)習(xí)調(diào)參嗎?
A4:在多目標(biāo)融合時(shí),一開始有一些 heuristic 的方法,一些手調(diào)的參數(shù)平衡的方法。后面逐漸開始使用調(diào)參方式,強(qiáng)化學(xué)習(xí)調(diào)參也嘗試過。目前的經(jīng)驗(yàn)是自動(dòng)化調(diào)參比手調(diào)好一些,它的上限稍微高一些。
Q5:假如線上數(shù)據(jù)或者要調(diào)的某個(gè)目標(biāo)本身特別稀疏,如果基于線上數(shù)據(jù)調(diào)參,反饋周期或者觀察置信需要比較久,這樣調(diào)參效率會(huì)不會(huì)比較低,這種情況下有什么解決辦法?
A5:我們最近也有一些工作討論極其稀疏、甚至幾天才有反饋的這種信號(hào)。其中最典型的一個(gè)信號(hào)就是用戶的留存,因?yàn)橛脩艨赡茈x開之后過幾天才會(huì)回來,這樣我們拿到信號(hào)時(shí),模型已經(jīng)更新好幾天了。解決這些問題有一些折中方案,一個(gè)解決方案是可以去分析實(shí)時(shí)的反饋信號(hào)有哪些和這種極其稀疏的信號(hào)有一定的相關(guān)性。通過優(yōu)化這些實(shí)時(shí)的信號(hào)采用組合方式去間接優(yōu)化長期信號(hào)。以剛才的留存作為例子,在我們的系統(tǒng)中,我們發(fā)現(xiàn)用戶的留存和用戶實(shí)時(shí)的觀看時(shí)長存在非常強(qiáng)的正相關(guān),用戶觀看時(shí)長就代表用戶對(duì)系統(tǒng)的粘度,這樣基本能夠保證用戶留存的下界。我們優(yōu)化留存時(shí),一般會(huì)使用優(yōu)化時(shí)長組合一些其他相關(guān)指標(biāo)去優(yōu)化留存。只要是我們分析發(fā)現(xiàn)和留存有一定相關(guān)性的,都可以引入進(jìn)來。
Q6:有沒有試過其他的強(qiáng)化學(xué)習(xí)方法,actor critic 有什么優(yōu)勢(shì),為什么使用這種方式?
A6:Actor critic 是我們迭代了幾次之后的結(jié)果,之前也試過 DQN 和Reinforce 等稍微直觀的方法,有的在一些場(chǎng)景下確實(shí)會(huì)有效果,但目前 actor critic 是一個(gè)相對(duì)穩(wěn)定且好調(diào)試的方法。舉個(gè)例子,比如用 Reinforce 需要用到長期信號(hào),而長期的 trajectory 信號(hào)波動(dòng)性比較大,想提升它的穩(wěn)定性會(huì)是比較困難的問題。但 actor critic 的一個(gè)優(yōu)點(diǎn)是可以根據(jù)單步信號(hào)進(jìn)行優(yōu)化,這是非常符合推薦系統(tǒng)的一個(gè)特點(diǎn)。我們希望每一個(gè)用戶的反饋都能作為一個(gè) training sample 去學(xué)習(xí),對(duì)應(yīng)的 actor critic 和 DDPG 方法會(huì)非常符合我們系統(tǒng)的設(shè)定。
Q7:快手多目標(biāo)融合用強(qiáng)化學(xué)習(xí)方法時(shí),一般會(huì)使用哪些 user 特征,是否存在一些很精細(xì)的特征例如 user id 導(dǎo)致模型收斂困難,怎么解決這個(gè)問題?
A7:user id 其實(shí)還好,因?yàn)槲覀?user 側(cè)的特征還是會(huì)用到各種各樣的特征的。user 除了有 id 特征以外,還會(huì)有一些統(tǒng)計(jì)特征。除此之外在推薦鏈路上,因?yàn)?RL 在我們應(yīng)用的模塊處于比較靠后的階段,比如精排和重排,在前面的一些階段也會(huì)給出預(yù)估還有模型的排序信號(hào),這些實(shí)際上都有用戶的信號(hào)在里面。所以強(qiáng)化學(xué)習(xí)在推薦的場(chǎng)景下拿到的 user 側(cè)的信號(hào)還是很多的,基本上不會(huì)出現(xiàn)只用一個(gè) user id 的情況。
Q8:所以也用了 user id,不過暫時(shí)還沒有出現(xiàn)收斂困難的問題,對(duì)吧?
A8:對(duì)的,而且我們發(fā)現(xiàn)如果不用 user id,對(duì)個(gè)性化影響還是挺大的。如果只用一些用戶的統(tǒng)計(jì)特征,有的時(shí)候不如一個(gè) user id 的提升效果大。確實(shí) user id 的影響比較大,但是如果讓它的影響占比太大,會(huì)有波動(dòng)性的問題。
Q9:有些公司的一些業(yè)務(wù)中,用戶的行為數(shù)據(jù)可能比較少,是不是也會(huì)遇到如果用 user id 就不好收斂這個(gè)問題,如果遇到類似問題,有什么解決方案?
A9:這個(gè)問題偏向于 user cold start,偏 cold start 場(chǎng)景下在推薦鏈路一般會(huì)用補(bǔ)全或自動(dòng)化 feature 填充,先把它假設(shè)成一個(gè)默認(rèn) user,可能會(huì)在一定程度上解決這個(gè)問題。后面隨著 user 和系統(tǒng)不斷交互、session 不斷充實(shí),實(shí)際上可以拿到一定的用戶反饋,會(huì)逐漸訓(xùn)的越來越準(zhǔn)。保證穩(wěn)定性方面,基本上只要控制好不讓一個(gè) user id 去 dominate 訓(xùn)練,還是能夠很好地提升系統(tǒng)效果的。
Q10:前面提到的對(duì)時(shí)長目標(biāo)建模先做分類再做回歸,具體是時(shí)長先做分桶,分完桶再回歸嗎?這種方式還是不是無偏估計(jì)?
A10:那篇工作是直接去做分桶,然后用每一個(gè)分桶到達(dá)的概率去聯(lián)合評(píng)估時(shí)長,不是分桶之后再做 regression。它僅用分桶的概率,再加上分桶的值去做整體的帶概率的評(píng)估。分桶之后再 regression 應(yīng)該確實(shí)不再是無偏的,畢竟每一個(gè)分桶還是有它自己的分布規(guī)律的。
Q11:剛才老師提到一個(gè)問題,對(duì)于兩個(gè)目標(biāo) a 和 b,我們的主目標(biāo)是 a,對(duì) b 的要求就是不降就行。我們實(shí)際場(chǎng)景中可能還存在 a 是主目標(biāo),對(duì) b 沒任何約束的場(chǎng)景。例如,把 CTR 目標(biāo)跟 CVR 目標(biāo)一起優(yōu)化,但模型本身是一個(gè) CVR 模型,我們只關(guān)注 CVR 的效果,不關(guān)心 CTR 效果會(huì)不會(huì)變差,我們只是希望 CTR 盡可能地幫助到 CVR。類似這種場(chǎng)景,如果想把它們放在一起聯(lián)合訓(xùn)練,是否有什么解決辦法?
A11:這實(shí)際上已經(jīng)不再是多目標(biāo)優(yōu)化了,CTR 的指標(biāo)甚至都可以直接作為一個(gè)輸入去優(yōu)化 CPR,因?yàn)?CTR 不再是優(yōu)化目標(biāo)了。但這樣可能對(duì)用戶不太好,因?yàn)橛脩舻?CTR 更大程度上代表了對(duì)系統(tǒng)的喜好程度和粘性。不過不同系統(tǒng)可能也有所差別,這取決于推薦系統(tǒng)是以賣商品還是以流量為主。由于快手短視頻這種是以流量為主的,所以說用戶 CTR 是一個(gè)更直觀、更主要的指標(biāo),CVR 只是流量引流之后的一個(gè)效果。




































