如何破解YouTube視頻推薦算法
如果你是某個(gè)發(fā)行渠道(比如電影、戲劇、電視節(jié)目、網(wǎng)絡(luò)視頻)的內(nèi)容工作者,那么內(nèi)容的成敗就取決于發(fā)行機(jī)制的運(yùn)轉(zhuǎn)邏輯。比如說,你制作了一檔電視節(jié)目,你很想它能火起來,那么你就得知道該在哪里切入廣告,怎么宣傳節(jié)目,上哪個(gè)頻道播放,所選的頻道能被多少家庭收看,等等,諸如此類。
如果你的發(fā)行渠道是YouTube,那么你最應(yīng)該搞清楚的是YouTube的算法是怎么工作的。然而,全天下所有由算法來運(yùn)營的平臺(tái),要搞清楚這一點(diǎn)那不是一般的困難。
YouTube沒有把他們算法用到的變量公之于眾。要搞清楚其算法的運(yùn)轉(zhuǎn)原理,即使數(shù)據(jù)很有限,我們也得對(duì)這個(gè)大大的黑盒子一探究竟。有些算法倚重的變量,我們是一點(diǎn)數(shù)據(jù)也拿不到的(比如縮略圖,標(biāo)題印象,用戶訪問歷史,用戶行為,會(huì)話信息,等),如果能拿到這些數(shù)據(jù),那等于就是把YouTube的算法脫光了讓我們看,然而呢,呵呵噠,并沒有。
看起來我們啥都沒有,但還是想盡可能用手上這點(diǎn)數(shù)據(jù)大致搞清楚其算法邏輯。所以,我的前同事(為什么是“前”同事呢?因?yàn)槲易罱鼜腇rederator離職啦,哇咔咔)Jeremy Rosen花了半年時(shí)間分析Frederator自己掌握和運(yùn)營的頻道數(shù)據(jù),想搞清楚YouTube的算法。
開始之前,先明確一下:這篇文章內(nèi)所指的算法包含多個(gè)YouTube增長類算法(為你推薦(Recommended),建議觀看(Suggest),相關(guān)視頻(Related),搜索(Search),原始評(píng)分(MetaScore),等等)。這些不同的算法產(chǎn)品,各有側(cè)重,但有一個(gè)共同點(diǎn),那就是它們的優(yōu)化目標(biāo)相同,都是觀看時(shí)長(Watch Time)。
觀看時(shí)長
先要說清楚的,“觀看時(shí)長”并不是說觀看過的分鐘數(shù)。這個(gè)概念我們之前也討論過[1],觀看時(shí)長由以下指標(biāo)構(gòu)成:
- 訪問次數(shù)
- 訪問停留
- 會(huì)話開始
- 上傳頻率
- 會(huì)話時(shí)長
- 會(huì)話結(jié)束
本質(zhì)上以上每一項(xiàng)都關(guān)系著頻道以及頻道的視頻表現(xiàn)好壞,人們是不是經(jīng)常來訪問(開始一次頁面訪問的會(huì)話)以及是不是停留很長時(shí)間。
要在算法那里積累下任何變量的取值,你的頻道和視頻首先得有人來訪問你才行。一個(gè)視頻要成功(成功定義為訂閱者中超過一半的人在前30天訪問過)需要視頻發(fā)布的前幾分鐘、前幾小時(shí)、前幾天內(nèi)得到大量的訪問,我們把這稱之為訪問速率( View Velocity)
訪問以及訪問速率
我們分析Frederator的訪問速率,發(fā)現(xiàn)整個(gè)生命周期內(nèi)累計(jì)訪問次數(shù)與前48小時(shí)內(nèi)訂閱用戶訪問百分比呈指數(shù)關(guān)系。
48小時(shí)內(nèi)訪問的訂閱用戶百分比與得到的平均訪問次數(shù)
基于這個(gè)觀察,我們稍微深挖了一下,發(fā)現(xiàn)用這個(gè)速率規(guī)律去預(yù)測(cè)一個(gè)視頻是否會(huì)成功,可以做到92%的準(zhǔn)確率。其實(shí),還存在一個(gè)更直接的相關(guān)性:72小時(shí)內(nèi)訪問的訂閱用戶百分比,與視頻整個(gè)生命周期的累計(jì)被訪問次數(shù)之間。
72小時(shí)內(nèi)訪問的訂閱用戶百分比與整個(gè)生命周期內(nèi)累計(jì)的訪問次數(shù)
這兩個(gè)圖以及相關(guān)系數(shù)充分說明訪問次數(shù)和訪問速率對(duì)視頻和頻道有著直接而重要的影響。除此之外,我們還有證據(jù)證明這個(gè)規(guī)律反過來也成立。差勁的訪問速率不但影響這個(gè)視頻本身,還影響其上一個(gè)和下一個(gè)視頻。
下圖說明如果Frederator上一個(gè)視頻48小時(shí)內(nèi)訪問速率比較糟糕(少于5%的訂閱用戶訪問),那么接下來上傳的視頻也會(huì)受其影響。
訪問了下一個(gè)視頻的訂閱用戶百分比與訪問了前兩個(gè)視頻的訂閱用戶平均百分比之間的關(guān)系
這個(gè)數(shù)據(jù)證實(shí)了Matthew Patrick的理論:如果某一個(gè)視頻點(diǎn)擊效果不好,那么你的下一次上傳的視頻,YouTube就不會(huì)給予太多權(quán)重讓它被你的訂閱用戶看到。[2]
也可能是因?yàn)樯弦粋€(gè)視頻表現(xiàn)糟糕,所以訪問你的頻道次數(shù)就會(huì)減少,自然地就導(dǎo)致更少的訂閱用戶以原生的方式訪問到。不管到底“為什么”,結(jié)果反正就是醬紫。
另一個(gè)負(fù)速率對(duì)新上傳視頻的影響就是:有證據(jù)表明這還會(huì)傷害到你的整個(gè)視頻庫。下面的***張圖是視頻上傳48小時(shí)內(nèi)就訪問的訂閱用戶7天平均百分比(譯者注:這7天上傳了若干個(gè)視頻,紀(jì)錄每個(gè)視頻上傳后48小時(shí)就訪問的訂閱用戶百分比,然后取這些百分比的平均值)與頻道總訪問次數(shù)(譯者注:反應(yīng)了整個(gè)視頻庫的效果)的關(guān)系。第二張圖是某一天訪問視頻的總體訂閱用戶百分比與當(dāng)日的總體訪問次數(shù)之間的關(guān)系。
七天內(nèi)的平均“48小時(shí)內(nèi)訪問視頻的訂閱用戶百分比” 與 每日整個(gè)頻道視頻訪問總數(shù)之間的關(guān)系
七天平均訂閱用戶訪問人數(shù) 與 總體訪問訪問次數(shù)之間的關(guān)系
這些圖標(biāo)都說明一件事:一旦新上傳視頻和整個(gè)視頻庫的訪問用戶百分比走低,那么頻道的總體訪問次數(shù)也會(huì)走低。對(duì)于我們來說的啟示是:YouTube算法更看重那些能夠吸引到核心觀眾的頻道,而懲罰那些不能吸引其核心觀眾的。
訪問停留
另一個(gè)算法非常看重的指標(biāo)就是訪問停留(View Duration)。
訪問停留就是用戶會(huì)花多長時(shí)間停留在單個(gè)視頻頁面。這個(gè)變量的權(quán)重很高,我們的數(shù)據(jù)中能看到一個(gè)明顯的引爆點(diǎn)。Frederator其中一個(gè)頻道,前30天內(nèi),平均訪問時(shí)長8分鐘的視頻,比平均5分鐘的要多350%的訪問量。下圖表明,F(xiàn)rederator的一個(gè)頻道的視頻訪問量,與平均訪問停留時(shí)長的關(guān)系。
整個(gè)生命周期內(nèi),平均訪問時(shí)長和平均訪問量的關(guān)系
注意,這里沒考慮訪問時(shí)長在八分鐘之上的數(shù)據(jù)。
我們還發(fā)現(xiàn),訪問停留時(shí)長越長,視頻表現(xiàn)越好。下面這張圖是七天內(nèi)訪問停留時(shí)長少于5分鐘的視頻(1),介于五分鐘到十分鐘的(5), 十分鐘以上的(10)分別與訪問量的關(guān)系。
七天內(nèi)平均訪問量與平均訪問停留時(shí)長的關(guān)系
下面這張圖也是一個(gè)意思,不過從7天拉長到整個(gè)生命周期內(nèi)了。
整個(gè)生命周期內(nèi)平均訪問量與平均訪問停留時(shí)長的關(guān)系
基于這些發(fā)現(xiàn),我們可以得出一個(gè)簡單的結(jié)論:發(fā)布長視頻可以提高訪問效果。Frederator有一個(gè)關(guān)于兒童樂園的頻道,每周會(huì)上傳三到四個(gè)不同長度(3分鐘,10分鐘,30分鐘。70分鐘)的視頻,我們發(fā)現(xiàn)每個(gè)視頻發(fā)布后的48小時(shí)內(nèi),70分鐘視頻的訪問次數(shù)遠(yuǎn)遠(yuǎn)超過其他長度的視頻,哪怕是重發(fā)一些炒剩飯的舊視頻。除此之外,70分鐘的視頻和其他版本的視頻有相同的平均訪問停留時(shí)長。
于是,我們建議公司每周就只上傳70分鐘長度的視頻就好了。就用了這個(gè)策略,頻道日均訪問量增長了50萬,而過去6周里我們上傳的視頻個(gè)數(shù)卻減少了75%。好了好了,我知道你受刺激了,不要崇拜哥。
會(huì)話開始,會(huì)話時(shí)長,會(huì)話結(jié)束
能做這篇研究,全都得益于我之前的一篇文章:《觀看時(shí)長是個(gè)什么鬼》(WTF is WatchTime?)[1]
快速回顧一下,會(huì)話開始(Session Starts)就是指用戶有多少次是從你的視頻開始訪問YouTube的。這其實(shí)說明了訂閱用戶能在前72小時(shí)訪問你是多么重要。訂閱用戶是在視頻發(fā)布后最早能看到的你人,他們也是最可能點(diǎn)擊你頻道圖標(biāo)的人,因?yàn)樗麄円呀?jīng)熟悉你的品牌了。
會(huì)話時(shí)長(Session Duration)就是你的內(nèi)容讓用戶在YouTube平臺(tái)上逗留了多久,他們?cè)L問你的視頻,以及訪問之后都算是在平臺(tái)上逗留。除了用戶平均訪問時(shí)長(Average View Duration )和獨(dú)立訪問數(shù)( Unique Views),也沒有更好的數(shù)據(jù)了。
會(huì)話結(jié)束(Session Ends)衡量用戶是不是經(jīng)常在看完你的視頻后就離開了YouTube平臺(tái)。這是算法利用的一個(gè)負(fù)面指標(biāo),但是我們根本拿不到數(shù)據(jù)。
一則算法理論
YouTube的算法設(shè)計(jì)時(shí)關(guān)注的是頻道效果而不是單個(gè)視頻效果。但是它要利用單個(gè)視頻來提高頻道效果。
算法結(jié)合了單個(gè)視頻的特定數(shù)據(jù)和頻道的聚合數(shù)據(jù)來決定推薦哪個(gè)視頻。最終目標(biāo)仍然是為頻道聚攏其目標(biāo)觀眾。
YouTube這么做是因?yàn)椋?/strong>
1. 讓用戶常?;卦LYouTube平臺(tái)
2. 讓用戶在平臺(tái)停留越久越好
下面有三張圖表來證明這則理論是成立的。
***張圖是48小時(shí)內(nèi)訪問的訂閱者比例與7天內(nèi)總訪問量之間的關(guān)系。這張圖說明,如果開始有大量用戶從你的視頻開始的平臺(tái)會(huì)話,那么你的視頻就會(huì)獲得很大的訪問量。到達(dá)一個(gè)閾值之后,就會(huì)呈指數(shù)級(jí)增長。
7日內(nèi)總訪問量與48小時(shí)內(nèi)訪問的訂閱用戶百分比
第二個(gè)圖是頻道內(nèi)日均訪問量與5日內(nèi)訪問的訂閱用戶百分比的關(guān)系。
日均訪問量與5日內(nèi)訪問的訂閱用戶百分比的關(guān)系
這意味著如果能一直讓大量用戶從你開始訪問YouTube(近5天內(nèi)平均來看),那么算法就會(huì)將用戶每日訪問向你整個(gè)頻道視頻庫傾斜。
***一幅圖是日均訪問的訂閱用戶百分比與5天內(nèi)訪問的訂閱用戶百分比之間的關(guān)系。
日均訪問的訂閱用戶百分比與5日內(nèi)訪問的訂閱用戶百分比之間的關(guān)系
我們相信這一切都表明,頻道效果的連貫性與訪問量之間存在相關(guān)性,訪問量又表現(xiàn)在訂閱用戶訪問百分比,YouTube就會(huì)因此把流量傾斜給你。
假如說你有一個(gè)游戲頻道,10萬個(gè)訂閱用戶,你每天上傳6個(gè)視頻,每個(gè)視頻有5%的訂閱用戶訪問。你的每個(gè)視頻的平均訪問訂閱用戶會(huì)穩(wěn)定在區(qū)區(qū)5%。這意味你會(huì)每天產(chǎn)生30%的訂閱用戶訪問次數(shù)(3萬/天,60萬/月)?,F(xiàn)在假設(shè)你有1百萬訂閱用戶,那么每日訪問次數(shù)在30萬,每月在600萬。
我們認(rèn)為這一段數(shù)學(xué)運(yùn)算是不會(huì)騙人的。這意味YouTube在根據(jù)一些指標(biāo)選擇一些頻道進(jìn)行推薦,然后只要算法幫這個(gè)頻道提高訪問量。
但,壯士請(qǐng)留步,以上還僅僅是理論上的分析!
一種打分算法
這里我們打算破解YouTube的算法,然后重建一個(gè)。用了15個(gè)信號(hào)量,以及我們估計(jì)的權(quán)重,來重新構(gòu)建打分算法。信號(hào)量列舉如下:
用來開發(fā)打分算法的信號(hào)量/因素
下面這些圖是這些信號(hào)量實(shí)際產(chǎn)生的效果。
三天的算法平均分與訪問量的相關(guān)趨勢(shì)
算法打分與訪問量的相關(guān)性趨勢(shì)
下面這張圖更詳細(xì)一些。
三天的算法打分均值與每日訪問量
知道你還是很好奇,那下面就揭曉我們模擬出來的各種權(quán)重:
各種算法的權(quán)重分布模擬
觀看時(shí)長優(yōu)化算法的各信號(hào)量權(quán)重分布模擬
相關(guān)推薦及其他算法的各信號(hào)量權(quán)重分布
然而但是but,我們也沒有其他數(shù)據(jù)了,所以我們也不敢肯定在計(jì)算相關(guān)性時(shí)該用哪種回歸方式,也只敢說大多數(shù)信號(hào)和算法之間很相關(guān),而已。也正因?yàn)槿绱?,我們?duì)YouTube算法一直熱情不減。
對(duì)YouTube算法的看法
根據(jù)我們的數(shù)據(jù),至少可以得到6個(gè)粗淺結(jié)論:
1. YouTube用算法決定了我們的視頻和頻道能得到多少訪問量。
2. 成功的頻道都是專注在特定類型的內(nèi)容或創(chuàng)意上。
3. 頻道自己一旦明確了哪種類型的內(nèi)容成功之后,就不要再搖擺了。
4. 內(nèi)容制作者光靠錢在YouTube平臺(tái)上絕無可能成功,因此土豪型的制作者不太會(huì)全身心擁抱YouTube。
5. 個(gè)性化的節(jié)目/頻道會(huì)一直是YouTube上面占統(tǒng)治地位的內(nèi)容類型,因?yàn)檫@就是人們要找的“特定類型的內(nèi)容”。
6. 新建的頻道,如果不能在YouTube站外導(dǎo)流進(jìn)去的話,相當(dāng)長時(shí)間內(nèi)增長都會(huì)比較困難。
前面說到,YouTube更注重于提高頻道的訪問效果,這個(gè)觀點(diǎn)只是我們推測(cè)得到的。頻道能夠上傳很多視頻,從而獲得和留住大量的目標(biāo)觀眾。如果你想在YouTube上成功,我們能給的建議就是:瞄準(zhǔn)一個(gè)非常垂直的興趣類型,然后持續(xù)去制作10分鐘以上的視頻,一定得是你選定的這個(gè)興趣類型的視頻。
我這里是私人博客,需要提醒一下,YouTube可是儲(chǔ)備了大量的算法彈藥啊,也希望他們不把本文視為對(duì)算法的負(fù)面消息。通過這篇研究,我更加感謝YouTube及其算法工程師們,有預(yù)見性地設(shè)計(jì)了這些算法。畢竟,他們還是想努力讓這個(gè)世界上的十億用戶能在一個(gè)月內(nèi)不重樣地觀看視頻。如果你能停下來回頭再整體上審視一下這一切,你會(huì)驚嘆于YouTube算法設(shè)計(jì)如此優(yōu)雅,在實(shí)現(xiàn)商業(yè)目標(biāo)上和保護(hù)平臺(tái)健康發(fā)展上做得難以置信的好。為他們點(diǎn)32個(gè)贊!
作者簡介:
Matt Gielen是Frederator Networks的前副總裁, 主管編程和觀眾開發(fā)。Matt所管的團(tuán)隊(duì)是世界上***的動(dòng)畫制作網(wǎng)絡(luò)公司,F(xiàn)rederator網(wǎng)絡(luò)頻道。
譯后記:
最初看到這篇文章是@fengyoung 在Facebook上分享的,覺得題目很有意思就看了一遍,看完后感覺很有啟發(fā),遂決定翻譯一下讓更多人看到。
這篇文章給我的啟發(fā)有三方面:
1. 從YouTube平臺(tái)的算法設(shè)計(jì)人員角度,設(shè)計(jì)繁多的推薦算法,是為了提高頻道的觀看時(shí)長,而提高頻道的觀看時(shí)長又是為了讓用戶能夠經(jīng)常訪問平臺(tái)。這是一種雙贏的思維,說白了:誰能幫平臺(tái)留住用戶,平臺(tái)就重點(diǎn)扶持他。
2. 文章得出結(jié)論,要做垂直內(nèi)容才能在YouTube上活下去。平臺(tái)上內(nèi)容越多樣,平臺(tái)越健康,這是毋庸置疑的,盡管我贊同這個(gè)結(jié)論,但是我沒有在本文中看到作者是如何得到這個(gè)結(jié)論的。這一點(diǎn)就是YouTube和國內(nèi)視頻平臺(tái)***的差別,國內(nèi)的視頻平臺(tái)嚴(yán)重趨同,花高價(jià)購買獨(dú)家版權(quán)似乎是國內(nèi)視頻平臺(tái)的唯一出路,也是一個(gè)妖魔化的出路,反觀YouTube,他們利用算法驅(qū)使了各個(gè)頻道專耕某一個(gè)垂直內(nèi)容,然后把最適合的用戶給你匹配上,這才是更宏大的一盤內(nèi)容棋。
3. 本文作者給我們了一個(gè)啟示,算法并不是黑盒子,是可以hack的,盡管這個(gè)也只能hack到冰山一角,但是也比我們盲目地運(yùn)營要明亮很多了。作者的研究方式,首先是明確了一個(gè)平臺(tái)的算法目標(biāo)是什么,YouTube是watch time,那么就去觀察這個(gè)目標(biāo)和哪些指標(biāo)有關(guān),進(jìn)一步看到每個(gè)指標(biāo)又能怎么提高。