偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<table id="tfaw1"></table>

<u id="tfaw1"></u>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

vivo 短視頻推薦去重服務(wù)的設(shè)計(jì)實(shí)踐

作者：Zhang Wei 2022-03-31 11:18:00

運(yùn)維開(kāi)發(fā)

本文主要介紹短視頻基于布隆過(guò)濾器構(gòu)建推薦去重服務(wù)的設(shè)計(jì)與思考，從問(wèn)題出發(fā)逐步設(shè)計(jì)和優(yōu)化方案

一、概述

1.1 業(yè)務(wù)背景

vivo短視頻在視頻推薦時(shí)需要對(duì)用戶已經(jīng)看過(guò)的視頻進(jìn)行過(guò)濾去重，避免給用戶重復(fù)推薦同一個(gè)視頻影響體驗(yàn)。在一次推薦請(qǐng)求處理流程中，會(huì)基于用戶興趣進(jìn)行視頻召回，大約召回2000~10000條不等的視頻，然后進(jìn)行視頻去重，過(guò)濾用戶已經(jīng)看過(guò)的視頻，僅保留用戶未觀看過(guò)的視頻進(jìn)行排序，選取得分高的視頻下發(fā)給用戶。

1.2 當(dāng)前現(xiàn)狀

當(dāng)前推薦去重基于Redis Zset實(shí)現(xiàn)，服務(wù)端將播放埋點(diǎn)上報(bào)的視頻和下發(fā)給客戶端的視頻分別以不同的Key寫入Redis ZSet，推薦算法在視頻召回后直接讀取Redis里對(duì)應(yīng)用戶的播放和下發(fā)記錄（整個(gè)ZSet），基于內(nèi)存中的Set結(jié)構(gòu)實(shí)現(xiàn)去重，即判斷當(dāng)前召回視頻是否已存在下發(fā)或播放視頻Set中，大致的流程如圖1所示。

（圖1：短視頻去重當(dāng)前現(xiàn)狀）

視頻去重本身是基于用戶實(shí)際觀看過(guò)的視頻進(jìn)行過(guò)濾，但考慮到實(shí)際觀看的視頻是通過(guò)客戶端埋點(diǎn)上報(bào)，存在一定的時(shí)延，因此服務(wù)端會(huì)保存用戶最近100條下發(fā)記錄用于去重，這樣就保證了即使客戶端埋點(diǎn)還未上報(bào)上來(lái)，也不會(huì)給用戶推薦了已經(jīng)看過(guò)的視頻（即重復(fù)推薦）。而下發(fā)給用戶的視頻并不一定會(huì)被曝光，因此僅保存100條，使得未被用戶觀看的視頻在100條下發(fā)記錄之后仍然可以繼續(xù)推薦。

當(dāng)前方案主要問(wèn)題是占用Redis內(nèi)存非常大，因?yàn)橐曨lID是以原始字符串形式存在Redis Zset中，為了控制內(nèi)存占用并且保證讀寫性能，我們對(duì)每個(gè)用戶的播放記錄最大長(zhǎng)度進(jìn)行了限制，當(dāng)前限制單用戶最大存儲(chǔ)長(zhǎng)度為10000，但這會(huì)影響重度用戶產(chǎn)品體驗(yàn)。

二、方案調(diào)研

2.1 主流方案

第一，存儲(chǔ)形式。視頻去重場(chǎng)景是典型的只需要判斷是否存在即可，因此并不需要把原始的視頻ID存儲(chǔ)下來(lái)，目前比較常用的方案是使用布隆過(guò)濾器存儲(chǔ)視頻的多個(gè)Hash值，可降低存儲(chǔ)空間數(shù)倍甚至十幾倍。

第二，存儲(chǔ)介質(zhì)。如果要支持存儲(chǔ)90天（三個(gè)月）播放記錄，而不是當(dāng)前粗暴地限制最大存儲(chǔ)10000條，那么需要的Redis存儲(chǔ)容量非常大。比如，按照5000萬(wàn)用戶，平均單用戶90天播放10000條視頻，每個(gè)視頻ID占內(nèi)存25B，共計(jì)需要12.5TB。視頻去重最終會(huì)讀取到內(nèi)存中完成，可以考慮犧牲一些讀取性能換取更大的存儲(chǔ)空間。而且，當(dāng)前使用的Redis未進(jìn)行持久化，如果出現(xiàn)Redis故障會(huì)造成數(shù)據(jù)丟失，且很難恢復(fù)（因數(shù)據(jù)量大，恢復(fù)時(shí)間會(huì)很長(zhǎng)）。

目前業(yè)界比較常用的方案是使用磁盤KV（一般底層基于RocksDB實(shí)現(xiàn)持久化存儲(chǔ)，硬盤使用SSD），讀寫性能相比Redis稍遜色，但是相比內(nèi)存而言，磁盤在容量上的優(yōu)勢(shì)非常明顯。

2.2 技術(shù)選型

第一，播放記錄。因需要支持至少三個(gè)月的播放歷史記錄，因此選用布隆過(guò)濾器存儲(chǔ)用戶觀看過(guò)的視頻記錄，這樣相比存儲(chǔ)原始視頻ID，空間占用上會(huì)極大壓縮。我們按照5000萬(wàn)用戶來(lái)設(shè)計(jì)，如果使用Redis來(lái)存儲(chǔ)布隆過(guò)濾器形式的播放記錄，也將是TB級(jí)別以上的數(shù)據(jù)，考慮到我們最終在主機(jī)本地內(nèi)存中執(zhí)行過(guò)濾操作，因此可以接受稍微低一點(diǎn)的讀取性能，選用磁盤KV持久化存儲(chǔ)布隆過(guò)濾器形式的播放記錄。

第二，下發(fā)記錄。因只需存儲(chǔ)100條下發(fā)視頻記錄，整體的數(shù)據(jù)量不大，而且考慮到要對(duì)100條之前的數(shù)據(jù)淘汰，仍然使用Redis存儲(chǔ)最近100條的下發(fā)記錄。

三、方案設(shè)計(jì)

基于如上的技術(shù)選型，我們計(jì)劃新增統(tǒng)一去重服務(wù)來(lái)支持寫入下發(fā)和播放記錄、根據(jù)下發(fā)和播放記錄實(shí)現(xiàn)視頻去重等功能。其中，重點(diǎn)要考慮的就是接收到播放埋點(diǎn)以后將其存入布隆過(guò)濾器。在收到播放埋點(diǎn)以后，以布隆過(guò)濾器形式寫入磁盤KV需要經(jīng)過(guò)三步，如圖2所示：第一，讀取并反序列化布隆過(guò)濾器，如布隆過(guò)濾器不存在則需創(chuàng)建布隆過(guò)濾器；第二，將播放視頻ID更新到布隆過(guò)濾器中；第三，將更新后的布隆過(guò)濾器序列化并回寫到磁盤KV中。

（圖2：統(tǒng)一去重服務(wù)主要步驟）

整個(gè)過(guò)程很清晰，但是考慮到需要支持千萬(wàn)級(jí)用戶量，假設(shè)按照5000萬(wàn)用戶目標(biāo)設(shè)計(jì)，我們還需要考慮四個(gè)問(wèn)題：

第一，視頻按刷次下發(fā)（一刷5~10條視頻），而播放埋點(diǎn)按照視頻粒度上報(bào)，那么就視頻推薦消重而言，數(shù)據(jù)的寫入QPS比讀取更高，然而，相比Redis磁盤KV的性能要遜色，磁盤KV本身的寫性能比讀性能低，要支持5000萬(wàn)用戶量級(jí)，那么如何實(shí)現(xiàn)布隆過(guò)濾器寫入磁盤KV是一個(gè)要考慮的重要問(wèn)題。
第二，由于布隆過(guò)濾器不支持刪除，超過(guò)一定時(shí)間的數(shù)據(jù)需要過(guò)期淘汰，否則不再使用的數(shù)據(jù)將會(huì)一直占用存儲(chǔ)資源，那么如何實(shí)現(xiàn)布隆過(guò)濾器過(guò)期淘汰也是一個(gè)要考慮的重要問(wèn)題。
第三，服務(wù)端和算法當(dāng)前直接通過(guò)Redis交互，我們希望構(gòu)建統(tǒng)一去重服務(wù)，算法調(diào)用該服務(wù)來(lái)實(shí)現(xiàn)過(guò)濾已看視頻，而服務(wù)端基于Java技術(shù)棧，算法基于C++技術(shù)棧，那么需要在Java技術(shù)棧中提供服務(wù)給C++技術(shù)棧調(diào)用。我們最終采用gRPC提供接口給算法調(diào)用，注冊(cè)中心采用了Consul，該部分非重點(diǎn)，就不詳細(xì)展開(kāi)闡述。
第四，切換到新方案后我們希望將之前存儲(chǔ)在Redis ZSet中的播放記錄遷移到布隆過(guò)濾器，做到平滑升級(jí)以保證用戶體驗(yàn)，那么設(shè)計(jì)遷移方案也是要考慮的重要問(wèn)題。

3.1 整體流程

統(tǒng)一去重服務(wù)的整體流程及其與上下游之間的交互如圖3所示。服務(wù)端在下發(fā)視頻的時(shí)候，將當(dāng)次下發(fā)記錄通過(guò)統(tǒng)一去重服務(wù)的Dubbo接口保存到Redis下發(fā)記錄對(duì)應(yīng)的Key下，使用Dubbo接口可以確保立即將下發(fā)記錄寫入。同時(shí)，監(jiān)聽(tīng)視頻播放埋點(diǎn)并將其以布隆過(guò)濾器形式存放到磁盤KV中，考慮到性能我們采用了批量寫入方案，具體下文詳述。統(tǒng)一去重服務(wù)提供RPC接口供推薦算法調(diào)用，實(shí)現(xiàn)對(duì)召回視頻過(guò)濾掉用戶已觀看的視頻。

（圖3：統(tǒng)一去重服務(wù)整體流程）

磁盤KV寫性能相比讀性能差很多，尤其是在Value比較大的情況下寫QPS會(huì)更差，考慮日活千萬(wàn)級(jí)情況下磁盤KV寫性能沒(méi)法滿足直接寫入要求，因此需要設(shè)計(jì)寫流量匯聚方案，即將一段時(shí)間以內(nèi)同一個(gè)用戶的播放記錄匯聚起來(lái)一次寫入，這樣就大大降低寫入頻率，降低對(duì)磁盤KV的寫壓力。

3.2 流量匯聚

為了實(shí)現(xiàn)寫流量匯聚，我們需要將播放視頻先暫存在Redis匯聚起來(lái)，然后隔一段時(shí)間將暫存的視頻生成布隆過(guò)濾器寫入磁盤KV中保存，具體而言我們考慮過(guò)N分鐘僅寫入一次和定時(shí)任務(wù)批量寫入兩種方式。接下來(lái)詳細(xì)闡述我們?cè)诹髁繀R聚和布隆過(guò)濾器寫入方面的設(shè)計(jì)和考慮。

3.2.1 近實(shí)時(shí)寫入

監(jiān)聽(tīng)到客戶端上報(bào)的播放埋點(diǎn)后，原本應(yīng)該直接將其更新到布隆過(guò)濾器并保存到磁盤KV，但是考慮到降低寫頻率，我們只能將播放的視頻ID先保存到Redis中，N分鐘內(nèi)僅統(tǒng)一寫一次磁盤KV，這種方案姑且稱之為近實(shí)時(shí)寫入方案吧。

最樸素的想法是每次寫的時(shí)候，在Redis中保存一個(gè)Value，N分鐘以后失效，每次監(jiān)聽(tīng)到播放埋點(diǎn)以后判斷這個(gè)Value是否存在，如果存在則表示N分鐘內(nèi)已經(jīng)寫過(guò)一次磁盤KV本次不寫，否則執(zhí)行寫磁盤KV操作。這樣的考慮主要是在數(shù)據(jù)產(chǎn)生時(shí)，先不要立即寫入，等N分鐘匯聚一小批流量之后再寫入。這個(gè)Value就像一把“鎖”，保護(hù)磁盤KV每隔N分鐘僅被寫入一次，如圖4所示，如果當(dāng)前為已加鎖狀態(tài)，再進(jìn)行加鎖會(huì)失敗，可保護(hù)在加鎖期間磁盤KV不被寫入。從埋點(diǎn)數(shù)據(jù)流來(lái)看，原本連續(xù)不斷的數(shù)據(jù)流，經(jīng)過(guò)這把“鎖”就變成了每隔N分鐘一批的微批量數(shù)據(jù)，從而實(shí)現(xiàn)流量匯聚，并降低磁盤KV的寫壓力。

（圖4：近實(shí)時(shí)寫入方案）

近實(shí)時(shí)寫入的出發(fā)點(diǎn)很單純，優(yōu)勢(shì)也很明顯，可以近實(shí)時(shí)地將播放埋點(diǎn)中的視頻ID寫入到布隆過(guò)濾器中，而且時(shí)間比較短（N分鐘），可以避免Redis Zset中暫存的數(shù)據(jù)過(guò)長(zhǎng)。但是，仔細(xì)分析還需要考慮很多特殊的場(chǎng)景，主要如下：

第一，Redis中保存一個(gè)Value其實(shí)相當(dāng)于一個(gè)分布式鎖，實(shí)際上很難保證這把“鎖”是絕對(duì)安全的，因此可能會(huì)存在兩次收到播放埋點(diǎn)均認(rèn)為可以進(jìn)行磁盤KV寫操作，但這兩次讀到的暫存數(shù)據(jù)不一定一樣，由于磁盤KV不支持布隆過(guò)濾器結(jié)構(gòu)，寫入操作需要先從磁盤KV中讀出當(dāng)前的布隆過(guò)濾器，然后將需要寫入的視頻ID更新到該布隆過(guò)濾器，最后再寫回到磁盤KV，這樣的話，寫入磁盤KV后就有可能存在數(shù)據(jù)丟失。

第二，最后一個(gè)N分鐘的數(shù)據(jù)需要等到用戶下次再使用的時(shí)候才能通過(guò)播放埋點(diǎn)觸發(fā)寫入磁盤KV，如果有大量不活躍的用戶，那么就會(huì)存在大量暫存數(shù)據(jù)遺留在Redis中占用空間。此時(shí)，如果再采用定時(shí)任務(wù)來(lái)將這部分?jǐn)?shù)據(jù)寫入到磁盤KV，那么也會(huì)很容易出現(xiàn)第一種場(chǎng)景中的并發(fā)寫數(shù)據(jù)丟失問(wèn)題。

如此看來(lái)，近實(shí)時(shí)寫入方案雖然出發(fā)點(diǎn)很直接，但是仔細(xì)想來(lái)，越來(lái)越復(fù)雜，只能另尋其他方案。

3.2.2 批量寫入

既然近實(shí)時(shí)寫入方案復(fù)雜，那不妨考慮簡(jiǎn)單的方案，通過(guò)定時(shí)任務(wù)批量將暫存的數(shù)據(jù)寫入到磁盤KV中。我們將待寫的數(shù)據(jù)標(biāo)記出來(lái)，假設(shè)我們每小時(shí)寫入一次，那么我們就可以把暫存數(shù)據(jù)以小時(shí)值標(biāo)記。但是，考慮到定時(shí)任務(wù)難免可能會(huì)執(zhí)行失敗，我們需要有補(bǔ)償措施，常見(jiàn)的方案是每次執(zhí)行任務(wù)的時(shí)候，都在往前多1~2個(gè)小時(shí)的數(shù)據(jù)上執(zhí)行任務(wù)，以作補(bǔ)償。但是，明顯這樣的方案并不夠優(yōu)雅，我們從時(shí)間輪得到啟發(fā)，并基于此設(shè)計(jì)了布隆過(guò)濾器批量寫入的方案。

我們將小時(shí)值首尾相連，從而得到一個(gè)環(huán)，并且將對(duì)應(yīng)的數(shù)據(jù)存在該小時(shí)值標(biāo)識(shí)的地方，那么同一小時(shí)值（比如每天11點(diǎn)）的數(shù)據(jù)是存在一起的，如果今天的數(shù)據(jù)因任務(wù)未執(zhí)行或執(zhí)行失敗未同步到磁盤KV，那么在第二天將會(huì)得到一次補(bǔ)償。

順著這個(gè)思路，我們可以將小時(shí)值對(duì)某個(gè)值取模以進(jìn)一步縮短兩次補(bǔ)償?shù)臅r(shí)間間隔，比如圖5所示對(duì)8取模，可見(jiàn)1:00~2:00和9:00~10:00的數(shù)據(jù)都會(huì)落在圖中時(shí)間環(huán)上的點(diǎn)1標(biāo)識(shí)的待寫入數(shù)據(jù)，過(guò)8個(gè)小時(shí)將會(huì)得到一次補(bǔ)償?shù)臋C(jī)會(huì)，也就是說(shuō)這個(gè)取模的值就是補(bǔ)償?shù)臅r(shí)間間隔。

（圖5：批量寫入方案）

那么，我們應(yīng)該將補(bǔ)償時(shí)間間隔設(shè)置為多少呢？這是一個(gè)值得思考的問(wèn)題，這個(gè)值的選取會(huì)影響到待寫入數(shù)據(jù)在環(huán)上的分布。我們的業(yè)務(wù)一般都會(huì)有忙時(shí)、閑時(shí)，忙時(shí)的數(shù)據(jù)量會(huì)更大，根據(jù)短視頻忙閑時(shí)特點(diǎn)，最終我們將補(bǔ)償間隔設(shè)置為6，這樣業(yè)務(wù)忙時(shí)比較均勻地落在環(huán)上的各個(gè)點(diǎn)。

確定了補(bǔ)償時(shí)間間隔以后，我們覺(jué)得6個(gè)小時(shí)補(bǔ)償還是太長(zhǎng)了，因?yàn)橛脩粼?個(gè)小時(shí)內(nèi)有可能會(huì)看過(guò)大量的視頻，如果不及時(shí)將數(shù)據(jù)同步到磁盤KV，會(huì)占用大量Redis內(nèi)存，而且我們使用Redis ZSet暫存用戶播放記錄，過(guò)長(zhǎng)的話會(huì)嚴(yán)重影響性能。于是，我們?cè)O(shè)計(jì)每個(gè)小時(shí)增加一次定時(shí)任務(wù)，第二次任務(wù)對(duì)第一次任務(wù)補(bǔ)償，如果第二次任務(wù)仍然沒(méi)有補(bǔ)償成功，那么經(jīng)過(guò)一圈以后，還可以得到再次補(bǔ)償（兜底）。

細(xì)心一點(diǎn)應(yīng)該會(huì)發(fā)現(xiàn)在圖5中的“待寫入數(shù)據(jù)”和定時(shí)任務(wù)并不是分布在環(huán)上的同一個(gè)點(diǎn)的，我們這樣設(shè)計(jì)的考慮是希望方案更簡(jiǎn)單，定時(shí)任務(wù)只會(huì)去操作已經(jīng)不再變化的數(shù)據(jù)，這樣就能避免并發(fā)操作問(wèn)題。就像Java虛擬機(jī)中垃圾回收一樣，我們不能一邊回收垃圾，一邊卻還在同一間屋子里扔著垃圾。所以，設(shè)計(jì)成環(huán)上節(jié)點(diǎn)對(duì)應(yīng)定時(shí)任務(wù)只去處理前一個(gè)節(jié)點(diǎn)上的數(shù)據(jù)，以確保不會(huì)產(chǎn)生并發(fā)沖突，使方案保持簡(jiǎn)單。

批量寫入方案簡(jiǎn)單且不存在并發(fā)問(wèn)題，但是在Redis Zset需要保存一個(gè)小時(shí)的數(shù)據(jù)，可能會(huì)超過(guò)最大長(zhǎng)度，但是考慮到現(xiàn)實(shí)中一般用戶一小時(shí)內(nèi)不會(huì)播放非常大量的視頻，這一點(diǎn)是可以接受的。最終，我們選擇了批量寫入方案，其簡(jiǎn)單、優(yōu)雅、高效，在此基礎(chǔ)上，我們需要繼續(xù)設(shè)計(jì)暫存大量用戶的播放視頻ID方案。

3.3 數(shù)據(jù)分片

為了支持5000萬(wàn)日活量級(jí)，我們需要為定時(shí)批量寫入方案設(shè)計(jì)對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)分片方式。首先，我們依然需要將播放視頻列表存放在Redis Zset，因?yàn)樵跊](méi)寫入布隆過(guò)濾器之前，我們需要用這份數(shù)據(jù)過(guò)濾用戶已觀看過(guò)的視頻。正如前文提到過(guò)，我們會(huì)暫存一個(gè)小時(shí)的數(shù)據(jù)，正常一個(gè)用戶一個(gè)小時(shí)內(nèi)不會(huì)播放超過(guò)一萬(wàn)條數(shù)據(jù)的，所以一般來(lái)說(shuō)是沒(méi)有問(wèn)題的。除了視頻ID本身以外，我們還需要保存這個(gè)小時(shí)到底有哪些用戶產(chǎn)生過(guò)播放數(shù)據(jù)，否則定時(shí)任務(wù)不知道要將哪些用戶的播放記錄寫入布隆過(guò)濾器，存儲(chǔ)5000萬(wàn)用戶的話就需要進(jìn)行數(shù)據(jù)分片。

結(jié)合批量同步部分介紹的時(shí)間環(huán)，我們?cè)O(shè)計(jì)了如圖6所示的數(shù)據(jù)分片方案，將5000萬(wàn)的用戶Hash到5000個(gè)Set中，這樣每個(gè)Set最多保存1萬(wàn)個(gè)用戶ID，不至于影響Set的性能。同時(shí)，時(shí)間環(huán)上的每個(gè)節(jié)點(diǎn)都按照這個(gè)的分片方式保存數(shù)據(jù)，將其展開(kāi)就如同圖6下半部分所示，以played:user:${時(shí)間節(jié)點(diǎn)編號(hào)}:${用戶Hash值}為Key保存某個(gè)時(shí)間節(jié)點(diǎn)某個(gè)分片下所有產(chǎn)生了播放數(shù)據(jù)的用戶ID。

（圖6：數(shù)據(jù)分片方案）

對(duì)應(yīng)地，我們的定時(shí)任務(wù)也要進(jìn)行分片，每個(gè)任務(wù)分片負(fù)責(zé)處理一定數(shù)目的數(shù)據(jù)分片。否則，如果兩者一一對(duì)應(yīng)的話，將分布式定時(shí)任務(wù)分成5000個(gè)分片，雖然對(duì)于失敗重試是更好的，但是對(duì)于任務(wù)調(diào)度來(lái)說(shuō)會(huì)存在壓力，實(shí)際上公司的定時(shí)任務(wù)也不支持5000分分片。我們將定時(shí)任務(wù)分為了50個(gè)分片，任務(wù)分片0負(fù)責(zé)處理數(shù)據(jù)分片0~100，任務(wù)分片1負(fù)責(zé)處理數(shù)據(jù)分片100~199，以此類推。

3.4 數(shù)據(jù)淘汰

對(duì)于短視頻推薦去重業(yè)務(wù)場(chǎng)景，我們一般保證讓用戶在看過(guò)某條視頻后三個(gè)月內(nèi)不會(huì)再向該用戶推薦這條視頻，因此就涉及到過(guò)期數(shù)據(jù)淘汰問(wèn)題。布隆過(guò)濾器不支持刪除操作，因此我們將用戶的播放歷史記錄添加到布隆過(guò)濾器以后，按月存儲(chǔ)并設(shè)置相應(yīng)的過(guò)期時(shí)間，如圖7所示，目前過(guò)期時(shí)間設(shè)置為6個(gè)月。在數(shù)據(jù)讀取的時(shí)候，根據(jù)當(dāng)前時(shí)間選擇讀取最近4個(gè)月數(shù)據(jù)用于去重。之所以需要讀取4個(gè)月的數(shù)據(jù)，是因?yàn)楫?dāng)月數(shù)據(jù)未滿一個(gè)月，為了保證三個(gè)月內(nèi)不會(huì)再向用戶重復(fù)推薦，需要讀取三個(gè)完整月和當(dāng)月數(shù)據(jù)。

（圖7：數(shù)據(jù)淘汰方案）

對(duì)于數(shù)據(jù)過(guò)期時(shí)間的設(shè)置我們也進(jìn)行了精心考慮，數(shù)據(jù)按月存儲(chǔ)，因此新數(shù)據(jù)產(chǎn)生時(shí)間一般在月初，如果僅將過(guò)期時(shí)間設(shè)置為6個(gè)月以后，那么會(huì)造成月初不僅產(chǎn)生大量新數(shù)據(jù)，也需要淘汰大量老數(shù)據(jù)，對(duì)數(shù)據(jù)庫(kù)系統(tǒng)造成壓力。所以，我們將過(guò)期時(shí)間進(jìn)行了打散，首先隨機(jī)到6個(gè)月后的那個(gè)月任意一天，其次我們將過(guò)期時(shí)間設(shè)置在業(yè)務(wù)閑時(shí)，比如：00:00~05:00，以此來(lái)降低數(shù)據(jù)庫(kù)清理時(shí)對(duì)系統(tǒng)的壓力。

3.5 方案小結(jié)

通過(guò)綜合上述流量匯聚、數(shù)據(jù)分片和數(shù)據(jù)淘汰三部分設(shè)計(jì)方案，整體的設(shè)計(jì)方案如圖8所示，從左至右播放埋點(diǎn)數(shù)據(jù)依次從數(shù)據(jù)源Kafka流向Redis暫存，最終流向磁盤KV持久化。

（圖8：整體方案流程）

首先，從Kafka播放埋點(diǎn)監(jiān)聽(tīng)到數(shù)據(jù)以后，我們根據(jù)用戶ID將該條視頻追加到用戶對(duì)應(yīng)的播放歷史中暫存，同時(shí)根據(jù)當(dāng)前時(shí)間和用戶ID的Hash值確定對(duì)應(yīng)時(shí)間環(huán)，并將用戶ID保存到該時(shí)間環(huán)對(duì)應(yīng)的用戶列表中。然后，每個(gè)分布式定時(shí)任務(wù)分片去獲取上一個(gè)時(shí)間環(huán)的播放用戶數(shù)據(jù)分片，再獲取用戶的播放記錄更新到讀出的布隆過(guò)濾器，最后將布隆顧慮其序列化后寫入磁盤KV中。

四、數(shù)據(jù)遷移

為了實(shí)現(xiàn)從當(dāng)前基于Redis ZSet去重平滑遷移到基于布隆過(guò)濾器去重，我們需要將統(tǒng)一去重服務(wù)上線前用戶產(chǎn)生的播放記錄遷移過(guò)來(lái)，以保證用戶體驗(yàn)不受影響，我們?cè)O(shè)計(jì)和嘗試了兩種方案，經(jīng)過(guò)對(duì)比和改進(jìn)形成了最終方案。

我們已經(jīng)實(shí)現(xiàn)了批量將播放記錄原始數(shù)據(jù)生成布隆過(guò)濾器存儲(chǔ)到磁盤KV中，因此，遷移方案只需要考慮將存儲(chǔ)在原來(lái)Redis中的歷史數(shù)據(jù)（去重服務(wù)上線前產(chǎn)生）遷移到新的Redis中即可，接下來(lái)就交由定時(shí)任務(wù)完成即可，方案如圖9所示。用戶在統(tǒng)一去重服務(wù)上線后新產(chǎn)生的增量數(shù)據(jù)通過(guò)監(jiān)聽(tīng)播放埋點(diǎn)寫入，新老數(shù)據(jù)雙寫，以便需要時(shí)可以降級(jí)。

（圖9：遷移方案一）

但是，我們忽略了兩個(gè)問(wèn)題：第一，新的Redis僅用作暫存，因此比老的Redis容量小很多，沒(méi)法一次性將數(shù)據(jù)遷移過(guò)去，需要分多批遷移；第二，遷移到新的Redis后的存儲(chǔ)格式和老的Redis不一樣，除了播放視頻列表，還需要播放用戶列表，咨詢DBA得知這樣遷移比較難實(shí)現(xiàn)。

既然遷移數(shù)據(jù)比較麻煩，我們就考慮能不能不遷移數(shù)據(jù)呢，在去重的時(shí)候判斷該用戶是否已遷移，如未遷移則同時(shí)讀取一份老數(shù)據(jù)一起用于去重過(guò)濾，并觸發(fā)將該用戶的老數(shù)據(jù)遷移到新Redis（含寫入播放用戶列表），三個(gè)月以后，老數(shù)據(jù)已可過(guò)期淘汰，此時(shí)就完成了數(shù)據(jù)遷移，如圖10所示。這個(gè)遷移方案解決了新老Redis數(shù)據(jù)格式不一致遷移難的問(wèn)題，而且是用戶請(qǐng)求時(shí)觸發(fā)遷移，也避免了一次性遷移數(shù)據(jù)對(duì)新Redis容量要求，同時(shí)還可以做到精確遷移，僅遷移了三個(gè)月內(nèi)需要遷移數(shù)據(jù)的用戶。

（圖10：遷移方案二）

于是，我們按照方案二進(jìn)行了數(shù)據(jù)遷移，在上線測(cè)試的時(shí)候，發(fā)現(xiàn)由于用戶首次請(qǐng)求的時(shí)候需要去遷移老的數(shù)據(jù)，造成去重接口耗時(shí)不穩(wěn)定，而視頻去重作為視頻推薦重要環(huán)節(jié)，對(duì)于耗時(shí)比較敏感，所以就不得不繼續(xù)思考新的遷移方案。我們注意到，在定時(shí)批量生成布隆過(guò)濾器的時(shí)候，讀取到時(shí)間環(huán)對(duì)應(yīng)的播放用戶列表后，根據(jù)用戶ID獲取播放視頻列表，然后生成布隆過(guò)濾器保存到磁盤KV，此時(shí)，我們只需要增加一個(gè)從老Redis讀取用戶的歷史播放記錄即可把歷史數(shù)據(jù)遷移過(guò)來(lái)。為了觸發(fā)將某個(gè)用戶的播放記錄生成布隆過(guò)濾器的過(guò)程，我們需要將用戶ID保存到時(shí)間環(huán)上對(duì)應(yīng)的播放用戶列表，最終方案如圖11所示。

（圖11：最終遷移方案）

首先，DBA幫助我們把老Redis中播放記錄的Key（含有用戶ID）都掃描出來(lái)，通過(guò)文件導(dǎo)出；然后，我們通過(guò)大數(shù)據(jù)平臺(tái)將導(dǎo)出的文件導(dǎo)入到Kafka，啟用消費(fèi)者監(jiān)聽(tīng)并消費(fèi)文件中的數(shù)據(jù)，解析后將其寫入到當(dāng)前時(shí)間環(huán)對(duì)應(yīng)的播放用戶列表。接下來(lái)，分布式批量任務(wù)在讀取到播放用戶列表中的某個(gè)用戶后，如果該用戶未遷移數(shù)據(jù)，則從老Redis讀取歷史播放記錄，并和新的播放記錄一起更新到布隆過(guò)濾器并存入磁盤KV。

五、小結(jié)

本文主要介紹短視頻基于布隆過(guò)濾器構(gòu)建推薦去重服務(wù)的設(shè)計(jì)與思考，從問(wèn)題出發(fā)逐步設(shè)計(jì)和優(yōu)化方案，力求簡(jiǎn)單、完美、優(yōu)雅，希望能對(duì)讀者有參考和借鑒價(jià)值。由于文章篇幅有限，有些方面未涉及，也有很多技術(shù)細(xì)節(jié)未詳細(xì)闡述，如有疑問(wèn)歡迎繼續(xù)交流。

責(zé)任編輯：張燕妮來(lái)源： vivo互聯(lián)網(wǎng)技術(shù)

數(shù)據(jù)運(yùn)維短視頻

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<ruby id="rjdry"><font id="rjdry"></font></ruby>