偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<tr id="onypu"><dfn id="onypu"></dfn></tr>

<table id="onypu"><optgroup id="onypu"></optgroup></table>

<meter id="onypu"></meter>

<ol id="onypu"></ol>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

嗶哩嗶哩超大規(guī)模視頻查重算法與工程優(yōu)化實(shí)踐

作者：人工智能平臺(tái)部 2023-04-26 00:59:49

開發(fā) 項(xiàng)目管理

本項(xiàng)目歷時(shí)兩年多，對(duì)比2020年時(shí)的baseline，撞車視頻打回量提升約7.5倍，召回率提升約3.75倍，提示量上升至基線的1.7倍，業(yè)務(wù)準(zhǔn)確率為基線的2.2倍，模型準(zhǔn)確率約為88%。人審發(fā)現(xiàn)的機(jī)審漏召從日均65個(gè)降低至日均5個(gè)，為基線的十三分之一。

一、需求背景

當(dāng)前站內(nèi)存在一定比例的UP主投稿重復(fù)、低編輯度的低創(chuàng)視頻投稿的情況。低編輯度重復(fù)投稿表現(xiàn)為，相同或不同視頻作者對(duì)同一視頻素材進(jìn)行黑邊、裁剪、渣清、模板、錄屏、變形、濾鏡、模糊填充等不影響內(nèi)容實(shí)質(zhì)的編輯后進(jìn)行反復(fù)投稿，如下圖所示。

圖1：同樣的畫面與文字內(nèi)容，套用不同模板。

圖2：模糊填補(bǔ)、視頻水印、播放器錄屏、

黑邊填補(bǔ)多重嵌套。

圖3：直播錄屏+水印+黑邊多重嵌套。

圖4：包含滑動(dòng)彈幕、super chat和直播間樣式的具有

復(fù)雜干擾的直播間錄屏。

圖5：黑邊+白邊。

同質(zhì)內(nèi)容的重復(fù)投稿加重了安全與社區(qū)審核的負(fù)擔(dān)，影響了流量分配的公平性，同場景同屏或不同刷展現(xiàn)多個(gè)相同內(nèi)容稿件降低了用戶的使用體驗(yàn)，并且增加了其他任務(wù)的機(jī)器成本。因此，我們需要引入一套能夠支持B站現(xiàn)有超大規(guī)模視頻量級(jí)的視頻檢索系統(tǒng)（下稱撞車系統(tǒng)），對(duì)所有新增視頻，在所有歷史視頻庫中進(jìn)行查重匹配，對(duì)低編輯度的視頻進(jìn)行識(shí)別，并對(duì)撞車視頻向?qū)徍巳藛T給出源視頻的提示，通過該系統(tǒng)對(duì)原創(chuàng)作者的權(quán)益進(jìn)行保護(hù)。

本文將重點(diǎn)圍繞算法架構(gòu)優(yōu)化（準(zhǔn)召、效果提升）和工程性能加速優(yōu)化（降本增效）兩方面進(jìn)行抽象與闡述，忽略不對(duì)機(jī)器性能、資源占用起明顯作用的傳統(tǒng)工程架構(gòu)設(shè)計(jì)。我們認(rèn)為體現(xiàn)內(nèi)容原創(chuàng)度的本質(zhì)在于視頻畫面與音軌，因此本文不對(duì)標(biāo)題、封面、簡介等額外信息作研討。

二、難點(diǎn)挑戰(zhàn)

視頻查重對(duì)模型的準(zhǔn)確率和召回率同時(shí)有著較高要求，準(zhǔn)確率低會(huì)影響審核對(duì)于撞車環(huán)節(jié)的人力時(shí)間成本投入，召回率低會(huì)增加推薦系統(tǒng)bad case反饋率。以下幾點(diǎn)為影響模型準(zhǔn)確率和召回率的重要因素：

1、缺乏符合B站視頻數(shù)據(jù)分布的，能表征不同編輯程度的圖像距離的預(yù)訓(xùn)練特征，這要求我們使用B站自己的數(shù)據(jù)對(duì)查重場景自研一整套特征提取模型的訓(xùn)練機(jī)制；

2、為了實(shí)現(xiàn)快速推理節(jié)約GPU需求，我們將輸入特征提取模型的分辨率設(shè)置為224*224，而B站低編輯度視頻中存在大量通過冗余區(qū)域增強(qiáng)來逃避撞車系統(tǒng)的視頻，這使核心區(qū)域占比過小，分辨率過低，嚴(yán)重影響判斷精度，這要求我們?cè)O(shè)計(jì)一套預(yù)處理算法，刨除冗余區(qū)域，提取可能為編輯源的畫面主體內(nèi)容；

3、全站底庫視頻量級(jí)大，而返回結(jié)果需要在720P每秒一幀視頻產(chǎn)生后的10秒內(nèi)獲取，這要求我們不能使用嚴(yán)格的逐幀匹配，而需要通過二階段策略，由一階段先粗篩召回部分候選集壓縮計(jì)算量，在二階段實(shí)現(xiàn)嚴(yán)格精準(zhǔn)的片段匹配。同時(shí)我們通過自研深度學(xué)習(xí)推理框架，對(duì)接硬件解碼SDK，GPU處理整個(gè)預(yù)處理流程，CUDA實(shí)現(xiàn)音頻特征提取等性能優(yōu)化手段，對(duì)各個(gè)階段進(jìn)行工程加速。經(jīng)過優(yōu)化后，目前超過96%的視頻能在審核進(jìn)入人審頁面后及時(shí)給到撞車的判斷結(jié)果。

三、整體架構(gòu)

我們將撞車系統(tǒng)設(shè)計(jì)為4個(gè)子系統(tǒng)：版權(quán)等下游子系統(tǒng)、撞車系統(tǒng)、超時(shí)兜底撞車系統(tǒng)、過濾模塊。

撞車系統(tǒng)：

為整個(gè)視頻查重系統(tǒng)的主系統(tǒng)。存儲(chǔ)所有B站歷史視頻的特征形成檢索庫，所有新上傳的視頻均需對(duì)歷史視頻庫進(jìn)行檢索與精確的匹配。該系統(tǒng)分為視頻預(yù)處理、特征提取、檢索庫粗篩視頻對(duì)、片段精確匹配與特征結(jié)果落盤這4項(xiàng)子流程，占用整個(gè)查重系統(tǒng)中最大的資源量，同時(shí)有著最好的準(zhǔn)確率與召回率。數(shù)據(jù)流交互過程如圖所示（紅色區(qū)塊），輸入720P每秒截一幀的視頻流，輸出所有落盤特征、實(shí)時(shí)更新的檢索庫索引與最終的匹配結(jié)果。

超時(shí)兜底撞車系統(tǒng)：

為撞車系統(tǒng)的附屬系統(tǒng)，擁有更輕量化的數(shù)據(jù)流和模型結(jié)構(gòu)，用較小的成本對(duì)主系統(tǒng)因工程超時(shí)導(dǎo)致的漏放進(jìn)行一定程度的補(bǔ)召回。輸入為視頻前5分鐘等間距30幀的快照截圖與從原始視頻抽取出的音頻流。

下游子系統(tǒng)：

應(yīng)用于版權(quán)、黑樣本庫等其他子業(yè)務(wù)中。與主系統(tǒng)的完整視頻庫互相獨(dú)立，庫更加輕量，不同子業(yè)務(wù)可以根據(jù)資源預(yù)算選擇不同級(jí)別的參數(shù)配置。

過濾模塊：

數(shù)據(jù)流引入稿件視頻信息，為業(yè)務(wù)方按需定制后處理過濾規(guī)則。

四、算法優(yōu)化

特征提取優(yōu)化：

撞車系統(tǒng)的特征提取分為圖像前處理策略、模型和訓(xùn)練方法。我們使用B站視頻幀數(shù)據(jù)通過自監(jiān)督的訓(xùn)練方式構(gòu)建了適合B站場景的能表征視頻編輯度距離的embedding提取器，設(shè)計(jì)了一套核心內(nèi)容框提取器，并在圖像對(duì)測試集上通過多種trick進(jìn)行迭代得到了最優(yōu)解。

圖像前處理策略用于優(yōu)化入庫圖像質(zhì)量。并不是所有的圖像都是優(yōu)質(zhì)圖像，低質(zhì)圖像入庫會(huì)對(duì)后續(xù)匹配環(huán)節(jié)帶來精度影響。對(duì)于特定的圖像，例如畫中畫情形，實(shí)際有效畫面在圖像的內(nèi)部，在圖像匹配時(shí)希望將有效部分裁剪出來進(jìn)行匹配。為此我們進(jìn)行了針對(duì)性的處理：用邊緣檢測的方法找出圖像中的明顯邊界，然后將所有邊界組合成一個(gè)矩形，將矩形內(nèi)部的圖片從原圖中裁剪出來。

模型的目標(biāo)是訓(xùn)練一個(gè)特征提取器，能夠?qū)⑾嗨茍D片的特征拉進(jìn)，不相似的特征拉遠(yuǎn)。特征提取器的網(wǎng)絡(luò)結(jié)構(gòu)是ResNet50。具體來說，訓(xùn)練模型需要標(biāo)注好的數(shù)據(jù)，而一般有兩種方法獲取帶標(biāo)注的數(shù)據(jù)，一種是自己人工標(biāo)注，另一種是尋找開源的數(shù)據(jù)集。這兩種方法都有各自的缺點(diǎn)：自己人工標(biāo)注需要花費(fèi)大量的標(biāo)注成本，開源數(shù)據(jù)集中的數(shù)據(jù)又和實(shí)際的業(yè)務(wù)場景相差較大導(dǎo)致遷移后不一定能有很好的效果。所以針對(duì)于訓(xùn)練特征提取器的問題，我們使用了自監(jiān)督的訓(xùn)練方式來訓(xùn)練模型，自監(jiān)督訓(xùn)練方式雖然也會(huì)用到標(biāo)注，但這個(gè)標(biāo)注不需要人為去標(biāo)，而是通過一些邏輯設(shè)計(jì)，自動(dòng)地生成這個(gè)標(biāo)注信息。

具體訓(xùn)練方法如上圖所示，首先準(zhǔn)備一系列圖片作為負(fù)樣本集，如第一行所示。這個(gè)負(fù)樣本集保持足夠大，并且隨著訓(xùn)練的過程動(dòng)態(tài)更新。然后輸入一張訓(xùn)練圖像和它的隨機(jī)數(shù)據(jù)增強(qiáng)，如二、三行所示。值得強(qiáng)調(diào)的是這個(gè)數(shù)據(jù)增強(qiáng)是模擬圖片常見的編輯方式，例如裁剪、翻轉(zhuǎn)、改變顏色、模糊等等，這兩張圖像可以認(rèn)為是正樣本對(duì)，也可以理解為兩張圖像相似。訓(xùn)練的過程中將上述提到的圖像通過卷積神經(jīng)網(wǎng)絡(luò)提取特征向量，兩張正樣本的特征需要接近，計(jì)算兩張圖像的余弦相似度得到 positive logits。同樣的，計(jì)算第二行圖像和第一行的負(fù)樣本特征的余弦相似度得到負(fù)樣本的 negative logits。將positive logits 和 negative logits拼接起來可以得到一個(gè)形狀為 1 × （1+k）的logits向量。而這個(gè)向量的含義我們是知道的：其中1是正樣本的相似度，k 為負(fù)樣本的相似度。只需要用長度（1+k）的label [1,0,0 ……,0,0]就可以約束，以交叉熵為loss就可以訓(xùn)練模型了。

在訓(xùn)練過程中，負(fù)樣本的隊(duì)列要一直動(dòng)態(tài)變化，否則模型見過的負(fù)樣本太少會(huì)影響效果，具體的實(shí)現(xiàn)方式是每訓(xùn)練一張圖像后，將這張圖像放入負(fù)樣本隊(duì)列的尾部，隊(duì)首的圖像出隊(duì)列，進(jìn)入圖像的不同：導(dǎo)致正負(fù)樣本的組合都不同。隨著訓(xùn)練圖像的增加，模型就可以學(xué)習(xí)什么樣的圖像相似，什么樣的圖像不相似。

為了提升模型的最終效果，在訓(xùn)練過程中也添加了些提升效果的技巧。例如添加數(shù)據(jù)增強(qiáng)的種類，使用大模型(ViT)作為teacher來蒸餾ResNet50等等，同時(shí)為了提升模型的推理速度，我們對(duì)模型進(jìn)行了量化。

為評(píng)估模型的特征提取效果，我們準(zhǔn)備了一批圖片對(duì)作為測試集，包含3萬組正負(fù)圖片對(duì)。測試方法是評(píng)估模型能不能將相似的圖片匹配上，將不相似的圖片區(qū)分出來。在模型迭代過程中，我們首先使用了開源的ImageNet作為baseline，后續(xù)做了MoCo、數(shù)據(jù)增強(qiáng) （Aug）、輕量ViT蒸餾ResNet50（ViT）、對(duì)ViT進(jìn)行8bit量化加速（Quantize）、大ViT蒸餾ResNet50（ViT_v2）等優(yōu)化，迭代效果逐步提升。

二階段匹配策略：

撞車系統(tǒng)設(shè)計(jì)了二階段匹配策略，即粗篩和精排。通過該匹配策略，我們能做到在10秒內(nèi)應(yīng)對(duì)數(shù)十億級(jí)向量檢索庫做完片段維度的匹配，達(dá)到96%的及時(shí)率。

在視頻粗篩任務(wù)中，對(duì)視頻指紋特征在歐氏距離上進(jìn)行K近鄰召回是一種廣泛應(yīng)用的篩選方案。隨著向量維度和數(shù)量的增加，直接進(jìn)行K近鄰搜索會(huì)引入極大的計(jì)算量和存儲(chǔ)消耗，造成系統(tǒng)性能瓶頸。近似近鄰檢索技術(shù)是一種處理大規(guī)模特征檢索任務(wù)的有效方案，利用倒排索引、特征量化等手段，在可控的精度損失下，可以獲取遠(yuǎn)優(yōu)于暴力檢索的計(jì)算速度和更小的向量存儲(chǔ)成本。在近似近鄰檢索時(shí)我們采取了積極的壓縮和過濾策略，使用100W+的倒排桶數(shù)量，采用PQ32的方式存儲(chǔ)向量。當(dāng)前總?cè)霂煲?guī)模超過十億級(jí)。

對(duì)版權(quán)視頻檢索業(yè)務(wù)，處理單個(gè)視頻的查詢?nèi)蝿?wù)時(shí)，對(duì)視頻中每幀圖像最相似的10個(gè)庫內(nèi)指紋進(jìn)行計(jì)數(shù)，可以篩選出指紋庫中相關(guān)度最高的5個(gè)視頻，將這些視頻發(fā)往精排進(jìn)行詳細(xì)比對(duì)?？紤]到連續(xù)時(shí)間內(nèi)，視頻相似度通常較高，指紋入庫采用了2s1f的方式以減少計(jì)算和內(nèi)存資源的消耗。對(duì)于撞車業(yè)務(wù)，直接對(duì)均值特征卡閾值進(jìn)行召回，為保召回率，粗篩階段采取非常寬松的閾值策略，由精排匹配階段保高準(zhǔn)確率。

視頻精排任務(wù)可以看作兩組視頻序列特征的匹配問題，在由查詢視頻與注冊(cè)視頻指紋向量生成的損失矩陣中尋找正確的匹配關(guān)系。我們采用的精排策略包含了候選生產(chǎn)和片段過濾兩個(gè)步驟。

在進(jìn)行候選生成時(shí)，需要通過相似幀匹配獲得查詢視頻幀與注冊(cè)視頻幀的相似關(guān)系，形式化的記為，即查詢視頻第幀與記錄視頻第幀存在大于0的相似度。然后利用KNN召回，可獲得如下的視頻幀相似關(guān)系。

如上圖所示，在獲取候選的基礎(chǔ)上，通過尋找最長的匹配序列，可以得到初步的匹配關(guān)系，即圖中矩形框所代表的查詢視頻與注冊(cè)視頻匹配關(guān)系，并以此為基礎(chǔ)進(jìn)行過濾?？紤]到損失矩陣中，匹配序列可能存在噪聲的問題，可通過開閉操作、近鄰序列合并等策略進(jìn)行優(yōu)化。另外視頻序列匹配存在一對(duì)多匹配的現(xiàn)象，采用非極大值抑制可以較好的緩解這一問題。由于外部藍(lán)色框的抑制，上圖中紅色框所代表的匹配關(guān)系將不會(huì)出現(xiàn)在最終的匹配結(jié)果中。

五、工程性能優(yōu)化

視頻撞車系統(tǒng)主要有兩個(gè)計(jì)算密集模塊——特征提取和向量檢索。特征提取包含模型推理、視頻解碼、圖像預(yù)處理、音頻特征提取等過程，向量檢索又包含了粗排和精排兩個(gè)階段。經(jīng)過我們的優(yōu)化，模型效果基本對(duì)齊baseline，同時(shí)單個(gè)視頻端到端處理速度提升3倍多，99分位提升十多倍，優(yōu)化效果顯著。

模型推理

借助部門自研InferX推理框架，視頻撞車的模型（ResNet50）推理相比較LibTorch部署方案在Volta及之后架構(gòu)的NVIDIA GPU上均有5倍以上加速效果，T4單卡推理QPS超過2000，并且能夠支持更大batch size。我們測試在T4上使用LibTorch進(jìn)行推理當(dāng)batch size增大到128時(shí)就會(huì)出現(xiàn)GPU OOM，而使用InferX進(jìn)行推理僅需占用2G顯存。我們發(fā)現(xiàn)LibTorch在顯存管理上做得不太好，在使用LibTorch推理時(shí)可以通過減少中間變量或使用混合精度來降低顯存占用。

視頻解碼

由于模型推理速度非常快，撞車系統(tǒng)鏈路主要耗時(shí)分布在其他CPU處理上，視頻解碼便是其中耗時(shí)占比最高的環(huán)節(jié)之一。我們基于NvCodec SDK開發(fā)了通用的GPU視頻解碼庫，輸入視頻路徑/鏈接，輸出torch CUDA Tensor，Layout支持CHW/HWC，可以直接用于后續(xù)GPU計(jì)算，避免了顯存和內(nèi)存之間的memory copy，實(shí)現(xiàn)端到端的All GPU處理方案。解碼庫以視頻路徑/鏈接作為輸入，首先調(diào)用ffmpeg對(duì)視頻進(jìn)行解封裝得到碼流，再調(diào)用CUVID API使用NVIDIA GPU的硬件解碼器對(duì)視頻進(jìn)行解碼，最后再編寫CUDA Kernel實(shí)現(xiàn)色彩空間轉(zhuǎn)換，如YUV->RGB。為了使得解碼庫更通用，我們使用CUDA實(shí)現(xiàn)了多種轉(zhuǎn)換kernel，如NV12向three-plane YUV420的轉(zhuǎn)換模版等。由于色彩空間轉(zhuǎn)換使用CUDA kernel實(shí)現(xiàn)，因此執(zhí)行時(shí)會(huì)占用少量流處理器進(jìn)行計(jì)算，可能會(huì)影響其他并行執(zhí)行的GPU計(jì)算速度，使用中我們發(fā)現(xiàn)一般對(duì)GPU占用率小于10%。完成RGB轉(zhuǎn)換后，可以選擇性進(jìn)行Layout重排，提供所需的torch CUDA Tensor作為輸出。此外，考慮到某些使用場景下解碼服務(wù)和模型服務(wù)可能分布在不同節(jié)點(diǎn)，我們也基于NvJPEG支持了視頻解碼后幀以jpeg編碼格式輸出，方便用于網(wǎng)絡(luò)傳輸。解碼庫使用Pybind11同時(shí)封裝Python接口，更加方便與其他模塊對(duì)接使用。

圖像預(yù)處理

撞車系統(tǒng)的圖像預(yù)處理過程除了常規(guī)的Resize, Normalize操作之外，還包含切黑邊操作。切黑邊算法是基于圖像像素級(jí)統(tǒng)計(jì)信息來判斷黑邊位置，體現(xiàn)在計(jì)算上就是大量的規(guī)約操作， CPU實(shí)現(xiàn)速度非常慢。規(guī)約操作的GPU優(yōu)化方式比較常規(guī)，使用warp shuffle實(shí)現(xiàn)線程束級(jí)規(guī)約、借助GPU共享內(nèi)存加速線程塊級(jí)規(guī)約、最后使用atomicAdd實(shí)現(xiàn)數(shù)據(jù)位于全局內(nèi)存的線程網(wǎng)格規(guī)約，復(fù)雜的是針對(duì)不同形狀的張量和規(guī)約維度實(shí)現(xiàn)特定的優(yōu)化kernel。Resize操作可以直接使用torchvision的GPU版本，但不管使用哪種插值方式，直觀上效果相對(duì)于Pillow會(huì)更差一些，主要原因是Pillow做了額外的平滑處理。為了實(shí)現(xiàn)Pillow的Resize操作，我們?cè)诓蓸又耙布尤刖矸e濾波，使用torch卷積的GPU版本。Normalize操作計(jì)算量很小，直接使用torch操作實(shí)現(xiàn)，整個(gè)預(yù)處理均在GPU上執(zhí)行。

音頻特征提取

這里主要介紹音頻淺層特征Log-FilterBank和MFCC計(jì)算加速方式。Log-FilterBank計(jì)算步驟為：輸入波形->預(yù)加重->分幀、加窗->能量譜->梅爾濾波->差分->標(biāo)準(zhǔn)差，取梅爾濾波取log后的fbank特征，將對(duì)數(shù)能量帶入離散余弦變換，求出L階的Mel-scale Cepstrum參數(shù)。同樣進(jìn)行差分、標(biāo)準(zhǔn)差，得到最終MFCC特征。線上原始Base版本使用python_speech_features包計(jì)算音頻特征，我們基于C++使用vectorize, unroll, tile, parallelize等一些常規(guī)優(yōu)化手段增強(qiáng)代碼實(shí)現(xiàn)的局部性，使用memory pool實(shí)現(xiàn)內(nèi)存復(fù)用，選擇更高效的內(nèi)存排布方式，借助intel mkl fft將信號(hào)轉(zhuǎn)換為頻域計(jì)算能量譜，借助intel mkl GEMM計(jì)算filter bank和能量譜矩陣乘, 借助intel mkl fftw3實(shí)現(xiàn)DCT及BatchDCT，整體加速效果相比較python版本提升10倍。如果需要對(duì)其進(jìn)一步進(jìn)行GPU優(yōu)化， GEMM, FFT, DCT這些操作可以直接調(diào)用CuBlAS, CuFFT實(shí)現(xiàn)，CuBLAS在大多數(shù)場景下都有比較好的性能，如果運(yùn)行在擁有Tensor Core的GPU卡上，還可以使用CUTLASS或者直接使用low-level的WMMA API來更精細(xì)化地加速混合精度GEMM計(jì)算，它們相比已經(jīng)編譯好的庫CuBLAS擁有更好的靈活性。最后，其他一些計(jì)算均可以通過編寫CUDA kernel來實(shí)現(xiàn)，例如預(yù)加重就很適合線程束shuffle指令__shfl_down_sync來實(shí)現(xiàn)。

檢索

視頻撞車系統(tǒng)的索引庫規(guī)模達(dá)到數(shù)十億級(jí)別。這里我們主要基于faiss構(gòu)建分布式向量檢索系統(tǒng)，對(duì)索引分片以方便擴(kuò)展支持更大規(guī)模數(shù)據(jù)，增加副本數(shù)來支持更高QPS。由于latency能滿足需求，因此目前索引部署在CPU機(jī)器上，一些優(yōu)化策略主要在算法側(cè)進(jìn)行。這塊的GPU優(yōu)化手段第一步可以考慮針對(duì)Volta及之后架構(gòu)借助Tensor Core使用fp16精度計(jì)算，在加速計(jì)算同時(shí)也能節(jié)省顯存；進(jìn)一步可以考慮基于哈希學(xué)習(xí)的方法量化為二值編碼，在可以容忍損失一部分精度前提下將浮點(diǎn)乘加操作轉(zhuǎn)換成異或和popcnt，由于哈希編碼之間的距離在有限的整數(shù)范圍內(nèi)，topk階段可以簡單使用基數(shù)排序。也可以先使用直方圖統(tǒng)計(jì)篩選出距離topk，再對(duì)topk內(nèi)距離進(jìn)行排序，能夠進(jìn)一步降低排序計(jì)算量。上述topk、基數(shù)排序、直方圖統(tǒng)計(jì)在并行計(jì)算領(lǐng)域是比較經(jīng)典的問題，很容易用CUDA高效實(shí)現(xiàn)。這種方法中哈希學(xué)習(xí)可以采用有監(jiān)督學(xué)習(xí)，以pairwise-loss或ranking-loss作為損失函數(shù)，量化誤差并不像簡單的二值量化一樣一成不變，而是可以通過訓(xùn)練來降低。此外哈希編碼極致地壓縮了內(nèi)存/顯存占用，特征向量的32位哈希編碼僅需1個(gè)float32存儲(chǔ)空間，使得在一塊普通16G顯存的GPU中進(jìn)行數(shù)十億規(guī)模特征的向量相似度檢索成為可能。

六、成果總結(jié)

本項(xiàng)目歷時(shí)兩年多，對(duì)比2020年時(shí)的baseline，撞車視頻打回量提升約7.5倍，召回率提升約3.75倍，提示量上升至基線的1.7倍，業(yè)務(wù)準(zhǔn)確率為基線的2.2倍，模型準(zhǔn)確率約為88%。人審發(fā)現(xiàn)的機(jī)審漏召從日均65個(gè)降低至日均5個(gè)，為基線的十三分之一。目前該查重系統(tǒng)已為B站安全問題撞車審核、版權(quán)機(jī)審、高危圖像視頻回掃、同屏推薦去重等業(yè)務(wù)提供服務(wù)。后續(xù)將持續(xù)對(duì)檢索效率、檢索質(zhì)量進(jìn)行工程性能、與算法準(zhǔn)召指標(biāo)的優(yōu)化。

本期作者

劉璟

嗶哩嗶哩高級(jí)算法工程師

齊竟雄

嗶哩嗶哩高級(jí)算法工程師

唐哲

嗶哩嗶哩高級(jí)算法工程師

李傲

嗶哩嗶哩資深算法工程師

責(zé)任編輯：武曉燕來源：嗶哩嗶哩技術(shù)

嗶哩嗶哩工程優(yōu)化

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<abbr id="etsff"><form id="etsff"></form></abbr>