作者 | 張冀 朱丹翔
背景
對(duì)抗是反作弊永恒的主旋律,面對(duì)對(duì)抗我們需要做到快速響應(yīng)、見招拆招、在變化中發(fā)現(xiàn)不變的本質(zhì)。
在反作弊場(chǎng)景中,黑產(chǎn)必須通過文本進(jìn)行信息傳遞或觸達(dá)受害者,而文本由于其生產(chǎn)成本低廉、傳遞信息能力強(qiáng)的特點(diǎn)成為了黑產(chǎn)與我們進(jìn)行對(duì)抗的主要戰(zhàn)場(chǎng)。文本理解算法為應(yīng)對(duì)各類強(qiáng)對(duì)抗提供了文本檢索、文本風(fēng)險(xiǎn)標(biāo)簽、風(fēng)險(xiǎn)信息提取的能力,以及一個(gè)文本模型訓(xùn)練平臺(tái)。這些能力的組合使用可有效打擊文本內(nèi)容維度的作弊行為,現(xiàn)已在反作弊的各業(yè)務(wù)場(chǎng)景中得到應(yīng)用。
文本檢索
如上所述反作弊風(fēng)控就是一個(gè)和黑產(chǎn)持續(xù)強(qiáng)對(duì)抗的過程,而強(qiáng)對(duì)抗的一個(gè)顯著特點(diǎn)就是快速的變化,所以常規(guī)的先收集標(biāo)注數(shù)據(jù)再訓(xùn)練模型的方式很難跟得上黑產(chǎn)變化的腳步。此外,黑產(chǎn)為了更多的獲利,通常會(huì)采用廣撒網(wǎng)的策略大批量將相似文本內(nèi)容投放到平臺(tái)。因此,由文本黑庫和回掃構(gòu)成的、只需單條標(biāo)注數(shù)據(jù)的相似文本檢索能力便成了我們應(yīng)對(duì)這種快速變化的有力武器,可有效識(shí)別存量和增量的問題文本,進(jìn)行合理的處置。
字面相似 vs 語義相似
一般來講文本的相似大體可以分為字面相似和語義相似兩種:
字面相似:兩條文本只有極少字符不一樣則被認(rèn)為是字面相似的
想要看片加我微
想要看片加我微信
語義相似:通??坍嬐患虑榈膬蓷l文本被認(rèn)為是語義相似的
勿信海外高薪,避免上當(dāng)受騙,天上不會(huì)掉餡餅。
不要被高薪所誘惑,天上不會(huì)掉餡餅,請(qǐng)朋友們遠(yuǎn)離詐騙
字面相似較語義相似條件更為嚴(yán)格,因此更加準(zhǔn)確更適用于黑庫,而語義相似則有更強(qiáng)的召回能力,更適用于回掃。
文本回掃 vs 黑庫
適用場(chǎng)景
檢索目標(biāo) | 索引特點(diǎn) | 適用場(chǎng)景 | |
回掃 | 大盤全量數(shù)據(jù) | 1. 大而全; | 離線;主要用于作弊內(nèi)容歷史存量治理 |
黑庫 | 有限樣本,一般為黑灰產(chǎn)作弊內(nèi)容。(也可以把黑庫當(dāng)白庫用,存儲(chǔ)白樣本) | 1. 小而精; | 在線;主要用于新增作弊內(nèi)容管控 |
技術(shù)方案
回掃:從大盤在線獲取數(shù)據(jù)建立索引,用戶離線檢索結(jié)果

黑庫:從用戶離線獲取數(shù)據(jù)建立索引,在線檢索結(jié)果

能力提供
- 回掃
- 提供語義相似檢索、關(guān)鍵詞檢索
- 分鐘級(jí)延遲
- 黑庫
- 提供語義相似檢索、字面相似檢索、實(shí)體級(jí)相似檢索、布爾規(guī)則檢索、多模相似檢索
- 秒級(jí)延遲
- 為防止入庫樣本發(fā)生誤傷,提供前置防誤傷及線上灰度標(biāo)簽?zāi)芰?/li>
自動(dòng)任務(wù)
為了對(duì)黑產(chǎn)的變化進(jìn)行更快速的響應(yīng)及更有效地利用人工審核數(shù)據(jù),搭建了一套結(jié)合黑庫和回掃的自動(dòng)任務(wù)流,該流程讓審出數(shù)據(jù)在短時(shí)間內(nèi)便可起到上線攔截和存量處罰的作用

風(fēng)險(xiǎn)標(biāo)簽
雖然黑產(chǎn)使用的文本在快速的變化,但只要黑產(chǎn)的目標(biāo)是明確的,那么其使用的文本在類別語義層面便具有不變性。RiskText 風(fēng)控文本標(biāo)簽體系便是針對(duì)抖音風(fēng)控場(chǎng)景中一些主要語義類別設(shè)計(jì)的一套文本標(biāo)簽集
標(biāo)簽體系
為什么要標(biāo)簽體系
如果我們每次都是針對(duì)某個(gè)非常具體的業(yè)務(wù)場(chǎng)景使用少量特定場(chǎng)景數(shù)據(jù)訓(xùn)練模型,例如評(píng)論色導(dǎo)、評(píng)論賭博導(dǎo)流等模型,那么會(huì)有以下問題:
- 標(biāo)簽未進(jìn)行合理抽象,時(shí)效性明顯,只適用于解決臨時(shí)的、特定的業(yè)務(wù)問題,黑產(chǎn)變了模型就失效了
- 由于數(shù)據(jù)量少,且無法長(zhǎng)期積累,模型效果得不到保障
- 數(shù)據(jù)來源雜亂且質(zhì)量沒有保證,導(dǎo)致標(biāo)簽質(zhì)量沒有保障
- 模型與具體業(yè)務(wù) case 耦合度過高,很難進(jìn)行業(yè)務(wù)或場(chǎng)景復(fù)用
- 模型和標(biāo)簽過于雜亂,不利于維護(hù)和能力輸出
因此一套既具備可維護(hù)、可復(fù)用、魯棒性強(qiáng)等特點(diǎn),又能很好解決業(yè)務(wù)風(fēng)控問題的文本分類標(biāo)簽體系就是我們需要的。
技術(shù)方案
模型架構(gòu):多 channel 輸入對(duì)同音、形近變體更加魯棒

訓(xùn)練方法:樣本增廣 + 一致性訓(xùn)練

樣本降噪:解決數(shù)據(jù)中的錯(cuò)誤標(biāo)簽

自動(dòng)迭代
- 主動(dòng)學(xué)習(xí)提高審出
- 監(jiān)控看板保證質(zhì)量

風(fēng)險(xiǎn)信息提取
黑產(chǎn)作弊文本經(jīng)常會(huì)包含一些關(guān)鍵信息,作弊手法會(huì)變但關(guān)鍵信息不易變(或者變化成本較高),如果能夠正確識(shí)別出文本中的關(guān)鍵信息,就能有效提升防御體系魯棒性。目前已有建設(shè) 3 種風(fēng)險(xiǎn)信息提取能力:風(fēng)險(xiǎn)聯(lián)系方式、風(fēng)險(xiǎn)變體、風(fēng)險(xiǎn)文本片段。其他場(chǎng)景下,比如電商業(yè)務(wù)中風(fēng)險(xiǎn)地址提取,也能夠參考構(gòu)建類似能力。
風(fēng)險(xiǎn)聯(lián)系方式
抖音是流量聚集地,黑產(chǎn)為了謀利往往會(huì)將流量引到端外,進(jìn)而實(shí)施違法行為,因此識(shí)別黑產(chǎn)留下的聯(lián)系方式是一項(xiàng)重要能力。
能力全景圖
從使用階段劃分,包含 判別->提取->風(fēng)險(xiǎn)分->風(fēng)險(xiǎn)標(biāo)簽。
- 判別(有沒有聯(lián)系方式):包含高準(zhǔn)、高召兩部分模型集,根據(jù)使用場(chǎng)景、治理階段不同選取相應(yīng)模型集。
- 提取(聯(lián)系方式在哪):支持將提取出的變體聯(lián)系方式歸一化,并且有例行挖掘任務(wù),不斷補(bǔ)充新型變體數(shù)字字母。
- 風(fēng)險(xiǎn)分(有沒有風(fēng)險(xiǎn)):基于聯(lián)系方式風(fēng)險(xiǎn)特征 ,訓(xùn)練得到風(fēng)險(xiǎn)分模型。
- 風(fēng)險(xiǎn)標(biāo)簽(風(fēng)險(xiǎn)是啥):也區(qū)分高準(zhǔn)和高召。高準(zhǔn)通過人工標(biāo)注,高召通過用戶-聯(lián)系方式二部圖標(biāo)簽擴(kuò)散方式得到。

風(fēng)險(xiǎn)變體
黑產(chǎn)為了對(duì)抗文本識(shí)別能力,會(huì)對(duì)文本關(guān)鍵部分變體。由于大部分文本模型不會(huì)經(jīng)常更新,導(dǎo)致模型效果會(huì)隨著時(shí)間逐漸衰減。為了解決這個(gè)問題,將文本變體能力與下游文本能力解耦開,當(dāng)變體識(shí)別能力提升時(shí),所有下游任務(wù)均可受益。
PS:如果黑產(chǎn)文本變體太快,會(huì)不會(huì)跟不上,這樣能力建設(shè)有啥意義?
前期的簡(jiǎn)單變體,我們的能力都會(huì)覆蓋,越到后期,黑產(chǎn)創(chuàng)造新變體的成本會(huì)越高,更考驗(yàn)的是能力是否在不斷迭代更新。
技術(shù)方案
變體挖掘->變體判別->變體映射表流程可自動(dòng)化運(yùn)行,不斷挖掘得到新變體。

風(fēng)險(xiǎn)文本片段
黑產(chǎn)除了對(duì)關(guān)鍵信息變體,還會(huì)對(duì)非關(guān)鍵文本做話術(shù)變換。黑產(chǎn)為了表達(dá)意圖,關(guān)鍵信息不會(huì)很發(fā)散,來來回回可能就那幾個(gè)關(guān)鍵詞,但是會(huì)變換話術(shù)以此對(duì)抗識(shí)別模型,我們只需要從黑產(chǎn)發(fā)的大量文本中,找出表達(dá)意圖的關(guān)鍵信息,即可提升系統(tǒng)對(duì)話術(shù)變換的魯棒性。

技術(shù)方案
整體技術(shù)方案總結(jié)來說就兩步:
- 獲取文本重要黑特征(對(duì)應(yīng)圖中黑詞精篩表)。
- 挖掘特征之間的關(guān)系,挖掘結(jié)果導(dǎo)出為規(guī)則,挖掘算法使用的 FP-Growth。

































