偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

詳解知乎反作弊垃圾文本識別的深度學(xué)習實踐

原創(chuàng)
人工智能 深度學(xué)習
截止今年 8 月,知乎注冊用戶量已突破 2 億。對于垃圾信息的治理,我們面臨著更大的挑戰(zhàn)和考驗。過去我們通過不斷升級「悟空」的策略引擎,通過在行為、環(huán)境、資源、文本等多維度組合應(yīng)用,已經(jīng)取得了非常不錯的效果。近期我們嘗試引入深度學(xué)習識別垃圾文本,「悟空」對 Spam 的治理能力又邁上了一個新的臺階。

背景

截止今年 8 月,知乎注冊用戶量已突破 2 億。對于垃圾信息的治理,我們面臨著更大的挑戰(zhàn)和考驗。過去我們通過不斷升級「悟空」的策略引擎,通過在行為、環(huán)境、資源、文本等多維度組合應(yīng)用,已經(jīng)取得了非常不錯的效果。近期我們嘗試引入深度學(xué)習識別垃圾文本,「悟空」對 Spam 的治理能力又邁上了一個新的臺階。

問題分析

我們對當前站內(nèi)垃圾文本進行了梳理,發(fā)現(xiàn)目前主要包括四種形式:

  • 導(dǎo)流內(nèi)容:這類內(nèi)容大概能占到社區(qū)中垃圾文本的 70%-80%,比較典型的包括培訓(xùn)機構(gòu),美容,保險,代購相關(guān)的。導(dǎo)流內(nèi)容會涉及到 QQ,手機號,微信,URL甚至座機,在一些特殊時間節(jié)點還會出現(xiàn)各類的專項垃圾文本,比如說世界杯,雙十一,雙十二,都是黑產(chǎn)大賺一筆的好時機。
  • 品牌內(nèi)容:這類內(nèi)容會具有比較典型的 SEO 特色,一般內(nèi)容中不會有明顯的導(dǎo)流標識,作弊形式以一問一答的方式出現(xiàn),比如提問什么牌子怎么樣?哪里的培訓(xùn)學(xué)校怎么樣?然后在對應(yīng)的回答里面進行推薦。
  • 詐騙內(nèi)容:這類內(nèi)容一般以冒充名人,機構(gòu)的方式出現(xiàn),比如單車退款類,在內(nèi)容中提供虛假的客服電話進行詐騙。
  • 騷擾內(nèi)容:比如一些誘導(dǎo)類,調(diào)查類的批量內(nèi)容,非常嚴重影響知友體驗。

知乎反作弊垃圾文本識別的深度學(xué)習實踐

這些垃圾文本的核心獲益點一方面是面向站內(nèi)的傳播,另一方面,面向搜索引擎,達到 SEO 的目的。

算法介紹

從算法角度可以把這個問題看做一個文本分類問題,把站內(nèi)的內(nèi)容分為垃圾文本和正常文本兩個類別。常用文本分類算法有很多,我們不打算詳細介紹每一個分類算法,只是分享我們在處理實際問題中遇到的一些問題和權(quán)衡。

我們遇到的第一個問題是使用CNN 還是 RNN。一般來說,CNN 是分層架構(gòu),RNN 是連續(xù)結(jié)構(gòu)。CNN 適合由一些關(guān)鍵詞來決定的任務(wù);RNN適合順序建模任務(wù) ,例如語言建模任務(wù),要求在了解上下文的基礎(chǔ)上靈活建模。這一結(jié)論非常明顯,但是目前的 NLP 文獻中并沒有支持性的文章。

另外一般來說,CNN 訓(xùn)練速度和預(yù)測速度都快于RNN。考慮到上述站內(nèi)垃圾文本的主要形式,導(dǎo)流和品牌內(nèi)容中都會出現(xiàn)關(guān)鍵詞,同時對于垃圾文本檢測的速度要求比較高,我們最終使用 CNN。一個典型的 CNN 文本分類模型如下圖所示。

知乎反作弊垃圾文本識別的深度學(xué)習實踐

接下來,我們遇到的一個問題是,使用字還是詞語作為輸入。詞語具有比字更高的抽象等級,更豐富的含義。但是導(dǎo)流內(nèi)容中的 QQ、手機號、微信、URL、座機等,通常不會出現(xiàn)在已有詞庫中,品牌詞也具有類似的特點,一般是未登錄詞。而且,導(dǎo)流內(nèi)容通常會出現(xiàn)變體詞,使用詞語作為輸入,不能很好地捕捉類似特征。所以,我們最終使用的是字作為輸入。

在決定使用字作為輸入之后,需要考慮使用在知乎站內(nèi)語料上預(yù)訓(xùn)練的字向量初始化模型的Embedding層,還是直接在分類模型中隨機生成初始字向量。這里考慮的是垃圾文本的數(shù)據(jù)分布和知乎站內(nèi)文本的數(shù)據(jù)分布具有比較大的區(qū)別,垃圾文本相對于站內(nèi)正常文本是一個比較特定的領(lǐng)域。因此我們使用隨機初始化字向量。

在決定使用字向量之后,我們觀察到“有意者加我咨詢:2839825539”、“找北京·合·合·天·下”等關(guān)鍵信息,按字來計算通常都很長。因此,CNN需要更大的感受域來提取相關(guān)文本特征,如果簡單增加卷積核大小,會增加參數(shù)數(shù)量。我們考慮使用空洞卷積(Dilated Convolution),來增加卷積的感受域,同時不增加網(wǎng)絡(luò)參數(shù)數(shù)量。一個典型的空洞卷積如下圖所示。

另外我們觀察到需要識別的垃圾文本并不都是短文本,還有一部分是長文本。由于文本長度的關(guān)系,如果簡單將卷積層的輸出取平均,輸出到全連接層,那么文本能決定是否是垃圾文本的關(guān)鍵特征很可能被其他特征所淹沒,導(dǎo)致模型精度難以提升。因此,我們加入了一個 Attention 層,通過它給予關(guān)鍵特征更大的權(quán)重。Attention 計算方法如下圖所示。

 

通過上述分析,我們最終采用的模型結(jié)構(gòu)如下圖所示。

垃圾文本分類算法結(jié)構(gòu)

模型效果

目前,垃圾文本模型會對知乎站內(nèi)的所有內(nèi)容進行評分,輸出 0-1 之間的分數(shù),系統(tǒng)會對高分內(nèi)容進行處理。

模型分數(shù)在知乎部分業(yè)務(wù)線上的表現(xiàn):  

文本分數(shù)

>=0.9準確率

>=0.8準確率

>=0.7準確率

回答

100.0%

99.8%

95.6%

提問

100.0%

99.1%

97.7%

評論

100.0%

99.6%

98.0%

當前情況下,模型結(jié)合其他反作弊維度,可實現(xiàn)對垃圾評分 0.5 分以上的內(nèi)容進行刪除,同時準確率達到 97% 以上。上線以來,每天刪除垃圾內(nèi)容數(shù)千條。

模型實時處理

另外值得一提的是端午期間,知乎站內(nèi)涌現(xiàn)了一波違法違規(guī)的 spam,垃圾文本模型覆蓋了 98% 以上內(nèi)容,使得這波攻擊大概持續(xù)了 1000 條左右就停了。

端午 spam 攻擊

后續(xù)計劃

垃圾文本識別是一個長期攻防的過程,站內(nèi)垃圾文本會隨著時間不斷演變,現(xiàn)有模型的效果也會隨之變化。為了應(yīng)對站內(nèi)垃圾文本的挑戰(zhàn),我們將一直收集 badcase,進一步優(yōu)化模型的效果。

最后

由于本人的水平有限,如有錯誤和疏漏,歡迎各位同學(xué)指正。

作者:孫俊,知乎內(nèi)容質(zhì)量團隊的算法工程師。主要負責導(dǎo)流信息識別,垃圾文本識別和文本情感分析模型的開發(fā)和維護。 

責任編輯:龐桂玉 來源: 51CTO
相關(guān)推薦

2025-02-11 09:12:55

2023-06-15 07:49:33

2017-06-16 21:00:02

Python爬蟲

2016-10-13 16:20:11

2014-12-25 16:02:55

TalkingData

2023-07-18 18:14:51

云原生軟件架構(gòu)

2016-12-12 09:01:47

Amazon Go核心技術(shù)

2023-02-15 21:49:55

2022-02-25 11:07:19

計算機圖像識別深度學(xué)習

2022-07-07 10:19:05

數(shù)據(jù)畫像

2018-09-03 08:36:04

知乎容器大數(shù)據(jù)

2020-12-17 10:58:43

2016-01-27 13:34:07

開源語音識別CNTK

2019-11-25 11:03:19

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2021-06-23 15:10:18

Epic反作弊網(wǎng)絡(luò)安全

2017-07-26 09:39:58

2020-12-10 15:28:29

知乎CTO平臺

2023-08-21 07:55:32

2018-12-13 11:32:55

知乎裁員調(diào)整

2024-08-05 13:40:00

數(shù)據(jù)模型
點贊
收藏

51CTO技術(shù)棧公眾號