偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

詳解知乎反作弊垃圾文本識(shí)別的深度學(xué)習(xí)實(shí)踐

原創(chuàng)

作者：孫俊 2018-10-24 09:48:17

人工智能深度學(xué)習(xí)

截止今年 8 月，知乎注冊(cè)用戶量已突破 2 億。對(duì)于垃圾信息的治理，我們面臨著更大的挑戰(zhàn)和考驗(yàn)。過(guò)去我們通過(guò)不斷升級(jí)「悟空」的策略引擎，通過(guò)在行為、環(huán)境、資源、文本等多維度組合應(yīng)用，已經(jīng)取得了非常不錯(cuò)的效果。近期我們嘗試引入深度學(xué)習(xí)識(shí)別垃圾文本，「悟空」對(duì) Spam 的治理能力又邁上了一個(gè)新的臺(tái)階。

背景

截止今年 8 月，知乎注冊(cè)用戶量已突破 2 億。對(duì)于垃圾信息的治理，我們面臨著更大的挑戰(zhàn)和考驗(yàn)。過(guò)去我們通過(guò)不斷升級(jí)「悟空」的策略引擎，通過(guò)在行為、環(huán)境、資源、文本等多維度組合應(yīng)用，已經(jīng)取得了非常不錯(cuò)的效果。近期我們嘗試引入深度學(xué)習(xí)識(shí)別垃圾文本，「悟空」對(duì) Spam 的治理能力又邁上了一個(gè)新的臺(tái)階。

問(wèn)題分析

我們對(duì)當(dāng)前站內(nèi)垃圾文本進(jìn)行了梳理，發(fā)現(xiàn)目前主要包括四種形式：

導(dǎo)流內(nèi)容：這類內(nèi)容大概能占到社區(qū)中垃圾文本的 70%-80%，比較典型的包括培訓(xùn)機(jī)構(gòu)，美容，保險(xiǎn)，代購(gòu)相關(guān)的。導(dǎo)流內(nèi)容會(huì)涉及到 QQ，手機(jī)號(hào)，微信，URL甚至座機(jī)，在一些特殊時(shí)間節(jié)點(diǎn)還會(huì)出現(xiàn)各類的專項(xiàng)垃圾文本，比如說(shuō)世界杯，雙十一，雙十二，都是黑產(chǎn)大賺一筆的好時(shí)機(jī)。
品牌內(nèi)容：這類內(nèi)容會(huì)具有比較典型的 SEO 特色，一般內(nèi)容中不會(huì)有明顯的導(dǎo)流標(biāo)識(shí)，作弊形式以一問(wèn)一答的方式出現(xiàn)，比如提問(wèn)什么牌子怎么樣?哪里的培訓(xùn)學(xué)校怎么樣?然后在對(duì)應(yīng)的回答里面進(jìn)行推薦。
詐騙內(nèi)容：這類內(nèi)容一般以冒充名人，機(jī)構(gòu)的方式出現(xiàn)，比如單車退款類，在內(nèi)容中提供虛假的客服電話進(jìn)行詐騙。
騷擾內(nèi)容：比如一些誘導(dǎo)類，調(diào)查類的批量?jī)?nèi)容，非常嚴(yán)重影響知友體驗(yàn)。

這些垃圾文本的核心獲益點(diǎn)一方面是面向站內(nèi)的傳播，另一方面，面向搜索引擎，達(dá)到 SEO 的目的。

算法介紹

從算法角度可以把這個(gè)問(wèn)題看做一個(gè)文本分類問(wèn)題，把站內(nèi)的內(nèi)容分為垃圾文本和正常文本兩個(gè)類別。常用文本分類算法有很多，我們不打算詳細(xì)介紹每一個(gè)分類算法，只是分享我們?cè)谔幚韺?shí)際問(wèn)題中遇到的一些問(wèn)題和權(quán)衡。

我們遇到的第一個(gè)問(wèn)題是使用CNN 還是 RNN。一般來(lái)說(shuō)，CNN 是分層架構(gòu)，RNN 是連續(xù)結(jié)構(gòu)。CNN 適合由一些關(guān)鍵詞來(lái)決定的任務(wù);RNN適合順序建模任務(wù) ，例如語(yǔ)言建模任務(wù)，要求在了解上下文的基礎(chǔ)上靈活建模。這一結(jié)論非常明顯，但是目前的 NLP 文獻(xiàn)中并沒(méi)有支持性的文章。

另外一般來(lái)說(shuō)，CNN 訓(xùn)練速度和預(yù)測(cè)速度都快于RNN?？紤]到上述站內(nèi)垃圾文本的主要形式，導(dǎo)流和品牌內(nèi)容中都會(huì)出現(xiàn)關(guān)鍵詞，同時(shí)對(duì)于垃圾文本檢測(cè)的速度要求比較高，我們最終使用 CNN。一個(gè)典型的 CNN 文本分類模型如下圖所示。

接下來(lái)，我們遇到的一個(gè)問(wèn)題是，使用字還是詞語(yǔ)作為輸入。詞語(yǔ)具有比字更高的抽象等級(jí)，更豐富的含義。但是導(dǎo)流內(nèi)容中的 QQ、手機(jī)號(hào)、微信、URL、座機(jī)等，通常不會(huì)出現(xiàn)在已有詞庫(kù)中，品牌詞也具有類似的特點(diǎn)，一般是未登錄詞。而且，導(dǎo)流內(nèi)容通常會(huì)出現(xiàn)變體詞，使用詞語(yǔ)作為輸入，不能很好地捕捉類似特征。所以，我們最終使用的是字作為輸入。

在決定使用字作為輸入之后，需要考慮使用在知乎站內(nèi)語(yǔ)料上預(yù)訓(xùn)練的字向量初始化模型的Embedding層，還是直接在分類模型中隨機(jī)生成初始字向量。這里考慮的是垃圾文本的數(shù)據(jù)分布和知乎站內(nèi)文本的數(shù)據(jù)分布具有比較大的區(qū)別，垃圾文本相對(duì)于站內(nèi)正常文本是一個(gè)比較特定的領(lǐng)域。因此我們使用隨機(jī)初始化字向量。

在決定使用字向量之后，我們觀察到“有意者加我咨詢：2839825539”、“找北京·合·合·天·下”等關(guān)鍵信息，按字來(lái)計(jì)算通常都很長(zhǎng)。因此，CNN需要更大的感受域來(lái)提取相關(guān)文本特征，如果簡(jiǎn)單增加卷積核大小，會(huì)增加參數(shù)數(shù)量。我們考慮使用空洞卷積(Dilated Convolution)，來(lái)增加卷積的感受域，同時(shí)不增加網(wǎng)絡(luò)參數(shù)數(shù)量。一個(gè)典型的空洞卷積如下圖所示。

另外我們觀察到需要識(shí)別的垃圾文本并不都是短文本，還有一部分是長(zhǎng)文本。由于文本長(zhǎng)度的關(guān)系，如果簡(jiǎn)單將卷積層的輸出取平均，輸出到全連接層，那么文本能決定是否是垃圾文本的關(guān)鍵特征很可能被其他特征所淹沒(méi)，導(dǎo)致模型精度難以提升。因此，我們加入了一個(gè) Attention 層，通過(guò)它給予關(guān)鍵特征更大的權(quán)重。Attention 計(jì)算方法如下圖所示。

通過(guò)上述分析，我們最終采用的模型結(jié)構(gòu)如下圖所示。

垃圾文本分類算法結(jié)構(gòu)

模型效果

目前，垃圾文本模型會(huì)對(duì)知乎站內(nèi)的所有內(nèi)容進(jìn)行評(píng)分，輸出 0-1 之間的分?jǐn)?shù)，系統(tǒng)會(huì)對(duì)高分內(nèi)容進(jìn)行處理。

模型分?jǐn)?shù)在知乎部分業(yè)務(wù)線上的表現(xiàn)：

文本分?jǐn)?shù)	>=0.9準(zhǔn)確率	>=0.8準(zhǔn)確率	>=0.7準(zhǔn)確率
回答	100.0%	99.8%	95.6%
提問(wèn)	100.0%	99.1%	97.7%
評(píng)論	100.0%	99.6%	98.0%

當(dāng)前情況下，模型結(jié)合其他反作弊維度，可實(shí)現(xiàn)對(duì)垃圾評(píng)分 0.5 分以上的內(nèi)容進(jìn)行刪除，同時(shí)準(zhǔn)確率達(dá)到 97% 以上。上線以來(lái)，每天刪除垃圾內(nèi)容數(shù)千條。

模型實(shí)時(shí)處理

另外值得一提的是端午期間，知乎站內(nèi)涌現(xiàn)了一波違法違規(guī)的 spam，垃圾文本模型覆蓋了 98% 以上內(nèi)容，使得這波攻擊大概持續(xù)了 1000 條左右就停了。

端午 spam 攻擊

后續(xù)計(jì)劃

垃圾文本識(shí)別是一個(gè)長(zhǎng)期攻防的過(guò)程，站內(nèi)垃圾文本會(huì)隨著時(shí)間不斷演變，現(xiàn)有模型的效果也會(huì)隨之變化。為了應(yīng)對(duì)站內(nèi)垃圾文本的挑戰(zhàn)，我們將一直收集 badcase，進(jìn)一步優(yōu)化模型的效果。

最后

由于本人的水平有限，如有錯(cuò)誤和疏漏，歡迎各位同學(xué)指正。

作者：孫俊，知乎內(nèi)容質(zhì)量團(tuán)隊(duì)的算法工程師。主要負(fù)責(zé)導(dǎo)流信息識(shí)別，垃圾文本識(shí)別和文本情感分析模型的開(kāi)發(fā)和維護(hù)。

責(zé)任編輯：龐桂玉來(lái)源： 51CTO

深度學(xué)習(xí)文本識(shí)別知乎

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="lfn61"></style>