偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

基于 AC 自動(dòng)機(jī)和貝葉斯方法的垃圾內(nèi)容識(shí)別

人工智能 機(jī)器學(xué)習(xí)
雖以識(shí)別垃圾內(nèi)容為出發(fā)點(diǎn),建立了基于 AC 自動(dòng)機(jī)和「貝葉斯」思想的內(nèi)容識(shí)別系統(tǒng),但這套系統(tǒng)還可以運(yùn)用到其他場(chǎng)景,比如輿情、其他內(nèi)容歸類等,在這兒就不展開了。

背景

作為一個(gè)開放領(lǐng)域的知識(shí)社交平臺(tái),知乎為大家提供了「友善」、「理性」、「專業(yè)」的討論氛圍,吸引了大量用戶參與,產(chǎn)生了很多優(yōu)質(zhì)內(nèi)容。但同時(shí)也吸引了一些垃圾制造者,在知乎上生產(chǎn)了不少的垃圾內(nèi)容,如「違法」、「廣告」、「淫穢色情」、「人身攻擊」等,嚴(yán)重影響了知乎用戶的正常討論交流,極大地影響了用戶體驗(yàn),同時(shí)也對(duì)社區(qū)管理造成了較大的干擾。

我們先來看看都有哪些真實(shí)的垃圾:

非法內(nèi)容

用侮辱、夸張的手法嘲諷他人,如「腦殘」、「智商欠費(fèi)」等等。這類內(nèi)容表現(xiàn)為不尊重他人,用惡毒的言語刺激對(duì)方,使得討論無法正常有效進(jìn)行。

還有一些垃圾廣告,如微商。

這些垃圾內(nèi)容嚴(yán)重影響了知乎用戶的正常交流。此前我們的工程師們也嘗試了一些方法去識(shí)別處理它們。如文本分類模型,準(zhǔn)確率達(dá)到了 96%, 每天識(shí)別 300+ 條;利用 DFA 根據(jù)關(guān)鍵詞大量召回。這些嘗試雖然都取得了一定的效果,但是召回不夠、或召回過多非垃圾內(nèi)容、或者存在不少的誤傷。為此我們引入人工審核,但不能快速處理,容易造成內(nèi)容堆積,而且對(duì)管理員也是很大壓力,平均每周要消耗 1 個(gè)人力。

前期的嘗試雖然效果不是很理想,但積累了比較多的數(shù)據(jù)。對(duì)這些數(shù)據(jù)的分析,我們發(fā)現(xiàn)這些垃圾內(nèi)容是有套路的?;诖?,我們利用 Aho-Corasick 自動(dòng)機(jī)實(shí)現(xiàn)多模匹配,在其基礎(chǔ)上增加了過濾機(jī)制,實(shí)現(xiàn)了第一版的垃圾內(nèi)容分析系統(tǒng),取得了不錯(cuò)的效果。

Aho-Corasick 自動(dòng)機(jī)

AC 自動(dòng)機(jī)算法于 1975 年產(chǎn)生于貝爾實(shí)驗(yàn)室。該算法巧妙地將多模式串建成一個(gè)確定性有限狀態(tài)機(jī) (DFA),以待匹配字符串作為該 DFA 的輸入,使?fàn)顟B(tài)機(jī)進(jìn)行狀態(tài)轉(zhuǎn)移,當(dāng)?shù)竭_(dá)某些特定的狀態(tài)時(shí),完成模式匹配, 能??

??時(shí)間內(nèi)完成多模式匹配(其中 n 為待匹配字符串的長度)。下面以模式串「 he / she / his / hers 」構(gòu)建一個(gè) AC 自動(dòng)機(jī)舉例說明(如圖一所示)

??

??

當(dāng)輸入一個(gè)字符串時(shí)「ushers」,該自動(dòng)機(jī)從狀態(tài) 0 開始進(jìn)行狀態(tài)轉(zhuǎn)換,完整的狀態(tài)轉(zhuǎn)移路徑如圖二所示


 

??

??

當(dāng)遇到 AC 中的紅色節(jié)點(diǎn)時(shí),說明發(fā)生了模式匹配,匹配到的模式有:「he」、「she」、「hers」。

具體可以用 Double Array Trie 實(shí)現(xiàn) AC 自動(dòng)機(jī),在保持高效多模匹配的基礎(chǔ),進(jìn)一步節(jié)省空間。

貝葉斯方法

雖然 AC 自動(dòng)機(jī)能快速的從字符串中找到存在于詞典中的關(guān)鍵詞,但這僅僅能滿足一小部分需求,即不顧準(zhǔn)確率的大量召回,很顯然會(huì)造成誤傷,這對(duì)知友也是很不友好??隙ㄓ兄跤脩魰?huì)問,直接用「貝葉斯」方法不就可以搞定嗎?你看人家做 spam 郵件過濾,不也做得還不錯(cuò),還用什么 AC ?對(duì)對(duì)對(duì),你說的都是正確的。但是實(shí)驗(yàn)發(fā)現(xiàn),單純地用 「貝葉斯」方法直接進(jìn)行過濾時(shí),準(zhǔn)確率和召回率都不是很理想。究其原因呀,有 1)知友們知識(shí)面廣、思維發(fā)散,2)長尾,很多詞語出現(xiàn)頻次相對(duì)較低。

AC + 貝葉斯 > max { AC, 貝葉斯 }

考慮到上述問題,我們提出了利用 AC 自動(dòng)機(jī),根據(jù)設(shè)定的類別關(guān)鍵詞圈定相應(yīng)類別的內(nèi)容,然后在每個(gè)類別里利用「貝葉斯」方法的思想準(zhǔn)確過濾出垃圾內(nèi)容。現(xiàn)在我們有了解決問題的思想(思想很重要),來看看我們具體是怎么利用 AC 和「貝葉斯」這兩個(gè)神器,打造垃圾內(nèi)容過濾的。直接上圖,一圖勝千言。

??

??

圖三中「主關(guān)鍵詞」就是利用 AC 自動(dòng)機(jī)按關(guān)鍵詞圈定相應(yīng)類別的內(nèi)容。圈定之后,利用「可有可無」這兒所配置的策略在每個(gè)類別里進(jìn)行垃圾內(nèi)容過濾,策略即是利用「貝葉斯」思想總結(jié)出來的。

下面以評(píng)論數(shù)據(jù)為例,介紹如何運(yùn)用貝葉斯方法來總結(jié)策略。

首先,分析樣本數(shù)據(jù),提取每一個(gè)詞,計(jì)算每個(gè)詞在正常評(píng)論和垃圾評(píng)論中出現(xiàn)的頻率。比如,我們假定「sb」這個(gè)詞,在 1000 條垃圾評(píng)論中,有 500 條包含該詞,那么它的出現(xiàn)頻率就是0.5;而在 1000 條正常評(píng)論中,只有 2 條包含該詞,那么出現(xiàn)頻率就是0.002。那現(xiàn)在對(duì)一條新的評(píng)論,發(fā)現(xiàn)其中包含「sb」這個(gè)詞,它是垃圾評(píng)論的概率可以通過式一計(jì)算。(此處用S和H分別表示垃圾評(píng)論和正常評(píng)論,W表示詞 「sb」,P(S)表示垃圾評(píng)論的概率,P(W/S)表示垃圾評(píng)論中W出現(xiàn)的頻率)

 

??

??

 

(式一)

在沒有更多先驗(yàn)知識(shí)的情況下,我們通常假設(shè)P(S)=P(H=0.5)。那在前文的例子中,很容易計(jì)算出P(S/W)=0.996,說明「sb」詞很容易區(qū)分出垃圾評(píng)論。通過這樣的方式去挖掘出詞語,當(dāng)然也可以從正面角度考慮,比如「我」這個(gè)詞,在我們的數(shù)據(jù)中能較好地區(qū)分出不是垃圾評(píng)論。此外,還可以考慮多個(gè)詞語聯(lián)合共現(xiàn),甚至詞之間的空間結(jié)構(gòu)關(guān)系。這些在目前的邏輯里都是支持的。

有了具體實(shí)現(xiàn),我們來看看實(shí)際的效果,如圖四所示。(對(duì)于不利于討論的內(nèi)容也會(huì)被處理)


線上效果如圖五所示。


這套邏輯已融入到了算法機(jī)器人「瓦力」的大腦中,在知乎的諸多場(chǎng)景下,如評(píng)論、私信、回答、提問等,以 99% 的準(zhǔn)確率處理著每天產(chǎn)生的垃圾內(nèi)容。每天處理掉 3000+ 條垃圾評(píng)論,上線后處理了站內(nèi)上萬條封建迷信提問、上千條代為完成個(gè)人任務(wù)、上千條求醫(yī)問藥等違規(guī)提問,幫助知友們維護(hù)起了一個(gè)「友善」的討論環(huán)境。

此外,這套系統(tǒng)也十分方便運(yùn)營人員實(shí)現(xiàn)一站式自助策略管理。首先通過樣本制定策略,然后通過離線版本進(jìn)行策略驗(yàn)證,評(píng)估其準(zhǔn)確率和召回率,最后自助上線策略。整個(gè)過程均無需工程師的介入,大大提高了運(yùn)營效率。

總結(jié)和展望

為了友善地討論交流,我們踏出了這一小步,主動(dòng)識(shí)別處理了諸多垃圾內(nèi)容。但還有很長的路要走,后續(xù)我們將為機(jī)器人「瓦力」打造更加完善智能的大腦,如自動(dòng)歸納策略,引入深度學(xué)習(xí)等,為其建立更加科學(xué)高效的識(shí)別能力,以全自動(dòng)的方式準(zhǔn)確地識(shí)別出所有內(nèi)容。

雖以識(shí)別垃圾內(nèi)容為出發(fā)點(diǎn),建立了基于 AC 自動(dòng)機(jī)和「貝葉斯」思想的內(nèi)容識(shí)別系統(tǒng),但這套系統(tǒng)還可以運(yùn)用到其他場(chǎng)景,比如輿情、其他內(nèi)容歸類等,在這兒就不展開了。

責(zé)任編輯:武曉燕 來源: 知乎專欄
相關(guān)推薦

2017-08-07 13:02:32

全棧必備貝葉斯

2022-09-28 08:00:00

Python機(jī)器學(xué)習(xí)算法

2021-04-18 09:57:45

Java樸素貝葉斯貝葉斯定理

2017-06-12 06:31:55

深度學(xué)習(xí)貝葉斯算法

2017-07-12 11:27:05

樸素貝葉斯情感分析Python

2012-09-24 10:13:35

貝葉斯

2022-10-30 14:54:58

測(cè)試數(shù)據(jù)貝葉斯推理

2024-11-11 15:02:16

2013-05-08 09:05:48

狐貍貝葉斯大數(shù)據(jù)

2023-01-31 15:49:51

機(jī)器學(xué)習(xí)函數(shù)評(píng)分函數(shù)

2017-03-29 14:50:18

2023-02-22 07:04:05

自動(dòng)機(jī)原理優(yōu)化實(shí)踐

2021-08-30 11:53:36

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2016-08-30 00:19:30

2024-10-11 16:53:16

貝葉斯人工智能網(wǎng)絡(luò)

2016-08-30 00:14:09

大數(shù)據(jù)貝葉斯

2017-11-07 11:17:40

樸素貝葉斯畫像數(shù)據(jù)數(shù)據(jù)挖掘

2023-10-18 08:00:00

貝葉斯網(wǎng)絡(luò)Python醫(yī)療保健

2017-07-24 10:36:37

Python機(jī)器學(xué)習(xí)樸素貝葉斯

2023-10-23 07:13:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)