偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

防治“虛假種草”,小紅書(shū)技術(shù)團(tuán)隊(duì)干了這幾件大事

人工智能 算法
為了深入了解刷量的本質(zhì),我們探訪了一批專門(mén)從事刷量產(chǎn)業(yè)鏈的公司,下面是對(duì)其中三家及實(shí)現(xiàn)手段的介紹。

本文主要聚焦社區(qū)及電商風(fēng)控在小紅書(shū)的最佳實(shí)踐領(lǐng)域——刷量治理。

作為一個(gè)內(nèi)容社區(qū),小紅書(shū)月活用戶數(shù)自2021年10月突破2億后一直穩(wěn)步增長(zhǎng)。圍繞不斷累積的UGC內(nèi)容資產(chǎn),小紅書(shū)正在成為越來(lái)越多用戶的多元生活方式聚集地。這些都讓小紅書(shū)成為了刷量黑產(chǎn)的目標(biāo)。

從用戶維度來(lái)看,安全在內(nèi)容平臺(tái)上要解決兩個(gè)問(wèn)題:保證用戶的信息在網(wǎng)絡(luò)上是安全的,以及保障用戶在網(wǎng)絡(luò)上獲取的信息是真實(shí)的。

刷量,作為社區(qū)及交易中常見(jiàn)的作弊手段,會(huì)導(dǎo)致用戶獲取的信息不真實(shí)。通過(guò)刷量這種方式所獲得的無(wú)論是筆記閱讀、點(diǎn)贊、評(píng)論等社區(qū)流量,或是商品瀏覽、銷量等電商數(shù)據(jù),都會(huì)瓦解我們的內(nèi)容安全,影響用戶對(duì)平臺(tái)的信賴。

一、走進(jìn)黑產(chǎn)了解刷量的實(shí)現(xiàn)

1.1 什么是刷量?

初級(jí)的理解,刷量可以理解為數(shù)據(jù)造假,例如使用作弊手段獲得虛假的點(diǎn)贊、收藏等數(shù)據(jù),以此來(lái)謀得更高的商業(yè)價(jià)值。在電商場(chǎng)景中的刷量更多集中在商家維度,例如聘請(qǐng)刷單用戶并利用虛假物流構(gòu)造交易,虛構(gòu)高GMV。

為了深入了解刷量的本質(zhì),我們探訪了一批專門(mén)從事刷量產(chǎn)業(yè)鏈的公司,下面是對(duì)其中三家及實(shí)現(xiàn)手段的介紹:

1.1.1 群控刷量公司

這家公司是做刷量服務(wù)的,主要基于機(jī)器的群控設(shè)備去刷量,包含越獄機(jī)和正常iPhone。他們利用了蘋(píng)果的安全機(jī)制,比如蘋(píng)果手機(jī)的鏡像打包:把整個(gè)手機(jī)中包含用戶登陸態(tài)的客戶端進(jìn)行打包后存儲(chǔ)成一個(gè)文件,再把這些文件存儲(chǔ)在沙箱環(huán)境里?;诖朔椒?,利用單臺(tái)手機(jī)還原出批量沙箱環(huán)境和帳號(hào),實(shí)現(xiàn)不錯(cuò)的群控效果。

圖片

1.1.2 養(yǎng)號(hào)引流公司

這是一家通過(guò)引流售賣(mài)高仿衣服的電商公司。主要的做法是通過(guò)虛擬的廳卡注冊(cè)賬號(hào)后養(yǎng)號(hào)。當(dāng)使用的賬號(hào)被標(biāo)黑后,它需要打通附近線下二手手機(jī)店,以較低的價(jià)格(5-10元)進(jìn)行標(biāo)黑手機(jī)的置換。在拿到全新的設(shè)備后,雇傭一批真人,注冊(cè)賬號(hào)后持續(xù)做內(nèi)容的發(fā)布和運(yùn)營(yíng)。最后做品牌導(dǎo)流并獲取報(bào)酬。據(jù)了解,一個(gè)號(hào)可以引流幾十萬(wàn)的gmv,考慮到號(hào)的數(shù)量,這家公司的收益相當(dāng)可觀。


圖片


1.1.3 眾包刷量公司

眾包黑產(chǎn)通常有專業(yè)的機(jī)構(gòu),在各大平臺(tái)上尋找任務(wù)并招攬人力做兼職,兼職人員用自己的賬號(hào)完成任務(wù)即可獲取報(bào)酬。

圖片

1.2 刷量的重新定義

刷粉刷贊就是刷量嗎?是,但并不完全,我們要從更高的角度理解刷量。

在小紅書(shū)的社區(qū)環(huán)境中,我們把用戶分為兩類:內(nèi)容發(fā)布者和內(nèi)容消費(fèi)者。內(nèi)容發(fā)布者負(fù)責(zé)生產(chǎn),向消費(fèi)者提供優(yōu)質(zhì)的內(nèi)容。而內(nèi)容消費(fèi)者,相對(duì)地,支付時(shí)間成本、機(jī)會(huì)成本、信息成本、情感成本以及所瀏覽內(nèi)容中包含的信息價(jià)值。換言之,發(fā)布者和消費(fèi)者實(shí)際上是在做一種類交易行為,內(nèi)容平臺(tái)就是一個(gè)市場(chǎng)經(jīng)濟(jì)平臺(tái)。有了市場(chǎng),就要有流通的貨幣。在內(nèi)容社區(qū)中,貨幣就是閱讀量、點(diǎn)贊、收藏、評(píng)論數(shù)等這些可以被衡量的單位。


圖片


在這樣的類比下,刷量相當(dāng)于做假幣的行為,虛假內(nèi)容發(fā)布類比于假貨,會(huì)導(dǎo)致整體市場(chǎng)的通貨膨脹。這些代幣雖然存在于二級(jí)市場(chǎng)(社區(qū)),但最終會(huì)和一級(jí)市場(chǎng)做交易(電商,廣告),實(shí)現(xiàn)流量變現(xiàn)。對(duì)小紅書(shū)來(lái)說(shuō),刷量等同于假幣,需要不遺余力的治理。

二、風(fēng)控面臨的挑戰(zhàn)

既然已經(jīng)定性為假幣,為何刷量仍然長(zhǎng)期存在呢?這里就必須要提到反作弊面臨的幾個(gè)挑戰(zhàn):識(shí)別難、治理難、鞏固難。

2.1 識(shí)別難

識(shí)別難可以總結(jié)為三個(gè)部分:終端不可控、AI對(duì)AI、真人對(duì)真人。

2.1.1 終端不可控

在社區(qū)刷量的場(chǎng)景當(dāng)中,終端實(shí)際上是不可控的,對(duì)抗人員很難去判斷客戶端到底是一個(gè)正常用戶還是一個(gè)黑產(chǎn)。理論上講,通信方式不可信,就沒(méi)有辦法做到可信。

我們?cè)?jīng)嘗試逆向了某個(gè)接口協(xié)議攻擊的工具,拆解了里面的代碼,通過(guò)破解簽名算法偽裝成我們的客戶端向服務(wù)器發(fā)送請(qǐng)求。這是目前最容易的一種,其他方式更加難以管控。

圖片

(*協(xié)議攻擊)

2.1.2 AI對(duì)AI 

盡管風(fēng)控在不斷的提升且已大規(guī)模地使用AI 計(jì)算的方式來(lái)進(jìn)行對(duì)抗,但我們的對(duì)手也在不斷攻破升級(jí)。

以黑灰產(chǎn)的群控手段為例。利用三方授權(quán)的漏洞,在公共平臺(tái)生成批量三方帳號(hào),利用三方賬號(hào)完成小紅書(shū)帳號(hào)的注冊(cè)。再通過(guò)UI的自動(dòng)腳本點(diǎn)擊工具去控制點(diǎn)擊和按鍵,在手機(jī)上進(jìn)行操作,來(lái)批量刷贊藏粉。目前盛行的手段是用4G手機(jī)/EC20的芯片,做混雜攻擊來(lái)規(guī)避我們對(duì)于黑IP的識(shí)別。

圖片

AI智能化在風(fēng)控中的推動(dòng)速度是緩慢的。原因是AI算法擅長(zhǎng)解決的是一階問(wèn)題,例如一個(gè)圖片是否包含支付二維碼。然而實(shí)際場(chǎng)景中,我們要判斷的是這個(gè)聊天內(nèi)容是否帶有風(fēng)險(xiǎn)。站在人的角度,經(jīng)常聯(lián)系的好友間發(fā)出的支付二維碼沒(méi)有風(fēng)險(xiǎn),但是剛聊天不久的陌生人之間發(fā)送支付二維碼就是高風(fēng)險(xiǎn)的行為。這里的風(fēng)險(xiǎn)取決于支付二維碼+陌生人聊天這兩階信息的聚合。相對(duì)人,AI很難自動(dòng)的判斷這兩階維度的聚合識(shí)別,所以需要人的大量介入。

2.1.3 真人對(duì)真人

通過(guò)線上群聊、線下小任務(wù)、甚至通過(guò)正規(guī)的招聘渠道招募人員,這些人混跡在真實(shí)用戶中且存在真實(shí)的正常行為。到了某個(gè)時(shí)間會(huì)收錢(qián)做刷量的事情,這讓整個(gè)識(shí)別變得異常復(fù)雜。

圖片

2.2 治理難

在小紅書(shū)平臺(tái)上,內(nèi)容社區(qū)分K(博主),B(品牌/商家),MCN機(jī)構(gòu)(中介),C端(普通用戶)。長(zhǎng)久困擾我們的問(wèn)題是,到底是誰(shuí)為了利益去做了刷量這個(gè)行為,是K端、B端、MCN端還是C端?而這個(gè)人在當(dāng)下的行為是好的還是壞的?在治理的同時(shí),又該如何去避免誤傷?

真實(shí)的情況是,每個(gè)端都有可能參與刷量。品牌發(fā)布營(yíng)銷的需求后,MCN接受任務(wù)并分發(fā)給各大平臺(tái)的K,讓K發(fā)布相關(guān)筆記吸引用戶,最后達(dá)到營(yíng)銷推廣的目的。這個(gè)流程中,MCN為了完成品牌側(cè)的曝光要求獲得盈利,有動(dòng)力刷量。相同地,K為了完成MCN發(fā)布的任務(wù),彌補(bǔ)自身流量不足的問(wèn)題,也有動(dòng)力刷量。品牌側(cè)不同角色例如運(yùn)營(yíng)側(cè),為了完成公司的任務(wù),也可能刷量。而部分競(jìng)對(duì),為了陷害同行,也會(huì)聚集C端用戶到筆記下刷量,導(dǎo)致風(fēng)控判罰博主和筆記。

更麻煩的是,大量的真人會(huì)混雜在整個(gè)群體內(nèi),很難準(zhǔn)確的區(qū)分刷量行為。即便可以辨別,如何判斷這個(gè)人當(dāng)下的行為是否正常?這里面會(huì)有召回和誤傷的問(wèn)題,既要保障完整的召回,又不能誤傷批量的用戶,影響業(yè)務(wù)的順利運(yùn)行。

同時(shí)平臺(tái)的冷啟動(dòng)也是一個(gè)需要解決的問(wèn)題。例如新的小商家為何刷量,因?yàn)槌跗谛∩碳以谖锪鳎浧焚|(zhì)量和價(jià)格的把控上本身就劣于大商家。即便用戶偶然搜到新商家的商品,銷量為0,買(mǎi)家不信任,最后仍然失去成交機(jī)會(huì)。這也是小商家產(chǎn)生了刷量需求。

2.3 鞏固難

任何安全的運(yùn)營(yíng),最終都會(huì)落入到投入產(chǎn)出比的問(wèn)題。在內(nèi)容刷量的場(chǎng)景中,由于沒(méi)有直接的收益計(jì)算,較難衡量風(fēng)控投入的ROI收益。

第二個(gè)難點(diǎn)是防控效果的衡量。前面我們講到了CTR,那是否CTR的值足以判斷風(fēng)控的效果?答案是否定的。防控的結(jié)果會(huì)涉及多個(gè)維度。在我們治理的刷量案例中,有很多一部分的作弊刷量來(lái)自于真人眾包,是以用戶的維度還是異常行為的數(shù)量來(lái)評(píng)判防控的效果?刷量的治理,是人與人的對(duì)抗,風(fēng)控限制和治理一種方式之后,對(duì)手又會(huì)用新的手段和技術(shù)開(kāi)啟下一輪的攻擊,所以防控的效果是在不斷波動(dòng)的,我們需要持續(xù)去進(jìn)行對(duì)抗。

三、小紅書(shū)的治理實(shí)踐

小紅書(shū)是一個(gè)真誠(chéng)分享、友好互動(dòng)的平臺(tái)。對(duì)我們來(lái)說(shuō),比技術(shù)能力更為重要的是平臺(tái)的態(tài)度。這也代表了我們對(duì)刷量行為的態(tài)度是嚴(yán)厲打擊零容忍的。

在安全技術(shù)部?jī)?nèi)部,我們提出了三個(gè)解決方向,分別是:風(fēng)控基礎(chǔ)設(shè)施引擎化,風(fēng)控對(duì)抗流程化,和風(fēng)控識(shí)別智能化

3.1 風(fēng)控基礎(chǔ)設(shè)施引擎化

國(guó)內(nèi)統(tǒng)計(jì)的黑產(chǎn)從業(yè)人員有150萬(wàn),遠(yuǎn)遠(yuǎn)超出我們風(fēng)控技術(shù)團(tuán)隊(duì),如何以小規(guī)模對(duì)抗整個(gè)產(chǎn)業(yè)鏈呢?我們提出的方案快速迭代易試錯(cuò),風(fēng)控基礎(chǔ)設(shè)施引擎化,將工程引擎與整個(gè)前后上下游鏈路打通,提高整體的風(fēng)控對(duì)抗效率。這里的風(fēng)控引擎,不單指在一個(gè)獨(dú)立的節(jié)點(diǎn)部署策略,還包括整個(gè)鏈路的信息接入,并利用上下游信息識(shí)別風(fēng)險(xiǎn)。

以近線平臺(tái)為例,我們將現(xiàn)有的準(zhǔn)實(shí)時(shí)任務(wù)進(jìn)行了高度的抽象化,使用戶能在短時(shí)間通過(guò)組裝任務(wù)的方式快速上線規(guī)則,進(jìn)而提高效率。該平臺(tái)的引擎能力能夠在后臺(tái)結(jié)合多數(shù)據(jù)源和歷史數(shù)據(jù)在相對(duì)準(zhǔn)實(shí)時(shí)的情況下給出風(fēng)控識(shí)別結(jié)果,同時(shí)結(jié)合行為序列分析、圖分析和算法模型,提升風(fēng)控能力實(shí)效性。

近線平臺(tái)補(bǔ)足了單條規(guī)則識(shí)別的局限性,與原風(fēng)控實(shí)時(shí)體系融合,同時(shí)又是其他防控手段的有效補(bǔ)充。近線平臺(tái)支持綜合處理數(shù)據(jù)、事件的能力,也支持多源數(shù)據(jù)接入,具備靈活的數(shù)據(jù)處理能力,更為重要的是提供可支持算法、策略同學(xué)自定義數(shù)據(jù)處理邏輯的功能。在流程工程化的同時(shí),釋放人力、提高準(zhǔn)確性。

下圖為近線系統(tǒng)的整體體系及架構(gòu):

圖片


圖片

從設(shè)備激活->賬號(hào)注冊(cè)\登錄-> 筆記/商城瀏覽 ->交互->內(nèi)容發(fā)布/購(gòu)買(mǎi)商品等,目前我們已覆蓋了用戶全場(chǎng)景行為,在獲取業(yè)務(wù)數(shù)據(jù)后,將實(shí)時(shí)請(qǐng)求、準(zhǔn)實(shí)時(shí)流式、及離線數(shù)據(jù)接入風(fēng)控引擎,實(shí)現(xiàn)多場(chǎng)景層面聯(lián)防聯(lián),對(duì)所取到的身份特征、網(wǎng)絡(luò)環(huán)境、時(shí)序特征、累計(jì)因子等做加工挖掘,輸入至決策分析層。除此之外,實(shí)現(xiàn)識(shí)別能力的遷移,將新識(shí)別到的風(fēng)險(xiǎn)點(diǎn)沉淀后復(fù)用至其他風(fēng)險(xiǎn)場(chǎng)景。

除了風(fēng)控引擎,通用業(yè)務(wù)網(wǎng)關(guān)側(cè)(edith2.0)也做了統(tǒng)一, 整體提高新業(yè)務(wù)的接入效率和穩(wěn)定性,實(shí)現(xiàn)業(yè)務(wù)的分鐘級(jí)接入。

圖片

圖片

3.2 風(fēng)控對(duì)抗流程化

業(yè)務(wù)風(fēng)控最大的難點(diǎn)是對(duì)抗,無(wú)論作弊變成何種形式,唯一不變且一直存在的就是對(duì)抗。一個(gè)標(biāo)準(zhǔn)化的流程也許并不能保障立刻得到最優(yōu)方案,但是可以幫助我們分析問(wèn)題、暴露問(wèn)題,建立起有反饋的正向迭代鏈路,提高我們的效率。

由情報(bào)技術(shù)所驅(qū)動(dòng)的運(yùn)營(yíng)沉淀能力在小紅書(shū)風(fēng)控團(tuán)隊(duì)中已逐漸形成一個(gè)可行的流程體系在不斷運(yùn)作。整個(gè)流程可以分為五個(gè)步驟:風(fēng)險(xiǎn)感知、能力建設(shè)、風(fēng)險(xiǎn)識(shí)別、風(fēng)險(xiǎn)處置、效果評(píng)估。

圖片

圖片

風(fēng)險(xiǎn)感知:依賴指標(biāo)體系更快發(fā)現(xiàn)風(fēng)險(xiǎn),變被動(dòng)救火為主動(dòng)防御,驅(qū)動(dòng)能力建設(shè)以及后續(xù)流程。

能力建設(shè):建立面向?qū)沟目焖夙憫?yīng)能力,快速接入可靈活配置的風(fēng)控系統(tǒng)。

風(fēng)險(xiǎn)識(shí)別:提高識(shí)別準(zhǔn)召,建立特征體系,對(duì)作弊特征進(jìn)行挖掘,并能對(duì)缺失能力進(jìn)行需求反饋。

風(fēng)險(xiǎn)處置:選擇更有效的方式降低對(duì)抗成本,對(duì)行為的攔截、對(duì)筆記的限流以及用戶的處置,并能對(duì)策略迭代形成有效反饋。

效果評(píng)估:同樣依賴指標(biāo)體系,評(píng)估風(fēng)險(xiǎn)水位的變化,如作弊漏過(guò)、黑產(chǎn)服務(wù)價(jià)格、賬號(hào)價(jià)格等,同時(shí)能夠進(jìn)行誤殺和漏過(guò)反饋。

在發(fā)現(xiàn)一個(gè)新的情報(bào)或感知到一個(gè)新的作弊攻擊后,依照這個(gè)流程進(jìn)行運(yùn)作,并從過(guò)程中分析判斷是哪里出了問(wèn)題:是情報(bào)發(fā)現(xiàn)不夠多,還是情報(bào)轉(zhuǎn)化成識(shí)別不夠快,或者是識(shí)別處置召回不足。

以情報(bào)運(yùn)營(yíng)中的買(mǎi)量分析為例,通過(guò)情報(bào)或者價(jià)格波動(dòng)發(fā)現(xiàn)黑產(chǎn)服務(wù)后進(jìn)行采買(mǎi)測(cè)試,進(jìn)而分析手法并選擇合適的策略或模型進(jìn)行識(shí)別、處置,而對(duì)于效果的評(píng)估需要通過(guò)二次采買(mǎi)或者對(duì)黑產(chǎn)價(jià)格的持續(xù)監(jiān)控,當(dāng)對(duì)識(shí)別處置的反饋均已落實(shí)且效果評(píng)估達(dá)標(biāo)之后,當(dāng)前流程才算結(jié)束。

3.3 風(fēng)控識(shí)別智能化

在對(duì)抗的級(jí)別以及防控的力度上,風(fēng)控智能化識(shí)別的環(huán)節(jié)大體上可以分為三個(gè)階段:第一個(gè)階段,針對(duì)黑產(chǎn)的低成本機(jī)器手法,基于行為主體的特征進(jìn)行分析判斷;第二個(gè)階段,在與黑產(chǎn)的高頻對(duì)抗中,基于群體的特征進(jìn)行團(tuán)伙挖掘;第三個(gè)階段,在真人刷量的識(shí)別中,依據(jù)刷量社群的關(guān)聯(lián)關(guān)系,基于圖的算法來(lái)做主體關(guān)系的發(fā)現(xiàn)。目前這三個(gè)階段已經(jīng)在小紅書(shū)落地,進(jìn)行了實(shí)踐。

圖片

3.3.1 行為主體特征分析

流量數(shù)據(jù)作為表現(xiàn)形式,其基本組成是用戶的每一條互動(dòng)行為,風(fēng)控也正是基于行為的特征進(jìn)行分析識(shí)別。在識(shí)別的過(guò)程中,行為特征的質(zhì)量直接關(guān)系著對(duì)于黑產(chǎn)刷量的識(shí)別召回,因此數(shù)據(jù)特征的建設(shè)尤為重要?!澳サ恫徽`砍柴工”,在這一階段,我們建立了一套基于行為主體的用戶、設(shè)備等的特征體系,為風(fēng)控智能化識(shí)別奠定了基石。

圖片

黑產(chǎn)的目的是以最低的成本完成刷量任務(wù),在這一階段,黑產(chǎn)往往利用機(jī)器手段進(jìn)行自動(dòng)或半自動(dòng)的批量刷量,不僅成本低,而且效率高。我們的基本假設(shè)是:在進(jìn)行機(jī)器刷量時(shí),機(jī)器賬號(hào)或者設(shè)備上必然存在明確的、可解釋的異常特征。因此如何分析識(shí)別出異常特征是風(fēng)控第一階段需要解的命題。在識(shí)別分工上,我們實(shí)行端+云的防控模式,端防設(shè)計(jì)合理的設(shè)備上報(bào)、檢測(cè)方法,完成對(duì)設(shè)備的初步防控,云防基于用戶特征、設(shè)備特征和行為特征對(duì)行為進(jìn)行異常分析識(shí)別。

以協(xié)議接口請(qǐng)求為例,黑產(chǎn)通過(guò)破解平臺(tái)的簽名算法直接請(qǐng)求后端接口,不需要真實(shí)設(shè)備就能完成刷量,是黑產(chǎn)常用的成本最低且最高效的刷量手段。沒(méi)有真實(shí)設(shè)備的同時(shí)也導(dǎo)致了沒(méi)有真實(shí)的前端打點(diǎn)和設(shè)備上報(bào),即便是偽造了設(shè)備信息,設(shè)備上報(bào)信息的字段和設(shè)備環(huán)境也無(wú)法有效偽造成和正常設(shè)備一樣。

除了通過(guò)對(duì)相關(guān)特征參數(shù)的校驗(yàn),對(duì)環(huán)境異常的識(shí)別進(jìn)行識(shí)別防控之外,我們還依賴全面的特征體系和沉淀的黑產(chǎn)刷量樣本等建立了有監(jiān)督的識(shí)別模型。在整個(gè)模型當(dāng)中,特征工程是保證模型召回的重要環(huán)節(jié),而模型結(jié)果的處理環(huán)節(jié)是準(zhǔn)確率的保障

圖片

特征工程:在特征工程中,我們分為兩部分順序進(jìn)行。

  • 特征選擇:經(jīng)過(guò)前期不斷地“人工對(duì)抗”,我們積累了豐富的特征對(duì)抗經(jīng)驗(yàn),從黑產(chǎn)刷量手法角度出發(fā)選擇了全面的特征、標(biāo)簽,如設(shè)備內(nèi)核版本、農(nóng)場(chǎng)標(biāo)簽,改機(jī)字段、注冊(cè)時(shí)長(zhǎng)、批量注冊(cè)標(biāo)簽等。
  • 特征處理:在特征處理時(shí),對(duì)離散特征和連續(xù)特征分別標(biāo)準(zhǔn)化處理之后進(jìn)行LabelEncoder,并對(duì)表征結(jié)果嘗試了不同的拼接方法,將散亂的特征數(shù)據(jù)轉(zhuǎn)化為多維的模型輸入。

結(jié)果處理:在設(shè)計(jì)上,我們訓(xùn)練了回歸模型作為infer,即輸入值為連續(xù)的分值,相比于分類模型在結(jié)果的處理上更加靈活。

  • 樣本分布:通過(guò)分析真實(shí)刷量樣本的模型結(jié)果分布,半自動(dòng)化的計(jì)算出了“合適”的閾值作為區(qū)分黑產(chǎn)和真實(shí)行為的標(biāo)準(zhǔn)。
  • 運(yùn)營(yíng)評(píng)估:在模型上線之前,風(fēng)控運(yùn)營(yíng)會(huì)對(duì)端到端的結(jié)果進(jìn)行準(zhǔn)確性評(píng)估,只有評(píng)估的準(zhǔn)確率達(dá)到標(biāo)準(zhǔn),模型才能上線識(shí)別。

3.3.2 群體特征挖掘

正如前文提到,對(duì)抗是一直存在的。當(dāng)黑產(chǎn)發(fā)現(xiàn)低成本的機(jī)器手法繞不過(guò)風(fēng)控的校驗(yàn)時(shí),會(huì)不斷地嘗試使用真機(jī)、偽造設(shè)備參數(shù)、使用作弊工具等對(duì)抗手法,并進(jìn)行手法升級(jí),淘汰低成本手法。而在不斷的對(duì)抗中,第一階段的主體特征分析就顯得相對(duì)被動(dòng),無(wú)法進(jìn)行主動(dòng)防控。

從風(fēng)控的角度出發(fā),在這一階段我們的基本假設(shè)是:黑產(chǎn)無(wú)論如何偽造、繞過(guò),其團(tuán)伙性質(zhì)仍然無(wú)法改變,數(shù)據(jù)特征上一定存在著相似和聚集。因此在這個(gè)階段,以團(tuán)伙為識(shí)別目標(biāo)對(duì)群體特征進(jìn)行挖掘,利用結(jié)構(gòu)化數(shù)據(jù)特征體系,是需要建立起的第二道防線。

以不斷變換手法的機(jī)器刷量為例,黑產(chǎn)的手法逐漸由協(xié)議接口轉(zhuǎn)化為改機(jī)群控,并演化為自動(dòng)化點(diǎn)擊工具。為了主動(dòng)防控,我們通過(guò)設(shè)備聚類模型進(jìn)行識(shí)別召回,對(duì)以上機(jī)器手法均完成了有效的遏制。

設(shè)備聚類模型以設(shè)備基礎(chǔ)信息(如設(shè)備型號(hào)、app版本、系統(tǒng)內(nèi)核等)為特征,對(duì)同筆記或同博主下交互用戶的設(shè)備基礎(chǔ)信息進(jìn)行特征工程與相似度計(jì)算,通過(guò)聚類算法圈定相似度高的設(shè)備群體。識(shí)別后一方面記錄黑設(shè)備并進(jìn)行后續(xù)行為攔截,另一方面輸出黑設(shè)備群體的設(shè)備標(biāo)簽擴(kuò)充設(shè)備黑庫(kù)。該模型屬于無(wú)監(jiān)督模型,能夠很好地適應(yīng)黑產(chǎn)頻繁變換作弊手法的特點(diǎn),同時(shí)也能對(duì)線上策略作補(bǔ)充并擴(kuò)召回。

以下為模型流程圖和聚類識(shí)別案例:

圖片

圖片

在整個(gè)模型中,我們依賴特征工程和簇篩選對(duì)黑產(chǎn)設(shè)備進(jìn)行高召回高準(zhǔn)確的聚類:

  • 特征工程:在第一階段,我們建立了一套全面、高復(fù)用的特征體系,在這個(gè)階段我們通過(guò)分析團(tuán)伙設(shè)備的特征,選擇了合適的20~30維的設(shè)備特征作為輸入,從數(shù)據(jù)源上保證了模型的召回。
  • 簇篩選:在不斷的風(fēng)控對(duì)抗中,我們沉淀了足夠的設(shè)備標(biāo)簽和設(shè)備黑庫(kù),在聚類模型的輸出結(jié)果篩選上,這部分黑設(shè)備作為種子用于計(jì)算聚類簇中黑產(chǎn)濃度,從而篩選出準(zhǔn)確且高召回的設(shè)備簇。

3.3.3 基于圖的主體發(fā)現(xiàn)

如前文所提到的挑戰(zhàn),刷量的手法會(huì)逐漸演變?yōu)檎嫒藢?duì)真人,當(dāng)黑產(chǎn)發(fā)現(xiàn)機(jī)器手法繞不過(guò)風(fēng)控時(shí),會(huì)選擇招聘眾包或者組織互刷的方式,嘗試以真人行為進(jìn)行刷量。雖然都是真人行為,但本質(zhì)都是缺乏真實(shí)意愿,屬于“假幣”。真人行為不僅主體特征分析無(wú)法發(fā)現(xiàn)異常,在設(shè)備上也無(wú)法發(fā)現(xiàn)群體性。

由于刷量行為的特殊性,我們的合理假設(shè)是:無(wú)論如何改變手法,刷量行為的最終指向都是買(mǎi)量的主體,只要存在主體相關(guān)性,就能通過(guò)數(shù)據(jù)特征對(duì)行為進(jìn)行識(shí)別召回。在這一階段,小紅書(shū)依賴特有的社區(qū)、電商行為圖以及刷量、刷單圖對(duì)一組行為主體進(jìn)行主動(dòng)發(fā)現(xiàn)挖掘,通過(guò)實(shí)體關(guān)聯(lián)并利用圖算法對(duì)真人作弊用戶或者正在養(yǎng)號(hào)的用戶進(jìn)行召回,能夠有效的發(fā)現(xiàn)“漏網(wǎng)之魚(yú)”。

圖片


*圖1:正常用戶點(diǎn)贊筆記的關(guān)聯(lián)圖

(紅點(diǎn)為筆記,藍(lán)點(diǎn)為用戶)

圖片


*圖2:作弊用戶點(diǎn)贊筆記的關(guān)聯(lián)圖

(紅點(diǎn)為筆記,藍(lán)點(diǎn)為用戶)


圖1:7位正常用戶點(diǎn)贊的筆記中,僅有一篇筆記存在重疊,即中間紅點(diǎn)的筆記。

圖2:9位作弊用戶點(diǎn)贊的筆記為同一批筆記,點(diǎn)贊筆記高度重疊且未點(diǎn)贊過(guò)非這批筆記以外的其他筆記。

上圖為用戶和筆記的行為關(guān)聯(lián)圖(紅色為筆記、藍(lán)色為用戶),圖1為正常用戶點(diǎn)贊正常筆記的行為關(guān)聯(lián)關(guān)系,可以發(fā)現(xiàn)行為用戶的群體關(guān)聯(lián)性低,不會(huì)大量點(diǎn)贊同一群筆記,但存在因?yàn)椤皭?ài)好”被系統(tǒng)推薦同類型的筆記造成偶爾的重疊。而圖2中的行為用戶點(diǎn)贊同一批作弊筆記,具有較強(qiáng)的社區(qū)關(guān)聯(lián)性,是典型的作弊用戶點(diǎn)贊作弊筆記的行為關(guān)聯(lián)圖。

以“開(kāi)車(chē)”互刷為例,即黑產(chǎn)接到刷量任務(wù)之后充當(dāng)組織者、中間商的身份,對(duì)經(jīng)常參與互刷(例如互贊)的人群發(fā)布任務(wù),對(duì)指定目標(biāo)進(jìn)行刷量。黑產(chǎn)不會(huì)只發(fā)布一條任務(wù),行為用戶也不會(huì)只做一條任務(wù),這二者之間存在相對(duì)固定的“圈子”。對(duì)于這類作弊方式,我們通過(guò)標(biāo)簽傳播模型對(duì)社群用戶進(jìn)行了批量召回。

標(biāo)簽傳播模型是基于風(fēng)控圖對(duì)種子用戶進(jìn)行擴(kuò)散傳播,種子用戶來(lái)源于風(fēng)控識(shí)別沉淀的刷量用戶,關(guān)聯(lián)主體為買(mǎi)量筆記、買(mǎi)量博主等,以風(fēng)控圖中的點(diǎn)邊關(guān)聯(lián)關(guān)系進(jìn)行傳播。用真人來(lái)進(jìn)行刷量,設(shè)備、賬號(hào)是有限的,為了能夠達(dá)到刷量的目的,行為用戶會(huì)啟用小號(hào)重復(fù)接多個(gè)任務(wù)。標(biāo)簽傳播的目的就是通過(guò)正確的路徑將刷量標(biāo)簽傳播給社群中的其他刷量用戶,完成對(duì)刷量的識(shí)別召回。 

  • 傳播路徑:用戶標(biāo)簽會(huì)經(jīng)過(guò)設(shè)備、三方賬號(hào)等強(qiáng)路徑進(jìn)行傳播,也會(huì)經(jīng)過(guò)以買(mǎi)量主體如筆記、作者等的關(guān)聯(lián)路徑進(jìn)行傳播。
  • 用戶標(biāo)簽:由于是刷量用戶是真人,通過(guò)標(biāo)簽傳播給用戶賦予的標(biāo)簽往往無(wú)法直接進(jìn)行行為攔截,因此基于對(duì)真人刷量的基本假設(shè),我們對(duì)買(mǎi)量主體下的標(biāo)簽進(jìn)行了聚集性分析,從而識(shí)別出買(mǎi)量主體和刷量用戶。

四、跳出技術(shù)思維解決問(wèn)題

以上主要是基于技術(shù)來(lái)解決問(wèn)題,但在實(shí)際的工作中,我們還需要跳出技術(shù)視角,從一個(gè)更為宏觀的角度來(lái)助力業(yè)務(wù),完善安全。基于這個(gè)目的,在深挖鉆研技術(shù)的同時(shí),我們沉淀出了一套可落地且有效的方法論:從消除麻煩的影響入手,到解決掉制造麻煩的人,最終消除引起麻煩的動(dòng)機(jī)


圖片


解決麻煩的三點(diǎn)論

消除麻煩影響

在通過(guò)技術(shù)手段識(shí)別出刷量的作弊對(duì)象和數(shù)據(jù)后,進(jìn)行實(shí)際的治理、處置動(dòng)作,把虛假流量從平臺(tái)中屏蔽掉。

解決制造麻煩的人

打擊處于這個(gè)產(chǎn)業(yè)鏈中的人以及每一個(gè)環(huán)節(jié),包括帳號(hào)的交易、平臺(tái)數(shù)據(jù)的交易、交易的人等。這里我們采用了風(fēng)控與法務(wù)等部門(mén)聯(lián)合作戰(zhàn)的方式,解決麻煩的制造者。今年6-8月,對(duì)6家存在刷量行為的MCN和部分作者進(jìn)行了嚴(yán)厲的處罰,并對(duì)其發(fā)起了訴訟。

電商場(chǎng)景中,刷單的商家主要是為了引流并實(shí)現(xiàn)更高的GMV。被識(shí)別出的商家賬號(hào)會(huì)交由運(yùn)營(yíng)同學(xué)進(jìn)行專業(yè)的判斷,并根據(jù)惡劣程度交由規(guī)則側(cè)進(jìn)行處罰;而行為惡劣的用戶則會(huì)被放入黑名單,由風(fēng)控對(duì)其下單行為進(jìn)行限制。

解決制造麻煩的動(dòng)機(jī)

社區(qū)場(chǎng)景中買(mǎi)量者的目的是希望通過(guò)作弊方式實(shí)現(xiàn)他的商業(yè)價(jià)值,而我們要做的就是降低這部分用戶或者機(jī)構(gòu)的商業(yè)價(jià)值。風(fēng)控聯(lián)合生態(tài)及運(yùn)營(yíng)部門(mén),根據(jù)平臺(tái)規(guī)則、法律法規(guī)等對(duì)作弊流量進(jìn)行處罰。經(jīng)過(guò)持續(xù)不斷的打擊,黑產(chǎn)賬號(hào)成本變高,刷量服務(wù)價(jià)格持續(xù)上漲,點(diǎn)贊、收藏單價(jià)已經(jīng)上漲超過(guò)300%,買(mǎi)量用戶的作弊意愿也在逐步降低。

2022年至今,小紅書(shū)累計(jì)清理作弊點(diǎn)贊行為31億次,可以看到,對(duì)于刷量這件事情,平臺(tái)的態(tài)度始終是非常堅(jiān)決的。

(本文作者:小紅書(shū)安全技術(shù)部  陸遜  時(shí)影  王馬  葉峰  石昊  老皮)

責(zé)任編輯:龐桂玉 來(lái)源: 小紅書(shū)技術(shù)REDtech
相關(guān)推薦

2018-03-02 09:25:23

IT編程機(jī)器學(xué)習(xí)阿里巴巴

2022-11-11 17:14:42

深度學(xué)習(xí)

2024-08-02 14:56:00

2022-11-16 22:30:06

大數(shù)據(jù)

2022-06-08 18:02:33

云計(jì)算

2021-02-27 11:03:26

算法職責(zé)ICBU

2020-09-30 10:25:38

IT工具技術(shù)

2019-03-12 13:45:06

華為云

2013-11-26 09:27:11

4G牌照4G預(yù)測(cè)

2019-01-22 15:34:07

挖礦拼多多IT

2024-01-12 21:18:22

負(fù)樣本大模型蒸餾

2021-08-17 08:11:21

勒索軟件攻擊數(shù)據(jù)泄露

2025-06-25 09:53:59

2022-05-10 08:27:15

小紅書(shū)FlinkK8s

2025-01-15 11:36:28

2023-09-07 10:45:38

ChatGPTAI

2016-01-20 14:10:28

戴爾云計(jì)算

2024-03-19 13:29:19

2025-04-03 08:00:00

灰度發(fā)布Java開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)