偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

惡意爬蟲(chóng)這樣窺探、爬取、威脅你的網(wǎng)站

安全 應(yīng)用安全
根據(jù) Aberdeen Group 在近期發(fā)布的以北美幾百家公司數(shù)據(jù)為樣本的爬蟲(chóng)調(diào)查報(bào)告顯示,2015 年網(wǎng)站流量中的真人訪問(wèn)僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲(chóng)和 18.6% 的惡意爬蟲(chóng)構(gòu)成。

整個(gè)互聯(lián)網(wǎng)的流量中,真人占比有多少?

80% ? 60% ? 50% ?

整個(gè)互聯(lián)網(wǎng)的流量中,真人占比有多少?

根據(jù) Aberdeen Group 在近期發(fā)布的以北美幾百家公司數(shù)據(jù)為樣本的爬蟲(chóng)調(diào)查報(bào)告顯示,2015 年網(wǎng)站流量中的真人訪問(wèn)僅為總流量的 54.4% ,剩余的流量由 27% 的好爬蟲(chóng)和 18.6% 的惡意爬蟲(chóng)構(gòu)成。

[[178427]]

爬與反爬的斗爭(zhēng)從未間斷

惡意爬蟲(chóng)占比數(shù)據(jù)與 2013 年和 2014 年相比有所下降,同時(shí)真人訪問(wèn)的占比也有所提升,但這并不意味著惡意爬蟲(chóng)日漸式微。一個(gè)原因是印度、印度尼西亞等高人口總數(shù)國(guó)家的互聯(lián)網(wǎng)新增人口有大幅提升,另一方面,惡意爬蟲(chóng)制造者更專注于爬蟲(chóng)的質(zhì)量而不是數(shù)量,如今的惡意爬蟲(chóng)具有高持續(xù)性和可變性。

爬與反爬的斗爭(zhēng)從未間斷。過(guò)去的初級(jí)爬蟲(chóng)能很明顯從異常的 Headers 信息甄別,但爬蟲(chóng)制造者從一次次爬與反爬中總結(jié)出可能被封的原因,通過(guò)不斷的測(cè)試和改善爬蟲(chóng)程序,更新?lián)Q代后的高持續(xù)性惡意爬蟲(chóng)通常具有以下特點(diǎn)中的某幾個(gè):

  • 模仿真人行為
  • 加載 Javascript 和外部資源
  • 模擬 cookie 和 useragent
  • 瀏覽器自動(dòng)化操作
  • 變化的 IP 地址池

可能很多人認(rèn)為,惡意爬蟲(chóng)只會(huì)威脅到少數(shù)以文本為核心價(jià)值的網(wǎng)站,其實(shí)這些能改變自己請(qǐng)求路徑和請(qǐng)求方式的偽裝者可能潛伏在任何一個(gè)網(wǎng)站的每一個(gè)角落,文本、圖片、價(jià)格、評(píng)論、接口、架構(gòu)等方方面面均有可能成為爬蟲(chóng)的囊中物。

縱容爬蟲(chóng)的危害你必須知道

從網(wǎng)站業(yè)務(wù)安全的角度,縱容這些偽裝者的危害有以下幾點(diǎn):

 

1. 核心文本被爬

網(wǎng)站的核心文本可能在幾小時(shí)甚至幾分鐘內(nèi)就被惡意爬蟲(chóng)抓取并悄無(wú)聲息的復(fù)制到別的網(wǎng)站。核心內(nèi)容被復(fù)制會(huì)極大影響網(wǎng)站和網(wǎng)頁(yè)本身在搜索引擎上的排名,低排名會(huì)導(dǎo)致訪問(wèn)量降低和銷(xiāo)量、廣告收益降低的惡性循環(huán)。

在內(nèi)容為王、用戶粘性不高的今天,核心內(nèi)容很大程度上會(huì)影響網(wǎng)站在用戶心目中的價(jià)值。若網(wǎng)站以文本為商品作為盈利點(diǎn),那惡意爬蟲(chóng)更是影響 KPI 的罪魁禍?zhǔn)住?/p>

 

2. 商品價(jià)格被爬

價(jià)格爬蟲(chóng)的成因有兩種,一是網(wǎng)站競(jìng)爭(zhēng)對(duì)手刻意爬取商品詳情和價(jià)格后進(jìn)行同類產(chǎn)品線和價(jià)格的研究。

比如某 APP 上線新的租車(chē)服務(wù)前,會(huì)爬取所有競(jìng)品 APP 中的車(chē)型詳情及定價(jià)策略,為新服務(wù)上線打下價(jià)格優(yōu)勢(shì)。

另一個(gè)案例來(lái)自某酒店網(wǎng)站,我們?cè)跀?shù)據(jù)分析平臺(tái) Warden 實(shí)踐中發(fā)現(xiàn),網(wǎng)站的客房詳情被爬蟲(chóng)攻擊,機(jī)器訪問(wèn)的特點(diǎn)非常明顯:

  • 頁(yè)面被某幾個(gè) IP 超高頻訪問(wèn),單個(gè) IP每小時(shí)訪問(wèn)量達(dá) 5000 以上
  • 部分 IP 的訪問(wèn)路徑極為單一,僅請(qǐng)求房?jī)r(jià)詳情頁(yè)面,無(wú)真人訪問(wèn)的“首頁(yè)→搜索→詳情頁(yè)→搜索”軌跡
  • 訪問(wèn)間隔極短,且每次均請(qǐng)求不同時(shí)間段不同地域不同編號(hào)的酒店客房信息

以上特點(diǎn)能完全排除真人訪問(wèn)的可能,在 數(shù)據(jù)分析平臺(tái)中也觸發(fā)多個(gè)實(shí)時(shí)策略,讓我們可以協(xié)助用戶及時(shí)處理。

IP 點(diǎn)擊詳情

* IP 點(diǎn)擊詳情

某一條點(diǎn)擊詳情的 request 和 response 信息

**某一條點(diǎn)擊詳情的 request 和 response 信息

點(diǎn)擊數(shù)及報(bào)警數(shù)統(tǒng)計(jì),紅點(diǎn)部分為觸發(fā)報(bào)警

**點(diǎn)擊數(shù)及報(bào)警數(shù)統(tǒng)計(jì),紅點(diǎn)部分為觸發(fā)報(bào)警

這類爬蟲(chóng)就是典型的價(jià)格爬蟲(chóng),如不進(jìn)行實(shí)時(shí)判斷和攔截,網(wǎng)站的定價(jià)信息可能在幾小時(shí)內(nèi)就被競(jìng)爭(zhēng)對(duì)手完全掌握。

第二個(gè)成因是羊毛黨們?cè)噲D搜尋低價(jià)商品信息或在營(yíng)銷(xiāo)大促前提前獲取情報(bào)尋找套利的可能。

比如某 P2P 行業(yè)客戶發(fā)現(xiàn)近幾個(gè)月理財(cái)轉(zhuǎn)讓專區(qū)的產(chǎn)品幾乎在放出 2 秒內(nèi)就被轉(zhuǎn)讓成功,而網(wǎng)站的活躍用戶并沒(méi)有大幅的增長(zhǎng),轉(zhuǎn)讓專區(qū)疑似被爬。

通過(guò)數(shù)據(jù)分析平臺(tái)能在流量中能看到該轉(zhuǎn)讓頁(yè)面正在遭受爬蟲(chóng)的攻擊,攻擊者能在極短時(shí)間內(nèi)獲取轉(zhuǎn)讓產(chǎn)品的收益率并自動(dòng)篩選高收益率的產(chǎn)品,甚至能實(shí)現(xiàn)腳本自動(dòng)下單購(gòu)買(mǎi)。

 

另一個(gè)案例來(lái)自某電商平臺(tái),某次聲勢(shì)浩大的營(yíng)銷(xiāo)活動(dòng)規(guī)定新注冊(cè)用戶綁卡后能獲得一次抽獎(jiǎng)機(jī)會(huì),由于抽獎(jiǎng)接口遺漏了其他渠道分享入口,給羊毛黨有了不綁卡也能抽獎(jiǎng)的可趁之機(jī),造成活動(dòng)幾乎全部的獎(jiǎng)品被羊毛黨薅去。

網(wǎng)站營(yíng)銷(xiāo)頁(yè)面點(diǎn)擊量突增

**網(wǎng)站營(yíng)銷(xiāo)頁(yè)面點(diǎn)擊量突增

風(fēng)險(xiǎn)情報(bào)系統(tǒng)提示該 IP 具有高風(fēng)險(xiǎn)分值

**風(fēng)險(xiǎn)情報(bào)系統(tǒng)提示該 IP 具有高風(fēng)險(xiǎn)分值

在事后復(fù)盤(pán)時(shí),我們?cè)跀?shù)據(jù)分析平臺(tái)中發(fā)現(xiàn)羊毛黨活動(dòng)前疑似派出爬蟲(chóng)探路,活動(dòng)匯總頁(yè)面被超高頻訪問(wèn),雖然訪問(wèn)量并不集中于某幾個(gè) IP ,但有訪問(wèn)地域集中于某兩個(gè)城市、訪問(wèn)路徑單一且訪問(wèn)間隔有規(guī)律等特點(diǎn)。另外,通過(guò)風(fēng)險(xiǎn)情報(bào)系統(tǒng) Red.Q 的數(shù)據(jù),同樣提示這些訪問(wèn) IP 的高風(fēng)險(xiǎn)分值,活動(dòng)開(kāi)始后羊毛黨的訪問(wèn)也有類似的訪問(wèn)規(guī)律。

羊毛黨的活動(dòng)特性是個(gè)大話題,在此先不展開(kāi),但從案例中能看到,價(jià)格爬蟲(chóng)是羊毛黨們的先鋒探路工具,攻擊者們可以通過(guò)爬蟲(chóng)獲得營(yíng)銷(xiāo)活動(dòng)的具體信息,同時(shí)能測(cè)試網(wǎng)站對(duì)高頻訪問(wèn)或最大訪問(wèn)量的限制,為之后的薅羊毛做鋪墊。

 

3. 注冊(cè)用戶被掃描

如果在網(wǎng)站的注冊(cè)頁(yè)面輸入一個(gè)已注冊(cè)過(guò)的號(hào)碼,通常會(huì)看到“該用戶已注冊(cè)”的提示,這一信息也會(huì)在請(qǐng)求的 response 中顯示,一些網(wǎng)站的短信接口也有類似邏輯,注冊(cè)用戶和非注冊(cè)用戶返回的字段和枚舉值會(huì)有不同。利用這一業(yè)務(wù)邏輯,惡意爬蟲(chóng)通過(guò)各類社工庫(kù)拿到一批手機(jī)號(hào)后可以在短時(shí)內(nèi)驗(yàn)證這批號(hào)碼是否為某一網(wǎng)站的注冊(cè)用戶。

這個(gè)數(shù)據(jù)有什么利用價(jià)值?除了很明顯的違法欺詐外,攻擊者可以將數(shù)據(jù)打包出售給競(jìng)爭(zhēng)對(duì)手或感興趣的數(shù)據(jù)營(yíng)銷(xiāo)公司,完善他們的精準(zhǔn)營(yíng)銷(xiāo)數(shù)據(jù)。

4. 其他危害

 

  • 點(diǎn)擊欺詐:點(diǎn)擊欺詐會(huì)給網(wǎng)站造成實(shí)實(shí)在在的利益損失。投放廣告通常是為了觸達(dá)符合網(wǎng)站定位的潛在消費(fèi)者,爬蟲(chóng)造成的點(diǎn)擊欺詐使得廣告的點(diǎn)擊率虛高,使得網(wǎng)站承擔(dān)了本不應(yīng)承擔(dān)的點(diǎn)擊費(fèi)用。從運(yùn)營(yíng)角度出發(fā),訪問(wèn)量無(wú)原因的忽高忽高也不利于分析廣告投放效果。
  • 網(wǎng)站帶寬負(fù)擔(dān):對(duì)于帶寬有限的中小型網(wǎng)站,爬蟲(chóng)可能會(huì)降低網(wǎng)頁(yè)加載速度,影響真實(shí)用戶的訪問(wèn)體驗(yàn)。

事前的甄別預(yù)防才是關(guān)鍵

惡意爬蟲(chóng)在給網(wǎng)站帶來(lái)可觀訪問(wèn)量的同時(shí),也帶來(lái)了難以估量的威脅和損失。

從實(shí)際案例中我們可以看到,惡意爬蟲(chóng)已經(jīng)承擔(dān)了整個(gè)攻擊環(huán)節(jié)先鋒者的重任,所以在分析網(wǎng)站的業(yè)務(wù)安全風(fēng)險(xiǎn)時(shí),我們可以更多的關(guān)注流量和用戶行為的異常點(diǎn),盡可能的在惡意行為剛發(fā)生時(shí)就及時(shí)甄別并做出合理的判斷和攔截,必要時(shí),宜采用專業(yè)的風(fēng)險(xiǎn)情報(bào)系統(tǒng)和數(shù)據(jù)分析平臺(tái)進(jìn)行系統(tǒng)的部署。對(duì)于企業(yè)來(lái)說(shuō),事前預(yù)防遠(yuǎn)比事后補(bǔ)救重要。

【本文是51CTO專欄機(jī)構(gòu)“豈安科技”的原創(chuàng)文章,轉(zhuǎn)載請(qǐng)通過(guò)微信公眾號(hào)(bigsec)聯(lián)系原作者】

責(zé)任編輯:趙寧寧 來(lái)源: bigsec豈安科技
相關(guān)推薦

2016-12-07 11:18:58

Python爬蟲(chóng)網(wǎng)站

2017-12-14 21:45:39

2021-03-18 09:18:12

python爬蟲(chóng)

2019-09-30 15:13:44

惡意程序惡意網(wǎng)站網(wǎng)絡(luò)安全

2012-12-27 14:12:23

2013-12-12 16:23:58

2016-04-01 11:09:19

2020-04-02 11:06:56

網(wǎng)站安全HTTPS加密

2021-02-24 10:05:49

惡意爬蟲(chóng)網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)安全

2015-03-19 14:08:12

2017-05-24 15:07:19

Python爬蟲(chóng)爬取

2016-11-07 15:23:37

Python

2011-11-22 08:52:49

2021-01-24 16:40:00

Python爬取網(wǎng)站編程語(yǔ)言

2013-01-08 09:37:26

大數(shù)據(jù)數(shù)據(jù)采集

2013-07-31 09:03:45

2023-03-14 16:05:36

2020-10-26 15:09:35

Python爬蟲(chóng)網(wǎng)頁(yè)數(shù)據(jù)

2011-08-23 13:56:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)