偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

爬蟲與反爬蟲技術(shù)簡介

安全
本文一方面從爬蟲與反反爬的角度來說明如何高效的對網(wǎng)絡(luò)上的公開數(shù)據(jù)進(jìn)行爬取,另一方面也會介紹反爬蟲的技術(shù)手段,為防止外部爬蟲大批量的采集數(shù)據(jù)的過程對服務(wù)器造成超負(fù)載方面提供些許建議。

作者 | vivo 互聯(lián)網(wǎng)安全團隊- Xie Peng

互聯(lián)網(wǎng)的大數(shù)據(jù)時代的來臨,網(wǎng)絡(luò)爬蟲也成了互聯(lián)網(wǎng)中一個重要行業(yè),它是一種自動獲取網(wǎng)頁數(shù)據(jù)信息的爬蟲程序,是網(wǎng)站搜索引擎的重要組成部分。通過爬蟲,可以獲取自己想要的相關(guān)數(shù)據(jù)信息,讓爬蟲協(xié)助自己的工作,進(jìn)而降低成本,提高業(yè)務(wù)成功率和提高業(yè)務(wù)效率。

本文一方面從爬蟲與反反爬的角度來說明如何高效的對網(wǎng)絡(luò)上的公開數(shù)據(jù)進(jìn)行爬取,另一方面也會介紹反爬蟲的技術(shù)手段,為防止外部爬蟲大批量的采集數(shù)據(jù)的過程對服務(wù)器造成超負(fù)載方面提供些許建議。

爬蟲指的是按照一定規(guī)則自動抓取萬維網(wǎng)信息的程序,本次主要會從爬蟲的技術(shù)原理與實現(xiàn),反爬蟲與反反爬蟲兩個方面進(jìn)行簡單的介紹,介紹的案例均只是用于安全研究和學(xué)習(xí),并不會進(jìn)行大量爬蟲或者應(yīng)用于商業(yè)。

一、爬蟲的技術(shù)原理與實現(xiàn)

1.1 爬蟲的定義

爬蟲分為通用爬蟲和聚焦爬蟲兩大類,前者的目標(biāo)是在保持一定內(nèi)容質(zhì)量的情況下爬取盡可能多的站點,比如百度這樣的搜索引擎就是這種類型的爬蟲,如圖1是通用搜索引擎的基礎(chǔ)架構(gòu):

  • 首先在互聯(lián)網(wǎng)中選出一部分網(wǎng)頁,以這些網(wǎng)頁的鏈接地址作為種子URL;
  • 將這些種子URL放入待抓取的URL隊列中,爬蟲從待抓取的URL隊列依次讀??;
  • 將URL通過DNS解析,把鏈接地址轉(zhuǎn)換為網(wǎng)站服務(wù)器對應(yīng)的IP地址;
  • 網(wǎng)頁下載器通過網(wǎng)站服務(wù)器對網(wǎng)頁進(jìn)行下載,下載的網(wǎng)頁為網(wǎng)頁文檔形式;
  • 對網(wǎng)頁文檔中的URL進(jìn)行抽取,并過濾掉已經(jīng)抓取的URL;
  • 對未進(jìn)行抓取的URL繼續(xù)循環(huán)抓取,直至待抓取URL隊列為空。

圖片

圖1.通用搜索引擎的基礎(chǔ)架構(gòu)

爬蟲通常從一個或多個 URL 開始,在爬取的過程中不斷將新的并且符合要求的 URL 放入待爬隊列,直到滿足程序的停止條件。

而我們?nèi)粘R姷降呐老x基本為后者,目標(biāo)是在爬取少量站點的情況下盡可能保持精準(zhǔn)的內(nèi)容質(zhì)量。典型的比如圖2搶票軟件所示,就是利用爬蟲來登錄售票網(wǎng)絡(luò)并爬取信息,從而輔助商業(yè)。

圖片

圖2.搶票軟件

了解了爬蟲的定義后,那么應(yīng)該如何編寫爬蟲程序來爬取我們想要的數(shù)據(jù)呢。我們可以先了解下目前常用的爬蟲框架,因為它可以將一些常見爬蟲功能的實現(xiàn)代碼寫好,然后留下一些接口,在做不同的爬蟲項目時,我們只需要根據(jù)實際情況,手寫少量需要變動的代碼部分,并按照需要調(diào)用這些接口,即可以實現(xiàn)一個爬蟲項目。

1.2 爬蟲框架介紹

常用的搜索引擎爬蟲框架如圖3所示,首先Nutch是專門為搜索引擎設(shè)計的爬蟲,不適合用于精確爬蟲。Pyspider和Scrapy都是python語言編寫的爬蟲框架,都支持分布式爬蟲。另外Pyspider由于其可視化的操作界面,相比Scrapy全命令行的操作對用戶更加友好,但是功能不如Scrapy強大。

圖片

圖3.爬蟲框架對比

1.3 爬蟲的簡單示例

 除了使用爬蟲框架來進(jìn)行爬蟲,也可以從頭開始來編寫爬蟲程序,步驟如圖4所示:

圖片

圖4.爬蟲的基本原理

接下來通過一個簡單的例子來實際演示上述的步驟,我們要爬取的是某應(yīng)用市場的榜單,以這個作為例子,是因為這個網(wǎng)站沒有任何的反爬蟲手段,我們通過上面的步驟可以輕松爬取到內(nèi)容。

圖片

圖片


圖5.網(wǎng)頁與其對應(yīng)的源代碼

網(wǎng)頁與其對應(yīng)的源代碼如圖5所示,對于網(wǎng)頁上的數(shù)據(jù),假定我們想要爬取排行榜上每個app的名稱以及其分類。

我們首先分析網(wǎng)頁源代碼,發(fā)現(xiàn)可以直接在網(wǎng)頁源代碼中搜索到“抖音”等app的名稱,接著看到app名稱、app類別等都是在一個<li>標(biāo)簽里,所以我們只需要請求網(wǎng)頁地址,拿到返回的網(wǎng)頁源代碼,然后對網(wǎng)頁源代碼進(jìn)行正則匹配,提取出想要的數(shù)據(jù),保存下來即可,如圖6所示。

#獲取網(wǎng)頁源碼
def get_one_page(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
#正則匹配提取目標(biāo)信息并形成字典
def parse_one_page(html):
pattern = re.compile('<li>.*?data-src="(.*?)".*?<h5>.*?det.*?>(.*?)</a>.*?p.*?<a.*?>(.*?)</a>.*?</li>',re.S)
items = re.findall(pattern, html)
j = 1
for item in items[:-1]:
yield {'index': str(j),
'name': item[1],
'class':item[2]
}
j = j+1
#結(jié)果寫入txt
def write_to_file(content):
with open(r'test.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False)+'\n')

圖片

圖6.爬蟲的代碼以及結(jié)果

二、反爬蟲相關(guān)技術(shù)

在了解具體的反爬蟲措施之前,我們先介紹下反爬蟲的定義和意義,限制爬蟲程序訪問服務(wù)器資源和獲取數(shù)據(jù)的行為稱為反爬蟲。爬蟲程序的訪問速率和目的與正常用戶的訪問速率和目的是不同的,大部分爬蟲會無節(jié)制地對目標(biāo)應(yīng)用進(jìn)行爬取,這給目標(biāo)應(yīng)用的服務(wù)器帶來巨大的壓力。爬蟲程序發(fā)出的網(wǎng)絡(luò)請求被運營者稱為“垃圾流量”。開發(fā)者為了保證服務(wù)器的正常運轉(zhuǎn)或降低服務(wù)器的壓力與運營成本,不得不使出各種各樣的技術(shù)手段來限制爬蟲對服務(wù)器資源的訪問。

所以為什么要做反爬蟲,答案是顯然的,爬蟲流量會提升服務(wù)器的負(fù)載,過大的爬蟲流量會影響到服務(wù)的正常運轉(zhuǎn),從而造成收入損失,另一方面,一些核心數(shù)據(jù)的外泄,會使數(shù)據(jù)擁有者失去競爭力。

常見的反爬蟲手段,如圖7所示。主要包含文本混淆、頁面動態(tài)渲染、驗證碼校驗、請求簽名校驗、大數(shù)據(jù)風(fēng)控、js混淆和蜜罐等,其中文本混淆包含css偏移、圖片偽裝文本、自定義字體等,而風(fēng)控策略的制定則往往是從參數(shù)校驗、行為頻率和模式異常等方面出發(fā)的。

圖片

圖7.常見的反爬蟲手段

2.1 CSS偏移反爬蟲

在搭建網(wǎng)頁的時候,需要用CSS來控制各類字符的位置,也正是如此,可以利用CSS來將瀏覽器中顯示的文字,在HTML中以亂序的方式存儲,從而來限制爬蟲。CSS偏移反爬蟲,就是一種利用CSS樣式將亂序的文字排版成人類正常閱讀順序的反爬蟲手段。這個概念不是很好理解,我們可以通過對比兩段文字來加深對這個概念的理解:

  • HTML 文本中的文字:我的學(xué)號是 1308205,我在北京大學(xué)讀書。
  • 瀏覽器顯示的文字:我的學(xué)號是 1380205,我在北京大學(xué)讀書。

以上兩段文字中瀏覽器顯示的應(yīng)該是正確的信息,如果我們按之前提到的爬蟲步驟,分析網(wǎng)頁后正則提取信息,會發(fā)現(xiàn)學(xué)號是錯的。

接著看圖8所示的例子,如果我們想爬取該網(wǎng)頁上的機票信息,首先需要分析網(wǎng)頁。紅框所示的價格467對應(yīng)的是中國民航的從石家莊到上海的機票,但是分析網(wǎng)頁源代碼發(fā)現(xiàn)代碼中有 3 對 b 標(biāo)簽,第 1 對 b 標(biāo)簽中包含 3 對 i 標(biāo)簽,i 標(biāo)簽中的數(shù)字都是 7,也就是說第 1 對 b 標(biāo)簽的顯示結(jié)果應(yīng)該是 777。而第 2 對 b 標(biāo)簽中的數(shù)字是 6,第 3 對 b 標(biāo)簽中的數(shù)字是 4,這樣的話我們會無法直接通過正則匹配得到正確的機票價格。

圖片

圖8.CSS 偏移反爬蟲例子

2.2 圖片偽裝反爬蟲

圖片偽裝反爬蟲,它的本質(zhì)就是用圖片替換了原來的內(nèi)容,從而讓爬蟲程序無法正常獲取,如圖9所示。這種反爬蟲的原理十分簡單,就是將本應(yīng)是普通文本內(nèi)容的部分在前端頁面中用圖片來進(jìn)行替換,遇到這種案例可以直接用ocr識別圖片中的文字就可以繞過。而且因為是用圖片替換文本顯示,所以圖片本身會相對比較清晰,沒有很多噪聲干擾,ocr識別的結(jié)果會很準(zhǔn)確。

圖片

圖9. 圖片偽裝反爬蟲例子

2.3 自定義字體反爬蟲

在 CSS3 時代,開發(fā)者可以使用@font-face為網(wǎng)頁指定字體。開發(fā)者可將心儀的字體文件放在 Web 服務(wù)器上,并在 CSS 樣式中使用它。用戶使用瀏覽器訪問 Web 應(yīng)用時,對應(yīng)的字體會被瀏覽器下載到用戶的計算機上,但是我們在使用爬蟲程序時,由于沒有相應(yīng)的字體映射關(guān)系,直接爬取就會無法得到有效數(shù)據(jù)。

如圖10所示,該網(wǎng)頁中每個店鋪的評價數(shù)、人均、口味、環(huán)境等信息均是亂碼字符,爬蟲無法直接讀取到內(nèi)容。

圖片

圖10. 自定義字體反爬蟲例子

2.4 頁面動態(tài)渲染反爬蟲

網(wǎng)頁按渲染方式的不同,大體可以分為客戶端和服務(wù)端渲染。

  • 服務(wù)端渲染,頁面的結(jié)果是由服務(wù)器渲染后返回的,有效信息包含在請求的 HTML 頁面里面,通過查看網(wǎng)頁源代碼可以直接查看到數(shù)據(jù)等信息;
  • 客戶端渲染,頁面的主要內(nèi)容由 JavaScript 渲染而成,真實的數(shù)據(jù)是通過 Ajax 接口等形式獲取的,通過查看網(wǎng)頁源代碼,無有效數(shù)據(jù)信息。

客戶端渲染和服務(wù)器端渲染的最重要的區(qū)別就是究竟是誰來完成html文件的完整拼接,如果是在服務(wù)器端完成的,然后返回給客戶端,就是服務(wù)器端渲染,而如果是前端做了更多的工作完成了html的拼接,則就是客戶端渲染。

圖片

圖片

圖11.客戶端渲染例子

2.5 驗證碼反爬蟲

幾乎所有的應(yīng)用程序在涉及到用戶信息安全的操作時,都會彈出驗證碼讓用戶進(jìn)行識別,以確保該操作為人類行為,而不是大規(guī)模運行的機器。那為什么會出現(xiàn)驗證碼呢?在大多數(shù)情形下是因為網(wǎng)站的訪問頻率過高或者行為異常,或者是為了直接限制某些自動化行為。歸類如下:

  1. 很多情況下,比如登錄和注冊,這些驗證碼幾乎是必現(xiàn)的,它的目的就是為了限制惡意注冊、惡意爆破等行為,這也算反爬的一種手段。
  2. 一些網(wǎng)站遇到訪問頻率過高的行為的時候,可能會直接彈出一個登錄窗口,要求我們登錄才能繼續(xù)訪問,此時的驗證碼就直接和登錄表單綁定在一起了,這就算檢測到異常之后利用強制登錄的方式進(jìn)行反爬。
  3. 一些較為常規(guī)的網(wǎng)站如果遇到訪問頻率稍高的情形的時候,會主動彈出一個驗證碼讓用戶識別并提交,驗證當(dāng)前訪問網(wǎng)站的是不是真實的人,用來限制一些機器的行為,實現(xiàn)反爬蟲。

常見的驗證碼形式包括圖形驗證碼、行為驗證碼、短信、掃碼驗證碼等,如圖12所示。對于能否成功通過驗證碼,除了能夠準(zhǔn)確的根據(jù)驗證碼的要求完成相應(yīng)的點擊、選擇、輸入等,通過驗證碼風(fēng)控也至關(guān)重要;比如對于滑塊驗證碼,驗證碼風(fēng)控可能會針對滑動軌跡進(jìn)行檢測,如果檢測出軌跡非人為,就會判定為高風(fēng)險,導(dǎo)致無法成功通過。

圖片

圖12.驗證碼反爬蟲手段

2.6 請求簽名校驗反爬蟲

簽名驗證是防止服務(wù)器被惡意鏈接和篡改數(shù)據(jù)的有效方式之一,也是目前后端API最常用的防護方式之一。簽名是一個根據(jù)數(shù)據(jù)源進(jìn)行計算或者加密的過程,用戶經(jīng)過簽名后會一個具有一致性和唯一性的字符串,它就是你訪問服務(wù)器的身份象征。由它的一致性和唯一性這兩種特性,從而可以有效的避免服務(wù)器端,將偽造的數(shù)據(jù)或被篡改的數(shù)據(jù)當(dāng)初正常數(shù)據(jù)處理。

前面在2.4節(jié)提到的網(wǎng)站是通過客戶端渲染網(wǎng)頁,數(shù)據(jù)則是通過ajax請求拿到的,這種在一定程度上提升了爬蟲的難度。接下來分析ajax請求,如圖13所示,會發(fā)現(xiàn)其ajax請求是帶有請求簽名的,analysis就是加密后的參數(shù),而如果想要破解請求接口,就需要破解該參數(shù)的加密方法,這無疑進(jìn)一步提升了難度。

圖片

圖片

圖13. 請求榜單數(shù)據(jù)的ajax請求

2.7 蜜罐反爬蟲

蜜罐反爬蟲,是一種在網(wǎng)頁中隱藏用于檢測爬蟲程序的鏈接的手段,被隱藏的鏈接不會顯示在頁面中,正常用戶無法訪問,但爬蟲程序有可能將該鏈接放入待爬隊列,并向該鏈接發(fā)起請求,開發(fā)者可以利用這個特點區(qū)分正常用戶和爬蟲程序。如圖14所示,查看網(wǎng)頁源碼,頁面只有6個商品,col-md-3的 <div>標(biāo)簽卻有 8 對。該 CSS 樣式的作用是隱藏標(biāo)簽,所以我們在頁面只看到 6 件商品,爬蟲程序會提取到 8 件商品的 URL。

圖片

圖片

圖14.蜜罐反爬蟲例子

三、反反爬相關(guān)技術(shù)

針對上一節(jié)提到的反爬蟲相關(guān)技術(shù),有以下幾類反反爬技術(shù)手段:css偏移反反爬、自定義字體反反爬、頁面動態(tài)渲染反反爬、驗證碼破解等,下面對這幾類方法進(jìn)行詳細(xì)的介紹。

3.1 CSS偏移反反爬

3.1.1 CSS偏移邏輯介紹

那么對于以上2.1css偏移反爬蟲的例子,怎么才能得到正確的機票價格呢。仔細(xì)觀察css樣式,可以發(fā)現(xiàn)每個帶有數(shù)字的標(biāo)簽都設(shè)定了樣式,第 1 對 b 標(biāo)簽內(nèi)的i 標(biāo)簽對的樣式是相同的,都是width: 16px;另外,還注意到最外層的 span 標(biāo)簽對的樣式為width:48px。

如果按照 css樣式這條線索來分析的話,第 1 對 b 標(biāo)簽中的 3 對 i 標(biāo)簽剛好占滿 span 標(biāo)簽對的位置,其位置如圖15所示。此時網(wǎng)頁中顯示的價格應(yīng)該是 777,但是由于第 2 和第 3 對 b 標(biāo)簽中有值,所以我們還需要計算它們的位置。由于第 2 對 b 標(biāo)簽的位置樣式是 left:-32px,所以第 2 對 b 標(biāo)簽中的值 6 就會覆蓋原來第 1 對 b 標(biāo)簽中的中的第 2 個數(shù)字 7,此時頁面應(yīng)該顯示的數(shù)字是 767。

按此規(guī)律推算,第 3 對 b 標(biāo)簽的位置樣式是 left:-48px,這個標(biāo)簽的值會覆蓋第 1 對 b 標(biāo)簽中的第 1 個數(shù)字 7,最后顯示的票價就是 467。

圖片

圖15.偏移邏輯

3.1.2 CSS偏移反反爬代碼實現(xiàn)

因此接下來我們按以上css樣式的規(guī)律來編寫代碼對該網(wǎng)頁爬取獲取正確的機票價格,代碼和結(jié)果如圖16所示。

if __name__ == '__main__':
url = 'http://www.porters.vip/confusion/flight.html'
resp = requests.get(url)
sel = Selector(resp.text)
em = sel.css('em.rel').extract()
for element in range(0,1):
element = Selector(em[element])
element_b = element.css('b').extract()
b1 = Selector(element_b.pop(0))
base_price = b1.css('i::text').extract()
print('css偏移前的價格:',base_price)
alternate_price = []
for eb in element_b:
eb = Selector(eb)
style = eb.css('b::attr("style")').get()
position = ''.join(re.findall('left:(.*)px', style))
value = eb.css('b::text').get()
alternate_price.append({'position': position, 'value': value})
print('css偏移值:',alternate_price)
for al in alternate_price:
position = int(al.get('position'))
value = al.get('value')
plus = True if position >= 0 else False
index = int(position / 16)
base_price[index] = value
print('css偏移后的價格:',base_price)

圖片

圖16. CSS 偏移反反爬代碼與結(jié)果

3.2 自定義字體反反爬

針對于以上2.3自定義字體反爬蟲的情況,解決思路就是提取出網(wǎng)頁中自定義字體文件(一般為WOFF文件),并將映射關(guān)系包含到爬蟲代碼中,就可以獲取到有效數(shù)據(jù)。解決的步驟如下:

發(fā)現(xiàn)問題:查看網(wǎng)頁源代碼,發(fā)現(xiàn)關(guān)鍵字符被編碼替代,如&#xefbe

圖片

分析:檢查網(wǎng)頁,發(fā)現(xiàn)應(yīng)用了css自定義字符集隱藏

圖片

圖片

查找:查找css文件url,獲取字符集對應(yīng)的url,如PingFangSC-Regular-num

查找:查找和下載字符集url

圖片

比對:比對字符集中的字符與網(wǎng)頁源代碼中的編碼,發(fā)現(xiàn)編碼的后四位與字符對應(yīng),也即網(wǎng)頁源代碼對應(yīng)的口味是8.9分

圖片

3.3 頁面動態(tài)渲染反反爬

客戶端渲染的反爬蟲,頁面代碼在瀏覽器源代碼中看不到,需要執(zhí)行渲染并進(jìn)一步獲取渲染后結(jié)果。針對這種反爬蟲,有以下幾種方式破解:

  1. 在瀏覽器中,通過開發(fā)者工具直接查看ajax具體的請求方式、參數(shù)等內(nèi)容;
  2. 通過selenium模擬真人操作瀏覽器,獲取渲染后的結(jié)果,之后的操作步驟和服務(wù)端渲染的流程一樣;
  3. 如果渲染的數(shù)據(jù)隱藏在html結(jié)果的JS變量中,可以直接正則提?。?/li>
  4. 如果有通過JS生成的加密參數(shù),可以找出加密部分的代碼,然后使用pyexecJS來模擬執(zhí)行JS,返回執(zhí)行結(jié)果。

3.4 驗證碼破解

下面舉例一個識別滑塊驗證碼的例子,如圖17所示,是使用目標(biāo)檢測模型來識別某滑塊驗證碼缺口位置的結(jié)果示例,這種破解滑塊驗證碼的方式對應(yīng)的是模擬真人的方式。不采用接口破解的原因一方面是破解加密算法有難度,另一方面也是加密算法可能每天都會變,這樣破解的時間成本也比較大。

圖片

圖17. 通過目標(biāo)檢測模型識別滑塊驗證碼的缺口

3.4.1 爬取滑塊驗證碼圖片

因為使用的目標(biāo)檢測模型yolov5是有監(jiān)督學(xué)習(xí),所以需要爬取滑塊驗證碼的圖片并進(jìn)行打標(biāo),進(jìn)而輸入到模型中訓(xùn)練。通過模擬真人的方式在某場景爬取部分驗證碼。

圖片

圖18. 爬取的滑塊驗證碼圖片

3.4.2 人工打標(biāo)

本次使用的是labelImg來對圖片人工打標(biāo)簽的,人工打標(biāo)耗時較長,100張圖片一般耗時40分鐘左右。自動打標(biāo)代碼寫起來比較復(fù)雜,主要是需要分別提取出驗證碼的所有背景圖片和缺口圖片,然后隨機生成缺口位置,作為標(biāo)簽,同時將缺口放到對應(yīng)的缺口位置,生成圖片,作為輸入。

圖片

圖19. 對驗證碼圖片打標(biāo)簽以及打標(biāo)簽后生成的xml文件

3.4.3 目標(biāo)檢測模型yolov5

直接從github下clone yolov5的官方代碼,它是基于pytorch實現(xiàn)。

接下來的使用步驟如下:

  1. 數(shù)據(jù)格式轉(zhuǎn)換:將人工標(biāo)注的圖片和標(biāo)簽文件轉(zhuǎn)換為yolov5接收的數(shù)據(jù)格式,得到1100張圖片和1100個yolov5格式的標(biāo)簽文件;
  2. 新建數(shù)據(jù)集:新建custom.yaml文件來創(chuàng)建自己的數(shù)據(jù)集,包括訓(xùn)練集和驗證集的目錄、類別數(shù)目、類別名;
  3. 訓(xùn)練調(diào)優(yōu):修改模型配置文件和訓(xùn)練文件后,進(jìn)行訓(xùn)練,并根據(jù)訓(xùn)練結(jié)果調(diào)優(yōu)超參數(shù)。

轉(zhuǎn)換xml文件為yolov5格式的部分腳本:

for member in root.findall('object'):
class_id = class_text.index(member[0].text)
xmin = int(member[4][0].text)
ymin = int(member[4][1].text)
xmax = int(member[4][2].text)
ymax = int(member[4][3].text)
# round(x, 6) 這里我設(shè)置了6位有效數(shù)字,可根據(jù)實際情況更改
center_x = round(((xmin + xmax) / 2.0) * scale / float(image.shape[1]), 6)
center_y = round(((ymin + ymax) / 2.0) * scale / float(image.shape[0]), 6)
box_w = round(float(xmax - xmin) * scale / float(image.shape[1]), 6)
box_h = round(float(ymax - ymin) * scale / float(image.shape[0]), 6)
file_txt.write(str(class_id))
file_txt.write(' ')
file_txt.write(str(center_x))
file_txt.write(' ')
file_txt.write(str(center_y))
file_txt.write(' ')
file_txt.write(str(box_w))
file_txt.write(' ')
file_txt.write(str(box_h))
file_txt.write('\n')
file_txt.close()

訓(xùn)練參數(shù)設(shè)置:

parser = argparse.ArgumentParser()
parser.add_argument('--weights', type=str, default='yolov5s.pt', help='initial weights path')
parser.add_argument('--cfg', type=str, default='./models/yolov5s.yaml', help='model.yaml path')
parser.add_argument('--data', type=str, default='data/custom.yaml', help='data.yaml path')
parser.add_argument('--hyp', type=str, default='data/hyp.scratch.yaml', help='hyperparameters path')
# parser.add_argument('--epochs', type=int, default=300)
parser.add_argument('--epochs', type=int, default=50)
# parser.add_argument('--batch-size', type=int, default=16, help='total batch size for all GPUs')
parser.add_argument('--batch-size', type=int, default=8, help='total batch size for all GPUs')
parser.add_argument('--img-size', nargs='+', type=int, default=[640, 640], help='[train, test] image sizes')
parser.add_argument('--rect', actinotallow='store_true', help='rectangular training')
parser.add_argument('--resume', nargs='?', cnotallow=True, default=False, help='resume most recent training')
parser.add_argument('--nosave', actinotallow='store_true', help='only save final checkpoint')
parser.add_argument('--notest', actinotallow='store_true', help='only test final epoch')
parser.add_argument('--noautoanchor', actinotallow='store_true', help='disable autoanchor check')
parser.add_argument('--evolve', actinotallow='store_true', help='evolve hyperparameters')
parser.add_argument('--bucket', type=str, default='', help='gsutil bucket')
parser.add_argument('--cache-images', actinotallow='store_true', help='cache images for faster training')
parser.add_argument('--image-weights', actinotallow='store_true', help='use weighted image selection for training')
parser.add_argument('--device', default='cpu', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
parser.add_argument('--multi-scale', actinotallow='store_true', help='vary img-size +/- 50%%')
parser.add_argument('--single-cls', actinotallow='store_true', help='train multi-class data as single-class')
parser.add_argument('--adam', actinotallow='store_true', help='use torch.optim.Adam() optimizer')
parser.add_argument('--sync-bn', actinotallow='store_true', help='use SyncBatchNorm, only available in DDP mode')
parser.add_argument('--local_rank', type=int, default=-1, help='DDP parameter, do not modify')
parser.add_argument('--workers', type=int, default=8, help='maximum number of dataloader workers')
parser.add_argument('--project', default='runs/train', help='save to project/name')
parser.add_argument('--entity', default=None, help='W&B entity')
parser.add_argument('--name', default='exp', help='save to project/name')
parser.add_argument('--exist-ok', actinotallow='store_true', help='existing project/name ok, do not increment')
parser.add_argument('--quad', actinotallow='store_true', help='quad dataloader')
parser.add_argument('--linear-lr', actinotallow='store_true', help='linear LR')
parser.add_argument('--label-smoothing', type=float, default=0.0, help='Label smoothing epsilon')
parser.add_argument('--upload_dataset', actinotallow='store_true', help='Upload dataset as W&B artifact table')
parser.add_argument('--bbox_interval', type=int, default=-1, help='Set bounding-box image logging interval for W&B')
parser.add_argument('--save_period', type=int, default=-1, help='Log model after every "save_period" epoch')
parser.add_argument('--artifact_alias', type=str, default="latest", help='version of dataset artifact to be used')
opt = parser.parse_args()

3.4.4 目標(biāo)檢測模型的訓(xùn)練結(jié)果

模型基本在50次迭代的時候在precision和recall以及mAP上已經(jīng)達(dá)到了瓶頸。預(yù)測結(jié)果也有如下問題:大部分能夠是能夠準(zhǔn)確框出缺口,但也出現(xiàn)少量框錯、框出兩個缺口、框不出缺口的情況。

圖片

圖片

圖20. 上:模型的訓(xùn)練結(jié)果走勢圖;

下:模型對部分驗證集的預(yù)測結(jié)果

四、總結(jié)

本次簡單對爬蟲以及反爬蟲的技術(shù)手段進(jìn)行了介紹,介紹的技術(shù)和案例均只是用于安全研究和學(xué)習(xí),并不會進(jìn)行大量爬蟲或者應(yīng)用于商業(yè)。

對于爬蟲,本著爬取網(wǎng)絡(luò)上公開數(shù)據(jù)用于數(shù)據(jù)分析等的目的,我們應(yīng)該遵守網(wǎng)站robots協(xié)議,本著不影響網(wǎng)站正常運行以及遵守法律的情況下進(jìn)行數(shù)據(jù)爬??;對于反爬蟲,因為只要人類能夠正常訪問的網(wǎng)頁,爬蟲在具備同等資源的情況下就一定可以抓取到。所以反爬蟲的目的還是在于能夠防止爬蟲在大批量的采集網(wǎng)站信息的過程對服務(wù)器造成超負(fù)載,從而杜絕爬蟲行為妨礙到用戶的體驗,來提高用戶使用網(wǎng)站服務(wù)的滿意度。

責(zé)任編輯:未麗燕 來源: vivo互聯(lián)網(wǎng)技術(shù)
相關(guān)推薦

2022-11-24 10:24:32

2022-09-20 07:02:20

網(wǎng)絡(luò)爬蟲反爬蟲

2018-01-29 09:28:44

2016-10-13 15:51:50

2021-06-10 18:24:59

反爬蟲驗證碼爬蟲

2021-06-06 19:53:05

爬蟲處理字體反爬

2024-06-07 08:56:43

HTTPPythonSelenium

2016-10-14 16:35:39

2017-06-30 13:23:02

2023-06-01 13:15:23

2009-08-19 10:34:16

反爬蟲

2017-05-16 15:33:42

Python網(wǎng)絡(luò)爬蟲核心技術(shù)框架

2017-04-27 20:45:48

爬蟲反爬蟲

2021-10-15 11:37:44

反爬蟲破解

2021-01-12 11:26:44

數(shù)據(jù)安全爬蟲

2017-05-15 10:39:48

爬蟲應(yīng)對機制

2016-10-13 13:01:51

2024-05-31 12:31:54

C#爬蟲Python

2020-05-21 09:25:17

Python反爬蟲DDOS攻擊

2019-10-18 08:52:41

程序員爬蟲Java
點贊
收藏

51CTO技術(shù)棧公眾號