一篇文章教會(huì)你理解Scrapy網(wǎng)絡(luò)爬蟲框架的工作原理和數(shù)據(jù)采集過程

作者：Python進(jìn)階者 2020-10-27 08:33:38

今天小編給大家詳細(xì)的講解一下Scrapy爬蟲框架，希望對(duì)大家的學(xué)習(xí)有幫助。

/ 01 / Scrapy爬蟲框架

Scrapy是一個(gè)使用Python編程語言編寫的爬蟲框架，任何人都可以根據(jù)自己的需求進(jìn)行修改，并且使用起來非常的方便。它可以應(yīng)用在數(shù)據(jù)采集、數(shù)據(jù)挖掘、網(wǎng)絡(luò)異常用戶檢測(cè)、存儲(chǔ)數(shù)據(jù)等方面。

Scrapy使用了Twisted異步網(wǎng)絡(luò)庫(kù)來處理網(wǎng)絡(luò)通訊。整體架構(gòu)大致如下圖所示。

/ 02 / Scrapy爬蟲框架組成

由上圖可知Scrapy爬蟲框架主要由5個(gè)部分組成，分別是：Scrapy Engine（Scrapy引擎），Scheduler（調(diào)度器），Downloader（下載器），Spiders（蜘蛛），Item Pipeline（項(xiàng)目管道）。爬取過程是Scrapy引擎發(fā)送請(qǐng)求，之后調(diào)度器把初始URL交給下載器，然后下載器向服務(wù)器發(fā)送服務(wù)請(qǐng)求，得到響應(yīng)后將下載的網(wǎng)頁(yè)內(nèi)容交與蜘蛛來處理，爾后蜘蛛會(huì)對(duì)網(wǎng)頁(yè)進(jìn)行詳細(xì)的解析。蜘蛛分析的結(jié)果有兩種：一種是得到新的URL，之后再次請(qǐng)求調(diào)度器，開始進(jìn)行新一輪的爬取，不斷的重復(fù)上述過程；另一種是得到所需的數(shù)據(jù)，之后會(huì)轉(zhuǎn)交給項(xiàng)目管道繼續(xù)處理。項(xiàng)目管道負(fù)責(zé)數(shù)據(jù)的清洗、驗(yàn)證、過濾、去重和存儲(chǔ)等后期處理，最后由Pipeline輸出到文件中，或者存入數(shù)據(jù)庫(kù)等。

/ 03 / 五大組件及其中間件的功能

這五大組件及其中間件的功能如下：

1) Scrapy引擎：控制整個(gè)系統(tǒng)的數(shù)據(jù)處理流程，觸發(fā)事務(wù)處理流程，負(fù)責(zé)串聯(lián)各個(gè)模塊

2) Scheduler（調(diào)度器）：維護(hù)待爬取的URL隊(duì)列，當(dāng)接受引擎發(fā)送的請(qǐng)求時(shí)，會(huì)從待爬取的URL隊(duì)列中取出下一個(gè)URL返回給調(diào)度器。

3) Downloader（下載器）：向該網(wǎng)絡(luò)服務(wù)器發(fā)送下載頁(yè)面的請(qǐng)求，用于下載網(wǎng)頁(yè)內(nèi)容，并將網(wǎng)頁(yè)內(nèi)容交與蜘蛛去處理。

4) Spiders（蜘蛛）：制定要爬取的網(wǎng)站地址，選擇所需數(shù)據(jù)內(nèi)容，定義域名過濾規(guī)則和網(wǎng)頁(yè)的解析規(guī)則等。

5) Item Pipeline（項(xiàng)目管道）：處理由蜘蛛從網(wǎng)頁(yè)中抽取的數(shù)據(jù)，主要任務(wù)是清洗、驗(yàn)證、過濾、去重和存儲(chǔ)數(shù)據(jù)等。

6) 中間件（Middlewares）：中間件是處于Scrapy引擎和Scheduler，Downloader，Spiders之間的構(gòu)件，主要是處理它們之間的請(qǐng)求及響應(yīng)。

Scrapy爬蟲框架可以很方便的完成網(wǎng)上數(shù)據(jù)的采集工作，簡(jiǎn)單輕巧，使用起來非常方便。

/ 04 / 基于Scrapy的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)

在了解Scrapy爬蟲原理及框架的基礎(chǔ)上，本節(jié)簡(jiǎn)要介紹Scrapy爬蟲框架的數(shù)據(jù)采集過程。

4.1 建立爬蟲項(xiàng)目文件

基于scrapy爬蟲框架，只需在命令行中輸入“scrapy startproject article”命令，之后一個(gè)名為article的爬蟲項(xiàng)目將自動(dòng)創(chuàng)建。首先進(jìn)入到article文件夾下，輸入命令“cd article”，之后通過“dir”查看目錄，也可以通過“tree /f”生成文件目錄的樹形結(jié)構(gòu)，如下圖所示，可以很清晰的看到Scrapy創(chuàng)建命令生成的文件。

爬蟲項(xiàng)目目錄結(jié)構(gòu)

頂層的article文件夾是項(xiàng)目名，第二層中包含的是一個(gè)與項(xiàng)目名同名的文件夾article和一個(gè)文件scrapy.cfg，這個(gè)與項(xiàng)目同名的文件夾article是一個(gè)模塊，所有的項(xiàng)目代碼都在這個(gè)模塊內(nèi)添加，而scrapy.cfg文件是整個(gè)Scrapy項(xiàng)目的配置文件。第三層中有5個(gè)文件和一個(gè)文件夾，其中__init__.py是個(gè)空文件，作用是將其上級(jí)目錄變成一個(gè)模塊；items.py是定義儲(chǔ)對(duì)象的文件，決定爬取哪些項(xiàng)目；middlewares.py文件是中間件，一般不用進(jìn)行修改，主要負(fù)責(zé)相關(guān)組件之間的請(qǐng)求與響應(yīng)；pipelines.py是管道文件，決定爬取后的數(shù)據(jù)如何進(jìn)行處理和存儲(chǔ)；settings.py是項(xiàng)目的設(shè)置文件，設(shè)置項(xiàng)目管道數(shù)據(jù)的處理方法、爬蟲頻率、表名等；spiders文件夾中放置的是爬蟲主體文件（用于實(shí)現(xiàn)爬蟲邏輯）和一個(gè)__init__.py空文件。

4.2 之后開始進(jìn)行網(wǎng)頁(yè)結(jié)構(gòu)與數(shù)據(jù)分析、修改Items.py文件、編寫hangyunSpider.py文件、修改pipelines.py文件、修改settings.py文件，這些步驟的具體操作后期會(huì)文章專門展開，在此不再贅述。

4.3 執(zhí)行爬蟲程序

修改上述四個(gè)文件之后，在Windows命令符窗口中輸入cmd 命令進(jìn)入到爬蟲所在的路徑，并執(zhí)行“scrapy crawl article”命令，這樣就可以運(yùn)行爬蟲程序了，最后保存數(shù)據(jù)到本地磁盤上。

/ 05 / 結(jié)束語

隨著互聯(lián)網(wǎng)信息的與日俱增，利用網(wǎng)絡(luò)爬蟲工具來獲取所需信息必有用武之地。使用開源的Scrapy爬蟲框架，不僅可以實(shí)現(xiàn)對(duì)web上信息的高效、準(zhǔn)確、自動(dòng)的獲取，還利于研究人員對(duì)采集到的數(shù)據(jù)進(jìn)行后續(xù)的挖掘分析。

責(zé)任編輯：姜華來源： Python爬蟲與數(shù)據(jù)挖掘

Scrapy

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一篇文章教會(huì)你理解Scrapy網(wǎng)絡(luò)爬蟲框架的工作原理和數(shù)據(jù)采集過程