如何利用Scrapy爬蟲(chóng)框架抓取網(wǎng)頁(yè)全部文章信息（上篇）

作者：Python進(jìn)階者 2020-11-11 10:58:59

本文主要介紹Scrapy爬蟲(chóng)框架抓取其中某個(gè)網(wǎng)頁(yè)數(shù)據(jù)的理論

前一階段我們已經(jīng)實(shí)現(xiàn)了通過(guò)Scrapy抓取某一具體網(wǎng)頁(yè)頁(yè)面的具體信息，關(guān)于Scrapy爬蟲(chóng)框架中meta參數(shù)的使用示例演示(上)、關(guān)于Scrapy爬蟲(chóng)框架中meta參數(shù)的使用示例演示(下)，但是未實(shí)現(xiàn)對(duì)所有頁(yè)面的依次提取。首先我們理一下爬取思路，大致思想是：當(dāng)獲取到第一個(gè)頁(yè)面的URL之后，爾后將第二頁(yè)的URL發(fā)送給Scrapy，讓Scrapy去自動(dòng)下載該網(wǎng)頁(yè)的信息，之后通過(guò)第二頁(yè)的URL繼續(xù)獲取第三頁(yè)的URL，由于每一頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu)是一致的，所以通過(guò)這種方式如此反復(fù)進(jìn)行迭代，便可以實(shí)現(xiàn)整個(gè)網(wǎng)頁(yè)中的信息提取。其具體的實(shí)現(xiàn)過(guò)程將通過(guò)Scrapy框架來(lái)進(jìn)行實(shí)現(xiàn)，具體的教程如下。

/具體實(shí)現(xiàn)/

1、首先URL不再是某一篇具體文章的URL了，而是所有文章列表的URL，如下圖所示，將鏈接放到start_urls里邊，如下圖所示。

2、接下來(lái)我們將需要更改parse()函數(shù)，在這個(gè)函數(shù)中我們需要實(shí)現(xiàn)兩件事情。

其一是獲取某一頁(yè)面所有文章的URL并對(duì)其進(jìn)行解析，獲取每一篇文章里的具體網(wǎng)頁(yè)內(nèi)容，其二是獲取下一個(gè)網(wǎng)頁(yè)的URL并交給Scrapy進(jìn)行下載，下載完成之后再交給parse()函數(shù)。

有了之前的Xpath和CSS選擇器基礎(chǔ)知識(shí)之后，獲取網(wǎng)頁(yè)鏈接URL就變得相對(duì)簡(jiǎn)單了。

3、分析網(wǎng)頁(yè)結(jié)構(gòu)，使用網(wǎng)頁(yè)交互工具，我們可以很快的發(fā)現(xiàn)每一個(gè)網(wǎng)頁(yè)有20篇文章，即20個(gè)URL，而且文章列表都存在于id="archive"這個(gè)標(biāo)簽下面，之后像剝洋蔥一樣去獲取我們想要的URL鏈接。

4、點(diǎn)開(kāi)下拉三角，不難發(fā)現(xiàn)文章詳情頁(yè)的鏈接藏的不深，如下圖圈圈中所示。

5、根據(jù)標(biāo)簽我們按圖索驥，加上選擇器利器，獲取URL猶如探囊取物。在cmd中輸入下圖命令，以進(jìn)入shell調(diào)試窗口，事半功倍。再次強(qiáng)調(diào)，這個(gè)URL是所有文章的網(wǎng)址，而不是某一篇文章的URL，不然后面你調(diào)試半天都不會(huì)有結(jié)果的。

6、根據(jù)第四步的網(wǎng)頁(yè)結(jié)構(gòu)分析，我們?cè)趕hell中寫(xiě)入CSS表達(dá)式，并進(jìn)行輸出，如下圖所示。其中a::attr(href)的用法很巧妙，也是個(gè)提取標(biāo)簽信息的小技巧，建議小伙伴們?cè)谔崛【W(wǎng)頁(yè)信息的時(shí)候可以經(jīng)常使用，十分方便。

至此，第一頁(yè)的所有文章列表的URL已經(jīng)獲取到了。提取到URL之后，如何將其交給Scrapy去進(jìn)行下載呢?下載完成之后又如何調(diào)用我們自己定義的解析函數(shù)呢?

欲知后事如何，且聽(tīng)下一篇文章分解。

/小結(jié)/

本文主要介紹了Scrapy爬蟲(chóng)框架抓取其中某個(gè)網(wǎng)頁(yè)數(shù)據(jù)的理論，為后面抓取全網(wǎng)數(shù)據(jù)埋下伏筆，更精彩的操作在下篇文章奉上，希望對(duì)大家的學(xué)習(xí)有幫助。

想學(xué)習(xí)更多關(guān)于Python的知識(shí)，可以參考學(xué)習(xí)網(wǎng)址：http://pdcfighting.com/，點(diǎn)擊閱讀原文，可以直達(dá)噢~

責(zé)任編輯：姜華來(lái)源： Python爬蟲(chóng)與數(shù)據(jù)挖掘

Scrapy

偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

如何利用Scrapy爬蟲(chóng)框架抓取網(wǎng)頁(yè)全部文章信息（上篇）