偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="o6itd"><code id="o6itd"></code></nobr><var id="o6itd"></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

教你分分鐘學(xué)會(huì)用python爬蟲框架Scrapy爬取心目中的女神

作者：佚名 2017-11-20 09:46:08

開發(fā) 后端

Scrapy，Python開發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。

Scrapy，Python開發(fā)的一個(gè)快速,高層次的屏幕抓取和web抓取框架，用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛，可以用于數(shù)據(jù)挖掘、監(jiān)測(cè)和自動(dòng)化測(cè)試。

Scrapy吸引人的地方在于它是一個(gè)框架，任何人都可以根據(jù)需求方便的修改。它也提供了多種類型爬蟲的基類，如BaseSpider、sitemap爬蟲等，最新版本又提供了web2.0爬蟲的支持。

Scratch，是抓取的意思，這個(gè)Python的爬蟲框架叫Scrapy，大概也是這個(gè)意思吧，就叫它：小刮刮吧。

Scrapy 使用了 Twisted異步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊。整體架構(gòu)大致如下:

Scrapy主要包括了以下組件：

引擎(Scrapy)

用來處理整個(gè)系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(wù)(框架核心)

調(diào)度器(Scheduler)

用來接受引擎發(fā)過來的請(qǐng)求, 壓入隊(duì)列中, 并在引擎再次請(qǐng)求的時(shí)候返回. 可以想像成一個(gè)URL（抓取網(wǎng)頁的網(wǎng)址或者說是鏈接）的優(yōu)先隊(duì)列, 由它來決定下一個(gè)要抓取的網(wǎng)址是什么, 同時(shí)去除重復(fù)的網(wǎng)址

下載器(Downloader)

用于下載網(wǎng)頁內(nèi)容, 并將網(wǎng)頁內(nèi)容返回給蜘蛛(Scrapy下載器是建立在twisted這個(gè)高效的異步模型上的)

爬蟲(Spiders)

爬蟲是主要干活的, 用于從特定的網(wǎng)頁中提取自己需要的信息, 即所謂的實(shí)體(Item)。用戶也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個(gè)頁面

項(xiàng)目管道(Pipeline)

負(fù)責(zé)處理爬蟲從網(wǎng)頁中抽取的實(shí)體，主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息。當(dāng)頁面被爬蟲解析后，將被發(fā)送到項(xiàng)目管道，并經(jīng)過幾個(gè)特定的次序處理數(shù)據(jù)。

下載器中間件(Downloader Middlewares)

位于Scrapy引擎和下載器之間的框架，主要是處理Scrapy引擎與下載器之間的請(qǐng)求及響應(yīng)。

爬蟲中間件(Spider Middlewares)

介于Scrapy引擎和爬蟲之間的框架，主要工作是處理蜘蛛的響應(yīng)輸入和請(qǐng)求輸出。

調(diào)度中間件(Scheduler Middewares)

介于Scrapy引擎和調(diào)度之間的中間件，從Scrapy引擎發(fā)送到調(diào)度的請(qǐng)求和響應(yīng)。

Scrapy運(yùn)行流程大概如下：

引擎從調(diào)度器中取出一個(gè)鏈接(URL)用于接下來的抓取
引擎把URL封裝成一個(gè)請(qǐng)求(Request)傳給下載器
下載器把資源下載下來，并封裝成應(yīng)答包(Response)
爬蟲解析Response
解析出實(shí)體（Item）,則交給實(shí)體管道進(jìn)行進(jìn)一步的處理
解析出的是鏈接（URL）,則把URL交給調(diào)度器等待抓取

安裝

因?yàn)閜ython3并不能完全支持Scrapy，因此為了完美運(yùn)行Scrapy，我們使用python2.7來編寫和運(yùn)行Scrapy。

注：windows平臺(tái)需要依賴pywin32，請(qǐng)根據(jù)自己系統(tǒng)32/64位選擇下載安裝，https://sourceforge.net/projects/pywin32/

其它可能依賴的安裝包：lxml-3.6.4-cp27-cp27m-win_amd64.whl，VCForPython27.msi百度下載即可

基本使用

1、創(chuàng)建項(xiàng)目

運(yùn)行命令:

2.自動(dòng)創(chuàng)建目錄的結(jié)果：

文件說明：

scrapy.cfg 項(xiàng)目的配置信息，主要為Scrapy命令行工具提供一個(gè)基礎(chǔ)的配置信息。（真正爬蟲相關(guān)的配置信息在settings.py文件中）
items.py 設(shè)置數(shù)據(jù)存儲(chǔ)模板，用于結(jié)構(gòu)化數(shù)據(jù)，如：Django的Model
pipelines 數(shù)據(jù)處理行為，如：一般結(jié)構(gòu)化的數(shù)據(jù)持久化
settings.py 配置文件，如：遞歸的層數(shù)、并發(fā)數(shù)，延遲下載等
spiders 爬蟲目錄，如：創(chuàng)建文件，編寫爬蟲規(guī)則

注意：一般創(chuàng)建爬蟲文件時(shí)，以網(wǎng)站域名命名

3、編寫爬蟲

在spiders目錄中新建 xiaohuar_spider.py 文件

示例代碼：

備注：

爬蟲文件需要定義一個(gè)類，并繼承scrapy.spiders.Spider
必須定義name，即爬蟲名，如果沒有name，會(huì)報(bào)錯(cuò)。因?yàn)樵创a中是這樣定義的：

3. 編寫函數(shù)parse，這里需要注意的是，該函數(shù)名不能改變，因?yàn)镾crapy源碼中默認(rèn)callback函數(shù)的函數(shù)名就是parse；

4. 定義需要爬取的url，放在列表中，因?yàn)榭梢耘廊《鄠€(gè)url，Scrapy源碼是一個(gè)For循環(huán)，從上到下爬取這些url，使用生成器迭代將url發(fā)送給下載器下載url的html。源碼截圖：

4、運(yùn)行

進(jìn)入p1目錄，運(yùn)行命令

格式：scrapy crawl+爬蟲名 –nolog即不顯示日志

5、scrapy查詢語法：

當(dāng)我們爬取大量的網(wǎng)頁，如果自己寫正則匹配，會(huì)很麻煩，也很浪費(fèi)時(shí)間，令人欣慰的是，scrapy內(nèi)部支持更簡(jiǎn)單的查詢語法，幫助我們?nèi)tml中查詢我們需要的標(biāo)簽和標(biāo)簽內(nèi)容以及標(biāo)簽屬性。下面逐一進(jìn)行介紹：

查詢子子孫孫中的某個(gè)標(biāo)簽(以div標(biāo)簽為例)：//div
查詢兒子中的某個(gè)標(biāo)簽(以div標(biāo)簽為例)：/div
查詢標(biāo)簽中帶有某個(gè)class屬性的標(biāo)簽：//div[@class=’c1′]即子子孫孫中標(biāo)簽是div且class=‘c1’的標(biāo)簽
查詢標(biāo)簽中帶有某個(gè)class=‘c1’并且自定義屬性name=‘alex’的標(biāo)簽：//div[@class=’c1′][@name=’alex’]
查詢某個(gè)標(biāo)簽的文本內(nèi)容：//div/span/text() 即查詢子子孫孫中div下面的span標(biāo)簽中的文本內(nèi)容
查詢某個(gè)屬性的值（例如查詢a標(biāo)簽的href屬性）：//a/@href

示例代碼：

注：urllib.urlretrieve(ab_src, file_path) ，接收文件路徑和需要保存的路徑，會(huì)自動(dòng)去文件路徑下載并保存到我們指定的本地路徑。

6、遞歸爬取網(wǎng)頁

上述代碼僅僅實(shí)現(xiàn)了一個(gè)url的爬取，如果該url的爬取的內(nèi)容中包含了其他url，而我們也想對(duì)其進(jìn)行爬取，那么如何實(shí)現(xiàn)遞歸爬取網(wǎng)頁呢？

示例代碼：

即通過yield生成器向每一個(gè)url發(fā)送request請(qǐng)求，并執(zhí)行返回函數(shù)parse，從而遞歸獲取校花圖片和?；ㄐ彰麑W(xué)校等信息。

注：可以修改settings.py 中的配置文件，以此來指定“遞歸”的層數(shù),如： DEPTH_LIMIT = 1

7、scrapy查詢語法中的正則：

語法規(guī)則：Selector(response=response查詢對(duì)象).xpath(‘//li[re:test(@class, “item-d*”)]//@href’).extract()，即根據(jù)re正則匹配，test即匹配，屬性名是class，匹配的正則表達(dá)式是”item-d*”，然后獲取該標(biāo)簽的href屬性。

選擇器規(guī)則Demo

獲取響應(yīng)cookie

更多選擇器規(guī)則：http://www.baby98.cn/

8、格式化處理

上述實(shí)例只是簡(jiǎn)單的圖片處理，所以在parse方法中直接處理。如果對(duì)于想要獲取更多的數(shù)據(jù)（獲取頁面的價(jià)格、商品名稱、QQ等），則可以利用Scrapy的items將數(shù)據(jù)格式化，然后統(tǒng)一交由pipelines來處理。即不同功能用不同文件實(shí)現(xiàn)。

items：即用戶需要爬取哪些數(shù)據(jù)，是用來格式化數(shù)據(jù)，并告訴pipelines哪些數(shù)據(jù)需要保存。

示例items.py文件：

即：需要爬取所有url中的公司名，title，qq，基本信息info，更多信息more。

上述定義模板，以后對(duì)于從請(qǐng)求的源碼中獲取的數(shù)據(jù)同樣按照此結(jié)構(gòu)來獲取，所以在spider中需要有一下操作：

上述代碼中：對(duì)url進(jìn)行md5加密的目的是避免url過長(zhǎng)，也方便保存在緩存或數(shù)據(jù)庫中。

此處代碼的關(guān)鍵在于：

將獲取的數(shù)據(jù)封裝在了Item對(duì)象中
yield Item對(duì)象（一旦parse中執(zhí)行yield Item對(duì)象，則自動(dòng)將該對(duì)象交個(gè)pipelines的類來處理）

上述代碼中多個(gè)類的目的是，可以同時(shí)保存在文件和數(shù)據(jù)庫中，保存的優(yōu)先級(jí)可以在配置文件settings中定義。

總結(jié)：本文對(duì)python爬蟲框架Scrapy做了詳細(xì)分析和實(shí)例講解

責(zé)任編輯：龐桂玉來源：運(yùn)維派

python 爬蟲 Scrapy

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="c4urj"><option id="c4urj"><form id="c4urj"></form></option></tt>

<tt id="c4urj"><option id="c4urj"></option></tt>

<rt id="c4urj"></rt>

<u id="c4urj"></u>