偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

從零開(kāi)始的Python爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

開(kāi)發(fā) 后端
用最短的時(shí)間寫(xiě)一個(gè)最簡(jiǎn)單的爬蟲(chóng),可以抓一些簡(jiǎn)單的論壇、帖子、網(wǎng)頁(yè)。本文受眾是沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新,快來(lái)看看吧!
 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

引言

用最短的時(shí)間寫(xiě)一個(gè)最簡(jiǎn)單的爬蟲(chóng),可以抓一些簡(jiǎn)單的論壇、帖子、網(wǎng)頁(yè)。

入門(mén)

1.準(zhǔn)備工作

  • 安裝Python
  • 安裝scrapy框架
  • 一個(gè)IDE或者可以用自帶的

2.開(kāi)始寫(xiě)爬蟲(chóng)

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

在spiders文件夾中創(chuàng)建一個(gè)python文件,比如miao.py,來(lái)作為爬蟲(chóng)的腳本。

代碼如下:

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

3.運(yùn)行一下

如果用命令行的話就這樣:

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

解析

1.試試神奇的xpath

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

2.看看xpath的效果

在最上面加上引用:

from scrapy import Selector

把parse函數(shù)改成:

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

我們?cè)俅芜\(yùn)行一下,你就可以看到輸出“壇星際區(qū)”***頁(yè)所有帖子的標(biāo)題和url了。

遞歸

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

完整的代碼如下:

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

Pipelines——管道

現(xiàn)在是對(duì)已抓取、解析后的內(nèi)容的處理,我們可以通過(guò)管道寫(xiě)入本地文件、數(shù)據(jù)庫(kù)。

1.定義一個(gè)Item

在miao文件夾中創(chuàng)建一個(gè)items.py文件

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

這里我們定義了兩個(gè)簡(jiǎn)單的class用來(lái)描述我們爬取的結(jié)果。

2. 處理方法

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

3.在爬蟲(chóng)中調(diào)用這個(gè)處理方法。

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

4.在配置文件里指定這個(gè)pipeline

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

可以這樣配置多個(gè)pipeline:

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

Middleware——中間件

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

1.Middleware的配置

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

2.破網(wǎng)站查UA, 我要換UA

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

這里就是一個(gè)簡(jiǎn)單的隨機(jī)更換UA的中間件,agents的內(nèi)容可以自行擴(kuò)充。

3.破網(wǎng)站封IP,我要用代理

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

從零開(kāi)始的 Python 爬蟲(chóng)速成指南,本文受眾:沒(méi)寫(xiě)過(guò)爬蟲(chóng)的萌新

 

結(jié)束

看懂了嗎 ?是不是超簡(jiǎn)單! 

責(zé)任編輯:龐桂玉 來(lái)源: 今日頭條
相關(guān)推薦

2018-08-20 08:39:24

編程語(yǔ)言Python網(wǎng)絡(luò)爬蟲(chóng)

2024-03-01 19:53:37

PyBuilderPython開(kāi)發(fā)

2018-05-09 19:29:49

Python爬蟲(chóng)scrapy

2024-05-17 17:29:00

CurdlingPython開(kāi)發(fā)

2025-01-26 16:57:02

2023-03-21 07:35:43

2017-12-05 10:17:02

Python爬蟲(chóng)零基礎(chǔ)

2024-06-07 08:56:43

HTTPPythonSelenium

2025-01-06 00:38:12

2011-04-29 10:46:32

iPhone開(kāi)發(fā)入門(mén)iPhoneiOS

2015-11-17 16:11:07

Code Review

2019-01-18 12:39:45

云計(jì)算PaaS公有云

2018-04-18 07:01:59

Docker容器虛擬機(jī)

2020-08-28 11:00:16

Python爬蟲(chóng)命令

2024-12-06 17:02:26

2020-07-02 15:32:23

Kubernetes容器架構(gòu)

2020-02-11 16:49:24

React前端代碼

2018-08-20 08:15:50

編程語(yǔ)言Go語(yǔ)言切片

2025-02-17 07:20:00

Flutter 3Flutter開(kāi)發(fā)

2010-05-26 17:35:08

配置Xcode SVN
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)