偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Python 爬蟲(chóng)三劍客:玩轉(zhuǎn) Requests、BeautifulSoup、Selenium!

開(kāi)發(fā)
今天我們舉例,搞懂 Python 爬蟲(chóng)最常用的三大工具!學(xué)會(huì)這三大爬蟲(chóng)工具,就能勝任 80% 的網(wǎng)頁(yè)數(shù)據(jù)抓取任務(wù)。

想提取頁(yè)面標(biāo)題、關(guān)鍵內(nèi)容?今天我們舉例,搞懂 Python 爬蟲(chóng)最常用的三大工具!

Requests:快速發(fā)起請(qǐng)求,獲取網(wǎng)頁(yè)結(jié)果

適合處理靜態(tài)網(wǎng)頁(yè),比如獲取CSDN結(jié)果的原始 HTML。不保證一定獲取網(wǎng)頁(yè)內(nèi)容,看網(wǎng)站保護(hù)措施。

示例:請(qǐng)求CSDN頁(yè)面

import requests

url = "https://www.csdn.net/"
headers = {
    "User-Agent": "Mozilla/5.0"
}

res = requests.get(url, headers=headers)
print(res.text[:500])  # 打印前 500 個(gè)字符

適合初學(xué)者:一行代碼就能發(fā)請(qǐng)求。

BeautifulSoup:解析 HTML 內(nèi)容,提取標(biāo)題

搭配 Requests,解析頁(yè)面結(jié)構(gòu),提取標(biāo)題。

示例:提取資訊頭條的標(biāo)題

import requests
from bs4 import BeautifulSoup

url = "https://www.csdn.net/"
headers = {
    "User-Agent": "Mozilla/5.0"
}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, "lxml")

results = soup.select("div.home-info")  # 獲取“資訊頭條”的標(biāo)題

title = results[0].find("span").get_text()
print(f"{title}\n")

Selenium:模擬瀏覽器操作,解決 JavaScript 加載問(wèn)題

如果你想實(shí)現(xiàn)「打開(kāi)百度首頁(yè) → 輸入關(guān)鍵詞 → 自動(dòng)點(diǎn)擊搜索」的完整流程,Selenium 就是你的神器!

示例:自動(dòng)在百度搜索“Python 爬蟲(chóng)”

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome()
driver.get("https://www.baidu.com")

# 找到輸入框并輸入關(guān)鍵詞
search_input = driver.find_element(By.ID, "kw")
search_input.send_keys("Python 爬蟲(chóng)")
search_input.send_keys(Keys.RETURN)

# 頁(yè)面就自動(dòng)跳轉(zhuǎn)了
time.sleep(200)

# 具體爬取內(nèi)容方法后續(xù)詳細(xì)講
driver.quit()

優(yōu)點(diǎn):完全模擬瀏覽器操作,可見(jiàn)即可爬。

推薦組合方式

頁(yè)面類型

推薦工具

普通 HTML 頁(yè)面

Requests + BeautifulSoup

JavaScript 頁(yè)面

Selenium

登錄、操作交互頁(yè)

Selenium

接口 API

Requests

反爬建議

  • 加入U(xiǎn)ser-Agent,防止被百度判定為爬蟲(chóng)
  • 加上time.sleep(),模擬人類訪問(wèn)行為
  • 控制請(qǐng)求頻率,避免被封 IP

小結(jié)

工具

優(yōu)勢(shì)

劣勢(shì)

Requests

快速輕便

不能處理 JS

BeautifulSoup

提取結(jié)構(gòu)清晰、簡(jiǎn)單

需搭配其他庫(kù)

Selenium

模擬瀏覽器功能強(qiáng)大

啟動(dòng)慢、資源消耗大

學(xué)會(huì)這三大爬蟲(chóng)工具,就能勝任 80% 的網(wǎng)頁(yè)數(shù)據(jù)抓取任務(wù)。關(guān)于js逆向不適合小白學(xué)習(xí),并且爬蟲(chóng)爬數(shù)據(jù)本就要遵守網(wǎng)站的規(guī)則,如果設(shè)置復(fù)雜驗(yàn)證了,那就是不想讓你去爬,強(qiáng)行為之可別太刑了。

責(zé)任編輯:趙寧寧 來(lái)源: Ssoul肥魚(yú)
相關(guān)推薦

2011-03-28 16:04:44

nagios

2024-06-04 00:20:00

Python函數(shù)

2019-06-27 10:06:54

Linux 性能工具

2010-02-04 16:22:21

2023-11-25 17:08:47

ChatbotLLAMALangChain

2023-10-04 00:20:31

grepLinux

2009-02-26 18:22:49

桌面虛擬化Linux

2017-07-25 08:53:14

CorrectLinkCCA-SD算法

2019-08-20 14:29:45

grepsedawk

2021-05-13 10:25:29

Linuxgrep命令

2018-05-04 15:18:01

DockerDocker Comp容器

2014-11-26 10:18:32

Cloud Setupwindows在線打包工具

2021-03-15 07:39:48

LinuxAwk 語(yǔ)言

2009-03-19 20:52:58

LinuxPHPCMS

2011-04-11 11:01:03

AndroidHTC蘋(píng)果

2011-08-06 23:58:34

愛(ài)普生投影機(jī)

2011-07-04 09:07:54

2025-03-24 10:06:35

2013-08-16 11:14:48

創(chuàng)業(yè)

2021-02-21 08:19:55

面試StringStringBuffe
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)