偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

用Python爬取天氣并且語言播報

開發(fā) 后端
爬蟲是爬取網(wǎng)頁的相關(guān)內(nèi)容,了解HTML能夠幫助你更好的理解網(wǎng)頁的結(jié)構(gòu)、內(nèi)容等。 TCP/IP協(xié)議,HTTP協(xié)議這些知識了解一下就可以,能夠讓你了解在網(wǎng)絡(luò)請求和網(wǎng)絡(luò)傳輸上的基本原理,這次的小案例用不到。

一、 預備知識

此案例實現(xiàn)功能:利用網(wǎng)絡(luò)爬蟲,爬取某地的天氣,并打印和語音播報 。 要用到requests庫,lxml庫,pyttsx3庫,沒有的,可以先安裝一下,都可以通過pip安裝:

 

  1. pip install requests 
  2. pip install lxml 
  3. pip install pyttsx3 

Requests庫是個功能很強大的網(wǎng)絡(luò)請求庫,可以實現(xiàn)跟瀏覽器一樣發(fā)送各種HTTP請求來獲取網(wǎng)站的數(shù)據(jù)。

Lxml庫是處理XML和HTML功能最豐富,最易于使用的庫,通常用lxml庫中的etree使HTML轉(zhuǎn)化為文檔。

Pyttsx3庫是一個很簡單的播放語音的庫,你給它什么,它就讀什么,當然別在意生硬的語氣。 基本用法如下:

 

  1. import pyttsx3 
  2.  
  3. word = pyttsx3.init() 
  4. ​ 
  5. word.say('你好'
  6. # 關(guān)鍵一句,沒有這行代碼,不會播放語音 
  7. word.runAndWait() 

碼字不易廢話兩句:有需要學習資料的或者有技術(shù)問題交流可以私信小編發(fā)送“01”即可

爬蟲是爬取網(wǎng)頁的相關(guān)內(nèi)容,了解HTML能夠幫助你更好的理解網(wǎng)頁的結(jié)構(gòu)、內(nèi)容等。 TCP/IP協(xié)議,HTTP協(xié)議這些知識了解一下就可以,能夠讓你了解在網(wǎng)絡(luò)請求和網(wǎng)絡(luò)傳輸上的基本原理,這次的小案例用不到。

二、 詳細說一說

2.1. get請求目標網(wǎng)址

我們首先導入requests庫,然后就用它來獲取目標的網(wǎng)頁,我們請求的是天氣網(wǎng)站中的北京天氣。

 

  1. import requests 
  2. # 向目標url地址發(fā)送請求,返回一個response對象 
  3. req = requests.get('https://www.tianqi.com/beijing/'
  4. # .text是response對象的網(wǎng)頁html 
  5. print(req.text) 

打印出的結(jié)果就是網(wǎng)站上顯示的內(nèi)容,瀏覽器就是通過這些內(nèi)容“解析”出來我們看到的結(jié)構(gòu)如下:

 

用python爬取天氣并且語言播報

我們請求后的獲得的數(shù)據(jù)

 

用python爬取天氣并且語言播報

注意啦,小伙伴們有很大可能運行之后得不到網(wǎng)頁代碼,而是顯示403,這是什么意思呢?

403錯誤是一種在網(wǎng)站訪問過程中,常見的錯誤提示,表示資源不可用。服務(wù)器理解客戶的請求,但拒絕處理它。

我們寫的爬蟲一般會默認告訴服務(wù)器,自己發(fā)送一個Python爬取請求,而很多的網(wǎng)站都會設(shè)置反爬蟲的機制,不允許被爬蟲訪問的。

所以,我們想讓目標服務(wù)器響應(yīng),那就把我們的爬蟲進行一下偽裝。此小案例就用常用的更改User-Agent字段進行偽裝。

改一下之前的代碼,將爬蟲偽裝成瀏覽器請求,這樣就可以進行正常的訪問了。

 

  1. import requests 
  2. ​ 
  3. headers = {'content-type':'application/json''User-Agent':'Mozilla/5.0 (Xll; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'
  4. ​ 
  5. # 向目標url地址發(fā)送請求,返回一個response對象 
  6. req = requests.get('https://www.tianqi.com/beijing/',headers=headers) 
  7. # .text是response對象的網(wǎng)頁html 
  8. print(req.text) 

User-Agent字段怎么來的呢?我們以Chrome瀏覽器為例子,先隨便打開一個網(wǎng)頁,按鍵盤的F12或在空白處點擊鼠標右鍵選擇“檢查”;然后刷新網(wǎng)頁,點擊“Network”再點擊“Doc”,點擊Headers,在信息欄查看Request Headers的User-Agent字段,直接復制,咱們就可以用啦。

2.2. lxml.etree登場

我們從網(wǎng)頁請求獲得的數(shù)據(jù)繁雜,其中只有一部分是我們真正想得到的數(shù)據(jù),例如我們從天氣的網(wǎng)站中查看北京的天氣,只有下圖中使我們想要得到的,我們?nèi)缛绾翁崛∧?這就要用到lxml.etree。

 

用python爬取天氣并且語言播報

整個代碼中只有一小部分我們想要的信息,我們發(fā)現(xiàn)想要的天氣、溫度啊都在“class='weather_info'”這一層級下,那這就好辦了。我們在請求的代碼的后面加上:

 

  1. html_obj = etree.HTML(html) 
  2. html_data = html_obj.xpath("//d1[@class='weather_info']//text()"

我們print(html_data)一下看看提取是不是我們想要的數(shù)據(jù)。

 

用python爬取天氣并且語言播報

發(fā)現(xiàn)連網(wǎng)頁中換行符啊什么的也都提取出來了,還有,別忘了,提取出來的是列表哦。我們還要做一下處理。

 

  1. word = "歡迎使用天氣播報助手" 
  2. ​ 
  3. for data in html_data: 
  4.     word += data 

處理完我們打印一下看看,嗯,我們想要的都有了。不過還多了一個[切換城市],我們精益求精,最后把這個最后再去掉。

 

用python爬取天氣并且語言播報

2.3. 把結(jié)果說出來

我們想要的數(shù)據(jù)都在word變量里啦,現(xiàn)在就讓他讀出來,用pyttsx3這個庫,

 

  1. ptt = pyttsx3.init() 
  2. ptt.say(word) 
  3. ptt.runAndWait() 

好的,現(xiàn)在都已完成。 我們一步一步都摸索過來,現(xiàn)在整合在一起,最后播放效果還是不錯的,這是一次很美好的爬蟲之旅,期待下次爬取!

責任編輯:未麗燕 來源: 今日頭條
相關(guān)推薦

2022-06-15 08:25:07

Python天氣數(shù)據(jù)可視化分析

2019-01-02 12:23:30

Python金融數(shù)據(jù)爬取

2012-11-26 14:49:15

天氣通二維碼

2016-12-07 11:18:58

Python爬蟲網(wǎng)站

2021-06-02 15:10:20

PythonScrapy視頻

2017-05-24 15:07:19

Python爬蟲爬取

2021-06-02 22:18:11

Python關(guān)鍵詞微博

2022-07-12 09:55:34

Selenium爬取數(shù)據(jù)

2021-05-08 08:04:05

Python爬取素材

2021-01-24 16:40:00

Python爬取網(wǎng)站編程語言

2019-01-11 10:22:31

Python數(shù)據(jù)爬取

2018-01-04 09:20:55

python爬蟲視頻彈幕

2020-12-02 09:42:42

PythonApp抖音視頻

2018-05-03 18:19:18

python爬蟲微信好友

2018-01-09 14:19:14

PythonAndroid爬蟲

2018-08-28 12:43:20

Python大數(shù)據(jù)數(shù)據(jù)清洗

2021-03-18 09:18:12

python爬蟲

2020-11-02 10:01:00

Python編程語言數(shù)據(jù)

2021-02-17 09:23:31

Python百度搜索
點贊
收藏

51CTO技術(shù)棧公眾號