偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

Python抓取網(wǎng)頁內(nèi)容應(yīng)用代碼分析

開發(fā) 后端
Python抓取網(wǎng)頁內(nèi)容的實(shí)現(xiàn),其操作方法是比較簡單的。我們可以通過這里介紹的兩種不同方法來對這一應(yīng)用技術(shù)進(jìn)行充分的掌握。

我們今天將會通過這篇文章,為大家詳細(xì)介紹一下Python抓取網(wǎng)頁內(nèi)容的兩種不同方法。大家可以以此為參考對象,在實(shí)際應(yīng)用中選擇一種適合自己的應(yīng)用方式來幫助我們完成實(shí)際開發(fā)中的需求。

Python抓取網(wǎng)頁內(nèi)容方法一、用urllib2/sgmllib包,將目標(biāo)網(wǎng)頁的所有URL列出。

  1. import urllib2  
  2. from sgmllib import SGMLParser   
  3. class URLLister(SGMLParser):  
  4. def reset(self):   
  5. SGMLParser.reset(self)  
  6. self.urls = []  
  7. def start_a(self, attrs):   
  8. href = [v for k, v in attrs if k=='href']   
  9. if href:  
  10. self.urls.extend(href)  
  11. f = urllib2.urlopen("http://www.donews.com/")  
  12. if f.code == 200:  
  13. parser = URLLister()  
  14. parser.feed(f.read())  
  15. f.close()  
  16. for url in parser.urls: print url 

Python抓取網(wǎng)頁內(nèi)容方法二、用python調(diào)用IE抓取目標(biāo)網(wǎng)頁(Require win32com, pythoncom)的所有圖像的url和大小

  1. import win32com.client, pythoncom  
  2. import time  
  3. ie = win32com.client.DispatchEx('InternetExplorer.Application.1')  
  4. ie.Visible = 1 
  5. ie.Navigate("http://news.sina.com.cn")  
  6. while ie.Busy:  
  7. time.sleep(0.05)  
  8. doc = ie.Document  
  9. for i in doc.images:  
  10. print i.src, i.width, i.height 

這種方法可以利用IE本身的Javascript. DHTML的支持,來做自動提交Form,和處理Javascript。

以上就是我們?yōu)榇蠹医榻B的Python抓取網(wǎng)頁內(nèi)容的兩種不同的方法。

【編輯推薦】

  1. Python編碼規(guī)范基本內(nèi)容簡介
  2. Python調(diào)用MySql存儲過程基本應(yīng)用方式解讀
  3. 第三方Python庫基本概念簡述
  4. Python打包方法基本應(yīng)用方式介紹
  5. Python set類型基本應(yīng)用方式解讀
責(zé)任編輯:曹凱 來源: 博客園
相關(guān)推薦

2010-03-04 11:22:59

Python抓取網(wǎng)頁圖

2009-07-31 10:34:41

ASP.NET抓取網(wǎng)頁

2009-12-02 15:50:41

PHP抓取網(wǎng)頁內(nèi)容

2010-03-04 10:16:41

Python應(yīng)用技巧

2012-05-17 15:11:23

linux

2010-03-09 15:48:06

Python抓取

2021-11-24 17:22:06

網(wǎng)絡(luò)抓取網(wǎng)絡(luò)爬蟲數(shù)據(jù)收集

2015-04-20 10:12:30

谷歌搜索

2010-03-12 16:39:55

Python多線程

2018-01-09 14:43:37

Python機(jī)器學(xué)習(xí)數(shù)據(jù)抓取

2023-03-09 15:55:17

JavaScriptURLCSS

2025-04-03 02:35:00

GoogleGemini工具

2009-09-07 14:00:57

C#抓取網(wǎng)頁

2020-10-12 08:19:43

Python爬蟲網(wǎng)頁數(shù)據(jù)

2019-07-24 16:00:37

Python代碼高清圖片

2022-09-20 08:00:57

PythonDash

2017-04-25 15:40:12

數(shù)據(jù)分析商品評價(jià)

2018-07-10 10:20:14

2010-07-16 11:16:40

Perl抓取網(wǎng)頁

2010-02-03 17:10:12

Python編寫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號