偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<nobr id="t6nxy"></nobr>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

使用Python輕松收集Web站點(diǎn)數(shù)據(jù)

作者：David 2010-06-12 08:53:19

開發(fā) 后端前端

在使用Python從Web頁(yè)面收集數(shù)據(jù)時(shí)，可以使用mechanize庫(kù)自動(dòng)從Web站點(diǎn)收集數(shù)據(jù)并與之交互，通過Mechanize您可以填充表單并設(shè)置和保存cookies，此外，Mechanize提供了各種各樣的工具來使Python腳本具備真正的Web瀏覽器的功能，可以與交互式Web站點(diǎn)進(jìn)行交互。

使用基本的Python模塊，可以編寫腳本來與Web站點(diǎn)交互，但是如果沒有必要的話，那么您就不希望這樣做。Python2.x中的模塊urllib和urllib2，以及Python3.0中的統(tǒng)一的urllib.*子包，可以在URL的末尾獲取資源。然而，當(dāng)您希望與Web頁(yè)面中找到的內(nèi)容進(jìn)行某種比較復(fù)雜的交互時(shí)，您需要使用mechanize庫(kù)。

51CTO推薦專題： Python實(shí)用開發(fā)指南

在自動(dòng)化Webscrap或用戶與Web站點(diǎn)的交互模擬中，最大的困難之一就是服務(wù)器使用cookies跟蹤會(huì)話進(jìn)度。顯然，cookies是HTTP頭部的一部分，在urllib打開資源時(shí)會(huì)自然顯示出來。

即使如此，在這個(gè)層次上執(zhí)行處理也非常的繁瑣。mechanize庫(kù)將這種處理提升到一個(gè)更高程度的抽象并使您的腳本—或交互性Pythonshell—表現(xiàn)出非常類似實(shí)際Web瀏覽器的行為。

Python的mechanize受到Perl的WWW:Mechanize的啟發(fā)，后者具有類似的一組功能。當(dāng)然，作為長(zhǎng)期的Python支持者，我認(rèn)為mechanize更健壯，它看上去似乎繼承了兩種語(yǔ)言的通用模式。

mechanize的一個(gè)親密伙伴是同樣出色的BeautifulSoup庫(kù)。這是一個(gè)非常神奇的“粗糙的解析器”，用于解析實(shí)際Web頁(yè)面中包含的有效HTML。您不需要將BeautifulSoup用于mechanize，反之亦然，但是多半情況下，當(dāng)您與“實(shí)際存在的Web”交互時(shí)，您將希望同時(shí)使用這兩種工具。

一個(gè)實(shí)際示例

我曾在多個(gè)編程項(xiàng)目中使用過mechanize。最近一個(gè)項(xiàng)目是從一個(gè)流行的Web站點(diǎn)中收集匹配某種條件的名稱的列表。該站點(diǎn)提供了一些搜索工具，但是沒有提供任何正式的API來執(zhí)行此類搜索。雖然訪問者可能能夠更明確地猜出我過去在做什么，但我將修改給出的代碼的細(xì)節(jié)，以避免暴露有關(guān)被scrap的站點(diǎn)或我的客戶機(jī)的過多信息。一般情況下，我給出的代碼對(duì)于類似任務(wù)是通用的。

入門工具

在實(shí)際開發(fā)Webscrap/分析代碼的過程中，我發(fā)現(xiàn)以交互式方式查看、處理和分析Web頁(yè)面的內(nèi)容以了解相關(guān)Web頁(yè)面實(shí)際發(fā)生的操作是非常重要的功能。通常，站點(diǎn)中的一些頁(yè)面是由查詢動(dòng)態(tài)生成（但是具有一致的模式），或是根據(jù)非常嚴(yán)格的模板預(yù)先生成。

完成這種交互式體驗(yàn)的一種重要方法就是在Pythonshell內(nèi)使用mechanize本身，特別是在一個(gè)增強(qiáng)的shell內(nèi)，比如IPython。通過這種方式，您可以在編寫執(zhí)行希望用于生產(chǎn)中的交互的最終腳本之前，請(qǐng)求各種已鏈接的資源、提交表單、維護(hù)或操作站點(diǎn)cookies，等等。

然而，我發(fā)現(xiàn)我與Web站點(diǎn)的許多實(shí)驗(yàn)性質(zhì)的交互在實(shí)際的現(xiàn)代Web瀏覽器中得到了更好的執(zhí)行。方便地呈現(xiàn)頁(yè)面可以使您更加快速地了解給定頁(yè)面或表單中正在發(fā)生的事情。問題在于，呈現(xiàn)頁(yè)面僅僅完成了事情的一半，可能還不到一半。獲得“頁(yè)面源代碼”會(huì)讓您更進(jìn)一步。要真正理解給定Web頁(yè)面或與Web服務(wù)器的一系列交互的背后的原理，需要了解更多。

要了解這些內(nèi)容，我常常使用Firebug或面向Firefox的WebDeveloper插件。所有這些工具都可以執(zhí)行諸如顯示表單字段、顯示密碼、檢查頁(yè)面的DOM、查看或運(yùn)行Javascript、觀察Ajax通信等操作。比較這些工具的優(yōu)劣需要另外撰寫一篇文章，但是如果您要進(jìn)行面向Web的編程的話，那么必須熟悉這些工具。

不管使用哪一種工具來對(duì)準(zhǔn)備實(shí)現(xiàn)自動(dòng)化交互的Web站點(diǎn)做實(shí)驗(yàn)，您都需要花比編寫簡(jiǎn)潔的mechanize代碼（用于執(zhí)行您的任務(wù)）更多的時(shí)間來了解站點(diǎn)實(shí)際發(fā)生的行為。

搜索結(jié)果scraper

考慮到上面提到的項(xiàng)目的意圖，我將把包含100行代碼的腳本分為兩個(gè)功能：

◆檢索所有感興趣的結(jié)果

◆從被檢索的頁(yè)面中拉取我感興趣的信息

使用這種方式組織腳本是為了便于開發(fā)；當(dāng)我開始任務(wù)時(shí)，我需要知道如何完成這兩個(gè)功能。我覺得我需要的信息位于一個(gè)普通的頁(yè)面集合中，但是我還沒有檢查這些頁(yè)面的具體布局。

首先我將檢索一組頁(yè)面并將它們保存到磁盤，然后執(zhí)行第二個(gè)任務(wù)，從這些已保存的文件中拉取所需的信息。當(dāng)然，如果任務(wù)涉及使用檢索到的信息構(gòu)成同一會(huì)話內(nèi)的新交互，那么您將需要使用順序稍微不同的開發(fā)步驟。因此，首先讓我們查看我的fetch()函數(shù)：

清單1.獲取頁(yè)面內(nèi)容  
importsys,time,os  
frommechanizeimportBrowser  
 
LOGIN_URL='http://www.example.com/login' 
USERNAME='DavidMertz' 
PASSWORD='TheSpanishInquisition' 
SEARCH_URL='http://www.example.com/search?' 
FIXED_QUERY='food=spam&''utensil=spork&''date=the_future&' 
VARIABLE_QUERY=['actor=%s'%actorforactorin  
('GrahamChapman',  
'JohnCleese',  
'TerryGilliam',  
'EricIdle',  
'TerryJones',  
'MichaelPalin')]  
 
deffetch():  
result_no=0#Numbertheoutputfiles  
br=Browser()#Createabrowser  
br.open(LOGIN_URL)#Opentheloginpage  
br.select_form(name="login")#Findtheloginform  
br['username']=USERNAME#Settheformvalues  
br['password']=PASSWORD  
resp=br.submit()#Submittheform

#Automaticredirectsometimesfails,followmanuallywhenneeded  
if'Redirecting'inbr.title():  
resp=br.follow_link(text_regex='clickhere')  
 
#Loopthroughthesearches,keepingfixedqueryparameters  
foractorininVARIABLE_QUERY:  
#Iliketowatchwhat'shappeningintheconsole  
print>>sys.stderr,'***',actor  
#Letsdotheactualquerynow  
br.open(SEARCH_URL+FIXED_QUERY+actor)  
#Thequeryactuallygivesuslinkstothecontentpageswelike,  
#buttherearesomeotherlinksonthepagethatweignore  
nice_links=[lforlinbr.links()  
if'good_path'inl.url  
and'credential'inl.url]  
ifnotnice_links:#Maybetherelevantresultsareempty  
break  
forlinkinnice_links:  
try:  
response=br.follow_link(link)  
#Moreconsolereportingontitleoffollowedlinkpage  
print>>sys.stderr,br.title()  
#Incrementoutputfilenames,openandwritethefile  
result_no+=1  
out=open(result_%04d'%result_no,'w')  
print>>out,response.read()  
out.close()  
#Nothingevergoesperfectly,ignoreifwedonotgetpage  
exceptmechanize._response.httperror_seek_wrapper:  
print>>sys.stderr,"Responseerror(probably404)"  
#Let'snothammerthesitetoomuchbetweenfetches  
time.sleep(1)

對(duì)感興趣的站點(diǎn)進(jìn)行交互式研究后，我發(fā)現(xiàn)我希望執(zhí)行的查詢含有一些固定的元素和一些變化的元素。我僅僅是將這些元素連接成一個(gè)大的GET請(qǐng)求并查看“results”頁(yè)面。而結(jié)果列表包含了我實(shí)際需要的資源的鏈接。

因此，我訪問這些鏈接（當(dāng)此過程出現(xiàn)某些錯(cuò)誤時(shí)，會(huì)拋出try/except塊）并保存在這些內(nèi)容頁(yè)面上找到的任何內(nèi)容。很簡(jiǎn)單，是不是？Mechanize可以做的不止這些，但是這個(gè)簡(jiǎn)單的例子向您展示了Mechanize的大致功能。

#p#

處理結(jié)果

現(xiàn)在，我們已經(jīng)完成了對(duì)mechanize的操作；剩下的工作是理解在fetch()循環(huán)期間保存的大量HTML文件。批量處理特性讓我能夠在一個(gè)不同的程序中將這些文件整齊、明顯地分離開來，fetch()和process()可能交互得更密切。BeautifulSoup使得后期處理比初次獲取更加簡(jiǎn)單。對(duì)于這個(gè)批處理任務(wù)，我們希望從獲取的各種Web頁(yè)面的零散內(nèi)容中生成表式的以逗號(hào)分隔的值（CSV）數(shù)據(jù)。

清單2.使用BeautifulSoup從無序的內(nèi)容中生成整齊的數(shù)據(jù)  
fromglobimportglob  
fromBeautifulSoupimportBeautifulSoup  
 
defprocess():  
print"!MOVIE,DIRECTOR,KEY_GRIP,THE_MOOSE"  
forfnameinglob('result_*'):  
#PutthatsloppyHTMLintothesoup  
soup=BeautifulSoup(open(fname))  
 
#Trytofindthefieldswewant,butdefaulttounknownvalues  
try:  
movie=soup.findAll('span',{'class':'movie_title'})[1].contents[0]  
exceptIndexError:  
fname="UNKNOWN" 
 
try:  
director=soup.findAll('div',{'class':'director'})[1].contents[0]  
exceptIndexError:  
lname="UNKNOWN" 
 
try:  
#Maybemultiplegripslisted,keyoneshouldbeinthere  
grips=soup.findAll('p',{'id':'grip'})[0]  
grips="".join(grips.split())#Normalizeextraspaces  
exceptIndexError:  
title="UNKNOWN" 
 
try:  
#HidesomestuffintheHTML<meta>tags  
moose=soup.findAll('meta',{'name':'shibboleth'})[0]['content']  
exceptIndexError:  
moose="UNKNOWN" 
print'"%s","%s","%s","%s"'%(movie,director,grips,moose)

第一次查看BeautifulSoup，process()中的代碼令人印象深刻。讀者應(yīng)當(dāng)閱讀有關(guān)文檔來獲得關(guān)于這個(gè)模塊的更多細(xì)節(jié)，但是這個(gè)代碼片段很好地體現(xiàn)了它的整體風(fēng)格。大多數(shù)soup代碼包含一些對(duì)只含有格式良好的HTML的頁(yè)面的.findAll()調(diào)用。這里是一些類似DOM的.parent、nextSibling和previousSibling屬性。它們類似于Web瀏覽器的“quirks”模式。我們?cè)趕oup中找到的內(nèi)容并不完全是一個(gè)解析樹。

結(jié)束語(yǔ)

諸如我之類的守舊者，甚至于一些更年輕的讀者，都會(huì)記住使用TCLExpect（或使用用Python和其他許多語(yǔ)言編寫的類似內(nèi)容）編寫腳本帶來的愉悅。自動(dòng)化與shell的交互，包括telnet、ftp、ssh等等遠(yuǎn)程shell，變得非常的直觀，因?yàn)闀?huì)話中的所有內(nèi)容都被顯示出來。

Web交互變得更加細(xì)致，因?yàn)樾畔⒈环譃轭^部和內(nèi)容體，并且各種相關(guān)的資源常常通過href鏈接、框架、Ajax等被綁定在一起。然而，總的來說，您可以使用wget之類的工具來檢索Web服務(wù)器提供的所有字節(jié)，然后像使用其他連接協(xié)議一樣運(yùn)行與Expect風(fēng)格完全相同的腳本。

在實(shí)踐中，幾乎沒有編程人員過分執(zhí)著于過去的老方法，比如我建議的wget+Expect方法。Mechanize保留了許多與出色的Expect腳本相同的東西，令人感覺熟悉和親切，并且和Expect一樣易于編寫（如果不是更簡(jiǎn)單的話）。

Browser()對(duì)象命令，比如.select_form()、.submit()和.follow_link()，真的是實(shí)現(xiàn)“查找并發(fā)送”操作的最簡(jiǎn)單、最明顯的方法，同時(shí)綁定了我們希望在Web自動(dòng)化框架中具備的復(fù)雜狀態(tài)和會(huì)話處理的所有優(yōu)點(diǎn)。

【編輯推薦】

PHP資深開發(fā)者談：緣何放棄PHP改用Python
加速程序開發(fā) Python整合C語(yǔ)言模塊
對(duì)Python特色的詳細(xì)介紹

責(zé)任編輯：王曉東來源： IBM

Python mechanize BeautifulSoup

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<nobr id="w7zjt"></nobr>

<tt id="w7zjt"></tt>