偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<pre id="nuc5h"><strong id="nuc5h"></strong></pre>

<abbr id="nuc5h"></abbr>

<tfoot id="nuc5h"><span id="nuc5h"></span></tfoot>

<abbr id="nuc5h"></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

巧妙運(yùn)用PHP函數(shù)實(shí)現(xiàn)采集器

作者：佚名 2009-11-18 15:39:43

開發(fā) 后端

文章這里巧妙利用PHP函數(shù)中的file_get_contents()和preg_match_all()實(shí)現(xiàn)采集器，希望對大家有幫助。

PHP經(jīng)過長時間的發(fā)展，很多用戶都很了解PHP了，我們現(xiàn)在可以利用PHP函數(shù)實(shí)現(xiàn)采集器程序。何為采集器，通常又叫小偷程序，主要是用來抓取別人網(wǎng)頁內(nèi)容的。關(guān)于采集器的制作，其實(shí)并不難，就是遠(yuǎn)程打開要采集的網(wǎng)頁，然后用正則表達(dá)式將需要的內(nèi)容匹配出來，只要稍微有點(diǎn)正則表達(dá)式的基礎(chǔ)，都能做出自己的采集器來的。

#T#前幾天做了個小說連載的程序，因?yàn)榕赂侣闊?，順帶就寫了個采集器，采集八路中文網(wǎng)的，功能比較簡單，不能自定義規(guī)則，不過大概思路都在里面了，自定義規(guī)則可以自己來擴(kuò)展。用php來做采集器主要用到兩個PHP函數(shù)：file_get_contents()和preg_match_all()，前一個是遠(yuǎn)程讀取網(wǎng)頁內(nèi)容的，不過只在php5以上的版本才能用，后一個是正則函數(shù)，用來提取需要的內(nèi)容的。面就一步一步來講功能實(shí)現(xiàn)。因?yàn)槭遣杉≌f，所以首先要將書名、作者、類型這三個提取出來，別的信息可根據(jù)需要提取。

這樣還不夠，還需要一個切取PHP函數(shù)：

function cut($string,$start,$end){     
$message = explode($start,$string);     
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內(nèi)容，$start為開始的地方，$end為結(jié)束的地方。取出分類號：     
 
$start = "Html/Book/";     
$end    
= "List.shtm";     
$typeid = cut($typeid[0][0],$start,$end);     
$typeid = explode("/",$typeid);[/php]     
 
這樣，$typeid[0]就是我們要找的分類號了。方法如下：     
 
$ustart = "\"";     
$uend    
= "\"";     
//t表示title的縮寫     
$tstart = ">";     
$tend    
= "<";     
//取路徑,例如:123.shtm,2342.shtm,233.shtm     
preg_match_all("/\"[0-9]{1,}\.(shtm)\"/is",$chapterurl,$url);     
//取標(biāo)題,例如:***章 九世善人     
preg_match_all("/<a href=\"[0-9]{1,}\.shtm\"(.*?)\<\/a>/is",$file,$title);     
$countcountcount = count($url[0]);     
for($i=0;$i<=$count;$i++)     
{     
$u = cut($url[0][$i],$ustart,$uend);     
$t = cut($title[0][$i],$tstart,$tend);     
$array[$u] = $t;     
}

$array數(shù)組就是所有的章節(jié)地址了，到這里，采集器就完成一半了，剩下的就是循環(huán)打開每個章節(jié)地址，讀取，然后將內(nèi)容匹配出來。這個比較簡單，這里就不詳細(xì)敘述了。好了，今天就先寫到這吧，***次寫這么長的文章，語言組織方面難免有問題，還請大家多包涵！

責(zé)任編輯：田樹來源： it168

PHP函數(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營