幾種開(kāi)源網(wǎng)絡(luò)爬蟲(chóng)的簡(jiǎn)單比較
爬蟲(chóng)里面做的***的肯定是google ,不過(guò)google公布的蜘蛛是很早的一個(gè)版本,下面是幾種開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)的簡(jiǎn)單對(duì)比表:
還有其他的一些比如Ubicrawler、FAST Crawler、天網(wǎng)蜘蛛等等沒(méi)有添加進(jìn)來(lái)。
之后主要研究下larbin爬蟲(chóng),如果有可能會(huì)給它添加一個(gè)刪除功能,因?yàn)槠渑胖夭糠钟玫氖莃loom filter算法,這個(gè)算法的有點(diǎn)很明顯,對(duì)大規(guī)模數(shù)據(jù)的處理很快,性能很好,而且內(nèi)存占用很小,但是什么事都沒(méi)有盡善盡美的,該算法的直接缺點(diǎn)就是不能刪除,還會(huì)出現(xiàn)誤判情況。關(guān)于bloom filter有很多相關(guān)論文,網(wǎng)上也有些高質(zhì)量的文章,暫時(shí)不做累述,之后如果自己有不一樣的看法,再寫關(guān)于該算法的文章。
刪除功能的算法暫時(shí)還不太確定,需要進(jìn)一步了解,現(xiàn)在了解的counting bloom filter不錯(cuò),帶來(lái)的代價(jià)是內(nèi)存占用高一點(diǎn),園友們有什么建議和想法歡迎提出來(lái)哈!
原文鏈接:http://www.cnblogs.com/shapherd/archive/2011/03/16/crawler_cmp.html
【編輯推薦】