一文看完網(wǎng)絡爬蟲發(fā)展史
著名調(diào)查機構Aberdeen Group曾經(jīng)做過一次調(diào)查,結果令人乍舌。
整個互聯(lián)網(wǎng),網(wǎng)絡爬蟲產(chǎn)生的流量占比高達37.2%!
換句話說,每100個互聯(lián)網(wǎng)用戶中,只有63個是實實在在的人類,剩下的流量都是機器人刷出來的。
有一種說法更可怕,未來互聯(lián)網(wǎng)50%以上的流量將是機器人制造出來的。
在現(xiàn)實世界,人類還在為人工智能威脅而煩惱,但在虛擬世界,機器人所制造的流量,已經(jīng)可以和人類平分秋色,甚至超過人類。
每時每刻,爬蟲們都在模仿人類的上網(wǎng)行為,去各種網(wǎng)站上溜達,點點按鈕,查查數(shù)據(jù),或者把看到的信息背回來,他們永遠不知道疲倦,循環(huán)往復。
你一定見過驗證碼嗎,它可能長這樣:
也可能這樣:
或者是這樣子:
無論它長什么樣子,驗證碼只有一個目的,識別真實的人類用戶。
打開百度搜索,搜點什么資料,解決點什么問題。無意中,你也成為眾多爬蟲使用者中的一員。
爬蟲,已經(jīng)遍布在互聯(lián)網(wǎng)的每一個角落,影響著每一個人。
但是,你了解爬蟲的前世今生嗎?
善良的一面
1994年,在卡內(nèi)基梅隆大學參加“信息媒體數(shù)字圖書館”項目研究的小馬,為了解決這一項目的一些困難,用3頁的代碼量,開發(fā)了一個名為Lycos的搜索引擎。
Lycos是Lycosidae(一種善于捕捉獵物的狼蛛)的縮寫。
這個簡陋的搜索引擎,讓小馬看到其背后巨大的商機,于是不久后,Lycos公司正式成立。
短短兩年時間,Lycos便成功上市,成為有史以來上市最快的公司。根據(jù)Nielsen/NetRatings調(diào)查統(tǒng)計機構數(shù)據(jù),2002年10月份,Lycos的訪問量高達3700萬,成為全世界訪問量排名第5的網(wǎng)站。
然而,搜索引擎這塊大蛋糕,終究逃不過群狼競食的命運。
1995年,也就是在Lycos誕生一年后,斯坦福大學的兩個計算機專業(yè)的學生小拉和小謝,開始研究一個叫BackRub的計算機程序。
這個程序是利用反向鏈接分析來跟蹤和記錄Internet上的數(shù)據(jù)的搜索引擎。
他們立志開發(fā)一款強大的搜索引擎,供全世界各地的人們使用,更加方便地從互聯(lián)網(wǎng)上獲取信息。
1998年,小拉和小謝拿出自己的全部家當,再加上母校和舍友的一點資金支持,成立一家名為Google的公司。
因為沒有充足的資金保障,他們不得不購買二手的計算機零件,在一個車庫中辦公。
艱難的創(chuàng)業(yè)環(huán)境,使小拉和小謝一度想賣掉Google,他們邀請了雅虎、Excite以及其他幾家硅谷公司,希望他們把Google買了,只可惜當初這些公司只愿意出100萬美元的價格,與他們倆的心理預期嚴重不符,這件事只得作罷。
幾乎同一時間,在地球的另一頭,有一個年輕的小伙子小馬,開發(fā)了一款名為QQ的聊天軟件,也想把它賣出去,也沒有成功。
歷史總是驚人的相似。
誰也沒想到,這兩家名不見經(jīng)傳的小公司,會成為互聯(lián)網(wǎng)超級巨頭。
世界的另一頭,在美國呆了8年的小李,看到國內(nèi)互聯(lián)網(wǎng)環(huán)境已經(jīng)成熟,他立即起身回國創(chuàng)業(yè),創(chuàng)辦一家名為百度的公司。
至此,谷歌、雅虎、百度三分天下的局面逐漸形成。
上古時代,那時的互聯(lián)網(wǎng),還是一片賢者云集的凈土,為了尊重網(wǎng)站的權利,各大搜索引擎通過郵件形式討論定下了一個君子協(xié)議——robots.txt。
只要在你的網(wǎng)站根目錄上放上一個robots文件,告訴搜索引擎哪些內(nèi)容不能抓取,網(wǎng)絡爬蟲就會遵守約定,不抓取這些內(nèi)容。
邪惡的一面
隨著互聯(lián)網(wǎng)的發(fā)展, 信息量快速發(fā)展,整個網(wǎng)絡世界,充滿著許多很有價值的信息,商品信息、機票信息、個人隱私數(shù)據(jù)滿天飛。
一些不法分子從中看到了巨大的利益。
在利益的誘惑下,這些人開始違反爬蟲協(xié)議,編寫爬蟲程序,惡意爬取目標網(wǎng)站的內(nèi)容。
歷史上第一件關于爬蟲的官司出現(xiàn)在2000年,eBay將一家聚合價格信息的網(wǎng)站告上法庭。
eBay認為自己已經(jīng)使用robot協(xié)議,明確告訴哪些信息不能抓取,哪些信息可以抓取,但這家公司違反了協(xié)議,非法抓取商品價格等信息。
但被告認為,eBay上的用戶數(shù)據(jù)、以及用戶上傳的商品信息,應屬于用戶集體所有,并不屬于eBay,robot協(xié)議無效。
最終,法院判決eBay勝訴。
這個案件開啟了爬蟲協(xié)議作為主要參考證據(jù)的先河。
如今,爬蟲技術發(fā)展迅速,已經(jīng)出現(xiàn)通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲等類型。抓取目標的方式也很多,例如基于目標網(wǎng)頁特征、基于目標數(shù)據(jù)模式、基于領域概念等。
爬蟲技術,無論善意還是惡意,都將常伴在互聯(lián)網(wǎng)的身邊,影響網(wǎng)民的分分秒秒。