偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

一文看完網(wǎng)絡爬蟲發(fā)展史

網(wǎng)絡
著名調(diào)查機構Aberdeen Group曾經(jīng)做過一次調(diào)查,結果令人乍舌。整個互聯(lián)網(wǎng),網(wǎng)絡爬蟲產(chǎn)生的流量占比高達37.2%!

[[415987]]

著名調(diào)查機構Aberdeen Group曾經(jīng)做過一次調(diào)查,結果令人乍舌。

整個互聯(lián)網(wǎng),網(wǎng)絡爬蟲產(chǎn)生的流量占比高達37.2%!

換句話說,每100個互聯(lián)網(wǎng)用戶中,只有63個是實實在在的人類,剩下的流量都是機器人刷出來的。

有一種說法更可怕,未來互聯(lián)網(wǎng)50%以上的流量將是機器人制造出來的。

在現(xiàn)實世界,人類還在為人工智能威脅而煩惱,但在虛擬世界,機器人所制造的流量,已經(jīng)可以和人類平分秋色,甚至超過人類。

每時每刻,爬蟲們都在模仿人類的上網(wǎng)行為,去各種網(wǎng)站上溜達,點點按鈕,查查數(shù)據(jù),或者把看到的信息背回來,他們永遠不知道疲倦,循環(huán)往復。

你一定見過驗證碼嗎,它可能長這樣:

也可能這樣:

或者是這樣子:

無論它長什么樣子,驗證碼只有一個目的,識別真實的人類用戶。

打開百度搜索,搜點什么資料,解決點什么問題。無意中,你也成為眾多爬蟲使用者中的一員。

爬蟲,已經(jīng)遍布在互聯(lián)網(wǎng)的每一個角落,影響著每一個人。

但是,你了解爬蟲的前世今生嗎?

善良的一面

1994年,在卡內(nèi)基梅隆大學參加“信息媒體數(shù)字圖書館”項目研究的小馬,為了解決這一項目的一些困難,用3頁的代碼量,開發(fā)了一個名為Lycos的搜索引擎。

Lycos是Lycosidae(一種善于捕捉獵物的狼蛛)的縮寫。

這個簡陋的搜索引擎,讓小馬看到其背后巨大的商機,于是不久后,Lycos公司正式成立。

[[415990]]

短短兩年時間,Lycos便成功上市,成為有史以來上市最快的公司。根據(jù)Nielsen/NetRatings調(diào)查統(tǒng)計機構數(shù)據(jù),2002年10月份,Lycos的訪問量高達3700萬,成為全世界訪問量排名第5的網(wǎng)站。

然而,搜索引擎這塊大蛋糕,終究逃不過群狼競食的命運。

1995年,也就是在Lycos誕生一年后,斯坦福大學的兩個計算機專業(yè)的學生小拉和小謝,開始研究一個叫BackRub的計算機程序。

[[415991]]

這個程序是利用反向鏈接分析來跟蹤和記錄Internet上的數(shù)據(jù)的搜索引擎。

他們立志開發(fā)一款強大的搜索引擎,供全世界各地的人們使用,更加方便地從互聯(lián)網(wǎng)上獲取信息。

1998年,小拉和小謝拿出自己的全部家當,再加上母校和舍友的一點資金支持,成立一家名為Google的公司。

因為沒有充足的資金保障,他們不得不購買二手的計算機零件,在一個車庫中辦公。

艱難的創(chuàng)業(yè)環(huán)境,使小拉和小謝一度想賣掉Google,他們邀請了雅虎、Excite以及其他幾家硅谷公司,希望他們把Google買了,只可惜當初這些公司只愿意出100萬美元的價格,與他們倆的心理預期嚴重不符,這件事只得作罷。

幾乎同一時間,在地球的另一頭,有一個年輕的小伙子小馬,開發(fā)了一款名為QQ的聊天軟件,也想把它賣出去,也沒有成功。

[[415993]]

歷史總是驚人的相似。

誰也沒想到,這兩家名不見經(jīng)傳的小公司,會成為互聯(lián)網(wǎng)超級巨頭。

世界的另一頭,在美國呆了8年的小李,看到國內(nèi)互聯(lián)網(wǎng)環(huán)境已經(jīng)成熟,他立即起身回國創(chuàng)業(yè),創(chuàng)辦一家名為百度的公司。

[[415994]]

至此,谷歌、雅虎、百度三分天下的局面逐漸形成。

上古時代,那時的互聯(lián)網(wǎng),還是一片賢者云集的凈土,為了尊重網(wǎng)站的權利,各大搜索引擎通過郵件形式討論定下了一個君子協(xié)議——robots.txt。

只要在你的網(wǎng)站根目錄上放上一個robots文件,告訴搜索引擎哪些內(nèi)容不能抓取,網(wǎng)絡爬蟲就會遵守約定,不抓取這些內(nèi)容。

邪惡的一面

隨著互聯(lián)網(wǎng)的發(fā)展, 信息量快速發(fā)展,整個網(wǎng)絡世界,充滿著許多很有價值的信息,商品信息、機票信息、個人隱私數(shù)據(jù)滿天飛。

一些不法分子從中看到了巨大的利益。

在利益的誘惑下,這些人開始違反爬蟲協(xié)議,編寫爬蟲程序,惡意爬取目標網(wǎng)站的內(nèi)容。

歷史上第一件關于爬蟲的官司出現(xiàn)在2000年,eBay將一家聚合價格信息的網(wǎng)站告上法庭。

[[415995]]

eBay認為自己已經(jīng)使用robot協(xié)議,明確告訴哪些信息不能抓取,哪些信息可以抓取,但這家公司違反了協(xié)議,非法抓取商品價格等信息。

但被告認為,eBay上的用戶數(shù)據(jù)、以及用戶上傳的商品信息,應屬于用戶集體所有,并不屬于eBay,robot協(xié)議無效。

最終,法院判決eBay勝訴。

這個案件開啟了爬蟲協(xié)議作為主要參考證據(jù)的先河。

如今,爬蟲技術發(fā)展迅速,已經(jīng)出現(xiàn)通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、增量式網(wǎng)絡爬蟲、深層網(wǎng)絡爬蟲等類型。抓取目標的方式也很多,例如基于目標網(wǎng)頁特征、基于目標數(shù)據(jù)模式、基于領域概念等。

爬蟲技術,無論善意還是惡意,都將常伴在互聯(lián)網(wǎng)的身邊,影響網(wǎng)民的分分秒秒。

 

責任編輯:趙寧寧 來源: 今日頭條
相關推薦

2024-11-26 18:05:02

2022-10-08 00:21:55

內(nèi)存芯片RAM

2016-08-18 00:21:12

網(wǎng)絡爬蟲抓取網(wǎng)絡

2021-08-06 09:36:00

TCPIP網(wǎng)絡協(xié)議

2016-10-10 22:11:02

2010-11-01 00:40:39

Unix發(fā)展史

2010-02-05 15:46:41

IBM Power

2009-11-10 13:38:12

Visual Stud

2009-03-10 16:46:56

2012-08-14 09:22:33

域名發(fā)展史

2019-02-25 22:46:39

2021-10-20 05:55:22

即時通訊IM網(wǎng)絡

2010-08-31 15:44:17

CSS

2011-12-28 09:56:49

開源軟件發(fā)展

2021-03-10 18:46:26

HTTPHTTP 協(xié)議網(wǎng)絡技術

2010-05-26 09:15:39

HTML

2010-01-11 11:14:18

網(wǎng)絡交換機技術

2019-06-27 15:42:14

瀏覽器ChromeEdge瀏覽器

2010-02-06 16:11:33

Frame Layou

2012-05-16 10:34:49

UbuntuLinux
點贊
收藏

51CTO技術棧公眾號