喬納森-弗萊切:被遺忘的“搜索引擎之父”
喬納森·弗萊切(Jonathon Fletcher)
導語:英國BBC網站周二刊登題為《喬納森·弗萊切:被遺忘的搜索引擎之父》(Jonathon Fletcher: forgotten father of the search engine)的評論文章稱,雖然喬納森·弗萊切的大名并不為多數(shù)人所知,但全世界首個現(xiàn)代搜索引擎卻出自他的手筆。盡管因為種種原因,令他的項目沒有持續(xù)下去,但他開發(fā)的技術卻為后來的所有網絡搜索引擎奠定了基礎。
以下為文章全文:
在谷歌(888.67, 0.62, 0.07%)迎來15歲生日之際,這家網絡巨頭已經成為了信息檢索的代名詞。
然而,如果你在谷歌上搜索喬納森·弗萊切(Jonathon Fletcher)的名字,卻無法立刻了解他在萬維網發(fā)展歷程中所扮演的角色。當然,也幾乎沒有什么信息將他譽為“現(xiàn)代搜索引擎之父”。
但在20年前,在蘇格蘭斯特靈大學的一間電腦實驗室里,正是弗萊切發(fā)明了世界上首個采用網絡爬蟲技術的搜索引擎——無論是谷歌、必應還是雅虎(29.48, 0.24, 0.82%),當今的所有大型搜索引擎工具都使用了這項技術。
解決搜索問題
1993年,網絡世界剛剛萌芽。全世界首款廣受歡迎的瀏覽器Mosaic發(fā)布不久,全球網頁總數(shù)僅有幾千個。但即使是在那時,如何檢索網絡信息仍是一個未解難題。
Mosaic有一個名叫What's New的頁面,可以在新網站創(chuàng)建后索引這些內容。但問題在于,如果要讓Mosaic的開發(fā)者發(fā)現(xiàn)自己的網站,站長們就必須寫信給該瀏覽器所在的美國伊利諾伊大學香檳分校國家超級計算機應用中心(NCSA)。
彼時,喬納森·弗萊切還是斯特靈大學的明星畢業(yè)生,剛剛得到了格拉斯哥大學的博士全額獎學金。但就在他啟程前,格拉斯哥大學的獎學金卻取消了,弗萊切似乎走進了死胡同。
“我突然之間必須自謀生路,所以我回到斯特靈大學,在技術部找了一份工作。”他回憶說。
就是在那個崗位上,他邂逅了萬維網和Mosaic的What's New頁面。
更好的方式
在為斯特靈大學建設網絡服務器時,弗萊切發(fā)現(xiàn)What's New頁面存在一個本質缺陷。由于網頁是手工添加的,所以無法追蹤內容變化。所以,鏈接很快就會過期,還可能被錯誤標記。
“如果你想知道有什么變化,就必須回過頭去親自查看。”弗萊切提到Mosaic的鏈接時說,“我有計算機學位,而且我覺得應該可以有一種更好的方式,所以我決定寫一個程序來幫助我查找內容。”
于是,便有了世界上第一個網絡爬蟲。
弗萊切將他的發(fā)明命名為JumpStation。他匯集了一個網頁的索引,然后利用網絡爬蟲展開搜索。這本質上就是一套全自動的程序,可以匯集它所訪問和索引的所有鏈接和所有網頁。直到遍歷了所有內容,這套程序才會停止。
10天后,也就是1993年12月21日,JumpStation遍歷了所有網頁,索引了2.5萬個頁面。
而今天,谷歌的頁面索引量超過了1萬億。
搜索的誕生
弗萊切很快為這個索引開發(fā)了一款易于使用的搜索工具,然后將他的網站提交到Mosaic的What's New頁面。于是,全世界第一個現(xiàn)代搜索引擎正是運營了。
“我認為,他是真正的‘網絡搜索引擎之父’。”曾經研究過信息檢索歷史的墨爾本皇家理工學院教授馬克·桑德森(Mark Sanderson)說,“很早以前就有人用電腦搜索信息,網絡誕生前肯定也有搜索引擎,但喬納森的搜索引擎卻第一個具備了所有現(xiàn)代搜索引擎的元素。”
然而,當聯(lián)合創(chuàng)始人謝爾蓋·布林(Sergey Brin)和拉里·佩奇(Larry Page)成為家喻戶曉的明星時,現(xiàn)居中國香港的弗萊切卻并沒有因為自己在互聯(lián)網發(fā)展過程中所扮演的角色受到太大認可。
這或許與他最終放棄了那個項目有很大關系。隨著JumpStation的增長,投資需求也越來越大——而斯特靈大學卻不愿提供這種支持。
“它使用了共享服務器,磁盤空間不多,而當時的磁盤又小又貴。”弗萊切解釋說。
控制磁盤空間
到了1994年6月,JumpStation索引了27.5萬個網頁。由于存儲空間捉襟見肘,迫使弗萊切只能索引網頁的標題和頭文件,不能索引全部內容。然而,盡管做出了這種妥協(xié),但JumpStation還是不堪重負。
弗萊切也感到筋疲力盡。“這不是我份內的事情,”他說,“我的工作是讓學生的實驗室正常運行,干些系統(tǒng)管理和技術方面的零活兒。”
這時,一份來自東京的工作邀請,提供了弗萊切無法拒絕的豐厚待遇。斯特靈大學幾乎完全沒有挽留他和JumpStation的意思。
“我顯然沒能成功說服他們認可JumpStation的潛力。”弗萊切說,“我當時做了我認為正確的事情,但我20年來總會時不時地回首往事。”
斯特靈大學計算機和數(shù)學系主任雷斯利·史密斯(Leslie Smith)至今仍然記得弗萊切,他承認,JumpStation“領先于那個時代”。他還對BBC說:“斯特靈大學的同事都很高興他正在因為自己取得的成就獲得應有的認可。”
展望未來
盡管弗萊切的遭遇令人失望,但他開辟的這項技術卻成為后來所有搜索引擎的基礎。
“1993年的網絡世界還很小,”桑德森教授說,“當時只要上過網的人,應該都知道JumpStation。”
“到了1994年年中,人們才逐漸意識到搜索引擎的重要性。谷歌直到1998年才誕生,他們所做的也不過是喬納森早在1993年就做過的事情。”
幾周前,弗萊切因為他的這項成就在都柏林的一次會議上獲得了一些認可,他當時與來自微軟(32.39, 0.73, 2.32%)、雅虎和谷歌的代表們共同出席了一個座談會。但在演講中,他的重點卻放在了未來。
“在我看來,網絡不會永遠存在下去。”他對聽眾說,“但尋找信息卻會成為一個永恒的話題。”
“搜索內容和尋找信息的愿望并不受制于任何媒介。”他說。
當今的媒介為那些追隨弗萊切步伐的人創(chuàng)造了巨額財富,但他并不感到遺憾。“我的父母為我驕傲,我的妻子以我為豪,我的孩子因我而榮,這對我來說都是無價之寶,所以我很幸福。”