SEO新手 淺談搜索引擎工作原理
搜索引擎工作原理如下:
也許很多人會問,現(xiàn)在互聯(lián)網(wǎng)發(fā)展到今時今日,已成為了區(qū)別于現(xiàn)實世界的另一個世界,也就是虛擬的世界,那么他的網(wǎng)頁數(shù)量到目前究竟有多少呢?如果要具體說出一個確切的數(shù)據(jù),肯定沒有人能夠回答的出來的,但是我敢肯定的說,目前的網(wǎng)頁數(shù)量至少是以千億來計算,因為這是一個隨時變化的數(shù)據(jù),而且數(shù)據(jù)非常龐大,沒有人能精確算出來。這些網(wǎng)頁,組成不同的網(wǎng)站,存儲在世界各地不同的服務(wù)器上,并且分布在世界各地數(shù)據(jù)中心和機房里。
也許還有大部分人認為,當我們在搜索框里敲入搜索請求,搜索引擎就會實時地從世界各地的服務(wù)器上進行查詢信息、收集整理,并把查詢結(jié)果排序展示在用戶面前。包括我之前還沒有接觸搜索引擎時,也是認為搜索引擎就是這樣子工作的,但是今天我知道這是一個錯誤的認為,搜索引擎不是這樣工作的。
全球這么多網(wǎng)頁,搜搜引擎是不可能進行實時地全部抓取,并整理排序的,對全球網(wǎng)頁進行全部抓取需要很大的儲存空間和技術(shù),目前沒有哪一個搜索引擎能承受的起的。據(jù)統(tǒng)計,如果搜索引擎是進行實時工作的話,當你發(fā)出你的搜索請求到看到搜索結(jié)果,這個“實時”可能要等上好幾年甚至更長。
那么面對如此龐大的數(shù)據(jù)庫,搜索引擎又是如何去工作的呢?就此,漠陽子SEO博客給大家分析一下!
我們通俗地說,其實是這么一回事,搜索引擎盡***的能力,預(yù)先就去深入大量網(wǎng)站,把這些網(wǎng)頁的部分認為是有價值的信息預(yù)先存儲在自己的服務(wù)器上;然后,當用戶搜索時,再從自己的服務(wù)器上把適合的信息展現(xiàn)出來。就好比如我們在互聯(lián)網(wǎng)上找資料和在自己電腦上找資料的區(qū)別。
從搜索引擎的基本技術(shù)來講,包括抓取、索引、排序三個方面。
***,抓取
相信大家對于搜索引擎里所說的“蜘蛛”、“機器人”不會很陌生,他就像是搜索引擎的一大猛將,根據(jù)一定的程序規(guī)則,這位“猛將”在互聯(lián)網(wǎng)上進行掃描,以網(wǎng)站的鏈接為橋梁進行不斷的爬行。從而所進過的新站、舊站,只要是它認為是有價值的信息,就進行抓取,并收入囊中。
第二,索引
每一個搜索引擎都會有自己的一套分析索引系統(tǒng),對抓取回來的網(wǎng)頁進行相關(guān)的提取,比如網(wǎng)頁的URL、編碼、頁面內(nèi)容、鏈接、生成時間、關(guān)鍵詞等,通過一定的算法進行復雜的計算,并計算出網(wǎng)頁的相關(guān)度(關(guān)鍵詞、重要性),然后建立一個索引數(shù)據(jù)庫。
第三。排序
排序,簡單地說就是當用戶輸入關(guān)鍵詞并發(fā)出搜索請求后,搜索引擎的系統(tǒng)就會根據(jù)你的關(guān)鍵詞在網(wǎng)頁索引數(shù)據(jù)庫里進行查找,然后再顯示在搜索結(jié)果上返回給用戶。按照自然排名來說,這些索引數(shù)據(jù)庫里的網(wǎng)頁事先已經(jīng)計算好相關(guān)度的了,越接近搜索請求的要求就越排在前面。這也是為什么我們要對網(wǎng)站進行優(yōu)化的關(guān)鍵所在,想必每個網(wǎng)站都是想躋身在前面的。
***我們來看一幅搜索引擎工作原理的圖,這樣會更直觀明了。
如果圖片不清楚的話,大家可以點擊查看大圖的。希望本文能夠給你帶來幫助。
【編輯推薦】