偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

使用開源搜索引擎YaCy的技巧

開源
YaCy 最令人興奮的一點(diǎn)就是它事實(shí)上是一個(gè)本地客戶端,全球范圍內(nèi)的每一個(gè) YaCy 用戶都是構(gòu)成整個(gè)這個(gè)分布式搜索引擎架構(gòu)的一個(gè)節(jié)點(diǎn),這意味著每個(gè)用戶都可以掌控自己的互聯(lián)網(wǎng)搜索體驗(yàn)。

[[315864]]

無需適應(yīng)其他人的眼光,而是使用 YaCY 搜索引擎定義你想要的互聯(lián)網(wǎng)。

在我以前介紹 YaCy 入門的文章中講述過 YaCy 這個(gè)對(duì)等peer-to-peer式的搜索引擎是如何安裝和使用的。YaCy 最令人興奮的一點(diǎn)就是它事實(shí)上是一個(gè)本地客戶端,全球范圍內(nèi)的每一個(gè) YaCy 用戶都是構(gòu)成整個(gè)這個(gè)分布式搜索引擎架構(gòu)的一個(gè)節(jié)點(diǎn),這意味著每個(gè)用戶都可以掌控自己的互聯(lián)網(wǎng)搜索體驗(yàn)。

Google 曾經(jīng)提供過 google.com/linux 這樣的主題簡(jiǎn)便方式以便快速篩選出和 Linux 相關(guān)的搜索內(nèi)容,這個(gè)小功能受到了很多人的青睞,但 Google 最終還是在 2011 年的時(shí)候把它下線了。

而 YaCy 則讓自定義搜索引擎變得可能。

自定義 YaCy

YaCy 安裝好之后,只需要訪問 localhost:8090 就可以使用了。要自定義搜索引擎,只需要點(diǎn)擊右上角的“管理Administration”按鈕(它可能隱藏在小屏幕的菜單圖標(biāo)中)。

你可以在管理面板中配置 YaCy 對(duì)系統(tǒng)資源的使用策略,以及如何跟其它的 YaCy 客戶端進(jìn)行交互。

YaCy profile selector

例如,點(diǎn)擊側(cè)欄中的“第一步First steps”按鈕可以配置備用端口,以及設(shè)置 YaCy 對(duì)內(nèi)存和硬盤的使用量;而“監(jiān)控Monitoring”面板則可以監(jiān)控 YaCy 的運(yùn)行狀況。大多數(shù)功能都只需要在面板上點(diǎn)擊幾下就可以完成了,例如以下幾個(gè)常用的功能。

內(nèi)網(wǎng)搜索應(yīng)用

目前市面上也有不少公司推出了內(nèi)網(wǎng)搜索應(yīng)用,而 YaCy 可以免費(fèi)為你提供一個(gè)。對(duì)于能夠通過 HTTP、FTP、Samba 等協(xié)議訪問的文件,YaCy 都可以進(jìn)行索引,因此無論是作為私人的文件搜索還是企業(yè)內(nèi)部的本地共享文件搜索,YaCy 都可以實(shí)現(xiàn)。它可以讓內(nèi)部網(wǎng)絡(luò)中的用戶使用你個(gè)人的 YaCy 實(shí)例來查找共享文件,于此同時(shí)保持對(duì)內(nèi)部網(wǎng)絡(luò)以外的用戶不可見。

網(wǎng)絡(luò)配置

YaCy 在默認(rèn)情況下就支持隱私和隔離。點(diǎn)擊“用例與賬號(hào)Use Case & Account”頁(yè)面頂部的“網(wǎng)絡(luò)配置Network Configuration”鏈接,即可進(jìn)入網(wǎng)絡(luò)配置面板設(shè)置對(duì)等網(wǎng)絡(luò)。

YaCy network configuration

爬取站點(diǎn)

YaCy 的分布式運(yùn)作方式?jīng)Q定了它對(duì)頁(yè)面的爬取是由用戶驅(qū)動(dòng)的。并沒有一個(gè)大型公司對(duì)整個(gè)互聯(lián)網(wǎng)上的所有可訪問頁(yè)面都進(jìn)行搜索,對(duì)于 YaCy 來說也是這樣,一個(gè)站點(diǎn)只有在被用戶指定爬取的前提下,才會(huì)被 YaCy 爬取并進(jìn)入索引。

YaCy 客戶端提供了兩種爬取頁(yè)面的方式:你可以手動(dòng)爬取,并讓 YaCy 根據(jù)建議去爬取。

YaCy advanced crawler

手動(dòng)爬取

手動(dòng)爬取是指由用戶輸入指定的網(wǎng)站 URL 并啟動(dòng) YaCy 的爬蟲任務(wù)。只需要點(diǎn)擊“高級(jí)爬蟲Advanced Crawler”并輸入計(jì)劃爬取的若干 URL,然后選擇頁(yè)面底部的“進(jìn)行遠(yuǎn)程索引Do Remote indexing”選項(xiàng),這個(gè)選項(xiàng)會(huì)讓客戶端向互聯(lián)網(wǎng)廣播它要索引的 URL,可選地接受這些請(qǐng)求的客戶端可以幫助你爬取這些 URL。

點(diǎn)擊頁(yè)面底部的“開始新爬蟲任務(wù)Start New Crawl Job”按鈕就可以開始進(jìn)行爬取了,我就是這樣對(duì)一些常用和有用站點(diǎn)進(jìn)行爬取和索引的。

爬蟲任務(wù)啟動(dòng)之后,YaCy 會(huì)將這些 URL 對(duì)應(yīng)的頁(yè)面在本地生成和存儲(chǔ)索引。在高級(jí)模式下,也就是本地計(jì)算機(jī)允許 8090 端口流量進(jìn)出時(shí),全網(wǎng)的 YaCy 用戶都可以使用到這一份索引。

加入爬蟲網(wǎng)絡(luò)

盡管一些非常敬業(yè)的 YaCy 高級(jí)用戶已經(jīng)強(qiáng)迫癥般地在互聯(lián)網(wǎng)上爬取了很多頁(yè)面,但對(duì)于全網(wǎng)浩如煙海的頁(yè)面而言也只是滄海一粟。單個(gè)用戶所擁有的資源遠(yuǎn)不及很多大公司的網(wǎng)絡(luò)爬蟲,但大量 YaCy 用戶如果聯(lián)合起來成為一個(gè)社區(qū),能產(chǎn)生的力量就大得多了。只要開啟了 YaCy 的爬蟲請(qǐng)求廣播功能,就可以讓其它客戶端參與進(jìn)來爬取更多頁(yè)面。

只需要在“高級(jí)爬蟲Advanced Crawler”面板中點(diǎn)擊頁(yè)面頂部的“遠(yuǎn)程爬取Remote Crawling”,勾選“加載Load”旁邊的復(fù)選框,就可以讓你的客戶端接受其它人發(fā)來的爬蟲任務(wù)請(qǐng)求了。

YaCy remote crawling

YaCy 監(jiān)控相關(guān)

YaCy 除了作為一個(gè)非常強(qiáng)大的搜索引擎,還提供了很豐富的主題和用戶體驗(yàn)。你可以在“監(jiān)控Monitor”面板中監(jiān)控 YaCy 客戶端的網(wǎng)絡(luò)運(yùn)行狀況,甚至還可以了解到有多少人從 YaCy 社區(qū)中獲取到了自己所需要的東西。

YaCy monitoring screen

搜索引擎發(fā)揮了作用

你使用 YaCy 的時(shí)間越長(zhǎng),就越會(huì)思考搜索引擎如何改變自己的視野,因?yàn)槟銓?duì)互聯(lián)網(wǎng)的體驗(yàn)很大一部分來自于你在搜索引擎中一次次簡(jiǎn)單查詢的結(jié)果。實(shí)際上,當(dāng)你和不同行業(yè)的人交流時(shí),可能會(huì)注意到每個(gè)人對(duì)“互聯(lián)網(wǎng)”的理解都有所不同。有些人會(huì)認(rèn)為,互聯(lián)網(wǎng)的搜索引擎中充斥著各種廣告和推廣,同時(shí)也僅僅能從搜索結(jié)果中獲取到有限的信息。例如,假設(shè)有人不斷搜索關(guān)于關(guān)鍵詞 X 的內(nèi)容,那么大部分商業(yè)搜索引擎都會(huì)在搜索結(jié)果中提高關(guān)鍵詞 X 的權(quán)重,但與此同時(shí),另一個(gè)關(guān)鍵詞 Y 的權(quán)重則會(huì)相對(duì)降低,從而讓關(guān)鍵詞 Y 被淹沒在搜索結(jié)果當(dāng)中,即使這樣對(duì)完成特定任務(wù)更好。

就像在現(xiàn)實(shí)生活中一樣,走出虛擬的世界視野會(huì)讓你看到一個(gè)更廣闊的世界。嘗試使用 YaCy,看看你發(fā)現(xiàn)了什么。

 

責(zé)任編輯:龐桂玉 來源: Linux中國(guó)
相關(guān)推薦

2011-06-20 18:23:06

SEO

2023-01-03 15:42:29

機(jī)器學(xué)習(xí)視頻搜索

2011-06-22 19:01:54

關(guān)鍵詞

2009-02-19 09:41:36

搜索引擎搜狐百度

2009-09-22 16:23:52

搜索引擎

2022-10-11 09:27:45

搜索引擎es索引

2017-08-07 08:15:31

搜索引擎倒排

2020-03-20 10:14:49

搜索引擎倒排索引

2020-02-19 13:38:42

開源索引互聯(lián)網(wǎng)

2010-06-13 16:27:28

搜索引擎

2016-12-26 13:41:19

大數(shù)據(jù)搜索引擎工作原理

2022-10-08 09:13:18

搜索引擎?站

2012-09-07 13:22:21

搜索搜狗

2010-04-20 11:43:46

2017-08-21 11:14:36

2015-08-31 10:41:58

搜索引擎Google云應(yīng)用

2011-06-22 17:28:51

SEO

2012-05-14 11:01:50

搜索引擎微軟

2020-08-10 14:39:30

搜索引擎

2011-06-15 19:09:24

搜索引擎
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)