偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

求求你,別再問(wèn)我Elasticsearch了!

存儲(chǔ) 存儲(chǔ)軟件 開發(fā)工具
如今,越來(lái)越多的企業(yè)在業(yè)務(wù)場(chǎng)景是使用 Elasticsearch(下文統(tǒng)一稱為 ES) 存儲(chǔ)自己的非結(jié)構(gòu)化數(shù)據(jù)。

 如今,越來(lái)越多的企業(yè)在業(yè)務(wù)場(chǎng)景是使用 Elasticsearch(下文統(tǒng)一稱為 ES) 存儲(chǔ)自己的非結(jié)構(gòu)化數(shù)據(jù)。

[[357043]] 

圖片來(lái)自 Pexels

例如電商業(yè)務(wù)實(shí)現(xiàn)商品站內(nèi)搜索,數(shù)據(jù)指標(biāo)分析,日志分析等,ES 作為傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的補(bǔ)充,提供了關(guān)系型數(shù)據(jù)庫(kù)不具備的一些能力。

ES 最先進(jìn)入大眾視野的是其能夠?qū)崿F(xiàn)全文搜索的能力,也是由于基于 Lucene 的實(shí)現(xiàn),內(nèi)部有一種倒排索引的數(shù)據(jù)結(jié)構(gòu)。

本文作者將介紹 ES 的分布式架構(gòu),以及 ES 的存儲(chǔ)索引機(jī)制,本文不會(huì)詳細(xì)介紹 ES 的 API,會(huì)從整體架構(gòu)層面進(jìn)行分析。

什么是倒排索引

要講明白什么是倒排索引,首先我們先梳理下什么索引,比如一本書,書的目錄頁(yè),有章節(jié),章節(jié)名稱,我們想看哪個(gè)章節(jié),我們通過(guò)目錄頁(yè),查到對(duì)應(yīng)章節(jié)和頁(yè)碼,就能定位到具體的章節(jié)內(nèi)容。

通過(guò)目錄頁(yè)的章節(jié)名稱查到章節(jié)的頁(yè)碼,進(jìn)而看到章節(jié)內(nèi)容,這個(gè)過(guò)程就是一個(gè)索引的過(guò)程,那么什么是倒排索引呢?

比如查詢《java 編程思想》這本書的文章,翻開書本可以看到目錄頁(yè),記錄這個(gè)章節(jié)名字和章節(jié)地址頁(yè)碼。

通過(guò)查詢章節(jié)名字“繼承”可以定位到“繼承”這篇章節(jié)的具體地址,查看到文章的內(nèi)容,我們可以看到文章內(nèi)容中包含很多“對(duì)象”這個(gè)詞。

那么如果我們要在這本書中查詢所有包含有“對(duì)象”這個(gè)詞的文章,那該怎么辦呢?

按照現(xiàn)在的索引方式無(wú)疑大海撈針,假設(shè)我們有一個(gè)“對(duì)象”--→文章的映射關(guān)系,不就可以了嗎?類似這樣的反向建立映射關(guān)系的就叫倒排索引。

如圖 1 所示,將文章進(jìn)行分詞后得到關(guān)鍵詞,在根據(jù)關(guān)鍵詞建立倒排索引,關(guān)鍵詞構(gòu)建成一個(gè)詞典,詞典中存放著一個(gè)個(gè)詞條(關(guān)鍵詞),每個(gè)關(guān)鍵詞都有一個(gè)列表與其對(duì)應(yīng)。

 

圖 1

這個(gè)列表就是倒排表,存放的是章節(jié)文檔編號(hào)和詞頻等信息,倒排列表中的每個(gè)元素就是一個(gè)倒排項(xiàng)。

最后可以看到,整個(gè)倒排索引就像一本新華字典,所有單詞的倒排列表往往順序地存儲(chǔ)在磁盤的某個(gè)文件里,這個(gè)文件被稱之為倒排文件。

詞典和倒排文件是 Lucene 的兩種基本數(shù)據(jù)結(jié)構(gòu),但是存儲(chǔ)方式不同,詞典在內(nèi)存中存儲(chǔ),倒排文件在磁盤上。

本文不會(huì)去介紹分詞,tf-idf,BM25,向量空間相似度等構(gòu)建倒排索引和查詢倒排索引所用到的技術(shù),讀者只需要對(duì)倒排索引有個(gè)基本的認(rèn)識(shí)即可。

ES 的集群架構(gòu)

集群節(jié)點(diǎn)

一個(gè) ES 集群可以有多個(gè)節(jié)點(diǎn)構(gòu)成,一個(gè)節(jié)點(diǎn)就是一個(gè) ES 服務(wù)實(shí)例,通過(guò)配置集群名稱 cluster.name 加入集群。

那么節(jié)點(diǎn)是如何通過(guò)配置相同的集群名稱加入集群的呢?要搞明白這個(gè)問(wèn)題,我們必須先搞清楚 ES 集群中節(jié)點(diǎn)的角色。

ES 中節(jié)點(diǎn)有角色的區(qū)分的,通過(guò)配置文件 conf/elasticsearch.yml 中配置以下配置進(jìn)行角色的設(shè)定。

  1. node.master: true/false 
  2. node.data: true/false 

集群中單個(gè)節(jié)點(diǎn)既可以是候選主節(jié)點(diǎn)也可以是數(shù)據(jù)節(jié)點(diǎn),通過(guò)上面的配置可以進(jìn)行兩兩組合形成四大分類:

  • 僅為候選主節(jié)點(diǎn)
  • 既是候選主節(jié)點(diǎn)也是數(shù)據(jù)節(jié)點(diǎn)
  • 僅為數(shù)據(jù)節(jié)點(diǎn)
  • 既不是候選主節(jié)點(diǎn)也不是數(shù)據(jù)節(jié)點(diǎn)

候選主節(jié)點(diǎn):只有是候選主節(jié)點(diǎn)才可以參與選舉投票,也只有候選主節(jié)點(diǎn)可以被選舉為主節(jié)點(diǎn)。

主節(jié)點(diǎn):負(fù)責(zé)索引的添加、刪除,跟蹤哪些節(jié)點(diǎn)是群集的一部分,對(duì)分片進(jìn)行分配、收集集群中各節(jié)點(diǎn)的狀態(tài)等,穩(wěn)定的主節(jié)點(diǎn)對(duì)集群的健康是非常重要。

數(shù)據(jù)節(jié)點(diǎn):負(fù)責(zé)對(duì)數(shù)據(jù)的增、刪、改、查、聚合等操作,數(shù)據(jù)的查詢和存儲(chǔ)都是由數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé),對(duì)機(jī)器的 CPU,IO 以及內(nèi)存的要求比較高,一般選擇高配置的機(jī)器作為數(shù)據(jù)節(jié)點(diǎn)。

此外還有一種節(jié)點(diǎn)角色叫做協(xié)調(diào)節(jié)點(diǎn),其本身不是通過(guò)設(shè)置來(lái)分配的,用戶的請(qǐng)求可以隨機(jī)發(fā)往任何一個(gè)節(jié)點(diǎn),并由該節(jié)點(diǎn)負(fù)責(zé)分發(fā)請(qǐng)求、收集結(jié)果等操作,而不需要主節(jié)點(diǎn)轉(zhuǎn)發(fā)。

這種節(jié)點(diǎn)可稱之為協(xié)調(diào)節(jié)點(diǎn),集群中的任何節(jié)點(diǎn)都可以充當(dāng)協(xié)調(diào)節(jié)點(diǎn)的角色。每個(gè)節(jié)點(diǎn)之間都會(huì)保持聯(lián)系。

 

圖 2

發(fā)現(xiàn)機(jī)制

前文說(shuō)到通過(guò)設(shè)置一個(gè)集群名稱,節(jié)點(diǎn)就可以加入集群,那么 ES 是如何做到這一點(diǎn)的呢?

這里就要講一講 ES 特殊的發(fā)現(xiàn)機(jī)制 ZenDiscovery。

ZenDiscovery 是 ES 的內(nèi)置發(fā)現(xiàn)機(jī)制,提供單播和多播兩種發(fā)現(xiàn)方式,主要職責(zé)是集群中節(jié)點(diǎn)的發(fā)現(xiàn)以及選舉 Master 節(jié)點(diǎn)。

多播也叫組播,指一個(gè)節(jié)點(diǎn)可以向多臺(tái)機(jī)器發(fā)送請(qǐng)求。生產(chǎn)環(huán)境中 ES 不建議使用這種方式,對(duì)于一個(gè)大規(guī)模的集群,組播會(huì)產(chǎn)生大量不必要的通信。

單播,當(dāng)一個(gè)節(jié)點(diǎn)加入一個(gè)現(xiàn)有集群,或者組建一個(gè)新的集群時(shí),請(qǐng)求發(fā)送到一臺(tái)機(jī)器。

當(dāng)一個(gè)節(jié)點(diǎn)聯(lián)系到單播列表中的成員時(shí),它就會(huì)得到整個(gè)集群所有節(jié)點(diǎn)的狀態(tài),然后它會(huì)聯(lián)系 Master 節(jié)點(diǎn),并加入集群。

只有在同一臺(tái)機(jī)器上運(yùn)行的節(jié)點(diǎn)才會(huì)自動(dòng)組成集群。ES 默認(rèn)被配置為使用單播發(fā)現(xiàn),單播列表不需要包含集群中的所有節(jié)點(diǎn),它只是需要足夠的節(jié)點(diǎn),當(dāng)一個(gè)新節(jié)點(diǎn)聯(lián)系上其中一個(gè)并且通信就可以了。

如果你使用 Master 候選節(jié)點(diǎn)作為單播列表,你只要列出三個(gè)就可以了。

這個(gè)配置在 elasticsearch.yml 文件中:

  1. discovery.zen.ping.unicast.hosts: ["host1""host2:port"

集群信息收集階段采用了 Gossip 協(xié)議,上面配置的就相當(dāng)于一個(gè) seed nodes,Gossip 協(xié)議這里就不多做贅述了。

ES 官方建議 unicast.hosts 配置為所有的候選主節(jié)點(diǎn),ZenDiscovery 會(huì)每隔 ping_interval(配置項(xiàng))ping 一次。

每次超時(shí)時(shí)間是 discovery.zen.ping_timeout(配置項(xiàng)),3 次(ping_retries 配置項(xiàng))ping 失敗則認(rèn)為節(jié)點(diǎn)宕機(jī),宕機(jī)的情況下會(huì)觸發(fā) failover,會(huì)進(jìn)行分片重分配、復(fù)制等操作。

如果宕機(jī)的節(jié)點(diǎn)不是 Master,則 Master 會(huì)更新集群的元信息,Master 節(jié)點(diǎn)將最新的集群元信息發(fā)布出去,給其他節(jié)點(diǎn)。

其他節(jié)點(diǎn)回復(fù) Ack,Master 節(jié)點(diǎn)收到 discovery.zen.minimum_master_nodes 的值 -1 個(gè)候選主節(jié)點(diǎn)的回復(fù),則發(fā)送 Apply 消息給其他節(jié)點(diǎn),集群狀態(tài)更新完畢。

如果宕機(jī)的節(jié)點(diǎn)是 Master,則其他的候選主節(jié)點(diǎn)開始 Master 節(jié)點(diǎn)的選舉流程。

①選主

Master 的選主過(guò)程中要確保只有一個(gè) master,ES 通過(guò)一個(gè)參數(shù) quorum 的代表多數(shù)派閾值,保證選舉出的 master 被至少 quorum 個(gè)的候選主節(jié)點(diǎn)認(rèn)可,以此來(lái)保證只有一個(gè) master。

選主的發(fā)起由候選主節(jié)點(diǎn)發(fā)起,當(dāng)前候選主節(jié)點(diǎn)發(fā)現(xiàn)自己不是 master 節(jié)點(diǎn),并且通過(guò) ping 其他節(jié)點(diǎn)發(fā)現(xiàn)無(wú)法聯(lián)系到主節(jié)點(diǎn)。

并且包括自己在內(nèi)已經(jīng)有超過(guò) minimum_master_nodes 個(gè)節(jié)點(diǎn)無(wú)法聯(lián)系到主節(jié)點(diǎn),那么這個(gè)時(shí)候則發(fā)起選主。

選主流程圖如下:

 

圖 3

選主的時(shí)候按照集群節(jié)點(diǎn)的參數(shù)

排序后第一個(gè)節(jié)點(diǎn)即為 Master 節(jié)點(diǎn)。當(dāng)一個(gè)候選主節(jié)點(diǎn)發(fā)起一次選舉時(shí),它會(huì)按照上述排序策略選出一個(gè)它認(rèn)為的 Master。

②腦裂

提到分布式系統(tǒng)選主,不可避免的會(huì)提到腦裂這樣一個(gè)現(xiàn)象,什么是腦裂呢?如果集群中選舉出多個(gè) Master 節(jié)點(diǎn),使得數(shù)據(jù)更新時(shí)出現(xiàn)不一致,這種現(xiàn)象稱之為腦裂。

簡(jiǎn)而言之集群中不同的節(jié)點(diǎn)對(duì)于 Master 的選擇出現(xiàn)了分歧,出現(xiàn)了多個(gè) Master 競(jìng)爭(zhēng)。

一般而言腦裂問(wèn)題可能有以下幾個(gè)原因造成:

  • 網(wǎng)絡(luò)問(wèn)題:集群間的網(wǎng)絡(luò)延遲導(dǎo)致一些節(jié)點(diǎn)訪問(wèn)不到 Master,認(rèn)為 Master 掛掉了,而 master 其實(shí)并沒(méi)有宕機(jī),而選舉出了新的 Master,并對(duì) Master 上的分片和副本標(biāo)紅,分配新的主分片。
  • 節(jié)點(diǎn)負(fù)載:主節(jié)點(diǎn)的角色既為 Master 又為 Data,訪問(wèn)量較大時(shí)可能會(huì)導(dǎo)致 ES 停止響應(yīng)(假死狀態(tài))造成大面積延遲,此時(shí)其他節(jié)點(diǎn)得不到主節(jié)點(diǎn)的響應(yīng)認(rèn)為主節(jié)點(diǎn)掛掉了,會(huì)重新選取主節(jié)點(diǎn)。
  • 內(nèi)存回收:主節(jié)點(diǎn)的角色既為 Master 又為 Data,當(dāng) Data 節(jié)點(diǎn)上的 ES 進(jìn)程占用的內(nèi)存較大,引發(fā) JVM 的大規(guī)模內(nèi)存回收,造成 ES 進(jìn)程失去響應(yīng)。

如何避免腦裂:我們可以基于上述原因,做出優(yōu)化措施:

  • 適當(dāng)調(diào)大響應(yīng)超時(shí)時(shí)間,減少誤判。通過(guò)參數(shù) discovery.zen.ping_timeout 設(shè)置節(jié)點(diǎn) ping 超時(shí)時(shí)間,默認(rèn)為 3s,可以適當(dāng)調(diào)大。
  • 選舉觸發(fā),我們需要在候選節(jié)點(diǎn)的配置文件中設(shè)置參數(shù) discovery.zen.munimum_master_nodes 的值。

這個(gè)參數(shù)表示在選舉主節(jié)點(diǎn)時(shí)需要參與選舉的候選主節(jié)點(diǎn)的節(jié)點(diǎn)數(shù),默認(rèn)值是 1,官方建議取值(master_eligibel_nodes/2)+1,其中 master_eligibel_nodes 為候選主節(jié)點(diǎn)的個(gè)數(shù)。

這樣做既能防止腦裂現(xiàn)象的發(fā)生,也能最大限度地提升集群的高可用性,因?yàn)橹灰簧儆?discovery.zen.munimum_master_nodes 個(gè)候選節(jié)點(diǎn)存活,選舉工作就能正常進(jìn)行。

當(dāng)小于這個(gè)值的時(shí)候,無(wú)法觸發(fā)選舉行為,集群無(wú)法使用,不會(huì)造成分片混亂的情況。

  • 角色分離,即是上面我們提到的候選主節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)進(jìn)行角色分離,這樣可以減輕主節(jié)點(diǎn)的負(fù)擔(dān),防止主節(jié)點(diǎn)的假死狀態(tài)發(fā)生,減少對(duì)主節(jié)點(diǎn)宕機(jī)的誤判。

索引如何寫入的

寫索引原理

①分片

ES 支持 PB 級(jí)全文搜索,通常我們數(shù)據(jù)量很大的時(shí)候,查詢性能都會(huì)越來(lái)越慢,我們能想到的一個(gè)方式的將數(shù)據(jù)分散到不同的地方存儲(chǔ)。

ES 也是如此,ES 通過(guò)水平拆分的方式將一個(gè)索引上的數(shù)據(jù)拆分出來(lái)分配到不同的數(shù)據(jù)塊上,拆分出來(lái)的數(shù)據(jù)庫(kù)塊稱之為一個(gè)分片 Shard,很像 MySQL 的分庫(kù)分表。

不同的主分片分布在不同的節(jié)點(diǎn)上,那么在多分片的索引中數(shù)據(jù)應(yīng)該被寫入哪里?

肯定不能隨機(jī)寫,否則查詢的時(shí)候就無(wú)法快速檢索到對(duì)應(yīng)的數(shù)據(jù)了,這需要有一個(gè)路由策略來(lái)確定具體寫入哪一個(gè)分片中,怎么路由我們下文會(huì)介紹。

在創(chuàng)建索引的時(shí)候需要指定分片的數(shù)量,并且分片的數(shù)量一旦確定就不能修改。

②副本

副本就是對(duì)分片的復(fù)制,每個(gè)主分片都有一個(gè)或多個(gè)副本分片,當(dāng)主分片異常時(shí),副本可以提供數(shù)據(jù)的查詢等操作。

主分片和對(duì)應(yīng)的副本分片是不會(huì)在同一個(gè)節(jié)點(diǎn)上的,避免數(shù)據(jù)的丟失,當(dāng)一個(gè)節(jié)點(diǎn)宕機(jī)的時(shí)候,還可以通過(guò)副本查詢到數(shù)據(jù),副本分片數(shù)的最大值是 N-1(其中 N 為節(jié)點(diǎn)數(shù))。

對(duì) doc 的新建、索引和刪除請(qǐng)求都是寫操作,這些寫操作是必須在主分片上完成,然后才能被復(fù)制到對(duì)應(yīng)的副本上。

ES 為了提高寫入的能力這個(gè)過(guò)程是并發(fā)寫的,同時(shí)為了解決并發(fā)寫的過(guò)程中數(shù)據(jù)沖突的問(wèn)題,ES 通過(guò)樂(lè)觀鎖的方式控制,每個(gè)文檔都有一個(gè) _version 號(hào),當(dāng)文檔被修改時(shí)版本號(hào)遞增。

一旦所有的副本分片都報(bào)告寫成功才會(huì)向協(xié)調(diào)節(jié)點(diǎn)報(bào)告成功,協(xié)調(diào)節(jié)點(diǎn)向客戶端報(bào)告成功。

 

圖 4

③Elasticsearch 的寫索引流程

上面提到了寫索引是只能寫在主分片上,然后同步到副本分片,那么如圖 4 所示,這里有四個(gè)主分片分別是 S0、S1、S2、S3,一條數(shù)據(jù)是根據(jù)什么策略寫到指定的分片上呢?

這條索引數(shù)據(jù)為什么被寫到 S0 上而不寫到 S1 或 S2 上?這個(gè)過(guò)程是根據(jù)下面這個(gè)公式?jīng)Q定的:

  1. shard = hash(routing) % number_of_primary_shards 

以上公式的值是在 0 到 number_of_primary_shards-1 之間的余數(shù),也就是數(shù)據(jù)檔所在分片的位置。

routing 通過(guò) Hash 函數(shù)生成一個(gè)數(shù)字,然后這個(gè)數(shù)字再除以 number_of_primary_shards(主分片的數(shù)量)后得到余數(shù)。

routing 是一個(gè)可變值,默認(rèn)是文檔的 _id ,也可以設(shè)置成一個(gè)自定義的值。

在一個(gè)寫請(qǐng)求被發(fā)送到某個(gè)節(jié)點(diǎn)后,該節(jié)點(diǎn)按照前文所述,會(huì)充當(dāng)協(xié)調(diào)節(jié)點(diǎn),會(huì)根據(jù)路由公式計(jì)算出寫哪個(gè)分片,當(dāng)前節(jié)點(diǎn)有所有其他節(jié)點(diǎn)的分片信息,如果發(fā)現(xiàn)對(duì)應(yīng)的分片是在其他節(jié)點(diǎn)上,再將請(qǐng)求轉(zhuǎn)發(fā)到該分片的主分片節(jié)點(diǎn)上。

在 ES 集群中每個(gè)節(jié)點(diǎn)都通過(guò)上面的公式知道數(shù)據(jù)的在集群中的存放位置,所以每個(gè)節(jié)點(diǎn)都有接收讀寫請(qǐng)求的能力。

那么為什么在創(chuàng)建索引的時(shí)候就確定好主分片的數(shù)量,并且不可修改?因?yàn)槿绻麛?shù)量變化了,那么所有之前路由計(jì)算的值都會(huì)無(wú)效,數(shù)據(jù)也就再也找不到了。

 

圖 5

如上圖 5 所示,當(dāng)前一個(gè)數(shù)據(jù)通過(guò)路由計(jì)算公式得到的值是 shard=hash(routing)%4=0。

則具體流程如下:

  • 數(shù)據(jù)寫請(qǐng)求發(fā)送到 node1 節(jié)點(diǎn),通過(guò)路由計(jì)算得到值為 1,那么對(duì)應(yīng)的數(shù)據(jù)會(huì)應(yīng)該在主分片 S1 上。
  • node1 節(jié)點(diǎn)將請(qǐng)求轉(zhuǎn)發(fā)到 S1 主分片所在的節(jié)點(diǎn) node2,node2 接受請(qǐng)求并寫入到磁盤。
  • 并發(fā)將數(shù)據(jù)復(fù)制到三個(gè)副本分片 R1 上,其中通過(guò)樂(lè)觀并發(fā)控制數(shù)據(jù)的沖突。一旦所有的副本分片都報(bào)告成功,則節(jié)點(diǎn) node2 將向 node1 節(jié)點(diǎn)報(bào)告成功,然后 node1 節(jié)點(diǎn)向客戶端報(bào)告成功。

這種模式下,只要有副本在,寫入延時(shí)最小也是兩次單分片的寫入耗時(shí)總和,效率會(huì)較低。

但是這樣的好處也很明顯,避免寫入后單個(gè)機(jī)器硬件故障導(dǎo)致數(shù)據(jù)丟失,在數(shù)據(jù)完整性和性能方面,一般都是優(yōu)先選擇數(shù)據(jù),除非一些允許丟數(shù)據(jù)的特殊場(chǎng)景。

在 ES 里為了減少磁盤 IO 保證讀寫性能,一般是每隔一段時(shí)間(比如 30 分鐘)才會(huì)把數(shù)據(jù)寫入磁盤持久化。

對(duì)于寫入內(nèi)存,但還未 flush 到磁盤的數(shù)據(jù),如果發(fā)生機(jī)器宕機(jī)或者掉電,那么內(nèi)存中的數(shù)據(jù)也會(huì)丟失,這時(shí)候如何保證?

對(duì)于這種問(wèn)題,ES 借鑒數(shù)據(jù)庫(kù)中的處理方式,增加 CommitLog 模塊,在 ES 中叫 transLog,在下面的 ES 存儲(chǔ)原理中會(huì)介紹。

存儲(chǔ)原理

上面介紹了在 ES 內(nèi)部的寫索引處理流程,數(shù)據(jù)在寫入到分片和副本上后,目前數(shù)據(jù)在內(nèi)存中,要確保數(shù)據(jù)在斷電后不丟失,還需要持久化到磁盤上。

我們知道 ES 是基于 Lucene 實(shí)現(xiàn)的,內(nèi)部是通過(guò) Lucene 完成的索引的創(chuàng)建寫入和搜索查詢。

Lucene 工作原理如下圖所示,當(dāng)新添加一片文檔時(shí),Lucene 進(jìn)行分詞等預(yù)處理,然后將文檔索引寫入內(nèi)存中,并將本次操作寫入事務(wù)日志(transLog)。

transLog 類似于 MySQL 的 binlog,用于宕機(jī)后內(nèi)存數(shù)據(jù)的恢復(fù),保存未持久化數(shù)據(jù)的操作日志。

默認(rèn)情況下,Lucene 每隔 1s(refresh_interval 配置項(xiàng))將內(nèi)存中的數(shù)據(jù)刷新到文件系統(tǒng)緩存中,稱為一個(gè) segment(段)。

一旦刷入文件系統(tǒng)緩存,segment 才可以被用于檢索,在這之前是無(wú)法被檢索的。

因此 refresh_interval 決定了 ES 數(shù)據(jù)的實(shí)時(shí)性,因此說(shuō) ES 是一個(gè)準(zhǔn)實(shí)時(shí)的系統(tǒng)。

segment 在磁盤中是不可修改的,因此避免了磁盤的隨機(jī)寫,所有的隨機(jī)寫都在內(nèi)存中進(jìn)行。

隨著時(shí)間的推移,segment 越來(lái)越多,默認(rèn)情況下,Lucene 每隔 30min 或 segment 空間大于 512M,將緩存中的 segment 持久化落盤,稱為一個(gè) commit point,此時(shí)刪掉對(duì)應(yīng)的 transLog。

當(dāng)我們?cè)谶M(jìn)行寫操作的測(cè)試的時(shí)候,可以通過(guò)手動(dòng)刷新來(lái)保障數(shù)據(jù)能夠被及時(shí)檢索到,但是不要在生產(chǎn)環(huán)境下每次索引一個(gè)文檔都去手動(dòng)刷新,刷新操作會(huì)有一定的性能開銷。一般業(yè)務(wù)場(chǎng)景中并不都需要每秒刷新。

可以通過(guò)在 Settings 中調(diào)大 refresh_interval = "30s" 的值,來(lái)降低每個(gè)索引的刷新頻率,設(shè)值時(shí)需要注意后面帶上時(shí)間單位,否則默認(rèn)是毫秒。

當(dāng) refresh_interval=-1 時(shí)表示關(guān)閉索引的自動(dòng)刷新。

 

圖 6

索引文件分段存儲(chǔ)并且不可修改,那么新增、更新和刪除如何處理呢?

  • 新增,新增很好處理,由于數(shù)據(jù)是新的,所以只需要對(duì)當(dāng)前文檔新增一個(gè)段就可以了。
  • 刪除,由于不可修改,所以對(duì)于刪除操作,不會(huì)把文檔從舊的段中移除而是通過(guò)新增一個(gè) .del 文件,文件中會(huì)列出這些被刪除文檔的段信息,這個(gè)被標(biāo)記刪除的文檔仍然可以被查詢匹配到, 但它會(huì)在最終結(jié)果被返回前從結(jié)果集中移除。
  • 更新,不能修改舊的段來(lái)進(jìn)行文檔的更新,其實(shí)更新相當(dāng)于是刪除和新增這兩個(gè)動(dòng)作組成。會(huì)將舊的文檔在 .del 文件中標(biāo)記刪除,然后文檔的新版本中被索引到一個(gè)新的段。可能兩個(gè)版本的文檔都會(huì)被一個(gè)查詢匹配到,但被刪除的那個(gè)舊版本文檔在結(jié)果集返回前就會(huì)被移除。

segment 被設(shè)定為不可修改具有一定的優(yōu)勢(shì)也有一定的缺點(diǎn)。

優(yōu)點(diǎn):

  • 不需要鎖。如果你從來(lái)不更新索引,你就不需要擔(dān)心多進(jìn)程同時(shí)修改數(shù)據(jù)的問(wèn)題。
  • 一旦索引被讀入內(nèi)核的文件系統(tǒng)緩存,便會(huì)留在哪里,由于其不變性。只要文件系統(tǒng)緩存中還有足夠的空間,那么大部分讀請(qǐng)求會(huì)直接請(qǐng)求內(nèi)存,而不會(huì)命中磁盤。這提供了很大的性能提升.
  • 其它緩存(像 Filter 緩存),在索引的生命周期內(nèi)始終有效。它們不需要在每次數(shù)據(jù)改變時(shí)被重建,因?yàn)閿?shù)據(jù)不會(huì)變化。
  • 寫入單個(gè)大的倒排索引允許數(shù)據(jù)被壓縮,減少磁盤 I/O 和需要被緩存到內(nèi)存的索引的使用量。

缺點(diǎn):

  • 當(dāng)對(duì)舊數(shù)據(jù)進(jìn)行刪除時(shí),舊數(shù)據(jù)不會(huì)馬上被刪除,而是在 .del 文件中被標(biāo)記為刪除。而舊數(shù)據(jù)只能等到段更新時(shí)才能被移除,這樣會(huì)造成大量的空間浪費(fèi)。
  • 若有一條數(shù)據(jù)頻繁的更新,每次更新都是新增新的,標(biāo)記舊的,則會(huì)有大量的空間浪費(fèi)。
  • 每次新增數(shù)據(jù)時(shí)都需要新增一個(gè)段來(lái)存儲(chǔ)數(shù)據(jù)。當(dāng)段的數(shù)量太多時(shí),對(duì)服務(wù)器的資源例如文件句柄的消耗會(huì)非常大。
  • 在查詢的結(jié)果中包含所有的結(jié)果集,需要排除被標(biāo)記刪除的舊數(shù)據(jù),這增加了查詢的負(fù)擔(dān)。

①段合并

由于每當(dāng)刷新一次就會(huì)新建一個(gè) segment(段),這樣會(huì)導(dǎo)致短時(shí)間內(nèi)的段數(shù)量暴增,而 segment 數(shù)目太多會(huì)帶來(lái)較大的麻煩。

大量的 segment 會(huì)影響數(shù)據(jù)的讀性能。每一個(gè) segment 都會(huì)消耗文件句柄、內(nèi)存和 CPU 運(yùn)行周期。

更重要的是,每個(gè)搜索請(qǐng)求都必須輪流檢查每個(gè) segment 然后合并查詢結(jié)果,所以 segment 越多,搜索也就越慢。

因此 Lucene 會(huì)按照一定的策略將 segment 合并,合并的時(shí)候會(huì)將那些舊的已刪除文檔從文件系統(tǒng)中清除。被刪除的文檔不會(huì)被拷貝到新的大 segment 中。

合并的過(guò)程中不會(huì)中斷索引和搜索,倒排索引的數(shù)據(jù)結(jié)構(gòu)使得文件的合并是比較容易的。

段合并在進(jìn)行索引和搜索時(shí)會(huì)自動(dòng)進(jìn)行,合并進(jìn)程選擇一小部分大小相似的段,并且在后臺(tái)將它們合并到更大的段中,這些段既可以是未提交的也可以是已提交的。

合并結(jié)束后老的段會(huì)被刪除,新的段被刷新到磁盤,同時(shí)寫入一個(gè)包含新段且排除舊的和較小的段的新提交點(diǎn),新的段被打開,可以用來(lái)搜索。

段合并的計(jì)算量龐大,而且還要吃掉大量磁盤 I/O,并且段合并會(huì)拖累寫入速率,如果任其發(fā)展會(huì)影響搜索性能。

ES 在默認(rèn)情況下會(huì)對(duì)合并流程進(jìn)行資源限制,所以搜索性能可以得到保證。

 

圖 7

寫在最后

本文對(duì) ES 的架構(gòu)原理和索引存儲(chǔ)和寫機(jī)制進(jìn)行介紹,ES 的整體架構(gòu)體系相對(duì)比較巧妙,我們?cè)谶M(jìn)行系統(tǒng)設(shè)計(jì)的時(shí)候可以借鑒其設(shè)計(jì)思路,本文只介紹 ES 整體架構(gòu)部分。

作者:官網(wǎng)商城開發(fā)團(tuán)隊(duì)

編輯:陶家龍

出處:轉(zhuǎn)載自公眾號(hào)vivo互聯(lián)網(wǎng)技術(shù)(ID:vivoVMIC)

 

責(zé)任編輯:武曉燕 來(lái)源: vivo互聯(lián)網(wǎng)技術(shù)
相關(guān)推薦

2020-04-16 08:22:11

HTTPS加解密協(xié)議

2018-09-28 05:25:53

TopK算法代碼

2020-12-15 08:06:45

waitnotifyCondition

2020-09-24 14:40:55

Python 開發(fā)編程語(yǔ)言

2020-04-22 11:19:07

貪心算法動(dòng)態(tài)規(guī)劃

2018-11-01 13:49:23

桶排序排序面試

2018-10-28 22:37:00

計(jì)數(shù)排序排序面試

2020-06-15 08:12:51

try catch代碼處理器

2022-10-27 21:34:28

數(shù)據(jù)庫(kù)機(jī)器學(xué)習(xí)架構(gòu)

2021-01-22 10:09:23

簡(jiǎn)歷求職者面試

2015-02-13 10:42:31

前端工具Dreamweaver

2020-11-09 08:22:29

程序員 IT科技

2020-03-30 17:20:54

B+樹SQL索引

2019-12-17 09:29:02

數(shù)據(jù)庫(kù)架構(gòu)分庫(kù)分表

2021-05-11 07:10:18

標(biāo)準(zhǔn)庫(kù)DjangoOS

2018-11-06 11:40:19

時(shí)間復(fù)雜度面試算法

2019-07-08 10:00:52

Java內(nèi)存模型并發(fā)

2020-12-04 10:05:00

Pythonprint代碼

2020-12-02 11:18:50

print調(diào)試代碼Python

2020-09-02 08:04:59

多線程互聯(lián)網(wǎng)高并發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)