偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<var id="rqh5g"><strong id="rqh5g"></strong></var>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

簡述Lucene的分析過程

作者：God bless you 2012-09-19 15:06:45

開發(fā) 開發(fā)工具

Lucene是apache軟件基金會4 jakarta項目組的一個子項目，是一個開放源代碼的全文檢索引擎工具包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎（英文與德文兩種西方語言）。

回顧倒排索引的構建

收集待建索引的原文檔(Document)
將原文檔傳給詞條化工具(Tokenizer)進行文本詞條化
將第二步得到的詞條(Token)傳給語言分析工具(Linguistic modules)進行語言學預處理，得到詞項(Term)
將得到的詞項(Term)傳給索引組件(Indexer),建立倒排索引

注：詳細文檔->倒排索引的理論過程見詞項詞典及倒排記錄表

分析操作的使用場景

1.如上，倒排索引的構建階段

2.針對自由文本的查詢階段

QueryParser parser = new QueryParser(Version.LUCENE_36, field, analyzer);

Query query = parser.parse(queryString);

lucene的Analyzer接收表達式queryString中連續(xù)的獨立的文本片段，但不會接收整個表達式。

例如：對查詢語句"president obama" + harvard + professor，QueryParser會3次調(diào)用分析器，首先是處理文本“president obama”，然后是文本“harvard”，***處理“professor”。

3.搜索結果中高亮顯示被搜索內(nèi)容時（即結果摘要-Snippets的生成），也可能會用到分析操作

剖析lucene分析器

抽象類Analyzer

Analyzer類是一個抽象類，是所有分析器的基類。

其主要包含兩個接口，用于生成TokenStream（所謂TokenStream，后面我們會講到，是一個由分詞后的Token 結果組成的流，能夠不斷的得到下一個分成的Token。）。

接口：

1.TokenStream tokenStream(String fieldName, Reader reader)

2.TokenStream reusableTokenStream(String fieldName, Reader reader)

為了提高性能，使得在同一個線程中無需再生成新的TokenStream 對象，老的可以被重用，所以有reusableTokenStream 一說。

Analyzer 中有CloseableThreadLocal<Object> tokenStreams = newCloseableThreadLocal<Object>(); 成員變量，保存當前線程原來創(chuàng)建過的TokenStream ，可用函數(shù)setPreviousTokenStream 設定，用函數(shù)getPreviousTokenStream 得到。在reusableTokenStream 函數(shù)中，往往用getPreviousTokenStream 得到老的TokenStream 對象，然后將TokenStream 對象reset 一下，從而可以重新開始得到Token 流。

抽象類ReusableAnalyzerBase

ReusableAnalyzerBase extendsAnalyzer，顧名思義主要為tokenStream的重用。

其包含一個接口，用于生成TokenStreamComponents。

接口：

TokenStreamComponents createComponents(String fieldName,Reader reader);

reusableTokenStream的實現(xiàn)代碼分析：

public final TokenStream reusableTokenStream(final String fieldName, 
    final Reader reader) throws IOException { 
  // 得到上一次使用的TokenStream 
  TokenStreamComponents streamChain = (TokenStreamComponents)getPreviousTokenStream(); 
  final Reader r = initReader(reader); 
  //如果沒有PreviousTokenStream則生成新的， 并且用setPreviousTokenStream放入成員變量，使得下一個可用。 
  //如果上一次生成過TokenStream，則reset。reset失敗則生成新的。 
  if (streamChain == null || !streamChain.reset(r)) { 
    streamChain = createComponents(fieldName, r); 
    setPreviousTokenStream(streamChain); 
  } 
  return streamChain.getTokenStream(); 
}

內(nèi)部static類TokenStreamComponents

簡單封裝輸入Tokenizer和輸出TokenStream。

最簡單的一個Analyzer：SimpleAnalyzer

SimpleAnalyzer extendsReusableAnalyzerBase，實現(xiàn)createComponents方法。TokenStream的處理是將字符串最小化，生成按照空格分隔的Token流

protected TokenStreamComponents createComponents( final String fieldName, 
     final Reader reader) { 
   return new TokenStreamComponents(new LowerCaseTokenizer(matchVersion , reader)); 
 }

抽象類TokenStream

TokenStream 主要包含以下幾個方法：
1. boolean incrementToken()用于得到下一個Token。IndexWriter調(diào)用此方法推動Token流到下一個Token。實現(xiàn)類必須實現(xiàn)此方法并更新Attribute信息到下一個Token。
2. public void reset() 重設Token流到開始，使得此TokenStrean 可以重新開始返回各個分詞。

和原來的TokenStream返回一個Token 對象不同，Lucene 3.0 開始，TokenStream已經(jīng)不返回Token對象了，那么如何保存下一個Token 的信息呢？
在Lucene 3.0 中，TokenStream 是繼承于AttributeSource，其包含Map，保存從class 到對象的映射，從而可以保存不同類型的對象的值。在TokenStream 中，經(jīng)常用到的對象是CharTermAttributeImpl，用來保存Token 字符串；PositionIncrementAttributeImpl 用來保存位置信息；OffsetAttributeImpl 用來保存偏移量信息。所以當生成TokenStream 的時候，往往調(diào)用CharTermAttribute tokenAtt = addAttribute(CharTermAttribute.class)將CharTermAttributeImpl添加到Map 中，并保存一個成員變量。在incrementToken() 中，將下一個Token 的信息寫入當前的tokenAtt ，然后使用CharTermAttributeImpl.buffer()得到Token 的字符串。

注：Lucene 3.1開始廢棄了TermAttribute和TermAttributeImpl，用CharTermAttribute和CharTermAttributeImpl代替。

Token attributes

如上述，Token的信息真正存在于各個AttributeImpl中，lucene內(nèi)建的所有Attribute接口都在org.apache.lucene.analysis.tokenattributes包中。

Token attributes API的使用

1. 調(diào)用addAttribute（繼承于AttributeSource）方法，返回一個對應屬性接口的實現(xiàn)類，以獲得需要的屬性。

2. 遞歸TokenStream incrementToken()方法，遍歷Token流。當incrementToken返回true時，其中Token的屬性信息會將內(nèi)部狀態(tài)修改為下個詞匯單元。

3. lucene內(nèi)建Attribute接口都是可讀寫的，TokenStream 在遍歷Token流時，會調(diào)用Attribute接口的set方法，修改屬性信息。

lucene內(nèi)建常用Attribute接口

1. CharTermAttribute 保存Token對應的term文本，Lucene 3.1開始用CharTermAttribute代替TermAttribute

2. FlagsAttribute 自定義標志位

3. OffsetAttribute startOffset是指Term的起始字符在原始文本中的位置，endOffset則表示Term文本終止字符的下一個位置。偏移量常用于搜索結果中高亮Snippets的生成

4. PayloadAttribute 保存有效負載

5. TypeAttribute 保存Token類型，默認為"word"，實際中可根據(jù)Term的詞性來做自定義操作

6. PositionIncrementAttribute

保存相對于前一個Term的位置信息，默認值設為1，表示所有的Term都是連續(xù)的，在位置上是一個接一個的。如果位置增量大于1，則表示Term之間有空隙，可以用這個空隙來表示被刪除的Term項（如停用詞）。位置增量為0，則表示該Term項與前一個Term項在相同的位置上，0增量常用來表示詞項之間是同義詞。位置增量因子會直接影響短語查詢和跨度查詢，因為這些查詢需要知道各個Term項之間的距離。

注：并不是所有的Attribute信息都會保存在索引中，很多Attribute信息只在分析過程使用，Term進索引后部分Attribute信息即丟棄。（如TypeAttribute、FlagsAttribute在索引階段都會被丟棄）

Lucene Token流揭秘

lucene Token流的生成，主要依賴TokenStream 的兩個子類Tokenizer和TokenFilter

Tokenizer類的主要作用：接收Read對象，讀取字符串進行分詞并創(chuàng)建Term項。

TokenFilter類使用裝飾者模式（lucene in action中作者寫的是組合模式，本人竊以為應該是裝飾者模式），封裝另一個TokenStream類，主要負責處理輸入的Token項，然后通過新增、刪除或修改Attribute的方式來修改Term流。

如上圖，當Analyzer從它的tokenStream方法或者reusableTokenStream方法返回tokenStream對象后，它就開始用一個Tokenizer對象創(chuàng)建初始Term序列，然后再鏈接任意數(shù)量的TokenFilter來修改這些Token流。這被稱為分析器鏈（analyzer chain）。

一個簡單的Analyzer：StopAnalyzer

protected TokenStreamComponents createComponents(String fieldName, 
    Reader reader) { 
  //LowerCaseTokenizer接收Reader，根據(jù)Character.isLetter(char)來進行分詞，并轉換為字符小寫 
  final Tokenizer source = new LowerCaseTokenizer(matchVersion , reader); 
  //只有一個分析器鏈StopFilter，來去除停用詞 
  return new TokenStreamComponents(source, new StopFilter(matchVersion , 
        source, stopwords)); 
}

StopAnalyzer測試

String text = "The quick brown fox jumped over the lazy dog"; 
System. out.println("Analyzing \"" + text + "\""); 
Analyzer analyzer = new StopAnalyzer(Version.LUCENE_36); 
String name = analyzer.getClass().getSimpleName(); 
System. out.println("" + name + ":"); 
System. out.print("" ); 
AnalyzerUtils. displayTokens(analyzer, text); 
System. out.println("\n" );

結果輸出

Analyzing "The quick brown fox jumped over the lazy dog"

StopAnalyzer:

[quick] [brown] [fox] [jumped] [over] [lazy] [dog]

原文鏈接：http://www.cnblogs.com/lori/archive/2012/08/24/2654275.html

【編輯推薦】

關于Lucene以及索引和搜索的流程
利用 R-OSGi 實現(xiàn)分布式 OSGi 應用
asyncoro 1.0 發(fā)布，Python 的并發(fā)分布式框架
仿造百度實現(xiàn)基于Lucene.net全文檢索
asyncoro 1.2 發(fā)布，Python并行分布式框架

責任編輯：彭凡來源：博客園

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<abbr id="5cifq"></abbr>