偷偷摘套内射激情视频,久久精品99国产国产精,中文字幕无线乱码人妻,中文在线中文a,性爽19p

<blockquote id="cdfgz"></blockquote>

<big id="cdfgz"><code id="cdfgz"><rp id="cdfgz"></rp></code></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

如何更好的利用Oracle全文檢索

作者：林子大了 2009-03-19 10:24:27

數(shù)據(jù)庫 Oracle

本文將通過不同的方法，實(shí)現(xiàn)Oracle的全文檢索。這些技巧和策略，針對(duì)不同的應(yīng)用環(huán)境進(jìn)行了分類。希望大家能從中受益。

不使用Oracle text功能,也有很多方法可以在Oracle數(shù)據(jù)庫中搜索文本.可以使用標(biāo)準(zhǔn)的INSTR函數(shù)和LIKE操作符實(shí)現(xiàn)。

SELECT *FROM mytext WHERE INSTR (thetext, 'Oracle') > 0;
SELECT * FROM mytext WHERE thetext LIKE '%Oracle%';

有很多時(shí)候，使用instr和like是很理想的, 特別是搜索僅跨越很小的表的時(shí)候.然而通過這些文本定位的方法將導(dǎo)致全表掃描,對(duì)資源來說消耗比較昂貴,而且實(shí)現(xiàn)的搜索功能也非常有限，因此對(duì)海量的文本數(shù)據(jù)進(jìn)行搜索時(shí)，建議使用oralce提供的全文檢索功能建立全文檢索的步驟步驟一　檢查和設(shè)置數(shù)據(jù)庫角色首先檢查數(shù)據(jù)庫中是否有CTXSYS用戶和CTXAPP腳色。如果沒有這個(gè)用戶和角色，意味著你的數(shù)據(jù)庫創(chuàng)建時(shí)未安裝intermedia功能。你必須修改數(shù)據(jù)庫以安裝這項(xiàng)功能?！∧J(rèn)安裝情況下，ctxsys用戶是被鎖定的，因此要先啟用ctxsys的用戶。步驟二　賦權(quán)　在ctxsys用戶下把ctx_ddl的執(zhí)行權(quán)限賦于要使用全文索引的用戶，例：

grant execute on ctx_ddl to pomoho;

步驟三　設(shè)置詞法分析器(lexer)

Oracle實(shí)現(xiàn)全文檢索，其機(jī)制其實(shí)很簡(jiǎn)單。即通過Oracle專利的詞法分析器(lexer),將文章中所有的表意單元(Oracle 稱為 term)找出來，記錄在一組以dr$開頭的表中，同時(shí)記下該term出現(xiàn)的位置、次數(shù)、hash 值等信息。檢索時(shí)，Oracle 從這組表中查找相應(yīng)的term，并計(jì)算其出現(xiàn)頻率，根據(jù)某個(gè)算法來計(jì)算每個(gè)文檔的得分(score),即所謂的‘匹配率’。而lexer則是該機(jī)制的核心，它決定了全文檢索的效率。Oracle 針對(duì)不同的語言提供了不同的 lexer, 而我們通常能用到其中的三個(gè)：

n basic_lexer: 針對(duì)英語。它能根據(jù)空格和標(biāo)點(diǎn)來將英語單詞從句子中分離，還能自動(dòng)將一些出現(xiàn)頻率過高已經(jīng)失去檢索意義的單詞作為‘垃圾’處理，如if , is 等，具有較高的處理效率。但該lexer應(yīng)用于漢語則有很多問題，由于它只認(rèn)空格和標(biāo)點(diǎn)，而漢語的一句話中通常不會(huì)有空格，因此，它會(huì)把整句話作為一個(gè)term,事實(shí)上失去檢索能力。以‘中國(guó)人民站起來了’這句話為例，basic_lexer 分析的結(jié)果只有一個(gè)term ,就是‘中國(guó)人民站起來了’。此時(shí)若檢索‘中國(guó)’，將檢索不到內(nèi)容。

n chinese_vgram_lexer: 專門的漢語分析器，支持所有漢字字符集(ZHS16CGB231280 ZHS16GBK ZHT32EUC ZHT16BIG5 ZHT32TRIS ZHT16MSWIN950 ZHT16HKSCS UTF8 )。該分析器按字為單元來分析漢語句子。‘中國(guó)人民站起來了’這句話，會(huì)被它分析成如下幾個(gè)term: ‘中’，‘中國(guó)’，‘國(guó)人’，‘人民’，‘民站’，‘站起’，起來’，‘來了’，‘了’?？梢钥闯觯@種分析方法，實(shí)現(xiàn)算法很簡(jiǎn)單，并且能實(shí)現(xiàn)‘一網(wǎng)打盡’，但效率則是差強(qiáng)人意。

n chinese_lexer: 這是一個(gè)新的漢語分析器，只支持utf8字符集。上面已經(jīng)看到，chinese vgram lexer這個(gè)分析器由于不認(rèn)識(shí)常用的漢語詞匯，因此分析的單元非常機(jī)械，像上面的‘民站’，‘站起’在漢語中根本不會(huì)單獨(dú)出現(xiàn)，因此這種term是沒有意義的，反而影響效率。chinese_lexer的***改進(jìn)就是該分析器能認(rèn)識(shí)大部分常用漢語詞匯，因此能更有效率地分析句子，像以上兩個(gè)愚蠢的單元將不會(huì)再出現(xiàn)，極大提高了效率。但是它只支持 utf8, 如果你的數(shù)據(jù)庫是zhs16gbk字符集，則只能使用笨笨的那個(gè)Chinese vgram lexer.

如果不做任何設(shè)置，Oracle 缺省使用basic_lexer這個(gè)分析器。要指定使用哪一個(gè)lexer, 可以這樣操作：

***．當(dāng)前用戶下下建立一個(gè)preference(例：在pomoho用戶下執(zhí)行以下語句)

exec ctx_ddl.create_preference ('my_lexer', 'chinese_vgram_lexer');

第二．在建立全文索引索引時(shí)，指明所用的lexer:

CREATE INDEX myindex ON mytable(mycolumn) indextype is ctxsys.context 
parameters('lexer my_lexer');

這樣建立的全文檢索索引，就會(huì)使用chinese_vgram_lexer作為分析器。

步驟四　建立索引

通過以下語法建立全文索引

CREATE INDEX [schema.]index on [schema.]table(column) INDEXTYPE IS ctxsys.context [ONLINE]
LOCAL [(PARTITION [partition] [PARAMETERS('paramstring')]
[, PARTITION [partition] [PARAMETERS('paramstring')]])]
[PARAMETERS(paramstring)] [PARALLEL n] [UNUSABLE];

例：
CREATE INDEX ctx_idx_menuname ON pubmenu(menuname) 
indextype is ctxsys.context parameters('lexer my_lexer')

步驟五　使用索引

使用全文索引很簡(jiǎn)單，可以通過：

select * from pubmenu where contains(menuname,'上傳圖片')>0

全文索引的種類

建立的Oracle Text索引被稱為域索引(domain index)，包括4種索引類型：

l CONTEXT

2 CTXCAT

3 CTXRULE

4 CTXXPATH

依據(jù)你的應(yīng)用程序和文本數(shù)據(jù)類型你可以任意選擇一種。

對(duì)多字段建立全文索引

很多時(shí)候需要從多個(gè)文本字段中查詢滿足條件的記錄，這時(shí)就需要建立針對(duì)多個(gè)字段的全文索引，例如需要從pmhsubjects(專題表)的subjectname(專題名稱)和briefintro(簡(jiǎn)介)上進(jìn)行全文檢索，則需要按以下步驟進(jìn)行操作：

Ø 建議多字段索引的preference

以ctxsys登錄，并執(zhí)行：

EXEC ctx_ddl.create_preference(' ctx_idx_subject_pref',
'MULTI_COLUMN_DATASTORE');
Ø         建立preference對(duì)應(yīng)的字段值(以ctxsys登錄)
EXEC ctx_ddl.set_attribute(' ctx_idx_subject_pref ','columns','subjectname,briefintro');
Ø         建立全文索引

CREATE INDEX ctx_idx_subject ON pmhsubjects(subjectname) 
INDEXTYPE ISctxsys.CONTEXT PARAMETERS('DATASTORE ctxsys.ctx_idx_subject_pref lexer my_lexer')
Ø         使用索引

select * from pmhsubjects where contains(subjectname,'李宇春')>0

全文索引的維護(hù)

對(duì)于CTXSYS.CONTEXT索引，當(dāng)應(yīng)用程序?qū)磉M(jìn)行DML操作后，對(duì)基表的索引維護(hù)是必須的。索引維護(hù)包括索引同步和索引優(yōu)化。

在索引建好后，我們可以在該用戶下查到Oracle自動(dòng)產(chǎn)生了以下幾個(gè)表：(假設(shè)索引名為myindex)：

DR$myindex$I、DR$myindex$K、DR$myindex$R、DR$myindex$N其中以I表最重要，可以查詢一下該表，看看有什么內(nèi)容：

SELECT token_text, token_count FROM dr$i_rsk1$I WHERE ROWNUM <= 20;

這里就不列出查詢接過了。可以看到，該表中保存的其實(shí)就是Oracle 分析你的文檔后，生成的term記錄在這里，包括term出現(xiàn)的位置、次數(shù)、hash值等。當(dāng)文檔的內(nèi)容改變后，可以想見這個(gè)I表的內(nèi)容也應(yīng)該相應(yīng)改變，才能保證Oracle在做全文檢索時(shí)正確檢索到內(nèi)容(因?yàn)樗^全文檢索，其實(shí)核心就是查詢這個(gè)表)。這就用到sync(同步) 和 optimize(優(yōu)化)了。

同步(sync): 將新的term 保存到I表；

優(yōu)化(optimize): 清除I表的垃圾，主要是將已經(jīng)被刪除的term從I表刪除。

當(dāng)基表中的被索引文檔發(fā)生insert、update、delete操作的時(shí)候，基表的改變并不能馬上影響到索引上直到同步索引?？梢圆樵円晥DCTX_USER_PENDING查看相應(yīng)的改動(dòng)。例如：

SELECT pnd_index_name, pnd_rowid,

       TO_CHAR (pnd_timestamp, 'dd-mon-yyyy hh24:mi:ss') timestamp

FROM ctx_user_pending;
該語句的輸出類似如下：

PND_INDEX_NAME                 PND_ROWID          TIMESTAMP

------------------------------ ------------------ --------------------

MYINDEX                        AAADXnAABAAAS3SAAC 06-oct-1999 15:56:50

同步和優(yōu)化方法: 可以使用Oracle提供的ctx_ddl包同步和優(yōu)化索引

一. 對(duì)于CTXCAT類型的索引來說，當(dāng)對(duì)基表進(jìn)行DML操作的時(shí)候，Oracle自動(dòng)維護(hù)索引。對(duì)文檔的改變馬上反映到索引中。CTXCAT是事務(wù)形的索引。

索引的同步

在對(duì)基表插入，修改，刪除之后同步索引。推薦使用sync同步索引。語法：

ctx_ddl.sync_index(

idx_name IN VARCHAR2 DEFAULT NULL

memory IN VARCHAR2 DEFAULT NULL,

part_name IN VARCHAR2 DEFAULT NULL

parallel_degree IN NUMBER DEFAULT 1); 

idx_name   索引名稱

memory    指定同步索引需要的內(nèi)存。默認(rèn)是系統(tǒng)參數(shù)DEFAULT_INDEX_MEMORY 。

指定一個(gè)大的內(nèi)存時(shí)候可以加快索引效率和查詢速度，且索引有較少的碎片

part_name 同步哪個(gè)分區(qū)索引。

parallel_degree 并行同步索引。設(shè)置并行度。

例如：

同步索引myindex:Exec ctx_ddl.sync_index ('myindex');

實(shí)施建議：建議通過oracle的job對(duì)索引進(jìn)行同步

索引的優(yōu)化

經(jīng)常的索引同步將會(huì)導(dǎo)致你的CONTEXT索引產(chǎn)生碎片。索引碎片嚴(yán)重的影響了查詢的反應(yīng)速度。你可以定期優(yōu)化索引來減少碎片，減少索引大小，提高查詢效率。

當(dāng)文本從表中刪除的時(shí)候，Oracle Text標(biāo)記刪除的文檔，但是并不馬上修改索引。因此，就的文檔信息占據(jù)了不必要的空間，導(dǎo)致了查詢額外的開銷。你必須以FULL模式優(yōu)化索引，從索引中刪除無效的舊的信息。這個(gè)過程叫做垃圾處理。當(dāng)你經(jīng)常的對(duì)表文本數(shù)據(jù)進(jìn)行更新，刪除操作的時(shí)候，垃圾處理是很必要的。

exec ctx_ddl.optimize_index ('myidx', 'full');

實(shí)施建議：每天在系統(tǒng)空閑的時(shí)候?qū)θ乃饕M(jìn)行相應(yīng)的優(yōu)化，以提高檢索的效率

【編輯推薦】

Oracle數(shù)據(jù)庫管理腳本淺析
使用度量基線技術(shù)實(shí)現(xiàn)Oracle自我監(jiān)控
詳解Oracle建立用戶和對(duì)用戶的管理

責(zé)任編輯：彭凡來源：百度空間

全文檢索文本定位 Oracle

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)