全文索引--自己定义chinese_lexer词典
本文来具体解释一下怎样自己定义chinese_lexer此法分析器的词典
初始化数据
create table test2 (str1 varchar2(2000),str2varchar2(2000)) ; insert into test2
values('地质图','中国和反馈砀山龙卷风流口水地质图') ;
insert into test2
values('图片','图') ;
commit ;
创建此法分析器而且创建全文索引(注意词典仅仅对chinese_lexer起作用)
exec ctx_ddl.create_preference('my_lexer1','CHINESE_LEXER');
EXEC ctx_ddl.create_preference('dataquery','MULTI_COLUMN_DATASTORE');
EXEC ctx_ddl.set_attribute('dataquery','columns', 'str1,str2');
CREATE INDEX test2_idx ON test2(str1) INDEXTYPEIS ctxsys.CONTEXT PARAMETERS('datastore dataquery LEXER my_lexer1');
看一下生成的词表。能够看到。是没有地质图这个keyword的。
ctx@STARTREK>select * from DR$TEST2_IDX$I ; TOKEN_TEXT TOKEN_TYPE TOKEN_FIRST TOKEN_LAST TOKEN_COUNT
-------------------------------------------------------------------------- ----------- ---------- -----------
TOKEN_INFO
-----------------------------------------------------------------------------------------------------------------------------------------------------
STR1 0 1 2 2
0090010301900102 STR2 0 1 2 2
0090050B01900402 地质 0 1 1 1
0090020C 反馈 0 1 1 1
008808 和 0 1 1 1
008807 口水 0 1 1 1
00880D 流 0 1 1 1
00880C 龙卷风 0 1 1 1
00880B 山 0 1 1 1
00880A 图 0 1 2 2
0090030C018805 图片 0 2 2 1
008802 中国 0 1 1 1
008806 砀山 0 1 1 1
008809 已选择13行。
以下開始,使用自己定义词典
C:\Users\fengjun>ctxlc -zht -ocs zhs16GBK> zhs16gbk_102.txt C:\Users\fengjun>zhs16gbk_102.txt
搜索了一下文档,里面没有找到地质图这个关键词
最末尾加上地质图
生成自己定义词典须要使用的三个以d、k、i结尾的文件
这里总是出错
C:\Users\fengjun>ctxlc -zht -ics zhs16gbk -izhs16gbk_102.txt
DRG-52107: ctxkbtc internal error 加上-n參数,顺利生成 C:\Users\fengjun>ctxlc -zht -ics zhs16gbk -n-i zhs16gbk_102.txt
,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
DRG-52118: Writing index file for terms
DRG-52117: Writing index file for IDs
DRG-52116: Done writing all terms
DRG-52115: Writing new terms in lexicon tofiles
DRG-52114: Writing lexicon to files C:\Users\fengjun>dir dr*
驱动器 C 中的卷是Windows8_OS
卷的序列号是6C5D-2B1F C:\Users\fengjun 的文件夹 2014/09/24 14:02 2,250,471 drold.dat
2014/09/24 14:02 391,326 droli.dat
2014/09/24 14:02 89,282 drolk.dat
2014/09/24 13:55 298,206 drolt.dat
4 个文件 3,029,285 字节
0 个文件夹 113,255,260,160 可用字节
备份$ORACLE_HOME\ctx\data\zhlx
下的内容。而且将上面的几个文件copy到$ORACLE_HOME\ctx\data\zhlx下。而且改名
d、k、i结尾的拷贝过去就可以
一定记得将原来的文件备份一下。
ctx@STARTREK>drop index test2_idx force ;
索引已删除。
ctx@STARTREK>CREATE INDEX test2_idx ONtest2(str1) INDEXTYPE IS ctxsys.CONTEXT PARAMETERS('datastore dataquery LEXERmy_lexer1');
索引已创建。
ctx@STARTREK>select * from DR$TEST2_IDX$I ;
TOKEN_TEXT TOKEN_TYPE TOKEN_FIRST TOKEN_LAST TOKEN_COUNT
-------------------------------------------------------------------------- ----------- ---------- -----------
TOKEN_INFO
--------------------------------------------------------------------------------------------------------------------------
STR1 0 1 2 2
0090010201900102
STR2 0 1 2 2
0090040A01900402
地质图 0 1 1 1
0090020B
反馈 0 1 1 1
008807
和 0 1 1 1
008806
口水 0 1 1 1
00880C
流 0 1 1 1
00880B
龙卷风 0 1 1 1
00880A
山 0 1 1 1
008809
图 0 2 2 1
008805
图片 0 2 2 1
008802
中国 0 1 1 1
008805
砀山 0 1 1 1
008808
已选择13行。
能够看到已经有地质图这个keyword了。
这样自己定义词典就完毕了,对于大数据量的检索,自己定义词典还是很有意义的。
以下是一个相关的简单測试
未加关键词之前
SQL> select count(0) from data_query t wherecontains(MDTITILE,'xxxx万地质图')>0;
COUNT(0)
----------
7072
已用时间: 00: 00: 01.54
运行计划
----------------------------------------------------------
Plan hash value: 670767155
--------------------------------------------------------------------------------
---
| Id |Operation | Name | Rows | Bytes | Cost (%CPU)| Time
|
--------------------------------------------------------------------------------
---
| 0 |SELECT STATEMENT | | 1 | 85 | 4 (0)| 00:00:0
1 |
| 1| SORT AGGREGATE | | 1 | 85 | |
|
|* 2| DOMAIN INDEX | DATA_QUERY_IDX | 164 | 13940 | 4 (0)| 00:00:0
1 |
--------------------------------------------------------------------------------
---
Predicate Information (identified by operationid):
---------------------------------------------------
2 - access("CTXSYS"."CONTAINS"("MDTITILE",'xxxx万地质图')>0)
统计信息
----------------------------------------------------------
3528 recursive calls
0 db block gets
10214 consistent gets
1173 physical reads
2824 redo size
535 bytes sent via SQL*Net to client
524 bytes received via SQL*Netfrom client
2 SQL*Net roundtrips to/fromclient
263 sorts (memory)
0 sorts (disk)
1 rows processed
加关键词之后
SQL> select count(0) from data_query t wherecontains(MDTITILE,'xxxx万地质图')>0 ;
COUNT(0)
----------
7072
已用时间: 00: 00: 00.28
运行计划
----------------------------------------------------------
Plan hash value: 670767155
--------------------------------------------------------------------------------
---
| Id |Operation | Name | Rows | Bytes | Cost (%CPU)| Time
|
--------------------------------------------------------------------------------
---
| 0 |SELECT STATEMENT | | 1 | 85 | 4 (0)| 00:00:0
1 |
| 1| SORT AGGREGATE | | 1 | 85 | |
|
|* 2| DOMAIN INDEX | DATA_QUERY_IDX | 164 | 13940 | 4 (0)| 00:00:0
1 |
--------------------------------------------------------------------------------
---
Predicate Information (identified by operationid):
---------------------------------------------------
2 -access("CTXSYS"."CONTAINS"("MDTITILE",'xxxx万地质图')>0)
统计信息
----------------------------------------------------------
643 recursive calls
0 db block gets
2438 consistent gets
34 physical reads
0 redo size
535 bytes sent via SQL*Net toclient
524 bytes received via SQL*Netfrom client
2 SQL*Net roundtrips to/fromclient
34 sorts (memory)
0 sorts (disk)
1 rows processed
相关官方文档位置:
| Oracle® Text Reference |
http://docs.oracle.com/cd/E11882_01/text.112/e24436/cexec.htm#CCREF2202
全文索引--自己定义chinese_lexer词典的更多相关文章
- 全文索引--自定义chinese_lexer词典
全文索引它的数据字典本来就是自己加密过的数据格式,只有翻译过来了,才可以修改.这样修改后再生成它自己的数据格式文件,覆盖掉原来的,就会将新添加的关键词加入进去了!! 以下操作是在Oracle服务器安装 ...
- IK-Analyzer(5.3.1)动态配置自定义词典
参考文献:http://blog.csdn.net/fatpanda/article/details/37911079 jar包: IK-Analyzer-extra-5.3.1.jar IKAnal ...
- Forth 采用CODE定义新词
body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...
- 词典(一) 跳转表(Skip table)
词典,顾名思义,就是通过关键码来查询的结构.二叉搜索树也可以作为词典,不过各种BST,如AVL树.B-树.红黑树.伸展树,结构和操作比较复杂,而且理论上插入和删除都需要O(logn)的复杂度. 在词典 ...
- 转 Oracle全文检索http://docs.oracle.com/cd/E11882_01/text.112/e24436/toc.htm
SQL > exec ctx_ddl.create_preference ('my_test_lexer','chinese_lexer') : PL/SQL 过程成功完成 SQL > E ...
- 安装sphinx和coreseek
sphinx简介 Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果 相关度的全文搜索功能.Sphinx可以非常容易的与SQL数 ...
- Mysql学习笔记(八)索引
PS:把昨天的学习内容补上...发一下昨天学的东西....五月三日...继续学习数据库... 学习内容: 索引.... 索引的优点: 1.通过创建唯一索引,可以保证数据库每行数据的唯一性... 2.使 ...
- iOS 学习笔记 一 (2015.02.05)
一:Xcode6输入框设置为 keyboard type设置为Number Pad弹不出键盘的解决办法 问题:Can't find keyplane that supports type 4 fo ...
- cocos2d-x 2.0 序列帧动画 深入分析
转自:http://blog.csdn.net/honghaier/article/details/8222401 序列帧动画主要有几个类: CCSpriteFrame:精灵帧信息,序列帧动画是依靠多 ...
随机推荐
- Hive元数据启动失败,端口被占用
org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0. ...
- 关于hadoop学习的思考(一) —— 小的知识点的总结
一.对于CDH的小总结: CDH:是Cloudera公司在Apache开源项目hadoop的基础上发型的,共有五个版本前两个已不再更新,最经的两个分别是CDH4(基于hadoop2.0.0版本演化而来 ...
- 一丶Python模块之getpass模块
Python模块之getpass模块 Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句. getpass模块提供了可移 ...
- OSPF 一 基础
本节介绍ospf路由选择协议 为链路状态 路由选择协议 一 分类 open shortest path first 开放最短路优先 公有协议 单区域的ospf实施 运行在一个自治系 ...
- [BZOJ1419] Red is good(期望DP)
传送门 逆推 只不过顺序还是顺着的,思想是逆着的 f[i][j]表示还剩下i张红牌,j张黑牌的期望值 那么边界是 f[i][0]=i,因为只剩i张红牌 f[0][j]=0,只剩黑牌,显然直接停止最优 ...
- BZOJ1922 [Sdoi2010]大陆争霸 【最短路】
题目 在一个遥远的世界里有两个国家:位于大陆西端的杰森国和位于大陆东端的 克里斯国.两个国家的人民分别信仰两个对立的神:杰森国信仰象征黑暗和毁灭 的神曾·布拉泽,而克里斯国信仰象征光明和永恒的神斯普林 ...
- NOI2015 荷马史诗 【k-哈夫曼树】
题目 追逐影子的人,自己就是影子 --荷马 Allison 最近迷上了文学.她喜欢在一个慵懒的午后,细细地品上一杯卡布奇诺,静静地阅读她爱不释手的<荷马史诗>.但是由<奥德赛> ...
- 刷题总结——子串(NOIP2015提高组)
题目: 题目背景 NOIP2015 提高组 Day2 T2 题目描述 有两个仅包含小写英文字母的字符串 A 和 B .现在要从字符串 A 中取出 k 个互不重叠的非空子串,然后把这 k 个子串按照其在 ...
- Docker镜像分层技术
Docker镜像管理 1.镜像分层技术 2.创建镜像 3.下载镜像到主机 4.删除镜像 5.上传镜像到registry docker镜像: 早在集装箱没有出现的时候,码头上还有许多搬运的工人在搬运货物 ...
- 解决 IDEA 中src下xml等资源文件无法读取的问题
该问题的实质是,idea对classpath的规定. 在eclipse中,把资源文件放在src文件夹下,是可以找到的: 但是在idea中,直接把资源文件放在src文件夹下,如果不进行设置,是不能被找到 ...