oracle的全文索引

1、查看oracle的字符集

SQL> select userenv('language') from dual;

USERENV('LANGUAGE')

----------------------------------------------------

SIMPLIFIED CHINESE_CHINA.ZHS16GBK

2、建全文索引的语句

--确认当前用户拥有CTX_DLL的权限；用DBA权限账号登录执行下句；
grant execute on ctx_ddl to cqwgh;

--chinese_vgram_lexer:专门的汉语分析器，支持所有汉字字符集(ZHS16CGB231280 ZHS16GBK ZHT32EUC ZHT16BIG5 ZHT32TRIS ZHT16MSWIN950 ZHT16HKSCS UTF8)

BEGIN

  ctx_ddl.create_preference ('rjbxxgy_lexer', 'chinese_vgram_lexer');

END;

CREATE INDEX idx_rjbxxgy ON gisdata.t_rjbxxgy(qwsy) INDEXTYPE IS ctxsys.CONTEXT PARAMETERS( 'lexer rjbxxgy_lexer');

BEGIN

   ctx_ddl.sync_index ('idx_rjbxxgy', '30M');

END;

------------------------------------------------------------------------------------------

select * from user_indexes where table_name ='WGH_T_KEEPERSINFO_SUM';

--创建词法分析器

BEGIN

  ctx_ddl.create_preference ('KEEPERSINFOSUM_lexer', 'chinese_lexer');

END;

--创建索引

CREATE INDEX IDX_KEEPERSINFOSUM ON WGH_T_KEEPERSINFO_SUM(CONTENTS) INDEXTYPE IS ctxsys.CONTEXT PARAMETERS( 'lexer KEEPERSINFOSUM_lexer');

--同步索引

BEGIN

   ctx_ddl.sync_index ('IDX_KEEPERSINFOSUM', '30M');

END;

--优化索引

begin

   ctx_ddl.optimize_index('IDX_KEEPERSINFOSUM','FULL');

end;

--删除词法分析器

begin

   ctx_ddl.drop_preference('KEEPERSINFOSUM_lexer');

end;

--删除索引

drop index IDX_KEEPERSINFOSUM force;

3、理论说明

　　Oracle实现全文检索，其机制其实很简单。即通过Oracle专利的词法分析器(lexer),将文章中所有的表意单元(Oracle 称为 term)找出来，记录在一组以dr$开头的表中，同时记下该term出现的位置、次数、hash值等信息。检索时，Oracle从这组表中查找相应的term，并计算其出现频率，根据某个算法来计算每个文档的得分(score),即所谓的‘匹配率’。而lexer则是该机制的核心，它决定了全文检索的效率。Oracle针对不同的语言提供了不同的lexer,而我们通常能用到其中的三个：

　　basic_lexer:针对英语。它能根据空格和标点来将英语单词从句子中分离，还能自动将一些出现频率过高已经失去检索意义的单词作为‘垃圾’处理，如if,is等，具有较高的处理效率。但该lexer应用于汉语则有很多问题，由于它只认空格和标点，而汉语的一句话中通常不会有空格，因此，它会把整句话作为一个term,事实上失去检索能力。以‘中国人民站起来了’这句话为例，basic_lexer分析的结果只有一个term,就是‘中国人民站起来了’。此时若检索‘中国’，将检索不到内容。

　　chinese_vgram_lexer:专门的汉语分析器，支持所有汉字字符集(ZHS16CGB231280 ZHS16GBK ZHT32EUC ZHT16BIG5 ZHT32TRIS ZHT16MSWIN950 ZHT16HKSCS UTF8 )。该分析器按字为单元来分析汉语句子。‘中国人民站起来了’这句话，会被它分析成如下几个term:‘中’，‘中国’，‘国人’，‘人民’，‘民站’，‘站起’，起来’，‘来了’，‘了’。可以看出，这种分析方法，实现算法很简单，并且能实现‘一网打尽’，但效率则是差强人意。

　　chinese_lexer:这是一个新的汉语分析器，只支持utf8字符集。上面已经看到，chinese vgram lexer这个分析器由于不认识常用的汉语词汇，因此分析的单元非常机械，像上面的‘民站’，‘站起’在汉语中根本不会单独出现，因此这种term是没有意义的，反而影响效率。chinese_lexer的最大改进就是该分析器能认识大部分常用汉语词汇，因此能更有效率地分析句子，像以上两个愚蠢的单元将不会再出现，极大提高了效率。但是它只支持utf8,如果你的数据库是zhs16gbk字符集，则只能使用笨笨的那个Chinese vgram lexer。如果不做任何设置，Oracle缺省使用basic_lexer这个分析器。

4、使用方法

select * from WGH_T_KEEPERSINFO_SUM where contains(contents,'李敏')>0;

5、说明

　　CHINESE_VGRAM_LEXER使用的保守分词方法，不求有功但求无过。对所有的词都可以查询到。不过效率方面就有不足了。所有的分词结果都可以在表DR$ISSUE_INDEX$I中看到。
　　oracle Text进行中文搜索必须指定lexer 参数。如果追求效率那么使用CHINESE_LEXER,如果追求准确度那么使用CHINESE_VGRAM_LEXER。

参考资料：

http://zzy603.iteye.com/blog/1152331

http://blog.csdn.net/aqszhuaihuai/article/details/6601543

oracle的全文索引的更多相关文章

Oracle建立全文索引详解
Oracle建立全文索引详解1.全文检索和普通检索的区别不使用Oracle text功能,当然也有很多方法可以在Oracle数据库中搜索文本,比如INSTR函数和LIKE操作: SELECT *FR ...
oracle中对LONG列进行查询
SQL> CREATE TABLE T_LONG (ID NUMBER, LONG_COL LONG); 表已创建. SQL> INSERT INTO T_LONG VALUES (1, ...
Oracle索引知识学习笔记
目录一.Oracle索引简介 1.1 索引分类 1.2 索引数据结构 1.3 索引特性 1.4 索引使用注意要点 1.5.索引的缺点 1.6.索引失效二.索引分类介绍 2.1.位图索引 1.2.函 ...
oracle全文索引
1.检查数据库是否具有全文检索功能(这是针对已经建成使用的数据库) 查看用户中是否存在ctxsys用户,查询角色里是否存在ctxapp角色.以上两个中的1个不满足(不存在),则说明没有装过全文检索功能 ...
Oracle B-tree、位图、全文索引三大索引性能比较及优缺点汇总
引言:大家都知道“效率”是数据库中非常重要的一个指标,如何提高效率大家可能都会想起索引,但索引又这么多种,什么场合应该使用什么索引呢?哪种索引可以提高我们的效率,哪种索引可以让我们的效率大大降低(有时 ...
oracle全文索引的创建和使用
整理一下我所遇到过的有关全文索引的问题吧一.设置词法分析器 Oracle实现全文检索,其机制其实很简单.即通过Oracle专利的词法分析器(lexer),将文章中所有的表意单元(Oracle 称为 ...
Solr的学习使用之（十）数据库（Oracle、SqlServer）原有的全文索引功能和Solr对比？
本人有个问题一直不解,既然solr的全文索引功能这么强大,而且效果也不错,那为什么那些数据库厂商比如Oracle.SqlServer,不把solr的功能集成进去呢,或者说把全文索引的功能做好点,做到和 ...
Oracle 全文索引相关命令
--用sys用户登录,解锁ctxsys用户alter user ctxsys account unlock; --授权给对应用户grant execute on ctx_ddl to yw; --用y ...
MySQL全文索引 FULLTEXT索引和like的区别
1.概要 InnoDB引擎对FULLTEXT索引的支持是MySQL5.6新引入的特性,之前只有MyISAM引擎支持FULLTEXT索引.对于FULLTEXT索引的内容可以使用MATCH()-AGAIN ...

随机推荐

双机倒换（NewStartHA，SKYbility，hacmp，hp unix双机）
1.Suse linux (NewStartHA): # cli cli:~>service-migrate Select service to migrate: ...
理解 pkg-config 工具
引用了别人的文章:http://www.chenjunlu.com/2011/03/understanding-pkg-config-tool/ 你在 Unix 或 Linux 下开发过软件吗?写完一 ...
php操作mysql数据库的基本类
代码如下复制代码 <?php$dbhost='localhost';$dbuser='root';$dbpass='123456';$dbname='products';$connect=my ...
提高Linux安全性--hosts.allow, hosts.deny 文件修改方法
有一种办法来提高Linux安全性--修改 hosts.allow , hosts.deny 这2个文件来配置允许某个ip访问, 或者禁止访问. 可以通过这种方式设置限制 sshd 的远程访问, 只允 ...
每日一“酷”之array
array--国定类型数据序列 array模块定义一个序列数据结构,看起来和list非常相似,只不过所有成员都必须是相同的基本类型. 1.初始化 array实例化时可以提高一个参数来描述允许哪个种数据 ...
表达式语言之java对正则表达式的处理
正则表达式用于字符串匹配,字符串查找,字符串替换等.例如注册email格式的验证等.java中处理正则表达式相关的类主要有java.lang.String,java.util.regex.Patter ...
ios/mac/COCOA系列 -- UIALertVIew 学习笔记
最近在学习ios开发,学习的书籍<ios7 Pragramming cookbook>,做笔记的目的以后方便查看.笔记形式是小例子,将书上的例子书写完整. UIAlertViewClass ...
java使用.net的webservice
1.下载最新的axis2 http://mirrors.hust.edu.cn/apache//axis/axis2/java/core/1.6.3/axis2-1.6.3-bin.zip 2.解压使 ...
关于cookie的一点知识
关于cookie的一点知识 1.cookie是存储在客户端计算机中. 2.cookie不能跨浏览器访问.cookie是浏览器保存的,所以不同浏览器对cookie的保存路径.存储数据的格式.文件大小都可 ...
[原创] zabbix学习之旅四：mail客户端安装
相信大家使用zabbix的最主要目的就是当被监控机器发生故障时,能通过zabbix获得第一时间的报警提醒.zabbix常用的报警媒介有email,短信,jabber和脚本,这其中脚本类型最为灵活,尤其 ...

oracle的全文索引

oracle的全文索引的更多相关文章

随机推荐

热门专题