Lucene.net常用功能说明
Lucene.net是一个.net下的全文检索类库。配置简单,功能丰富,比较成熟。我在项目中用Lucene.net有一段时间了,这里我把常用一些功能写出来,与大家一起分享。
Lucene.net用的是3.0版本,分词采用盘古分词。示例程序用VS2010进行编译。
1 索引
在做索引时,有些参数是需要配置的,下面介绍下常用的参数配置。
1) 数据类型,如整形、时间、字符。
每种类型生成的索引方式都是不同的。比如:字符串需要分词,整形数据则不需要。生成索引的方式会影响到检索,如果整形按照字符串的方式生成索引,则比较不容易实现区域检索:如,ID>1000 and ID<2000。
时间索引比较特殊一些。Lucene.net无法对时间字段进行排序和区域检索,所以,要把时间字段转成长整形来实现。时间索引参考如下代码:
var time = DateTime.Now;
var timeField = new NumericField("Publish", Field.Store.YES, true).SetLongValue(time.Ticks);
2) 是否存储元数据。
如果进行存储,Lucene则会把索引数据与元数据同时进行存储。
好处:取数据比较容易。
坏处:索引比较大,可能会影响检索的速度
3) 是否进行排序
Lucene.net是支持排序的,包括整形排序、时间排序、字符串排序。
但排序和索引有什么关系呢?
我们知道Lucene.net做索引时,需要把字符串数据进行分词,便于实现全文检索。这时,如果一段文字已经分过词,如:“我的未来不是梦”,分词后应该是:我-的-未来-不是-梦,这样,一段文字分成若干个词进行索引,索引时,词的顺序也发生了变化。其中有一些词或符号在索引时会被滤掉,所以就无法进行排序了。如果要排序,则不应该进行分词。做索引时参考如下代码:
var filed = new Field("title_sort", "我的未来不是梦", Field.Store.NO, Field.Index.NOT_ANALYZED);
如果一个字段,既要实现模糊检索,又要实现精确匹配或排序,则应该把这个字段做两份索引,一份分词,一份不分词。
2 检索
1) 字符串检索
字符检索时,一般要对关键词进行分词。
var keywords = ParserKeyWord(keyword);
QueryParser parser = new QueryParser(Lucene.Net.Util.Version.LUCENE_30, item.Column, analyzer);
query = parser.Parse(keywords);
2) 时间、整形检索
时间和整形都是通过NumericRangeQuery来实现。
NumericRangeQuery<long> query = NumericRangeQuery.NewLongRange("ID", 0, 10000000, true, true);
3) 全词匹配
如果要实现全词匹配,在做索引时,该字段就不能进行分词。
Term t = new Term(item.Column, item.Value.ToString());
query = new TermQuery(t);
4) 多条件检索
多条件进行检索可以通过BooleanQuery进行实现,参考如下代码:
bq.Add(query, Occur.MUST);
bq.Add(query1, Occur.MUST);
这里query可以是任意检索条件,BooleanQuery只是把条件进行拼接。在多条件的情况下,我们经常会遇到这样的检索条件:title =’a’ and (author=’x’ or author =’y’)
遇到这样的条件时,我们可以使用BooleanQuery进行嵌套。这里我们可以用两个BooleanQuery实现。
BooleanQuery1用来连接author=’x’和 author =’y’,逻辑运算符为OR
BooleanQuery2用来连接title =’a’和BooleanQuery1,逻辑运算会为And。
5) 多索引检索
多索引检索是指同时对多个索引目录进行检索。通过MultiSearcher来实现。参考如下代码:
MultiSearcher multiSearch = new MultiSearcher(allIndexSearch.ToArray());
MultiSearcher初始化时,需要指定多个索引目录,其它操作与单个索引检索基本相同。
6) 多索引并行检索
多索引并行检索是指同时对多个索引进行并行检索。当单个索引超过10G大小时,我们可以考虑做多个索引,然后利用并行检索提高检索性能。并行检索通过ParallelMultiSearcher来实现,参考如下代码:
ParallelMultiSearcher parallelMultiSearch = new ParallelMultiSearcher(allIndexSearch.ToArray());
ParallelMultiSearcher在初始化时,需要指定多个索引目录,其它操作与单个索引检索基本相同。
3 排序
Lucene.net支持常见字段的排序。默认按照相关度进行排序。在实现排序之前,一定要做好索引。当对特定字段进行排序时,会严重影响检索的性能,尤其是按字符串进行排序。当数据量比较大时,一定要先做好压力测试,以便确认lucene.net是否满足性能要求。
排序是在检索时,通过SortField来实现的。参考如下代码:
searcher.Search(query, null, limitCount, new Sort(new SortField("Title", SortField.STRING, true)));
注意SortField.STRING这个参数。这里是字符串,所以用SortField.STRING,如果是整形字段,则参数应该是:SortField.INT。
4 常见问题
1) 时间字段:如果要实现时间字段的排序或区域检索,一定要把时间字段的值转成长整形。细节请参考《索引》。
2) 分页:Lucene.net在检索时有一个参数:(int n),这个参数是用来取前n条记录,一般情况下,这个参数n最好不要太大,否则会影响检索性能。百度即使检索到1亿条记录,但最多也就显示760条记录。我一般都是取1000条记录,然后在内存中进行分页。
3) 关于Lucene.net的性能,可以参考:
http://www.cnblogs.com/xingzhang/p/LuceneProject.html
4) 检索不准:一般情况下检索不准都与分词有关。不同的分词效果会导致检索与预期的不一致。
5 总结
用Lucene.net有一段时间了,总体感觉很稳定、性能也不错、功能实现灵活。但Lucene.net毕竟是一个全文索引项目,所以,要完全实现关系型数据库的功能,如:增、删、改、查、联合检索、分组等,并不容易,而且没有必要。不要用Lucene.net去代替关系型数据库,应该把Lucene.net作为关系型数据库的一个补充。
上面的例子只给出了关键代码或逻辑代码,下面提供完整的源代码。
Lucene.net常用功能说明的更多相关文章
- lucene全文搜索之一:lucene的主要功能和基本结构(基于lucene5.5.3)
前言:lucene并不是像solr或elastic那样提供现成的.直接部署可用的系统,而是一套jar包,提供了一些常见语言分词.构建索引和创建搜索器等等功能的API,我们常用到的也就是分词器.索引目录 ...
- WebStorm 常用功能的使用技巧分享
WebStorm 是 JetBrain 公司开发的一款 JavaScript IDE,使用非常方便,可以使编写代码过程更加流畅. 本文在这里分享一些常用功能的使用技巧,希望能帮助大家更好的使用这款强大 ...
- AVA正则表达式4种常用功能
正则表达式在字符串处理上有着强大的功能,sun在jdk1.4加入了对它的支持 下面简单的说下它的4种常用功能: 查询: String str="abc efg ABC"; Str ...
- [转]WebPack 常用功能介绍
概述 Webpack是一款用户打包前端模块的工具.主要是用来打包在浏览器端使用的javascript的.同时也能转换.捆绑.打包其他的静态资源,包括css.image.font file.templa ...
- FastReport.Net 常用功能总汇
一.常用控件 文本框:输入文字或表达式 表格:设置表格的行列数,输入数字或表达式 子报表:放置子报表后,系统会自动增加一个页面,你可以在此页面上设计需要的报表.系统在打印处理时,先按主报表打印,当碰到 ...
- python3 字符串与列表常用功能
一.字符串常用功能 1. capitalize(),将字符串的首字母变成大写,其余全部置为小写:如果字符串中有多个单词,也只是将第一个单词的首字母置为大写:例: >>> name = ...
- matlab进阶:常用功能的实现,常用函数的说明
常用功能的实现 获取当前脚本所在目录 current_script_dir = fileparts(mfilename('fullpath')); % 结尾不带'/' 常用函数的说明 bsxfun m ...
- WebPack常用功能介绍
概述 Webpack是一款用户打包前端模块的工具.主要是用来打包在浏览器端使用的javascript的.同时也能转换.捆绑.打包其他的静态资源,包括css.image.font file.templa ...
- JavaScript 常用功能总结
小编吐血整理加上翻译,太辛苦了~求赞! 本文主要总结了JavaScript 常用功能总结,如一些常用的JS 对象,基本数据结构,功能函数等,还有一些常用的设计模式. 目录: 众所周知,JavaScri ...
随机推荐
- OpenXml操作Word的一些操作总结. - 天天不在
OpenXml相对于用MS提供的COM组件来生成WORD,有如下优势: 1.相对于MS 的COM组件,因为版本带来的不兼容问题,及各种会生成WORD半途会崩溃的问题. 2.对比填满一张30多页的WOR ...
- HDU 4799 LIKE vs CANDLE 树形dp
题意:有n个人,他们的关系,形成一棵有根树(0是树根,代表管理员),每个人有一个价值 现在有一条微博,每个人要么点赞,要么送一个蜡烛 初始一些人利用bug反转了某些人的操作(赞变蜡烛 或者 蜡烛变成赞 ...
- 使用页面对象模型(pageFactory)
页面对象模型可以使测试脚本有更高癿可维护性,减少了重复癿代码,把页面抽象出来. 页面对象设计模式提供了测试一个接口,测试可以像用户行为一样来操作页面. 通过隐藏页面元素定位,返有劣将测试代码和页面分离 ...
- 为EF DbContext生成的实体添加注释(T5模板应用)[转]
1 先加上类注释 找到这行代码WriteHeader(codeStringGenerator, fileManager): 在它下面加上我们的代码: string summary=string.Emp ...
- 韦东山yy公开课笔记(1)--各种杂的问题
1,第四期的智能猫眼会有打电话和发短信的功能吗? 答:会有打电话功能,硬件上支持打电话就会支持发短信,只是软件上是否实现发短信现在未定.因为短信延迟太严重,不是可靠的. 2,请问关于makefil ...
- oracle sys sysman system 介绍
Oracle数据库中SYS.SYSTEM.DBSNMP.SYSMAN四用户的区别 SYS用户: SYS,默认密码为CHANGE_ON_INSTALL,当创建一个数据库时,SYS用户将被默认创建并授予D ...
- HDU-4414 Finding crosses 水题
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4414 直接暴力判断即可. //STATUS:C++_AC_15MS_232KB #include &l ...
- HDU3695 - Computer Virus on Planet Pandora(AC自动机)
题目大意 给定一个文本串T,然后给定n个模式串,问有多少个模式串在文本串中出现,正反都可以 题解 建立好自动机后.把文本串T正反各匹配一次,刚开始一直TLE...后面找到原因是重复的子串很多以及有模式 ...
- 原来DataTable的Distinct竟如此简单![转]
本文转自:http://www.cnblogs.com/BlueFly/archive/2009/01/08/1372151.html 有时我们需要从DataTable中抽取Distinct数据,以前 ...
- hdoj 1532 Drainage Ditches【最大流模板题】
Drainage Ditches Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...