Lucene.net 的性能探究--Lucene.net 的并发处理能力到底有多强？

这篇博客并不是证明Lucene.net的性能有多强悍，实际上Lucene.net的并发能力并不让人很满意，这得看你怎么用它。

因为Lucene 本身就是一个搜索引擎的基础框架，相当于一辆车子的发动机，而你做的是怎么造出一辆车速度快的车子来。很显然你要有一个好的轮胎，和空气阻力很小的车身造型。如果你的轮子是正方形的，那么马力再强劲的发动起都带不起来，对吧。

作为一名研发工程师，我相信大多工程师都不会造出一个正方形的轮子来跑车。每个人都有使用Lucene的方式，你可以使用elasticsearch 或者solr这些基于Lucene已经二次开发好的搜索引擎框架，你也可以自己基于Lucene进行二次开发，打造属于你自己的搜索引擎。

我属于后者。这里说的Lucene性能包括两种：

1. 建索引的速度

2.搜索的速度

对于搜索引擎来说这两个性能很关键。对于用户来说搜索的速度才是他们最关心的，当然速度也只是搜索效果的一方面，因为还有排序的问题。

接下来先讨论下Lucene.net 的搜索速度：

在讨论搜索速度之前，我们可以简单了解一下Lucene是怎么搜索的，涉及到Lucene的search最重要的几个类：

表面上：

1. 你先得创建一个IndexReader IndexReader类是提供操作索引的权限（search，write，delete，update...）所以无论是在搜索还是建索引的时候，都需要创建一个IndexReader。 IndexReader 是一个虚类，它的子类有两种：AtomicReader 和 CompositeReader AtomicReader故名思议是原子型的IndexReader... 这后面的内容还是有点多的，足以再写一篇文章做总结了。由于不是文章的核心内容，所以放到文章的结尾里补充，如果充分利用好Lucene的IndexReader，你也可以做自己想做的事情，因为Lucene给了你自定义的权限和众多功能的api接口。

2. 创建一个IndexReader ，你需要Directory类，因为Directory是管理索引文件的类。这又是一个十分重要的类，它在Lucene.Store包中。

Directory类是Lucene操作索引目录的类，负责管理目录里的索引文件。我们知道Lucene同一时刻只允许同一个线程进行创建索引操作，经常看到索引文件里有write.lock文件，就是Directory实例创建的。I

我们常用Directory的这几个子类创建IndexReader 实例：FSDirectory，RAMDriectory 。前者表示在文件目录里也就是硬盘中操作索引，后者是加载到内存中操作索引。

而FSDirectory 的子类又有三个：MMapDirectory, NIOFSDirectory, SimpleFSDirectory。这里有必要介绍一下MMapDirectory , 它是利用虚拟内存技术实现的操作文件目录，这里暂且提一下。

于是我们通常可以这样创建一个IndexReader

FSDriectory dir = FSDirectory.Open(storage.IndexDir);

IndexReader indexReader = DirectoryReader.Open(dir);

通过FSDirectory 打开一个索引目录，再通过FSDirectory 创建一个indexReader。

3. 创建IndexSearcher IndexSearcher 的构造函数传入一个IndexReader .IndexSearch提供了Search方法供检索索引。

IndexSearcher 有个重要的性质：线程安全。也就是多线程可以同时使用一个IndexSearch实例。

IndexSearcher luceneSearcher = new Lucene.Net.Search.IndexSearcher(IndexReader);

4. 构造Query

Lucene 的提供了很多Query方式，比如TermQuery 查询文档中某个term是否存在，PhraseQuery 查询文档中两个或多个词是否存在和设定他们之间的距离，

FuzzyQuery 模糊查询，BooleanQuery 集合子查询的查询，等等。。。

TermQuery termQuery = new TermQuery(new Term(filedName,value));

PhraseQuery phraseQuery = new PhraseQuyer();

phraseQuery.Add(new Term(filedName,value));

phraseQuery.Add(new Term(filedName,value));

phraseQuery.Slop=;

BooleanQuery booleanQuery = new BooleanQuery();

booleanQuery.Add(termQuery, Occur.Must);

booleanQuery.Add(phraseQuery,Occur.Must);

luceneSearcher.search(booleanQuery,topn);

上面的只是举例，当然在实际开发中是不会一路写下来的。

代码上就完成了一个检索索引的大致过程，占的篇幅有点多而且内容简单，这肯定不是为了撑篇幅的，因为这些类的使用是比较影响搜索速度的。比如FSDirectory,RAMDirectory..的选用，IndexSearcher的使用和查询方式Query的搭配。

上面的是表面的代码，我觉得有必要对Lucene检索时候，内部的机制进行了解，这样可以解释为什么Lucene不仅是I/O操作密集型的应用，它的CPU消耗也不是开玩笑的。

现在的这个搜索流程就像一个轮子，我们改怎么去用最好的搭配，来达到最快的搜索速度呢？如果你的搜索单条记录更快，那么并发性能就越高。

不同的方法造的轮子的摩擦力是不一样的，所以我们要尽可能的减少的摩擦力。

Lucene.net 的性能探究--Lucene.net 的并发处理能力到底有多强？的更多相关文章

Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之三：Lucene的索引文件格式(1)
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene系列六：Lucene搜索详解（Lucene搜索流程详解、搜索核心API详解、基本查询详解、QueryParser详解）
一.搜索流程详解 1. 先看一下Lucene的架构图由图可知搜索的过程如下: 用户输入搜索的关键字.对关键字进行分词.根据分词结果去索引库里面找到对应的文章id.根据文章id找到对应的文章 2. L ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之三：Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读评论(0) 收藏
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene学习之一：使用lucene为数据库表创建索引，并按关键字查询
最近项目中要用到模糊查询,开始研究lucene,期间走了好多弯路,总算实现了一个简单的demo. 使用的lucene jar包是3.6版本. 一:建立数据库表,并加上测试数据.数据库表:UserInf ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习之二：Lucene的总体架构
本文转载自:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623596.html Lucene总的来说是: 一个高效的,可扩展的,全 ...
Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

随机推荐

小程序 TabBar 定制
使用微信小程序开发时,用到了其 API - tabBar,设置如下(详细的内容可以参考官网 api): "tabBar": { "color": "# ...
关于Setup Factory 9的一些使用方法
之前使用的VS自带的InstallShield2015LimitedEdition 打包工具,但是不太灵活,打包长得也难看:后来使用Setup Factory 9 打包winform应用程序,用起来轻 ...
电子医疗设备创新研发应该用i.MX6Q开发板吗？为医疗设备提供解决方案
伴随医疗信息化.移动化.智能化的不断发展,居民对自身健康的关注度持续加强,全球医疗电子产业近年来持续保持快速增长态势.同时,源于庞大的人口基数以及迅速增长的老龄化人口带来持续增长的医疗服务需求,加之全 ...
phpstudy 2016 切换Nginx+php7.0版本所需运行库 vc14 + 安装redis拓展
去微软官方下载vc14的运行库链接:https://www.microsoft.com/en-us/download/details.aspx?id=48145 32位运行库安装成功切换版本成功 ...
Innodb和Myisam数据恢复
(转自)https://www.cnblogs.com/DwyaneTalk/p/4113829.html 背景这次恢复oracle和sqlserver,想想也不能把mysql落下了吧.三剑合一.都 ...
jxl应用事例
实例中主要目的是解析jxl使用流程以及jxl绘制Excel的写法思路,代码掩去了项目中的真实数据,请根据需求酌情修改,如果有帮助到有需要的人,不胜欢喜. Dao层为查询数据库,返回list数据,此处省 ...
hdu3555数位dp基础
/* dp[i][0|1|2]:没有49的个数|最高位是9,没有49的个数|有49的个数 dp[i][0]=10*dp[i-1][0]-dp[i-1][1] dp[i][1]=dp[i-1][0] d ...
django第三天
从后台传入一层的字典数据后台代码前台代码一浏览器结果前台代码二前台代码三前台代码四注意默认遍历为KEY .values .keys .items 都不加括号
thinkPHP中M()和D()的区别
在实例化的过程中,经常使用D方法和M方法,这两个方法的区别在于M方法实例化模型无需用户为每个数据表定义模型类,如果D方法没有找到定义的模型类,则会自动调用M方法.通俗一点说:M实例化参数是数据库的表名 ...
Scrapy Selectors 选择器
0. 1.参考 <用Python写网络爬虫>——2.2 三种网页抓取方法 re / lxml / BeautifulSoup 需要注意的是,lxml在内部实现中,实际上是将CSS选择器转 ...

Lucene.net 的性能探究--Lucene.net 的并发处理能力到底有多强？

Lucene.net 的性能探究--Lucene.net 的并发处理能力到底有多强？的更多相关文章

随机推荐

热门专题