Lucene 4.x实践1

在Lucene 3.x时代，《Lucene In Action》是一本相当不错的参考书，书中详细介绍了Lucene各种高级使用技术，对于开发者来说非常实用。但是近期Lucene升级到了4.x版本，在性能等各方面有了很大的提高，值得在新项目中使用。然而Lucene 4.x中的API相比3.x来说有了很大的改变，《Lucene In Action》中的很多内容都已经过时了，并且由于4.x推出的时间不长，还没有比较好的文档来对用法进行说明，这个系列文章就是想记录下自己使用Lucene 4.x的经验体会，供大家参考使用。

由于现在网络搜索都希望达到实时搜索的效果，用户上传文章后，希望立即在搜索结果中可见，这就要求我们必须使用Lucene的准实时搜索功能，使我们在不影响性能的情况下达到近实时搜索的效果。然而准实时搜索API在4.x版本中已经与3.x版本完全不同了。

首先来看怎样获取准实时搜索的Reader实例，大家都知道，由于性能等方面原因，基于Lucene的应用一般都采用共享Lucene的Writer和Reader及Searcher的方案，我们这里也不例外：

[java] view plain copy

indexPathname = "D:/aproject/xincaigu/work/index";
analyzer = new MMSegAnalyzer();
IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_41, analyzer);
iwc.setOpenMode(OpenMode.CREATE_OR_APPEND);
try {
indexDir = FSDirectory.open(new File(indexPathname));
writer = new IndexWriter(indexDir, iwc); // writer和reader整个程序共用
reader = DirectoryReader.open(writer, true);
//reader = writer.getReader();
} catch (CorruptIndexException e) {
} catch (LockObtainFailedException e) {
} catch (IOException e) {
}

熟悉Lucene 3.x的朋友一定注意到了，获取准实时搜索所用的Reader已经改用DirectoryReader.open方法，而不是3.x当中的writer.getReader()方法了。

同样，在3.x中，为了可以看到刚刚添加的新文章，Reader需要进行reopen操作，这是一种节省资源的方式，可以获取新加入索引的文章，而不需要将改动保存到磁盘上，然后重新打开索引的方式来进行了。但是reopne在4.x也被新API所取代，具体的用法如下所示：

[java] view plain copy

try {
IndexReader newReader = DirectoryReader.openIfChanged((DirectoryReader)reader, writer, false);//reader.reopen(); // 读入新增加的增量索引内容，满足实时索引需求
if (newReader != null) {
reader.close();
reader = newReader;
}
searcher = new IndexSearcher(reader);
} catch (CorruptIndexException e) {
} catch (IOException e) {
}

这里首先利用新APIDirctoryReader.openIfChanged来获取Reader，如果有新内容，则返回新的Reader，这时我们需要关闭老的Reader。

通过以上代码，我们就可以利用Lucene 4.x的准实时搜索功能了。但是Lucene 4.x中API的变动远不止这些，在进行索引时，原来定义Field的方式已经过时，取而代之的是更加灵活的FieldType机制，下篇文章中我们将详细探讨如何在文本索引中使用这一新的机制。

Lucene 4.x实践1的更多相关文章

lucene 简介和实践分享
之前项目做了搜索的改造,使用lucene,公司内做了相关的技术分享,故先整理下ppt内容,后面会再把项目中的具体做法进行介绍 lucene 简介和实践分享搜索改造项目
基于Lucene的全文检索实践
由于项目的需要,使用到了全文检索技术,这里将前段时间所做的工作进行一个实践总结,方便以后查阅.在实际的工作中,需要灵活的使用lucene里面的查询技术,以达到满足业务要求与搜索性能提升的目的. 一.全 ...
Nutch+Lucene搜索引擎开发实践
网络拓扑图 1 网络拓扑图安装Java JDK 首先查看系统是否已经安装了其它版本号的JDK,假设有,先要把其它版本号的JDK卸载. 用root用户登录系统. # rpm-qa|grep gcj ...
paip.lucene 4.3 中文语义搜索最佳实践
paip.lucene 4.3 中文语义搜索最佳实践首先一个问题是要不要使用lucene 自带的分词器...我觉得最好不使用哪自带的分词器.效果还凑火,就是不好控制... 先使用ik,ict,mms ...
聊聊基于Lucene的搜索引擎核心技术实践
最近公司用到了ES搜索引擎,由于ES是基于Lucene的企业搜索引擎,无意间在“聊聊架构”微信公众号里发现了这篇文章,分享给大家. 请点击链接:聊聊基于Lucene的搜索引擎核心技术实践
干货 |《从Lucene到Elasticsearch全文检索实战》拆解实践
1.题记 2018年3月初,萌生了一个想法:对Elasticsearch相关的技术书籍做拆解阅读,该想法源自非计算机领域红火已久的[樊登读书会].得到的每天听本书.XX拆书帮等. 目前市面上Elast ...
Lucene实践：全文检索的基本原理
一.总论根据http://lucene.apache.org/java/docs/index.html 定义: "Apache Lucene(TM) is a high-performan ...
后端技术杂谈3：Lucene基础原理与实践
本系列文章将整理到我在GitHub上的<Java面试指南>仓库,更多精彩内容请到我的仓库里查看 https://github.com/h2pl/Java-Tutorial 喜欢的话麻烦点下 ...
lucene实践 - 索引维护、多域查询、高亮显示
之前的博客搜索栏用的是 sql 模糊查询进行查找,最近学完lucene,要学以致用啊,就把sql搜索给替换下来吧中间遇到一些问题,也是学过程中没有提到的,所以说,还是实践出真知啊. lucene分开 ...

随机推荐

EBS成本核算方法
业务背景成本核算方法,对应EBS系统中的成本方法,有四种: 1.标准成本 2.平均成本平均成本又分为永续平均成本,即 Average Cost 期间平均成本,按照期间(自然月)来计算的平均成本 F ...
SQL2012之FileTable与C#的联合应用
关于FileTable是什么,请猛击如下链接:http://technet.microsoft.com/zh-cn/library/ff929144(v=SQL.110).aspx:如您已知道,请跳过 ...
Javascript 访问网页弹出qq
先在网页的正文结束位置加上引用代码代码如下 <SCRIPT type="text/javascript" src="/QQ.js"></S ...
odoo view field option， action flage 参数
options JSON object specifying configuration option for the field's widget (including default widget ...
Egret 双端接入爱贝支付遇到的问题
首先要为 egret 工程引入第三方库: Egret 接第三方库:http://edn.egret.com/cn/index.php?g=&m=article&a=index& ...
工作总结：MFC调用Windows自带新建、保存对话框代码
保存: void CExample17Dlg::OnBnClickedSaveButton() { // TODO: Add your control notification handler cod ...
Comparing randomized search and grid search for hyperparameter estimation
Comparing randomized search and grid search for hyperparameter estimation Compare randomized search ...
【Java】Java网络编程菜鸟进阶：TCP和套接字入门
Java网络编程菜鸟进阶:TCP和套接字入门 JDK 提供了对 TCP(Transmission Control Protocol,传输控制协议)和 UDP(User Datagram Protoco ...
【Java】在Eclipse中使用JUnit4进行单元测试（初级篇）
本文绝大部分内容引自这篇文章: http://www.devx.com/Java/Article/31983/0/page/1 我们在编写大型程序的时候,需要写成千上万个方法或函数,这些函数的功能可能 ...
Dungeons and Candies
Zepto Code Rush 2014:http://codeforces.com/problemset/problem/436/C 题意:k个点,每个点都是一个n * m的char型矩阵.对与每个 ...

Lucene 4.x实践1

Lucene 4.x实践1的更多相关文章

随机推荐

热门专题