最近,需要对项目进行lucene版本升级。而原来项目时基于lucene 3.0的,很古老的一个版本的了。在老版本中中,我们主要用了几个lucene的东西:

  1、查询lucene多目录索引。

  2、构建RAMDirectory,把索引放到内存中,以提高检索效率。

  3、构建Lucene自定义分词。

  4、修改Lucene默认的打分算法。

   下面,将代码改造前和改造后做一对比:

1. 搜索多索引目录

   3.0 构建多索引目录: 

     // 初始化全国索引
private boolean InitGlobal(String strRootPath) {
try { IndexSearcher[] searchers = new IndexSearcher[2]; MultiSearcher globalSearcher = null;
if (Configution.IsMMap.equalsIgnoreCase("true")) { searchers[0] = new IndexSearcher(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + GLABOL_INDEX))));
searchers[1] = new IndexSearcher(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + BUS_INDEX))));
// searchers[2] = new IndexSearcher(new RAMDirectory(FSDirectory
// .open(new File(strRootPath + "/" + LU_INDEX))));
globalSearcher = new MultiSearcher(searchers);
} else {
searchers[0] = new IndexSearcher(FSDirectory.open(new File(
strRootPath + "/" + GLABOL_INDEX)));
searchers[1] = new IndexSearcher(FSDirectory.open(new File(
strRootPath + "/" + BUS_INDEX)));
// searchers[2] = new IndexSearcher(FSDirectory.open(new File(
// strRootPath + "/" + LU_INDEX))); globalSearcher = new MultiSearcher(searchers);
}
System.out.println("finish Global"); m_mapIndexName2Searcher.put("0", globalSearcher);
m_mapAdmin2IndexName.put("0", "0"); return true; } catch (Exception e) {
e.printStackTrace();
SearchLog.SearchLog.error("全国索引初始化异常");
return false;
}
}

     Ok,使用MultiSearcher,这是lucene低版本搜索多索引的解决方案。但是在高版本,MutiSearcher这个类本身都删除了,折腾我很长时间。可见以版本帝著称的Lucene代码设计不是太好。整个lucene代码,接口使用很少,大多是类和抽象类。

4.x 构建多索引目录: 

	// 初始化全国索引
private boolean InitGlobal(String strRootPath) {
try { IndexSearcher globalSearcher = null;
if (Configution.IsMMap.equalsIgnoreCase("true")) { IndexReader irGlobal = DirectoryReader.open(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + GLABOL_INDEX)),new IOContext())); IndexReader irBus = DirectoryReader.open(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + BUS_INDEX)),new IOContext())); MultiReader mr = new MultiReader(irGlobal,irBus); globalSearcher = new IndexSearcher(mr);//new MultiSearcher(searchers);
} else { IndexReader irGlobal = DirectoryReader.open(FSDirectory
.open(new File(strRootPath + "/" + GLABOL_INDEX))); IndexReader irBus = DirectoryReader.open(FSDirectory
.open(new File(strRootPath + "/" + BUS_INDEX))); MultiReader mr = new MultiReader(irGlobal,irBus);
globalSearcher = new IndexSearcher(mr);//new MultiSearcher(searchers);
}
System.out.println("finish Global"); m_mapIndexName2Searcher.put("0", globalSearcher);
m_mapAdmin2IndexName.put("0", "0"); return true; } catch (Exception e) {
e.printStackTrace();
SearchLog.SearchLog.error("全国索引初始化异常");
return false;
}
}

  ok 改造后,直接用IndexSearcher替代MultiSearcher,通过传入MultiReader来检索多个索引目录。

  2、构建RAMDirectory,将索引放入内存中。

    3.0 构建内存索引目录:

                searchers[0] = new IndexSearcher(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + GLABOL_INDEX))));
searchers[1] = new IndexSearcher(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + BUS_INDEX))));

    直接将Diretory作为RAMDirectory的构造函数,注意这个动作有坑,如果数据量大,你要等很久的!

    4.x 构建内存索引目录:

                IndexReader irGlobal = DirectoryReader.open(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + GLABOL_INDEX)),new IOContext())); IndexReader irBus = DirectoryReader.open(new RAMDirectory(FSDirectory
.open(new File(strRootPath + "/" + BUS_INDEX)),new IOContext())); MultiReader mr = new MultiReader(irGlobal,irBus);

    在4.x中,安装3.0构造方法是不行的,还需要传入一个IOContext对象,汗~~~~~~~~~~~~~~~~

 3、自定义分词:

    3.0 自定义分词:

public class SingleAnalyzer extends Analyzer {

    /**
* @param args
*/ public TokenStream tokenStream(String fieldName, Reader reader){
TokenStream result = null;
if(fieldName.equals("name"))
{
result = new SingleTokenizer(reader);
}
if(fieldName.equals("totalcity"))
{
result = new IKTokenizer(reader, false);
} // result = new StandardFilter(result);
// result = new LowerCaseFilter(result);
// result = new StopFilter(result, stopSet);
return result;
} public static void main(String[] args) {
// TODO Auto-generated method stub } }

  重写tokenStream方法即可,很简单。

    4.x自定义分词:

public class SingleAnalyzer extends Analyzer {

    /**
* @param args
*/ // public TokenStream tokenStream(String fieldName, Reader reader){
// TokenStream result = null;
// if(fieldName.equals("name"))
// {
// result = new SingleTokenizer(reader);
// }
// if(fieldName.equals("totalcity"))
// {
// result = new IKTokenizer(reader, false);
// }
//
//// result = new StandardFilter(result);
//// result = new LowerCaseFilter(result);
// // result = new StopFilter(result, stopSet);
// return result;
// } @Override
protected TokenStreamComponents createComponents(String fieldName,
Reader reader) {
// TODO Auto-generated method stub
// final Tokenizer source = new ChineseTokenizer(reader);
// return new TokenStreamComponents(source, new ChineseFilter(source));
Tokenizer source = null;
if(fieldName.equals("name")){
source = new SingleTokenizer(reader);
}else if(fieldName.equals("totalcity")){
source = new IKTokenizer(reader, false);
}
return new TokenStreamComponents(source, source);
} }

  OK,在4.x中你需要重写createComponents方法。

  4、打分算法:

    3.x和4.x打分算法变化不大,但是命名空间发生了变化,汗~~~~~~~~~~~~

3.x 命名空间:引入:import org.apache.lucene.search.DefaultSimilarity,命名空间在:org.apache.lucene.search

4.x命名空间:引入:import org.apache.lucene.search.similarities.*,命名空间在:org.apache.lucene.search.similarities。

  5、查询表达式:主要体现在TermRangeQuery上,3.x版本的一个参数是string类型,但是在4.x版本变成了包了string一层的BytesRef,还有其他很多细节变化

    3.x TermRangerQuery: 

         String left = Long
.toString((long) (rcBound.m_dLeft * COORDINATE_SCALE_FACTOR));
String right = Long
.toString((long) (rcBound.m_dRight * COORDINATE_SCALE_FACTOR));
String top = Long
.toString((long) (rcBound.m_dTop * COORDINATE_SCALE_FACTOR));
String bottom = Long
.toString((long) (rcBound.m_dBottom * COORDINATE_SCALE_FACTOR)); TermRangeQuery query1 = new TermRangeQuery("lon", left, right,
true, true);
TermRangeQuery query2 = new TermRangeQuery("lat", bottom, top,
true, true);
searchQuery.add(query1, BooleanClause.Occur.MUST);
searchQuery.add(query2, BooleanClause.Occur.MUST);

    4.x TermRangerQuery:  

String left = Long
.toString((long) (rcBound.m_dLeft * COORDINATE_SCALE_FACTOR));
String right = Long
.toString((long) (rcBound.m_dRight * COORDINATE_SCALE_FACTOR));
String top = Long
.toString((long) (rcBound.m_dTop * COORDINATE_SCALE_FACTOR));
String bottom = Long
.toString((long) (rcBound.m_dBottom * COORDINATE_SCALE_FACTOR)); BytesRef brLeft = new BytesRef(left);
BytesRef brRight = new BytesRef(right);
BytesRef brBottom = new BytesRef(bottom);
BytesRef brTop = new BytesRef(top); TermRangeQuery query1 = new TermRangeQuery("lon",
brLeft, brRight, true, true);
TermRangeQuery query2 = new TermRangeQuery("lat",
brBottom, brTop, true, true);
searchQuery.add(query1, BooleanClause.Occur.MUST);
searchQuery.add(query2, BooleanClause.Occur.MUST);

  6、关闭IndexSearcher

    3.x 关闭IndexSearcher直接调用close方法即可:

 public void UnInit() {
if (!m_bIsInit)
return; Iterator iter = m_mapIndexName2Searcher.keySet().iterator(); while (iter.hasNext()) { String key = (String) iter.next(); MultiSearcher val = (MultiSearcher) m_mapIndexName2Searcher
.get(key); try { val.close();//关闭IndexSearcher
} catch (IOException e) {
e.printStackTrace();
SearchLog.SearchLog.error("分级索引关闭异常");
}
} m_mapIndexName2Searcher.clear();
m_mapAdmin2IndexName.clear();
m_mapIndexName2Searcher = null;
m_mapAdmin2IndexName = null;
m_bIsInit = false;
}

  4.x 关闭IndexSearcher 没有直接close的方法,需要getIndexReader 然后调用IndexReader的close方法:

 public void UnInit() {
if (!m_bIsInit)
return; Iterator iter = m_mapIndexName2Searcher.keySet().iterator(); while (iter.hasNext()) { String key = (String) iter.next(); IndexSearcher val = (IndexSearcher) m_mapIndexName2Searcher
.get(key); try {
val.getIndexReader().close();//关闭IndexSearcher
} catch (IOException e) {
e.printStackTrace();
SearchLog.SearchLog.error("分级索引关闭异常");
}
} m_mapIndexName2Searcher.clear();
m_mapAdmin2IndexName.clear();
m_mapIndexName2Searcher = null;
m_mapAdmin2IndexName = null;
m_bIsInit = false;
}

  总之,lucene版本变化很大,如果升级很多方法发送变化,您需要细致观察,多试试,才能升级。升级完成后,最好进行一次功能测试,有些功能可能发生变化甚至错误。升级Lucene不是一件好差事~~~~~~~~~

文章转载请注明出处:http://www.cnblogs.com/likehua/p/4387700.html

    

  

关于Lucene 3.0升级到Lucene 4.x 备忘的更多相关文章

  1. Lucene学习总结之四:Lucene索引过程分析 2014-06-25 14:18 884人阅读 评论(0) 收藏

    对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

  2. Lucene 6.0下使用IK分词器

    Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer ...

  3. Lucene 4.0 正式版发布,亮点特性中文解读[转]

    http://blog.csdn.net/accesine960/article/details/8066877 2012年10月12日,Lucene 4.0正式发布了(点击这里下载最新版),这个版本 ...

  4. Lucene学习总结之六:Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读 评论(0) 收藏

    在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

  5. Lucene学习总结之三:Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读 评论(0) 收藏

    Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...

  6. Lucene.Net3.0.3+盘古分词器学习使用

    一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索 ...

  7. Lucene学习总结之四:Lucene索引过程分析

    对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

  8. Lucene学习总结之七:Lucene搜索过程解析

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  9. Lucene学习总结之六:Lucene打分公式的数学推导

    在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

随机推荐

  1. Sharepoint2013:日期控件报错

    1 问题 1> 在sharepoint中的,日期控件(DateTimeControl),日期过滤控件(Date Filter)和SPListViewFilter等包含日期组件的控件,在特定情况下 ...

  2. 优秀的 HTML5 实战教程,提升你的综合开发能力

    HTML5 作为下一代网站开发技术,无论你是一个 Web 开发人员或者想探索新的平台的游戏开发者,都值得去研究.借助尖端功能,技术和 API,HTML5 允许你创建响应性.创新性.互动性以及令人惊叹的 ...

  3. ABAP 数据字典中的参考表和参考字段的作用

         ABAP数据字典中的参考表和参考字段的作用 大家最初在SE11中创建表和结构的时候都会遇到一个问题,如果设定了某个字段为QUAN或者CURR类型,也就是数量或金额的时候,总会要求输入一个参考 ...

  4. SharePoint Online 创建门户网站系列之创建栏目

    前 言 SharePoint Online的栏目,简单描述即显示在首页上的各个模块信息,这里,我们主要介绍我们首页上的栏目,包括简介类型.新闻列表类型.图片类型: 下面,让我们开始在SharePoin ...

  5. Atitit jOrgChart的使用  组织架构图css html

    Atitit jOrgChart的使用  组织架构图css html 1. 项目要做组织架构图,要把它做成自上而下的树形结构,于是决定1 2. Html导入 以来的css js1 2.1. 数据来源 ...

  6. 使用 SQL的 for xml path来进行字符串拼接 (group by)

    参考: http://www.cnblogs.com/repository/archive/2011/01/18/1938418.html select convert(varchar(10),c.[ ...

  7. c#程序打包大全

    c#程序打包现在分为两种,一种是VS自带的打包方式,还有一种是第三方的打包方式,在VS2013里面是没有自带打包安装部署的,只有第三方的创建. 第三方打包方式很简单,百度Installshield下载 ...

  8. 开发者账号续期后,itunes停止付款了

    开发者账号过期后,没有及时续期,等再续期后,itunes停止付款到公司银行账户了.过了一个多月了还是没有收到itunes的付款.然后开始联系苹果客服和技术支持,他们都说只能通过itunes的“联系我们 ...

  9. XMPP实现登陆注销功能

    XMPP框架的下载与导入等问题请参照 —— XMPP框架的分析.导入及问题解决 DEMO ——XMPP即时通讯(已导入框架)密码:3a7n 这篇我们利用XMPP框架来实现一下登陆功能,先来介绍一下XM ...

  10. android studio我的习惯操作

    一.修改字体 点击左上角File选择settings....进入界面选择Editor-->Colors&Fonts-->Font点击界面中Save As...在对话框中输入名字点击 ...