关于Lucene 3.0升级到Lucene 4.x 备忘

　　最近，需要对项目进行lucene版本升级。而原来项目时基于lucene 3.0的，很古老的一个版本的了。在老版本中中，我们主要用了几个lucene的东西：

　　1、查询lucene多目录索引。

　　2、构建RAMDirectory，把索引放到内存中，以提高检索效率。

　　3、构建Lucene自定义分词。

　　4、修改Lucene默认的打分算法。

　下面，将代码改造前和改造后做一对比：

1. 搜索多索引目录

　　 3.0 构建多索引目录：　

     // 初始化全国索引

     private boolean InitGlobal(String strRootPath) {

         try {

             IndexSearcher[] searchers = new IndexSearcher[2];

             MultiSearcher globalSearcher = null;

             if (Configution.IsMMap.equalsIgnoreCase("true")) {

                 searchers[0] = new IndexSearcher(new RAMDirectory(FSDirectory

                         .open(new File(strRootPath + "/" + GLABOL_INDEX))));

                 searchers[1] = new IndexSearcher(new RAMDirectory(FSDirectory

                         .open(new File(strRootPath + "/" + BUS_INDEX))));

 //                searchers[2] = new IndexSearcher(new RAMDirectory(FSDirectory

 //                        .open(new File(strRootPath + "/" + LU_INDEX))));

                 globalSearcher =  new MultiSearcher(searchers);

             } else {

                 searchers[0] = new IndexSearcher(FSDirectory.open(new File(

                         strRootPath + "/" + GLABOL_INDEX)));

                 searchers[1] = new IndexSearcher(FSDirectory.open(new File(

                         strRootPath + "/" + BUS_INDEX)));

 //                searchers[2] = new IndexSearcher(FSDirectory.open(new File(

 //                        strRootPath + "/" + LU_INDEX)));

                 globalSearcher =  new MultiSearcher(searchers);

             }

             System.out.println("finish Global");

             m_mapIndexName2Searcher.put("0", globalSearcher);

             m_mapAdmin2IndexName.put("0", "0");

             return true;

         } catch (Exception e) {

             e.printStackTrace();

             SearchLog.SearchLog.error("全国索引初始化异常");

             return false;

         }

     }

　　　 Ok，使用MultiSearcher，这是lucene低版本搜索多索引的解决方案。但是在高版本，MutiSearcher这个类本身都删除了，折腾我很长时间。可见以版本帝著称的Lucene代码设计不是太好。整个lucene代码，接口使用很少，大多是类和抽象类。

4.x 构建多索引目录：　

	// 初始化全国索引

	private boolean InitGlobal(String strRootPath) {

		try {

			IndexSearcher globalSearcher = null;

			if (Configution.IsMMap.equalsIgnoreCase("true")) {

				IndexReader irGlobal = DirectoryReader.open(new RAMDirectory(FSDirectory

						.open(new File(strRootPath + "/" + GLABOL_INDEX)),new IOContext()));

				IndexReader irBus = DirectoryReader.open(new RAMDirectory(FSDirectory

						.open(new File(strRootPath + "/" + BUS_INDEX)),new IOContext()));

				MultiReader mr = new MultiReader(irGlobal,irBus);

				globalSearcher =  new IndexSearcher(mr);//new MultiSearcher(searchers);

			} else {

				IndexReader irGlobal = DirectoryReader.open(FSDirectory

						.open(new File(strRootPath + "/" + GLABOL_INDEX)));

				IndexReader irBus = DirectoryReader.open(FSDirectory

						.open(new File(strRootPath + "/" + BUS_INDEX)));

				MultiReader mr = new MultiReader(irGlobal,irBus);

				globalSearcher =   new IndexSearcher(mr);//new MultiSearcher(searchers);

			}

			System.out.println("finish Global");

			m_mapIndexName2Searcher.put("0", globalSearcher);

			m_mapAdmin2IndexName.put("0", "0");

			return true;

		} catch (Exception e) {

			e.printStackTrace();

			SearchLog.SearchLog.error("全国索引初始化异常");

			return false;

		}

	}

　　ok 改造后，直接用IndexSearcher替代MultiSearcher，通过传入MultiReader来检索多个索引目录。

　　2、构建RAMDirectory，将索引放入内存中。

　　　　3.0 构建内存索引目录：

                searchers[0] = new IndexSearcher(new RAMDirectory(FSDirectory

                        .open(new File(strRootPath + "/" + GLABOL_INDEX))));

                searchers[1] = new IndexSearcher(new RAMDirectory(FSDirectory

                        .open(new File(strRootPath + "/" + BUS_INDEX))));

　　　　直接将Diretory作为RAMDirectory的构造函数，注意这个动作有坑，如果数据量大，你要等很久的！

　　　　4.x 构建内存索引目录：

                IndexReader irGlobal = DirectoryReader.open(new RAMDirectory(FSDirectory

                        .open(new File(strRootPath + "/" + GLABOL_INDEX)),new IOContext()));

                IndexReader irBus = DirectoryReader.open(new RAMDirectory(FSDirectory

                        .open(new File(strRootPath + "/" + BUS_INDEX)),new IOContext()));

                MultiReader mr = new MultiReader(irGlobal,irBus);

　　　　在4.x中，安装3.0构造方法是不行的，还需要传入一个IOContext对象，汗~~~~~~~~~~~~~~~~

　3、自定义分词：

　　　　3.0 自定义分词：

public class SingleAnalyzer extends Analyzer {

    /**

     * @param args

     */

        public TokenStream tokenStream(String fieldName, Reader reader){

            TokenStream result = null;

            if(fieldName.equals("name"))

            {

                result = new SingleTokenizer(reader);

            }

            if(fieldName.equals("totalcity"))

            {

                result = new IKTokenizer(reader, false);

            }

//        result = new StandardFilter(result);

//        result = new LowerCaseFilter(result);

    //    result = new StopFilter(result, stopSet);

        return result;

        }

    public static void main(String[] args) {

        // TODO Auto-generated method stub

    }

}

　　重写tokenStream方法即可，很简单。

　　　　4.x自定义分词：

public class SingleAnalyzer extends Analyzer {

    /**

     * @param args

     */

//        public TokenStream tokenStream(String fieldName, Reader reader){

//            TokenStream result = null;

//            if(fieldName.equals("name"))

//            {

//                result = new SingleTokenizer(reader);

//            }

//            if(fieldName.equals("totalcity"))

//            {

//                result = new IKTokenizer(reader, false);

//            }

//

////        result = new StandardFilter(result);

////        result = new LowerCaseFilter(result);

//    //    result = new StopFilter(result, stopSet);

//        return result;

//        }

    @Override

    protected TokenStreamComponents createComponents(String fieldName,

            Reader reader) {

        // TODO Auto-generated method stub

//         final Tokenizer source = new ChineseTokenizer(reader);

//          return new TokenStreamComponents(source, new ChineseFilter(source));

        Tokenizer source = null;

        if(fieldName.equals("name")){

            source = new SingleTokenizer(reader);

        }else if(fieldName.equals("totalcity")){

            source = new IKTokenizer(reader, false);

        }

        return new TokenStreamComponents(source, source);

    }

}

　　OK，在4.x中你需要重写createComponents方法。

　　4、打分算法：

　　　　3.x和4.x打分算法变化不大，但是命名空间发生了变化，汗~~~~~~~~~~~~

3.x 命名空间：引入：import org.apache.lucene.search.DefaultSimilarity，命名空间在：org.apache.lucene.search

4.x命名空间：引入：import org.apache.lucene.search.similarities.*，命名空间在：org.apache.lucene.search.similarities。

　　5、查询表达式：主要体现在TermRangeQuery上，3.x版本的一个参数是string类型，但是在4.x版本变成了包了string一层的BytesRef，还有其他很多细节变化

　　　　3.x TermRangerQuery：　

         String left = Long

                     .toString((long) (rcBound.m_dLeft * COORDINATE_SCALE_FACTOR));

             String right = Long

                     .toString((long) (rcBound.m_dRight * COORDINATE_SCALE_FACTOR));

             String top = Long

                     .toString((long) (rcBound.m_dTop * COORDINATE_SCALE_FACTOR));

             String bottom = Long

                     .toString((long) (rcBound.m_dBottom * COORDINATE_SCALE_FACTOR));

             TermRangeQuery query1 = new TermRangeQuery("lon", left, right,

                     true, true);

             TermRangeQuery query2 = new TermRangeQuery("lat", bottom, top,

                     true, true);

             searchQuery.add(query1, BooleanClause.Occur.MUST);

             searchQuery.add(query2, BooleanClause.Occur.MUST);

　　 4.x TermRangerQuery：　　

String left = Long

                    .toString((long) (rcBound.m_dLeft * COORDINATE_SCALE_FACTOR));

            String right = Long

                    .toString((long) (rcBound.m_dRight * COORDINATE_SCALE_FACTOR));

            String top = Long

                    .toString((long) (rcBound.m_dTop * COORDINATE_SCALE_FACTOR));

            String bottom = Long

                    .toString((long) (rcBound.m_dBottom * COORDINATE_SCALE_FACTOR));

            BytesRef brLeft = new BytesRef(left);

            BytesRef brRight = new BytesRef(right);

            BytesRef brBottom = new BytesRef(bottom);

            BytesRef brTop = new BytesRef(top);

            TermRangeQuery query1 = new TermRangeQuery("lon",

                    brLeft, brRight, true, true);

            TermRangeQuery query2 = new TermRangeQuery("lat",

                    brBottom, brTop, true, true);

            searchQuery.add(query1, BooleanClause.Occur.MUST);

            searchQuery.add(query2, BooleanClause.Occur.MUST);

　　6、关闭IndexSearcher

　　　　3.x 关闭IndexSearcher直接调用close方法即可：

 public void UnInit() {

         if (!m_bIsInit)

             return;

         Iterator iter = m_mapIndexName2Searcher.keySet().iterator();

         while (iter.hasNext()) {

             String key = (String) iter.next();

             MultiSearcher val = (MultiSearcher) m_mapIndexName2Searcher

                     .get(key);

             try {

                 val.close();//关闭IndexSearcher

             } catch (IOException e) {

                 e.printStackTrace();

                 SearchLog.SearchLog.error("分级索引关闭异常");

             }

         }

         m_mapIndexName2Searcher.clear();

         m_mapAdmin2IndexName.clear();

         m_mapIndexName2Searcher = null;

         m_mapAdmin2IndexName = null;

         m_bIsInit = false;

     }

　　4.x 关闭IndexSearcher 没有直接close的方法，需要getIndexReader 然后调用IndexReader的close方法：

 public void UnInit() {

         if (!m_bIsInit)

             return;

         Iterator iter = m_mapIndexName2Searcher.keySet().iterator();

         while (iter.hasNext()) {

             String key = (String) iter.next();

             IndexSearcher val = (IndexSearcher) m_mapIndexName2Searcher

                     .get(key);

             try {

                 val.getIndexReader().close();//关闭IndexSearcher

             } catch (IOException e) {

                 e.printStackTrace();

                 SearchLog.SearchLog.error("分级索引关闭异常");

             }

         }

         m_mapIndexName2Searcher.clear();

         m_mapAdmin2IndexName.clear();

         m_mapIndexName2Searcher = null;

         m_mapAdmin2IndexName = null;

         m_bIsInit = false;

     }

　　总之，lucene版本变化很大，如果升级很多方法发送变化，您需要细致观察，多试试，才能升级。升级完成后，最好进行一次功能测试，有些功能可能发生变化甚至错误。升级Lucene不是一件好差事~~~~~~~~~

文章转载请注明出处：http://www.cnblogs.com/likehua/p/4387700.html

关于Lucene 3.0升级到Lucene 4.x 备忘的更多相关文章

Lucene学习总结之四：Lucene索引过程分析 2014-06-25 14:18 884人阅读评论(0) 收藏
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...
Lucene 6.0下使用IK分词器
Lucene 6.0使用IK分词器需要修改修改IKAnalyzer和IKTokenizer. 使用时先新建一个MyIKTokenizer类,一个MyIkAnalyzer类: MyIKTokenizer ...
Lucene 4.0 正式版发布，亮点特性中文解读[转]
http://blog.csdn.net/accesine960/article/details/8066877 2012年10月12日,Lucene 4.0正式发布了(点击这里下载最新版),这个版本 ...
Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习总结之三：Lucene的索引文件格式(1) 2014-06-25 14:15 1124人阅读评论(0) 收藏
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙. 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程, ...
Lucene.Net3.0.3+盘古分词器学习使用
一.Lucene.Net介绍 Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索 ...
Lucene学习总结之四：Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

随机推荐

Code First ：使用Entity. Framework编程(4) ----转发收藏
第4章对关系使用默认规则与配置在第3章,你已经掌握了默认规则与配置对属性以及其在数据库映射的字段的影响.在本章,我们把焦点放在类之间的关系上面.这包括类在内存如何关联,还有数据库中的外键维持等.你 ...
高性能javascript学习笔记系列(4) -算法和流程控制
参考高性能javascript for in 循环使用它可以遍历对象的属性名,但是每次的操作都会搜索实例或者原型的属性导致使用for in 进行遍历会产生更多的开销书中提到不要使用for in ...
【javascript激增的思考02】模块化与MVC
前言之前我们遇到了这么一个项目,也就是我们昨天提到的,有很多的小窗口的,昨天说的太抽象了,今天我们再来理一理什么是小窗口(后面点说下),当时由于js有一点复杂,我自己也装B跟风用了一下传说中MVC! ...
VS2010在64位系统中连接64位Oracle出现的问题和解决方法
C#使用System.Data.OracleClient连接Oracle数据库.我的是window7/64位系统,装了一个64位的oralce 11G r2 客户端是64位的用VS10调试错误信息如 ...
javascript --- javascript与DOM
javascript与DOM: 我们来个例子,一个HTML里包含一段文本和一个无序的列表. <p id="intro">My first paragraph...< ...
yii 的网址收藏
http://blog.csdn.net/yuhui_fish/article/details/7656929 YII框架多子域名同步登录问题 http://blog.csdn.net/yuhui_f ...
XMPP学习——3、XMPP协议学习补充
流基础两个基本概念,使得XMPP实体之间的小的结构化信息有效载荷能快速地进行异步交换:XML流和XML节.这些术语的定义如下. XML流的定义: XML流是一个容器,用于任何两个实体通过网络进行XM ...
Android开发小问题记录
安卓资源文件无法命名大写字母,否则导致不会生成R类!!! 资源文件的命名容许的字符为“a-z0-9_.”,即只容许有小写字母,数字0-9,下划线和点 Notification不显示有些手机会对not ...
我的Android第四章：Android的adb命令使用以及SQlite数据库运用
adb是什么?:adb的全称为Android Debug Bridge,就是起到调试桥的作用. adb有什么用?:借助adb工具,我们可以管理设备或手机模拟器的状态.还可以进行很多手机操作, ...
高仿精仿手机版QQ空间应用源码
说明:本次QQ空间更新了以前非常基础的代码更新内容一更新了登陆界面二增加了输入时密码时和登陆成功后播放音频的效果三增加了导航条渐隐的效果(和真实QQ空间的导航条一样,首先透明,当tablev ...

关于Lucene 3.0升级到Lucene 4.x 备忘

关于Lucene 3.0升级到Lucene 4.x 备忘的更多相关文章

随机推荐

热门专题