Lucene学习总结

在使用Lucene前，我们先大致熟悉下Lucene的几个核心类。

核心索引类：

public class IndexWriter

　　索引过程的中心组件，把它想象成一个可以对索引进行写操作的对象。

public abstract class Directry

　　Directory代表索引所在的位置，该抽象类有两个具体的子类实现。FSDirectory表示存储在文件系统的索引位置，RAMDirectory表示存储在内存中的索引位置。

public abstract class Analyzer

分词组件。在建立索引前首先要对文档进行分词，Lucene默认有一些分词类的实现，自己实现的分词要继承该类。
public final class Document

Document类似于数据库中的一条记录，它由好几个字段Field组成。
public final class Field

Field用来描述文档的某个属性，例如文章的标题，内容等等。

核心搜索类：

public class IndexSeacher

用来在已经建好的索引上进行搜索操作
public final class Term

搜索的基本单元。Term对象有两个域组成。Term term = new Term("fieldName","queryWord");
public abstract class Query

抽象类，有很多具体实现类。该类主要作用把用户输入的查询语句转换为Lucene能够是别的query。
public final class Hits（TopDocs）

Hits是用来保存查询得到的结果的。最新版的Lucene中，TopDocs已代替了Hits。

　　我们拿一张纸、一支笔，填写下面的表格：　　　　

序号	文件名	文件路径	文件类型	文件大小	修改时间	内容	……

填完以后，搜索的时候就可以照着这张纸“按图索骥”了。

在lucene中，这张纸叫做Directory（也就是索引保存的目录），这支笔叫做IndexWriter，表格中一条记录叫做Document，记录中的每项叫做Field。

下面我们来看第一个简单的Lucene实现索引的例子（Lucene版本为4.10.1）。

public class LuceneDemo {

    public static void main(String[] args){

        //RAMDirectory（内存路径）继承自Directory抽象类，另一个继承自该类的是FSDirectory(文件系统路径),Directory dir = FSDirectory.open(new File("此处写索引存储的位置，"));

        Directory dir = new RAMDirectory();

        //SimpleAnalyzer继承自抽象类Analyzer，是分词组件，不同语言有不同的分词组件包，也可以自己定义实现该抽象类

        Analyzer analyzer = new SimpleAnalyzer();

        //定义IndexWriterConfig

        IndexWriterConfig iwc = new IndexWriterConfig(Version.LATEST, analyzer);

        //定义document对象

        Document doc = new Document();

        try {

            //第一步，切词入库，创建索引。定义IndexWriter对索引进行“写”操作

            IndexWriter iw = new IndexWriter(dir, iwc);

            //Field对象的构造方法有四个参数，前两个参数表示要建立索引的name和value，name指索引的名称，value指要建立索引的“文档对象”，例如博客的标题、正文

            //Field.Store有YES和NO两个值，表示是否存储该Field

            //Field.Index有5个不同的取值,ANALYZED，ANALYZED_NO_NORMS，NOT_ANALYZED，NOT_ANALYZED_NO_NORMS，NO,根据不同情况选择是否分词

            doc.add(new Field("title", "james bonde", Field.Store.YES, Field.Index.ANALYZED));

            doc.add(new Field("content","He want to go to school next year.",Field.Store.YES,Field.Index.ANALYZED));

            doc.add(new Field("doc","He will go to his mother's home.",Field.Store.YES,Field.Index.ANALYZED));

            iw.addDocument(doc);

            iw.close();

            //第二步，查询索引，返回结果

            IndexReader ir = DirectoryReader.open(dir);

            //定义IndexSearcher

            IndexSearcher is = new IndexSearcher(ir);

            //定义Term，new Term("doc", "home")，第一个值表示要搜索的域，第二个则表示搜索值

            Term term = new Term("doc", "home");

            //TermQuery继承自Query抽象类，是Lucene最基本的查询

            Query query = new TermQuery(term);

            //执行查询，返回TopDocs对象结果集

            TopDocs td = is.search(query, 10);

            for(int i=0;i<td.scoreDocs.length;i++){

                Document d = is.doc(td.scoreDocs[i].doc);

                System.out.println("----------"+d.getField("title"));

                System.out.println("----------"+d.getField("content"));

                System.out.println("----------"+d.getField("doc"));

            }

            dir.close();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

索引的创建、修改和删除

首先，我们来看一个例子：开源中国社区每天都有人发布新的博客，同时也有很多人在进行修改和删除博客的操作。如果我们只更新博客数据而不更新对应的索引数据，这会带来那些问题呢？

新增的博客信息不能够及时被用户搜索到；

修改的博客信息查询时依然显示之前的内容；

删除的博客信息查询时存在但实际已被删除。

因此，为了提高系统搜索的准确性和实时性，我们在进行数据更新的同时，也会更新与之对应的索引数据，这样业务数据就可以保持与索引数据的一致，上面的几个问题也就随之解决了。

首先，我们来看新增索引的操作，这个比较简单，之前的例子里面已经有讲到：

//当新增博客时，索引也增量更新

public void addLuceneIndex(Blog blog){

    try {

        IndexWriter writer = new IndexWriter(directory, config);

        Document doc = new Document();

        //文章id，需要存储，查询结果的链接需要，但不需要检索

        doc.add(new Field("id",blog.getString("id"),Field.Store.YES,Field.Index.NO));

        //文章标题，需要存储也需要切词索引

        doc.add(new Field("title",blog.getString("title"),Field.Store.YES,Field.Index.ANALYZED));

        //文章内容一般会比较长，所以不需要存储，但需要切词索引

        doc.add(new Field("content",blog.getString("content"),Field.Store.NO,Field.Index.ANALYZED));

        //文章作者，需要存储，整体索引但不切词

        doc.add(new Field("author",blog.getString("author"),Field.Store.YES,Field.Index.NOT_ANALYZED));

        writer.addDocument(doc);

        writer.forceMerge(1);

        writer.commit();

  } catch (IOException e) {

      // TODO Auto-generated catch block

      e.printStackTrace();

  }

}

当博客被修改时，对应索引也执行更新操作，实际后台代码执行的是先删除再新增操作。

//索引更新操作

public void updateLuceneIndex(Blog blog){

    try {

        IndexWriter writer = new IndexWriter(directory, config);

        Document doc = new Document();

        writer.updateDocument(new Term("id", blog.getString("id")), doc);

        writer.forceMerge(1);

        writer.commit();

    } catch (IOException e) {

        // TODO Auto-generated catch block

        e.printStackTrace();

    }

}

当文章删除时，对应索引也执行删除操作

//索引删除操作

public void delLuceneIndex(Blog blog){

    try {

        indexWriter.deleteDocuments(new Term("id", blog.getString("id")));  // Document删除

    } catch (IOException e) {

        e.printStackTrace();

    }

}

最后说明一下，索引文件的增、删、改在实际应用过程中也是有很多策略的。比如对于搜索实时性要求比较高的系统，可以采取实时更新的策略，在更新记录时同时更新索引；如果系统对搜索的实时性要求不高，且服务器资源有限，可以设置一个定时任务，把白天更新的记录都标记出来，在凌晨服务器空闲的时候批量更新。总之，可以根据自己的需要去灵活的应用。

分词（切词）

分词也叫作切词，是指把文档的内容按照一定的规则切分成一个个独立的词语，通俗的说就是把句子切分成词语。分词是影响Lucene查询效率和查询准确率的关键因素。所有的分词器都继承自Lucene的Analyzer，今天介绍最流行和通用的中文分词器IKAnalyzer的使用。

Lucene默认实现的有英文分词。英文分词相对简单，主要是对每个单词的单复数，时态等做转换即可。而中文分词相对更复杂一些。因为中文的词库本身就非常庞杂，同一个句子可能有好几种分词法，不同的分词法可能就会导致不同的查询结果。IKAnalyzer为我们解决以上问题提供了很好的方案，它允许我们可以个性化定义扩展词库，而且分词效率极高。

下面我们来看下IKAnalyzer的配置文件IKAnalyzer.cfg.xml，把它放置到源文件根目录下面，系统会自动加载进来。

<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">

<properties>

    <comment>IKAnalyzer扩展配置</comment>

    <!--用户可以在这里配置自己的扩展字典-->

    <entry key="ext_dict">

        /com/jfinal/lucene/ext.dic;

        /com/jfinal/lucene/ft_main2012.dic;

        /com/jfinal/lucene/ft_quantifier.dic;

    </entry>

    <!--用户可以在这里配置自己的扩展停止词字典-->

    <entry key="ext_stopwords">

        /com/jfinal/lucene/stop.dic

    </entry>

</properties>

ext.dic用来定义自己的扩展词库。比如特定的地名，人名，就相当于告诉分词器如果遇到这些词汇就把它们做单独分词；

stop.dic用来定义自己的扩展停止词字典，停止词就是指那些最普通的，没有特定含义的词。比如英语里面的a ，the，汉语里面的了，又等等。

把IKAnalyzer的jar包拷贝到lib下，使用时新建对象即可。

Analyzer analyzer = new IKAnalyzer()

Lucene学习总结的更多相关文章

Lucene学习笔记（更新）
1.Lucene学习笔记 http://www.cnblogs.com/hanganglin/articles/3453415.html
Lucene学习总结之七：Lucene搜索过程解析
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息
Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...
Lucene学习入门——下载初识
本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...
Lucene学习总结之七：Lucene搜索过程解析 2014-06-25 14:23 863人阅读评论(1) 收藏
一.Lucene搜索过程总论搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...
Lucene学习总结之六：Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读评论(0) 收藏
在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...
Apache Lucene学习笔记
Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包完整的查询引擎和搜索引擎部分文本分析引擎开发人员在此基础建立完整的全文检索引擎以下为转载:http://www ...
Lucene学习笔记
师兄推荐我学习Lucene这门技术,用了两天时间,大概整理了一下相关知识点. 一.什么是Lucene Lucene即全文检索.全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明 ...
Lucene学习笔记：四，Lucene索引过程分析
对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

随机推荐

Linux_文件打包,压缩,解压
一.压缩命令文件格式:*.gz 命令:gzip 文件名 (ps:不能压缩目录,切压缩后不保留原文件) 压缩前 -rw-r--r--. 1 root root 315 Sep 6 21:03 df.t ...
javaweb实验五
product类: package com.lab;public class Product { private int id; // 商品编号 private S ...
c# 函数练习
1.out的使用 2.100以内与7无关的数(个位数是7,十位数是7,7的倍数) 每日一句:不求与人相比,但求超越自己,要哭就哭出激动的泪水,要笑就笑出成长的性格!
理解group by 语句的扩展使用
在SQL的开发中我们会经常使用group by语句对数据进行分组统计,然而在一些复杂的BI报表开发中会常遇到更复杂的分组需求,单单使用group by 就不能解决我们的问题了,这时我们就需要学习了解一 ...
微信APP支付Java后端回调处理
package com.gaoxiao.framework.controller.gaojia; import com.gaoxiao.framework.commonfiles.entity.Sta ...
Lambda表达式公共拼接函数（原创）
#region Lambda公共拼接函数 /// <summary> /// LambdaWhere(枚举) /// </summary> public enum Lambda ...
Java代理模式
java代理模式及动态代理类 1. 代理模式代理模式的作用是:为其他对象提供一种代理以控制对这个对象的访问.在某些情况下,一个客户不想或者不能直接引用另一个对象,而代理对象可以在客户端和目 ...
《最终幻想XV》中角色AI的意识决策系统解析
http://gad.qq.com/article/detail/7155321
Thinking in Java——笔记(9)
Polymorphism Abstract classes and methods If you have an abstract class, objects of that specific cl ...
使用windows资源管理器的排序规则
对于windows资源管理器 abc_1_def是要排到abc_10_def前面的而一般的排序规则, 都会吧_10_排到前面所以为了使用习惯, 最好用资源管理器的排序规则, windows有个AP ...

Lucene学习总结

Lucene学习总结的更多相关文章

随机推荐

热门专题