在使用Lucene前,我们先大致熟悉下Lucene的几个核心类。

核心索引类:

  • public class IndexWriter

  索引过程的中心组件,把它想象成一个可以对索引进行写操作的对象。

  • public abstract class Directry

  Directory代表索引所在的位置,该抽象类有两个具体的子类实现。FSDirectory表示存储在文件系统的索引位置,RAMDirectory表示存储在内存中的索引位置。

  

  • public abstract class Analyzer

    分词组件。在建立索引前首先要对文档进行分词,Lucene默认有一些分词类的实现,自己实现的分词要继承该类。

  • public final class Document

    Document类似于数据库中的一条记录,它由好几个字段Field组成。

  • public final class Field

    Field用来描述文档的某个属性,例如文章的标题,内容等等。

核心搜索类:

  • public class IndexSeacher

    用来在已经建好的索引上进行搜索操作

  • public final class Term

    搜索的基本单元。Term对象有两个域组成。Term term = new Term("fieldName","queryWord");

  • public abstract class Query

    抽象类,有很多具体实现类。该类主要作用把用户输入的查询语句转换为Lucene能够是别的query。

  • public final class Hits(TopDocs)

    Hits是用来保存查询得到的结果的。最新版的Lucene中,TopDocs已代替了Hits。

   我们拿一张纸、一支笔,填写下面的表格:    

序号

文件名

文件路径

文件类型

文件大小

修改时间

内容

……

               

填完以后,搜索的时候就可以照着这张纸“按图索骥”了。

在lucene中,这张纸叫做Directory(也就是索引保存的目录),这支笔叫做IndexWriter,表格中一条记录叫做Document,记录中的每项叫做Field。

下面我们来看第一个简单的Lucene实现索引的例子(Lucene版本为4.10.1)。

public class LuceneDemo {

    public static void main(String[] args){

        //RAMDirectory(内存路径)继承自Directory抽象类,另一个继承自该类的是FSDirectory(文件系统路径),Directory dir = FSDirectory.open(new File("此处写索引存储的位置,"));
Directory dir = new RAMDirectory(); //SimpleAnalyzer继承自抽象类Analyzer,是分词组件,不同语言有不同的分词组件包,也可以自己定义实现该抽象类
Analyzer analyzer = new SimpleAnalyzer(); //定义IndexWriterConfig
IndexWriterConfig iwc = new IndexWriterConfig(Version.LATEST, analyzer); //定义document对象
Document doc = new Document(); try { //第一步,切词入库,创建索引。定义IndexWriter对索引进行“写”操作
IndexWriter iw = new IndexWriter(dir, iwc); //Field对象的构造方法有四个参数,前两个参数表示要建立索引的name和value,name指索引的名称,value指要建立索引的“文档对象”,例如博客的标题、正文
//Field.Store有YES和NO两个值,表示是否存储该Field
//Field.Index有5个不同的取值,ANALYZED,ANALYZED_NO_NORMS,NOT_ANALYZED,NOT_ANALYZED_NO_NORMS,NO,根据不同情况选择是否分词
doc.add(new Field("title", "james bonde", Field.Store.YES, Field.Index.ANALYZED));
doc.add(new Field("content","He want to go to school next year.",Field.Store.YES,Field.Index.ANALYZED));
doc.add(new Field("doc","He will go to his mother's home.",Field.Store.YES,Field.Index.ANALYZED));
iw.addDocument(doc);
iw.close(); //第二步,查询索引,返回结果
IndexReader ir = DirectoryReader.open(dir); //定义IndexSearcher
IndexSearcher is = new IndexSearcher(ir); //定义Term,new Term("doc", "home"),第一个值表示要搜索的域,第二个则表示搜索值
Term term = new Term("doc", "home"); //TermQuery继承自Query抽象类,是Lucene最基本的查询
Query query = new TermQuery(term); //执行查询,返回TopDocs对象结果集
TopDocs td = is.search(query, 10); for(int i=0;i<td.scoreDocs.length;i++){
Document d = is.doc(td.scoreDocs[i].doc);
System.out.println("----------"+d.getField("title"));
System.out.println("----------"+d.getField("content"));
System.out.println("----------"+d.getField("doc"));
}
dir.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
} }
索引的创建、修改和删除

首先,我们来看一个例子:开源中国社区每天都有人发布新的博客,同时也有很多人在进行修改和删除博客的操作。如果我们只更新博客数据而不更新对应的索引数据,这会带来那些问题呢?

新增的博客信息不能够及时被用户搜索到;

修改的博客信息查询时依然显示之前的内容;

删除的博客信息查询时存在但实际已被删除。

因此,为了提高系统搜索的准确性和实时性,我们在进行数据更新的同时,也会更新与之对应的索引数据,这样业务数据就可以保持与索引数据的一致,上面的几个问题也就随之解决了。

首先,我们来看新增索引的操作,这个比较简单,之前的例子里面已经有讲到:

//当新增博客时,索引也增量更新
public void addLuceneIndex(Blog blog){ try {
IndexWriter writer = new IndexWriter(directory, config);
Document doc = new Document(); //文章id,需要存储,查询结果的链接需要,但不需要检索
doc.add(new Field("id",blog.getString("id"),Field.Store.YES,Field.Index.NO)); //文章标题,需要存储也需要切词索引
doc.add(new Field("title",blog.getString("title"),Field.Store.YES,Field.Index.ANALYZED)); //文章内容一般会比较长,所以不需要存储,但需要切词索引
doc.add(new Field("content",blog.getString("content"),Field.Store.NO,Field.Index.ANALYZED)); //文章作者,需要存储,整体索引但不切词
doc.add(new Field("author",blog.getString("author"),Field.Store.YES,Field.Index.NOT_ANALYZED));
writer.addDocument(doc);
writer.forceMerge(1);
writer.commit();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
当博客被修改时,对应索引也执行更新操作,实际后台代码执行的是先删除再新增操作。 //索引更新操作
public void updateLuceneIndex(Blog blog){
try {
IndexWriter writer = new IndexWriter(directory, config);
Document doc = new Document();
writer.updateDocument(new Term("id", blog.getString("id")), doc);
writer.forceMerge(1);
writer.commit();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
当文章删除时,对应索引也执行删除操作 //索引删除操作
public void delLuceneIndex(Blog blog){
try {
indexWriter.deleteDocuments(new Term("id", blog.getString("id"))); // Document删除
} catch (IOException e) {
e.printStackTrace();
}
}
最后说明一下,索引文件的增、删、改在实际应用过程中也是有很多策略的。比如对于搜索实时性要求比较高的系统,可以采取实时更新的策略,在更新记录时同时更新索引;如果系统对搜索的实时性要求不高,且服务器资源有限,可以设置一个定时任务,把白天更新的记录都标记出来,在凌晨服务器空闲的时候批量更新。总之,可以根据自己的需要去灵活的应用。 分词(切词) 分词也叫作切词,是指把文档的内容按照一定的规则切分成一个个独立的词语,通俗的说就是把句子切分成词语。分词是影响Lucene查询效率和查询准确率的关键因素。所有的分词器都继承自Lucene的Analyzer,今天介绍最流行和通用的中文分词器IKAnalyzer的使用。 Lucene默认实现的有英文分词。英文分词相对简单,主要是对每个单词的单复数,时态等做转换即可。而中文分词相对更复杂一些。因为中文的词库本身就非常庞杂,同一个句子可能有好几种分词法,不同的分词法可能就会导致不同的查询结果。IKAnalyzer为我们解决以上问题提供了很好的方案,它允许我们可以个性化定义扩展词库,而且分词效率极高。 下面我们来看下IKAnalyzer的配置文件IKAnalyzer.cfg.xml,把它放置到源文件根目录下面,系统会自动加载进来。 <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IKAnalyzer扩展配置</comment> <!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">
/com/jfinal/lucene/ext.dic;
/com/jfinal/lucene/ft_main2012.dic;
/com/jfinal/lucene/ft_quantifier.dic;
</entry> <!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">
/com/jfinal/lucene/stop.dic
</entry> </properties>
ext.dic用来定义自己的扩展词库。比如特定的地名,人名,就相当于告诉分词器如果遇到这些词汇就把它们做单独分词; stop.dic用来定义自己的扩展停止词字典,停止词就是指那些最普通的,没有特定含义的词。比如英语里面的a ,the,汉语里面的了,又等等。 把IKAnalyzer的jar包拷贝到lib下,使用时新建对象即可。 Analyzer analyzer = new IKAnalyzer()

Lucene学习总结的更多相关文章

  1. Lucene学习笔记(更新)

    1.Lucene学习笔记 http://www.cnblogs.com/hanganglin/articles/3453415.html    

  2. Lucene学习总结之七:Lucene搜索过程解析

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  3. Lucene学习总结之六:Lucene打分公式的数学推导

    在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

  4. Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息

    Lucene学习-深入Lucene分词器,TokenStream获取分词详细信息 在此回复牛妞的关于程序中分词器的问题,其实可以直接很简单的在词库中配置就好了,Lucene中分词的所有信息我们都可以从 ...

  5. Lucene学习入门——下载初识

    本文从官网下载Lucene开始,一步一步进行Lucene的应用学习研究.下载初识Snowball Stemmer 1.下载 (1)首先,去Lucne的Apache官网主页 http://lucene. ...

  6. Lucene学习总结之七:Lucene搜索过程解析 2014-06-25 14:23 863人阅读 评论(1) 收藏

    一.Lucene搜索过程总论 搜索的过程总的来说就是将词典及倒排表信息从索引中读出来,根据用户输入的查询语句合并倒排表,得到结果文档集并对文档进行打分的过程. 其可用如下图示: 总共包括以下几个过程: ...

  7. Lucene学习总结之六:Lucene打分公式的数学推导 2014-06-25 14:20 384人阅读 评论(0) 收藏

    在进行Lucene的搜索过程解析之前,有必要单独的一张把Lucene score公式的推导,各部分的意义阐述一下.因为Lucene的搜索过程,很重要的一个步骤就是逐步的计算各部分的分数. Lucene ...

  8. Apache Lucene学习笔记

    Hadoop概述 Apache lucene: 全球第一个开源的全文检索引擎工具包 完整的查询引擎和搜索引擎 部分文本分析引擎 开发人员在此基础建立完整的全文检索引擎 以下为转载:http://www ...

  9. Lucene学习笔记

    师兄推荐我学习Lucene这门技术,用了两天时间,大概整理了一下相关知识点. 一.什么是Lucene Lucene即全文检索.全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明 ...

  10. Lucene学习笔记: 四,Lucene索引过程分析

    对于Lucene的索引过程,除了将词(Term)写入倒排表并最终写入Lucene的索引文件外,还包括分词(Analyzer)和合并段(merge segments)的过程,本次不包括这两部分,将在以后 ...

随机推荐

  1. Java 中的转义字符

    注意斜杠方向,为键盘右上角的斜杠 \t 在当前编辑位置插入一个 tab \b 在当前编辑位置插入一个空格 \n 换行(在当前编辑位置插入 a newline) \r 在当前编辑位置插入一个回车     ...

  2. js流程控制语句

    do...while语句 do...while语句是一种先运行,后判断的循环语句.也就是说,不管条件是否满足,至少先运行一次循环体. var box = 1;                      ...

  3. js中常用的Tab切换

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  4. jsTree 的简单用法--异步加载和刷新数据

    首先这两个文件是必须要引用的,还有就是引用 jQuery 文件就不说了: <link href="/css/plugins/jsTree/style.min.css" rel ...

  5. 继续畅通工程-Floyd

    畅通工程续 Time Limit : 3000/1000ms (Java/Other)   Memory Limit : 32768/32768K (Java/Other) Total Submiss ...

  6. 已知一个日期和天数, 求多少天后的日期(是那个超时代码的AC版)

    #include <stdio.h> #include <string.h> ; int judge_year(int x) { == || x % == && ...

  7. Date类型-演示JS中的日期

    <script type="text/javascript"> /* *演示JS中的日期 */ var date = new Date(); document.writ ...

  8. 【iCore3 双核心板_ uC/OS-III】例程三:任务的挂起与恢复

    实验指导书及代码包下载: http://pan.baidu.com/s/1jIctRVo iCore3 购买链接: https://item.taobao.com/item.htm?id=524229 ...

  9. [IT新应用]如何用好搜索引擎学习英语

    用谷歌可以学习英语,用必应也可以的. 输入如下地址:global.bing.com,如果是中文界面,就单击顶部右侧“Switch to Bing in English”. 这个界面有很多英文原版的时事 ...

  10. Ueditor 1.4.3.1 使用 ThinkPHP 3.2.3 的上传类进行图片上传

    在 ThinkPHP 3.2.3 中集成百度编辑器最新版 Ueditor 1.4.3.1,同时将编辑器自带的上传类替换成 ThinkPHP 3.2.3 中的上传类. ① 下载编辑器(下载地址:http ...