【Lucene4.8教程之三】搜索

1、关键类

Lucene的搜索过程中涉及的主要类有以下几个：

（1）IndexSearcher：执行search()方法的类

（2）IndexReader：对索引文件进行读操作，并为IndexSearcher提供搜索接口

（3）Query及其子类：查询对象，search()方法的重要参数

（4）QueryParser：根据用户输入的搜索词汇生成Query对象。

（5）TopDocs：search()方法返回的前n个文档

（6）ScoreDocs：提供TopDocs中搜索结果的访问接口

2、搜索的关键步骤

（1）创建IndexReader

（2）使用IndexReader创建IndexSearcher

（3）根据搜索关键字，使用QueryParser生成Query对象

（4）以Query作为参数调用IndexSearcher.search()，执行搜索

（5）以TopDocs以及ScoreDocs遍历结果并处理

示例代码如下：

//（1）创建IndexReader

Directory indexDir2 = FSDirectory.open(indexDir);

IndexReader ir = DirectoryReader.open(indexDir2);

//（2）使用IndexReader创建IndexSearcher

IndexSearcher searcher = new IndexSearcher(ir);

//（3）根据搜索关键字，使用QueryParser生成Query对象

QueryParser parser = new QueryParser(Version.LUCENE_48, "contents",new SimpleAnalyzer(Version.LUCENE_48));

Query query = null;

try {

	query = parser.parse(term);

	} catch (ParseException e) {

		e.printStackTrace();

	}

//（4）以Query作为参数调用IndexSearcher.search()，执行搜索

TopDocs docs = searcher.search(query, 30);		

//（5）以TopDocs以及ScoreDocs遍历结果并处理

ScoreDoc[] hits = docs.scoreDocs;

System.out.println(hits.length);

for (ScoreDoc hit : hits) {

			System.out.println("doc: " + hit.doc + " score: " + hit.score);

		}

3、关于IndexReader

（1）IndexReader未提供构造函数，因此需要通过DirectoryReader.open()方法来创建一个IndexReader。

（2）创建一个IndexReader需要较大的系统开销，因此最好在所有搜索期间都重复使用一个IndexReader，只有在必要的时候才建议打开新的IndexReader。

（3）在创建IndexReader时，它会搜索已有的索引快照，如果你需要搜索索引中的变更信息，那么必须打开一个新的reader。所幸的是IndexReader.reopen方法是一个获取新IndexReader的有效方法，能在耗费较少系统资源的情况下使用当前reader来获取索引中所有的变更信息。【新版本中已废弃，待确认替代方法】

4、关于QueryParser与Query的子类

对于一个搜索而言，其核心语句为：

searcher.search(query, 10);

此时，其最重要的参数为一个Qeury对象。构造一个Query对象有2种方法：【均以在contents域搜索java关键词为例】

（1）使用Query的子类，如BooleanQuery, ConstantScoreQuery, DisjunctionMaxQuery, FilteredQuery, MatchAllDocsQuery, MultiPhraseQuery, MultiTermQuery, PhraseQuery, SpanQuery, TermQuery，直接实例化一个对外：

searcher.search( new TermQuery(new Term("contents","java")), 10);

以下语句结构更为清晰

Term term= new Term("contents","java");

TermQuery tq = new TermQuery(term);

searcher.search(tq , 10);

此外，即为在contents域中搜索包括java的文档。

（2）使用QueryParser的parse()方法，对所传入的搜索关键词汇进行解释，并返回query对象。

QueryParser parser = new QueryParser(Version.LUCENE_48, "contents",new SimpleAnalyzer(Version.LUCENE_48));

Query query = null;

try {

	query = parser.parse("java");

} catch (ParseException e) {

	e.printStackTrace();

}

TopDocs docs = searcher.search(query, 10);

以上语句创建一个QueryParser，其默认搜索域为contents，然后将搜索词汇转化为Query对象。

如果指定QueryParser的默认搜索域为全部？如何指定一个Query的搜索域？

关于QueryParser与Query子类的更详细内容，请参见

【Lucene4.8教程之六】QueryParser与Query子类：如何生成Query对象 http://blog.csdn.net/jediael_lu/article/details/33288793

【Lucene4.8教程之三】搜索的更多相关文章

【Lucene4.8教程之三】搜索 2014-06-21 09:53 1532人阅读评论(0) 收藏
1.关键类 Lucene的搜索过程中涉及的主要类有以下几个: (1)IndexSearcher:执行search()方法的类 (2)IndexReader:对索引文件进行读操作,并为IndexSear ...
【Lucene4.8教程之二】索引
一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates ...
【Lucene4.8教程之二】索引 2014-06-16 11:30 3845人阅读评论(0) 收藏
一.基础内容 0.官方文档说明 (1)org.apache.lucene.index provides two primary classes: IndexWriter, which creates ...
【OpenCV入门教程之三】图像的载入，显示和输出一站式完全解析（转）
本系列文章由@浅墨_毛星云出品,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/20537737 作者:毛星云(浅墨) ...
RabbitMQ系列教程之三：发布/订阅（Publish/Subscribe）（转载）
RabbitMQ系列教程之三:发布/订阅(Publish/Subscribe) (本教程是使用Net客户端,也就是针对微软技术平台的) 在前一个教程中,我们创建了一个工作队列.工作队列背后的假设是每个 ...
【Lucene4.8教程之一】使用Lucene4.8进行索引及搜索的基本操作
在Lucene对文本进行处理的过程中,可以大致分为三大部分: 1.索引文件:提取文档内容并分析,生成索引 2.搜索内容:搜索索引内容,根据搜索关键字得出搜索结果 3.分析内容:对搜索词汇进行分析,生成 ...
【Lucene4.8教程之中的一个】使用Lucene4.8进行索引及搜索的基本操作
版权声明:本文为博主原创文章.转载请注明来自http://blog.csdn.net/jediael_lu/ https://blog.csdn.net/jediael_lu/article/deta ...
EntityFramework_MVC4中EF5 新手入门教程之三 ---3.排序、筛选和分页
在前面的教程你实施了一套基本的 CRUD 操作,为Student实体的 web 页.在本教程中,您将添加排序. 筛选和分页到 StudentsIndex的功能.您还将创建一个页面,并简单分组. 下面的 ...
seo搜索优化教程11-seo搜索优化关键词策略
为了使大家更方便的了解及学习网络营销推广.seo搜索优化,星辉科技强势推出seo搜索优化教程.此为seo教程第11课关键词在seo搜索优化中有着重要的地位,本节主要讲解seo搜索优化中关键词优化的相 ...

随机推荐

git删除分支
git branch -d branchname删除一个分支需要具备的条件: 1 如果待删除的分支没有upstream branch,那么待删除的分支需要合并到HEAD上,否则需要使用-D强制删除 2 ...
Wordpress更换主题之后出错
今天吃完午饭,休息休息,最近搞了一下google adsense,不过最终的审核没通过,我想会不会是界面不好看呢,饭后就在电脑旁,更换了几个wordpress主题,我的博客使用wordpress搭建的 ...
jetty 8.1.8 PWC6345: There is an error in invoking javac. A full JDK (not just JRE) is required
应该是jdk和jre配置问题,建议看看这个博客:http://blog.csdn.net/nba_2011/article/details/7219750里边查看配置方法很清楚
Js之History对象
Window对象的history属性引用的是该窗口的History对象.History对象是用来把窗口的浏览历史用文档和文档状态列表的形式表示.History对象的length属牲表示浏览历史列表中的 ...
android 常用颜色
reference: http://blog.csdn.net/leewenjin/article/details/17386265
图片ppm编码格式
ppm图片有2种格式, ASCII格式和binary格式. (1)ppm头部分由三部分组成,这三部分由回车或换行分割,但PPM的标准中是要求空格. 第一行通常是P3或P6,说明是PPM格式: 第二行 ...
为编写网络爬虫程序安装Python3.5
1. 下载Python3.5.1安装包1.1 进入python官网,点击menu->downloads,网址:https://www.python.org/downloads/ 1.2 根据系统 ...
java设计模式--行为型模式--中介者模式
怎么理解中介者模式,我姑且用房产中介来理解吧.呵呵中介者模式: 中介者模式概述用一个中介对象来封装一系列的对象交互.中介者使各对象不需要显式地相互引用,从而使其耦合松散,而且可以独立地改变它们之 ...
apache http配置https
<一,Lamp系统搭建> yum install httpd httpd-devel mysql mysql-server mysql-devel php php-mysql php-co ...
04747_Java语言程序设计（一）_第1章_Java语言基础
二进制0b开头八进制0开头十六进制0x开头 package com.jacky; public class Aserver { public static void main(String arg ...

【Lucene4.8教程之三】搜索

【Lucene4.8教程之三】搜索的更多相关文章

随机推荐

热门专题