上一节主要总结了一下Lucene是如何构建索引的,这一节简单总结一下Lucene中的搜索功能。主要分为几个部分,对特定项的搜索;查询表达式QueryParser的使用;指定数字范围内搜索;指定字符串开头搜索以及多条件查询。

1. 对特定项的搜索

  要使用Lucene的搜索功能,首先得有索引,也就是说Lucene首先得针对特定的文件生成特定的索引,然后我们才能搜索,这在第一节里描述的很清楚,那么构建索引的例子也是使用第一节中的例子,在这就不再赘述了,然后生成了索引后,如何来搜索呢?先看第一种搜索方式:对特定项的搜索。使用的文件和建立的索引还是使用第一节的那些,生成好了索引后,就可以对特定项进行搜索了。

public class SearchTest {

    private Directory dir;
private IndexReader reader;
private IndexSearcher search; @Before
public void setUp() throws Exception { dir = FSDirectory.open(Paths.get("D:\\lucene")); //索引的目录在D:\\lucene
reader = DirectoryReader.open(dir); //根据目录获取IndexReader
search = new IndexSearcher(reader); //根据IndexReader获取IndexSearcher
} @After
public void tearDown() throws Exception {
reader.close(); //关闭InderxReader
} //对特定项进行搜索
@Test
public void testTermQuery() throws Exception {
String searchField = "contents";
String q = "particular";
Term term = new Term(searchField, q);
Query query = new TermQuery(term);
TopDocs hits = search.search(query, 10);
System.out.println("匹配" + q + "总共查询到" + hits.totalHits + "个文档");
for(ScoreDoc score : hits.scoreDocs) {
Document doc = search.doc(score.doc);
System.out.println(doc.get("fullPath"));
}
}
}

 首先初始化IndexSearcher,在搜索的时候,要在特定的Field中对特定的字符串q进行搜索,由上面的程序可知,我要在contents字段中搜索particular这个字符串。contents是在建立索引的时候建立的,包括程序最后一行中的fullPath字段,都是在建立索引的时候创建的。有了Field和搜索字符串后,就可以生成一个搜索项Term了,然后根据这个搜索项创建一个搜索。最后就可以搜索出包含这个字符串的文件的路径。 
  这是针对特定项进行搜索,为什么叫针对特定项呢?因为如果我搜索particul,那么结果就为0,也就是说我必须是针对具体的一个单词,也就是说Lucene在建立索引的时候也是根据一个个单词来的,如果我只搜索单词的一部分,那么是搜不到的,所以这种针对特定项搜索其实用的不多,因为在实际中,我如果搜索particul的话,理论上应该能将particular搜出来才对。所以要用到查询表达式QueryParser。

2. 使用查询表达式QueryParser搜索

首先来看一下如何使用这个QueryParser。

@Test
public void testQueryParser() throws Exception {
Analyzer analyzer = new StandardAnalyzer(); //标准分词器,会自动去掉空格啊,is a the等单词
String searchField = "contents";
String q = "particular"; //OR AND particular~
QueryParser parser = new QueryParser(searchField, analyzer); //查询解析器
Query query = parser.parse(q); //通过解析要查询的String,获取查询对象
TopDocs docs = search.search(query, 10);//开始查询,查询前10条数据,将记录保存在docs中
System.out.println("匹配" + q + "总共查询到" + docs.totalHits + "个文档");
for(ScoreDoc scoreDoc : docs.scoreDocs) { //取出每条查询结果
Document doc = search.doc(scoreDoc.doc); //scoreDoc.doc相当于docID,根据这个docID来获取文档
System.out.println(doc.get("fullPath")); //fullPath是刚刚建立索引的时候我们定义的一个字段
}
}

 从程序中可以看出,初始化QueryParser需要传入一个分词器,这里使用的是标准分词器,然后跟上面一样,得指定具体的Field和要查询的字符串。这看起来好像和上面根据特定项来搜索没什么两样,其实不然,使用QueryParser的好处就在于初始化查询字符串q的时候,是有语法的,程序中只是简单的查询一个particular单词而已。 
  如果我将q改成”particular OR Unicode”,那么Lucene就会查询出所有包含particular或Unicode(不区分大小写)的文档,这里的OR也可以省略不写。同样的,如果我把OR改成AND,那么就是查询出所有包含particular且包含Unicode的文档。那么如果我要类似于上面提到的模糊查询呢?比如我输入particul想查出particular咋整呢?可以将q定义为“particul~”,这样就OK了。实际中用的比较多的是这个QueryParser,这一块更多的内容可以看一下官方文档。

3. 指定数字范围搜索

  这个主要用于某个字段是int型的,然后可以根据这个字段来搜索,可以搜索某两个int值范围内的所有项。为了模拟这个场景,我使用上一节的例子来建立索引,因为里面有id,将其修改为Integer类型即可。然后看下如何指定数字范围内搜索。

@Test
public void testNumericRangeQuery() throws Exception {
NumericRangeQuery<Integer> query = NumericRangeQuery.newIntRange("id", 1, 2, true, true);
TopDocs hits = search.search(query, 10);
System.out.println("总共查询到" + hits.totalHits + "个文档");
for (ScoreDoc score : hits.scoreDocs) {
Document doc = search.doc(score.doc);
System.out.println(doc.get("id"));
System.out.println(doc.get("city"));
System.out.println(doc.get("desc"));
}
}

 首先得要创建一个NumericRangeQuery对象,初始化的时候第一个参数是字段名,第二个和第三个参数是始末数,后面两个是包含大小写,一般都设置为true,后面就跟之前的查询一样了。上面的程序可以查询到两个记录。

4. 指定字符串开头搜索

  这个和上面的数字范围内搜索有点类似,只不过搜索的条件不同,初始化也不同,指定字符串开头搜索的话需要先创建一个PrefixQuery对象,将要搜索的字段和开头的字符串传进去,然后再搜索。如下搜索city中以s开头的所有项。

@Test
public void testPrefixQuery() throws Exception {
PrefixQuery query = new PrefixQuery(new Term("city", "s"));
TopDocs hits = search.search(query, 10);
System.out.println("总共查询到" + hits.totalHits + "个文档");
for (ScoreDoc score : hits.scoreDocs) {
Document doc = search.doc(score.doc);
System.out.println(doc.get("id"));
System.out.println(doc.get("city"));
System.out.println(doc.get("desc"));
}
}

5. 多条件查询(组合查询)

  多条件查询又称为组合查询,顾名思义,就是将多个查询条件组合到一起进行查询,这个就比较厉害了。比如我现在想组合上面两个查询,首先id为1到2之间,然后city又是s开头的,可以这么做:

@Test
public void testBooleanQuery() throws Exception {
NumericRangeQuery<Integer> query1 = NumericRangeQuery.newIntRange("id", 1, 2, true, true);
PrefixQuery query2 = new PrefixQuery(new Term("city", "s"));
BooleanQuery.Builder booleanQuery = new BooleanQuery.Builder(); booleanQuery.add(query1, BooleanClause.Occur.MUST);
booleanQuery.add(query2, BooleanClause.Occur.MUST); TopDocs hits = search.search(booleanQuery.build(), 10);
System.out.println("总共查询到" + hits.totalHits + "个文档");
for (ScoreDoc score : hits.scoreDocs) {
Document doc = search.doc(score.doc);
System.out.println(doc.get("id"));
System.out.println(doc.get("city"));
System.out.println(doc.get("desc"));
}
}

组合查询使用的是BooleanQuery,然后组合的条件还是上面的那些条件,这些条件中原来该使用什么类初始化还是使用那些类初始化,只是往BooleanQuery中加就行了。这很方便,一般查询条件多的时候,就可以采用这种组合的查询方式来查询。

【Lucene】Apache Lucene全文检索引擎架构之搜索功能3的更多相关文章

  1. Lucene作为一个全文检索引擎

    Lucene作为一个全文检索引擎,其具有如下突出的优点: (1)索引文件格式独立于应用平台.Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件. ...

  2. 【Lucene】Apache Lucene全文检索引擎架构之入门实战1

    Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供.Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻.在Java开发环境里Lucene是一个成熟的 ...

  3. 【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示4

    前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用 ...

  4. 【Lucene】Apache Lucene全文检索引擎架构之构建索引2

    上一篇博文中已经对全文检索有了一定的了解,这篇文章主要来总结一下全文检索的第一步:构建索引.其实上一篇博文中的示例程序已经对构建索引写了一段程序了,而且那个程序还是挺完善的.不过从知识点的完整性来考虑 ...

  5. 【netcore基础】.Net core通过 Lucene.Net 和 jieba.NET 处理分词搜索功能

    业务要求是对商品标题可以进行模糊搜索 例如用户输入了[我想查询下雅思托福考试],这里我们需要先将这句话分词成[查询][雅思][托福][考试],然后搜索包含相关词汇的商品. 思路如下 首先我们需要把数据 ...

  6. Apache Lucene(全文检索引擎)—创建索引

    目录 返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

  7. Apache Lucene(全文检索引擎)—搜索

    目录 返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

  8. Apache Lucene(全文检索引擎)—分词器

    目录 返回目录:http://www.cnblogs.com/hanyinglong/p/5464604.html 本项目Demo已上传GitHub,欢迎大家fork下载学习:https://gith ...

  9. Lucene:基于Java的全文检索引擎简介

    Lucene:基于Java的全文检索引擎简介 Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引/检索引擎--Lucene Lucene不是一个完整的全文索引应用,而是是一个用J ...

随机推荐

  1. ffmpeg muxer 参数简要说明

    参数 值 说明 movflags MP4 Muxer 标记 rtphint 增加RTP的hint track empty_moov 初始化空的moov box frag_keyframe 在视频关键帧 ...

  2. hdu 3047(扩展并查集)

    Zjnu Stadium Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Tota ...

  3. CentOS7.0使用Yum安装Nginx

    安装Nginx yum install nginx 正常情况下必定是: 已加载插件:fastestmirror, langpacks base | 3.6 kB 00:00:00 docker-mai ...

  4. Android_html5交互 弹框localstorage 存值 整体案例

    经历2周多的时间 终于是完成了还算可以的android 整体案例了,分享下给大家  也希望自己有时间回过头来看看当初研究android的纠结心情.痛苦的经历是开发android 大部分都是在网上找解决 ...

  5. AC日记——奶牛集会 洛谷 P2345

    奶牛集会 思路: 把奶牛按照v排序: 然后,每次都把奶牛放入一个集合s: 因为奶牛已经排序: 所以,每次第i次放入奶牛起作用的v就是vi: 每次ans+=(xi*sum-sumxl)*vi+(sumx ...

  6. JavaScript实现数字配对游戏

    游戏效果如下图所示: 规则: 在4X5的格子中,有随机的互不相等的10个数,每个数据有两份(也就是20个数,有两两相等的十对),随机分布在20个格子中.游戏开始,弹出二十个数的序列.每次点击格子会显示 ...

  7. ES6新特性及用法笔记

    1.新增数据类型Symbol.[Number.Boolean.Symbol.Null.Undefined.Object] Symbol类型的值通过Symbol函数生成,相同的Symbol函数返回的值 ...

  8. (3)C#工具箱-容器

    容器特点:把控件放到容器里,移动容器控件也会跟着移动. 1.flowLayoutPanel(流布局控件) 放入控件后,会自动垂直或水平排列 拉长布局,控件自动跑到一行 2.GroupBox(组合框) ...

  9. vue的路由设置小结

    vue的路由设置小结 // 异步路由的编写示例.其中针对component字段进行懒加载及分块处理,提升首屏加载速度的同时,也可以手动控制让某些页面合并到一个单独的js文件中,而不是每个页面都是一个j ...

  10. hiho一下第128周 后缀自动机二·重复旋律5

    #1445 : 后缀自动机二·重复旋律5 时间限制:10000ms 单点时限:2000ms 内存限制:512MB 描述 小Hi平时的一大兴趣爱好就是演奏钢琴.我们知道一个音乐旋律被表示为一段数构成的数 ...