lucene全文搜索之四:创建索引搜索器、6种文档搜索器实现以及搜索结果分析(结合IKAnalyzer分词器的搜索器)基于lucene5.5.3
前言:
前面几章已经很详细的讲解了如何创建索引器对索引进行增删查(没有更新操作)、如何管理索引目录以及如何使用分词器,上一章讲解了如何生成索引字段和创建索引文档,并把创建的索引文档保存到索引目录,到这里我们已经知道如何建立索引,那么本章将会详解如何搜索索引目录中的索引文档索以及如何创建索引搜索器和六种文档搜索器(搜索器)的实现。
luncene5.5.3集合jar包下载地址:http://download.csdn.net/detail/eguid_1/9677589
一、创建索引搜索器
索引搜索器由索引目录创建,依赖搜索器进行全文搜索,部分搜索器依赖分词器进行分词查询
1、创建索引目录搜索器(即索引搜索器)
根据索引目录创建索引搜索(如果有多个索引目录,那么需要创建多个索引搜索,分别搜索出结果后再对搜索结果进行合并调整)
/**
* 创建索引搜索
*
* @param indexReader -索引目录Reader
* @return
*/
public IndexSearcher createSearch(IndexReader indexReader) {
IndexSearcher indexSearch = null;
if (indexReader != null) {
indexSearch = new IndexSearcher(indexReader);
}
return indexSearch;
}
/**
* 创建索引搜索
* @param dir -索引目录
* @return
*/
public IndexSearcher createSearch(Directory dir) {
IndexSearcher indexSearch = null;
try {
IndexReader indexReader = DirectoryReader.open(dir);
indexSearch = new IndexSearcher(indexReader);
} catch (IOException e) { }
return indexSearch;
}
为了方便阅读,我们把六种搜索器放在最后, 这里先讲如何根据文档搜索器来搜索结果并且可以实现排序等等搜索结果的调整
2、搜索结果
/**
* 搜索
*
* @param search
* -索引搜索器
* @param query
* -查询器
* @param num
* -搜索结果数量
* @return
*/
public TopDocs search(IndexSearcher search, Query query, int num) {
TopDocs topDocs = null;
try {
topDocs = search.search(query, num);
} catch (IOException e) { }
return topDocs;
} /**
* 自定义排序搜索
*
* @param search
* -索引搜索
* @param query
* -查询器
* @param num
* -搜索结果数量
* @param sort
* -排序
* @return
*/
public TopDocs search(IndexSearcher search, Query query, int num, Sort sort) {
TopDocs topDocs = null;
try {
topDocs = search.search(query, num, sort);
} catch (IOException e) { }
return topDocs;
} /**
* 搜索
*
* @param search
* -索引搜索器
* @param query
* -查询器
* @param results
* -搜索结果
*/
public void search(IndexSearcher search, Query query, Collector results) {
try {
if (query != null && results != null)
search.search(query, results);
} catch (IOException e) { }
} /**
* 按照匹配分数搜索
*
* @param search
* @param query
* @param after
* -文档匹配分数
* @param numHits
* -命中数量
* @return
*/
public TopDocs search(IndexSearcher search, Query query, ScoreDoc after, int numHits) {
TopDocs topDocs = null;
try {
if (query != null && after != null)
topDocs = search.searchAfter(after, query, numHits);
} catch (IOException e) { }
return topDocs;
} /**
* 按照匹配分数搜索
*
* @param search
* @param query
* @param after
* -文档匹配分数
* @param numHits
* -命中数量
* @param sort
* 自定义排序
* @return 搜索结果
*/
public TopDocs search(IndexSearcher search, Query query, ScoreDoc after, int numHits, Sort sort) {
TopDocs topDocs = null;
try {
if (query != null && after != null && sort != null)
topDocs = search.searchAfter(after, query, numHits, sort);
} catch (IOException e) { }
return topDocs;
} /* 以下API已过时不建议再使用 */
public TopDocs search(IndexSearcher search, Query query, Filter filter, int results) {
TopDocs topDocs = null;
try {
topDocs = search.search(query, filter, results);
} catch (IOException e) { }
return topDocs;
} public TopDocs search(IndexSearcher search, Query query, Filter filter, int results, Sort sort) {
TopDocs topDocs = null;
try {
topDocs = search.search(query, filter, results, sort);
} catch (IOException e) { }
return topDocs;
} public TopDocs search(IndexSearcher search, Query query, Filter filter, int results, Sort sort, boolean doDocScores,
boolean doMaxScore) {
TopDocs topDocs = null;
try {
topDocs = search.search(query, filter, results, sort, doDocScores, doMaxScore);
} catch (IOException e) { }
return topDocs;
}
二、六种搜索器实现
/**
* 创建单词搜索器
*
* @param fieldName
* @param key
* @return
*/
public Query createTermQuery(String fieldName, String key) {
return new TermQuery(new Term(fieldName, key));
} /**
* 创建前缀搜索器
*
* @param fieldName
* @param key
* @return
*/
public Query createPrefixQeury(String fieldName, String key) {
return new PrefixQuery(new Term(fieldName, key));
} /**
* 创建范围搜索器
*
* @param fieldName
* @param start
* @param end
* @return
*/
public Query createNumericRangeQuery(String fieldName, int start, int end) {
return NumericRangeQuery.newIntRange(fieldName, start, end, true, true);
} /**
* 根据分词器创建条件搜索
*
* @param operator
* @param analyzer
* @param fieldName
* @param key
* @return
* @throws ParseException
*/
public Query createPhraseQueryByOperator(Operator operator, Analyzer analyzer, String fieldName, String key)
throws ParseException {
QueryParser qp = new QueryParser(fieldName, analyzer);
if (operator != null) {
qp.setDefaultOperator(operator);
}
return qp.parse(key);
} /**
* 根据分词器创建模糊搜索
*
* @param analyzer
* @param fieldName
* @param key
* @return
* @throws ParseException
*/
public Query createPhraseQuery(Analyzer analyzer, String fieldName, String key) throws ParseException {
return createPhraseQueryByOperator(null, analyzer, fieldName, key);
} /**
* 创建混合搜索器
*
* @return
*/
public BooleanQuery createBooleanQuery() {
return new BooleanQuery();
} /**
* 添加搜索器到混合搜索器
*
* @param booleanQuery
* @param occ
* @param query
*/
public void addToBooleanQuery(BooleanQuery booleanQuery, Occur occ, Query query) {
if (booleanQuery != null && query != null && occ != null) {
booleanQuery.add(query, occ);
}
}
三、搜索结果解析
public String[] parseQuery(TopDocs topDocs,IndexSearcher search,String fieldName){
int hits = 0;
if (topDocs != null && (hits = topDocs.totalHits) > 0)
{
ScoreDoc[] docs = topDocs.scoreDocs;
String[] results = new String[hits];
for (ScoreDoc doc : docs)
{ try {
//通过搜索结果找到对应文档
Document resultDoc = search.doc(doc.doc);
List<IndexableField> list=resultDoc.getFields();
for(IndexableField i:list)
{
System.out.println("名称:"+i.name()+",内容:"+i.stringValue()+",权重值:"+i.boost());
}
} catch (IOException e) { } }
return results;
}
return null;
}
四、测试搜索
Analyzer analyzer=createAnalyzer(false);
Directory dir=createDirectory(null, "d:","dir","search");
IndexWriterConfig conf=createIndexConf(analyzer, OpenMode.CREATE_OR_APPEND, false);
IndexWriter index=createIndex(dir, conf); //创建一个文档
Document doc=createDocument();
String[] states = new String[] {"欢迎来到eguid的博客", "欢迎大家来到eguid的技术博客", "欢迎大家来到eguid的技术博客,很开心能和大家一起分享开源技术"};
//创建字段
Field[] fields=createFields("字段名", states, TextField.TYPE_STORED, 1.1f);
//批量增加字段到索引文档
addFiledList(doc, fields);
//把索引文档保存到索引器
index.addDocument(doc);
close(index, true); //读取目录
IndexReader indexReader=DirectoryReader.open(dir);
//创建索引搜索器
IndexSearcher indexSearch=createSearch(indexReader);
try {
//创建文档搜索器
Query query=createPhraseQuery(analyzer, "字段名", "eguid");
//搜索结果
TopDocs topDocs=search(indexSearch, query, 2);
parseQuery(topDocs, indexSearch, "字段名");
//得到TopDocs,这个TopDocs就是一个结果文档,里面包含了搜索的结果内容,匹配度等等搜索计算结果参数
} catch (ParseException e) { }
搜索结果:
名称:字段名,内容:欢迎来到eguid的博客,权重值:1.0
名称:字段名,内容:欢迎大家来到eguid的技术博客,权重值:1.0
名称:字段名,内容:欢迎大家来到eguid的技术博客,很开心能和大家一起分享开源技术,权重值:1.0
到这里,lucene全文搜索的全部功能就全部实现了,而我们需要做的就是根据我们自己的业务对lucene的功能进行组合,从而实现我们的全文搜搜服务。
lucene全文搜索之四:创建索引搜索器、6种文档搜索器实现以及搜索结果分析(结合IKAnalyzer分词器的搜索器)基于lucene5.5.3的更多相关文章
- wukong引擎源码分析之索引——part 3 文档评分 无非就是将docid对应的fields信息存储起来,为搜索结果rank评分用
之前的文章分析过,接受索引请求处理的代码在segmenter_worker.go里: func (engine *Engine) segmenterWorker() { for { request : ...
- Elasticsearch 关键字:索引,类型,字段,索引状态,mapping,文档
1. 索引(_index)索引:说的就是数据库的名字.我这个说法是对应到咱经常使用的数据库. 结合es的插件 head 来看. 可以看到,我这个地方,就有这么几个索引,索引就是数据库,后面是这个数据库 ...
- CentOS6.4下使用默认的文档查看器打开PDF文档乱码的解决方案
最近在CentOS6.4下使用其默认的文档查看器打开PDF文档时出现乱码的方块,有两种方法可以解决. 方法一:修改/etc/fonts/conf.d/49-sansserif.conf文件,如 ...
- Lucene的配置及创建索引全文检索
Lucene 是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言).Lucene ...
- lucene正向索引(续)——一个文档的所有filed+value都在fdt文件中!!!
4.1.3. 域(Field)的数据信息(.fdt,.fdx) 域数据文件(fdt): 真正保存存储域(stored field)信息的是fdt文件 在一个段(segment)中总共有segment ...
- sphinx索引分析——文件格式和字典是double array trie 检索树,索引存储 – 多路归并排序,文档id压缩 – Variable Byte Coding
1 概述 这是基于开源的sphinx全文检索引擎的架构代码分析,本篇主要描述index索引服务的分析.当前分析的版本 sphinx-2.0.4 2 index 功能 3 文件表 4 索引文件结构 4. ...
- 使用dom解析器对xml文档内容进行增删查改
直接添代码: XML文档名称(one.xml) <?xml version="1.0" encoding="UTF-8" standalone=" ...
- Java DOM解析器 - 解析XML文档
使用DOM的步骤 以下是在使用DOM解析器解析文档使用的步骤. 导入XML相关的软件包. 创建DocumentBuilder 从文件或流创建一个文档 提取根元素 检查属性 检查子元素 导入XML相关的 ...
- Elasticsearch 索引、更新、删除文档
一.Elasticsearch 索引(新建)一个文档的命令: curl XPUT ' http://localhost:9200/test_es_order_index/test_es_order_t ...
随机推荐
- Python-一些实用的函数
一,返回值为bool类型的函数 1.any()函数 any(iterable)->bool 当迭代器中有一个是Ture,则返回Ture:若interable=NUll,则返回False. > ...
- LRU Cache java实现
要求: get(key):如果key在cache中,则返回对应的value值,否则返回null set(key,value):如果key不在cache中,则将该(key,value)插入cache中( ...
- MATLAB下跑Faster-RCNN+ZF实验时如何编译自己需要的external文件
本篇文章主讲这篇博客中的(http://blog.csdn.net/sinat_30071459/article/details/50546891)的这个部分,如图所示 注:截图来自 小咸鱼_ 的博客 ...
- SSH框架搭建 详细图文教程
转载请标明原文地址 一.什么是SSH? SSH是JavaEE中三种框架(Struts+Spring+Hibernate)的集成框架,是目前比较流行的一种Java Web开源框架. SSH主要用于Jav ...
- uoj#228 基础数据结构练习题
题面:http://uoj.ac/problem/228 正解:线段树. 我们可以发现,开根号时一个区间中的数总是趋近相等.判断一个区间的数是否相等,只要判断最大值和最小值是否相等就行了.如果这个区间 ...
- [ext4]05 磁盘布局 - 延迟块组初始化
延迟块组初始化,Ext4的新特性.如果对应的特性标识uninit_bg置位,那么inode bitmap和inode tables就不会初始化. 延迟块组初始化特性特性可以减少格式化耗时. 延迟块组初 ...
- Measuring & Optimizing I/O Performance
By Ilya Grigorik on June 23, 2009 Measuring and optimizing IO performance is somewhat of a black art ...
- HTC开放Vive Tracker代码啦!
(52VR网2017年5月2日)HTC正在为工作室创建的Vive Tracker项目发布教程和项目文件,作为VR开发人员的新资源. 该公司希望能够让更多的开发者能够在开发Vive VR耳机时制作自己的 ...
- 如果非的让我引起大家的狂拍,那我说一句PHP是世界上最好的语言?
如果你进来了,那就达到了我的目的. 不知不觉.net已经用了3年之久,从最初的的小白到现在的大白,总有一种要骂娘的冲动,.net这一路走来现在越走越迷茫,不知道微软的重心在哪里,一直发现不了他的亮点所 ...
- python特征提取——pyAudioAnalysis工具包
作者:桂. 时间:2017-05-04 18:31:09 链接:http://www.cnblogs.com/xingshansi/p/6806637.html 前言 语音识别等应用离不开音频特征的 ...