lucene查询索引库、分页、过滤、排序、高亮
2.查询索引库
插入测试数据 xx.xx. index. ArticleIndex
@Test
public
void testCreateIndexBatch() throws Exception{
IndexWriter indexWriter = new IndexWriter(LuceneUtils.directory,
LuceneUtils.analyzer,MaxFieldLength.LIMITED);
for(inti=0;i<25;i++){
Article article = new Article();
article.setId(1L+i);
article.setTitle("lucene可以做搜索引擎");
article.setContent("baidu,google都是很好的搜索引擎");
indexWriter.addDocument(DocumentUtils.article2Document(article));
}
indexWriter.close();
}
2.1查询
2.1.1分页
xx.xx.xx.index.ArticleIndex下
/**
*
* @param firstResult
* 当前页的第一行在集合中的位置
* @param maxResult
* 每页显示的最大的行数
* @throws Exception
*/
public
void testSearchIndexDispage(int firstResult,int maxResult)throws
Exception{
IndexSearcher indexSearcher = new IndexSearcher(LuceneUtils.directory);
QueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_30,new String[]{"title","content"},
LuceneUtils.analyzer);
Query query = queryParser.parse("lucene");
TopDocs topDocs =indexSearcher.search(query,25);
int count = Math.min(topDocs.totalHits,firstResult+maxResult);
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
List<Article> articleList = new ArrayList<Article>();
for(inti=firstResult;i<count;i++){
Document document = indexSearcher.doc(scoreDocs[i].doc);
Article article =DocumentUtils.document2Article(document);
articleList.add(article);
}
for(Article article:articleList){
System.out.println(article.getId());
System.out.println(article.getTitle());
System.out.println(article.getContent());
}
}
@Test
public
void testDispage() throws Exception{
this.testSearchIndexDispage(10, 10);
}
说明:
1) 在全文检索系统中,一般查询出来的内容比较多,所以必须将查询出来的内容进行分页处理。
2) 原理同hibernate的分页查询。在hibernate的分页查询中,有两个参数:
int firstResult 当前页的第一行在数据库里的行数
int maxResult 每页显示的页数
2.1.2搜索方式
/**
* 1、关键词查询
* 2、查询所有文档
* 3、范围查询
* 4、通配符查询
* 5、短语查询
* 6、Boolean查询
* @author Administrator
*
*/
public class QueryTest {
/**
* 关键词查询
* 因为没有分词器,所以区分大小写
*/
@Test
public void testTermQuery() throws Exception{
Term term = new Term("title","lucene");
Query query = new TermQuery(term);
this.showData(query);
}
/**
* 查询所有的文档
*/
@Test
public void testAllDocQuery() throws Exception{
Query query = new MatchAllDocsQuery();
this.showData(query);
}
/**
* 通配符查询
* * 代表任意多个任意字符
* ? 任意一个任意字符
*/
@Test
public void testWildCartQuery() throws Exception{
Term term = new Term("title","*.java");
Query query = new WildcardQuery(term);
this.showData(query);
}
/**
* 短语查询
* 所有的关键词对象必须针对同一个属性
* @param query
* @throws Exception
*/
@Test
public void testPharseQuery() throws Exception{
Term term = new Term("title","lucene");
Term term2 = new Term("title","搜索");
PhraseQuery query = new PhraseQuery();
query.add(term,0); //0代表第0个位置
query.add(term2,4);
this.showData(query);
}
/**
* boolean查询
* 各种关键词的组合
* @param query
* @throws Exception
*/
@Test
public void testBooleanQuery() throws Exception{
Term term = new Term("title","北京");
TermQuery termQuery = new TermQuery(term);
Term term2 = new Term("title","美女");
TermQuery termQuery2 = new TermQuery(term2);
Term term3 = new Term("title","北京美女");
TermQuery termQuery3 = new TermQuery(term3);
BooleanQuery query = new BooleanQuery();
query.add(termQuery,Occur.SHOULD);
query.add(termQuery2,Occur.SHOULD);
query.add(termQuery3,Occur.SHOULD);
this.showData(query);
}
/**
* 范围查询
* @param query
* @throws Exception
*/
@Test
public void testRangeQuery() throws Exception{
Query query = NumericRangeQuery.newLongRange("id", 5L, 10L, true, true);
this.showData(query);
}
private void showData(Query query) throws Exception{
IndexSearcher indexSearcher = new IndexSearcher(LuceneUtils.directory);
TopDocs topDocs = indexSearcher.search(query, 25);
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
List<Article> articleList = new ArrayList<Article>();
for(ScoreDoc scoreDoc:scoreDocs){
Document document = indexSearcher.doc(scoreDoc.doc);
Article article = DocumentUtils.document2Article(document);
articleList.add(article);
}
for(Article article:articleList){
System.out.println(article.getId());
System.out.println(article.getTitle());
System.out.println(article.getContent());
}
}
}
1) 使用查询字符串
QueryParser->Query对象
可以使用查询条件
“lucene AND 互联网” 都出现符合查询条件
“lucene OR 互联网” 只要出现其一就符合查询条件
2) 自己创建与配置Query对象
i. 关键词查询(TermQuery)
注:因为保存引索的时候是通过分词器保存,所以所有的因为在索引
库里都为小写,所以lucene必须得小写,不然查询不到。如果使用
查询字符串进行查询,对应的语法格式为:title:lucene
ii. 查询所有文档
如果使用查询字符串,对应语法:*:*
iii. 范围查询
注:在lucene中,处理数字是不能直接写入的,要进行转化。NumberStringTools帮助类给出了转化工具:
在工具类DocumentUtils中也做相应的转化:
Field idField = new Field("id",NumericUtils.longToPrefixCoded(article.getId()),
Store.YES,Index.NOT_ANALYZED);
article.setId(NumericUtils.prefixCodedToLong(document.get("id")));
iv. 通配符查询
v. 短语查询
vi. Boolean查询
可以把多个查询条件组合成一个查询条件
注意:
1、 单独使用MUST_NOT 没有意义
2、 MUST_NOT和MUST_NOT 无意义,检索无结果
3、单独使用SHOULD:结果相当于MUST
4、SHOULD和MUST_NOT: 此时SHOULD相当于MUST,结果同MUST和MUST_NOT
5、MUST和SHOULD:此时SHOULD无意义,结果为MUST子句的检索结果
2.3排序
2.3.1相关度得分
实验一:
在索引库中内容完全相同的情况下,用几个关键词搜索,看是否得分相同。
结果:
同一个关键词得分对于所有的Document是一样的。但是不同的关键词的分数不一样。关键词和文本内容匹配越多,得分越高。也就是相关度得分就高
实验二:
再插入一个Document,在其中的content中增加一个关键词,然后保存到索引库中。
结果:
同一个关键词如果在所有匹配的文本中的相关度得分不一样,按照相关度得分从高到低的顺序排列。
实验三:
如果想从百度上排名第一,就得控制相关度得分。在lucene中,可以人为控制相关度得分。
利用Document.setBoost可以控制得分。默认值为1
结论:
利用Document.setBoost可以人为控制相关度得分,从而把某一个引索内容排到最前面。
public class SortTest {
/**
* 1、相同的结构,相同的关键词,得分一样
* 2、相同的结构,不同的关键词,得分不一样,一般来说中文比较高
* 3、不同的结构,关键词出现的次数越多,得分越高
* 4、利用document.setBoost(100)可以人为的提高相关度得分
* @throws Exception
*/
@Test
public void testSearchIndex() throws Exception{
IndexSearcher indexSearcher = new IndexSearcher(LuceneUtils.directory);
QueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_30, new String[]{"title","content"}, LuceneUtils.analyzer);
Query query = queryParser.parse("lucene");
TopDocs topDocs = indexSearcher.search(query, 26);
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
List<Article> articleList = new ArrayList<Article>();
for(ScoreDoc scoreDoc:scoreDocs){
float score = scoreDoc.score;
System.out.println(score);//相关的得分
Document document = indexSearcher.doc(scoreDoc.doc);
Article article = DocumentUtils.document2Article(document);
articleList.add(article);
}
for(Article article:articleList){
System.out.println(article.getId());
System.out.println(article.getTitle());
System.out.println(article.getContent());
}
}
}
2.4高亮
用户在百度的首界面输入要搜索的关键字,比如:林志玲,看出林志玲这个关键词变成了红色,这就是高亮。
2.4.1高亮的作用
1) 使关键字的颜色和其他字的颜色不一样,这样关键字就比较突出。
方法:在关键字周围加上前缀和后缀
<font color=’red’>林志玲</font>
2) 生成摘要(从关键词出现最多的地方截取一段文本),可以配置要截取文本的字符数量。
2.4.2编程步骤
一个高亮器的创建需要两个条件:
Formatter 要把关键词显示成什么样子
Scorer 查询条件
Fragmenter设置文本的长度。默认为100。
如果文本的内容长度超过所设定的大小,超过的部分将显示不出来。
2) 使用高亮器
getBestFragment为得到高亮后的文本。
参数:
i. 分词器。
如果是英文:StandardAnalyzer
如果是中文:IKAnalyzer
ii. 在哪个属性上进行高亮
iii. 要高亮的内容
/**
* 高亮
* * 使关键字变色
* * 设置
* * 使用
* * 控制摘要的大小
* @author Administrator
*/
public class HighlighterTest {
@Test
public void testSearchIndex() throws Exception{
IndexSearcher indexSearcher = new IndexSearcher(LuceneUtils.directory);
QueryParser queryParser = new MultiFieldQueryParser(Version.LUCENE_30, new String[]{"title","content"}, LuceneUtils.analyzer);
Query query = queryParser.parse("Lucene");
TopDocs topDocs = indexSearcher.search(query, 25);
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
/***********************************************************************/
//创建和配置高亮器
/**
* 给关键字加上前缀和后缀
*/
Formatter formatter = new SimpleHTMLFormatter("<font color='red'>","</font>");
/**
* scorer封装了关键字
*/
Scorer scorer = new QueryScorer(query);
Highlighter highlighter = new Highlighter(formatter,scorer);
/**
* 创建一个摘要
*/
Fragmenter fragmenter = new SimpleFragmenter(10);
highlighter.setTextFragmenter(fragmenter);
/***********************************************************************/
List<Article> articleList = new ArrayList<Article>();
for(ScoreDoc scoreDoc:scoreDocs){
float score = scoreDoc.score;
System.out.println(score);//相关的得分
Document document = indexSearcher.doc(scoreDoc.doc);
Article article = DocumentUtils.document2Article(document);
/*
* 使用高亮器
*/
/**
* 1、分词器
* 查找关键词
* 2、字段
* 在哪个字段上进行高亮
* 3、字段的内容
* 把字段的内容提取出来
*/
String titleText = highlighter.getBestFragment(LuceneUtils.analyzer, "title", document.get("title"));
String contentText = highlighter.getBestFragment(LuceneUtils.analyzer, "content", document.get("content"));
if(titleText!=null){
article.setTitle(titleText);
}
if(contentText!=null){
article.setContent(contentText);
}
articleList.add(article);
}
for(Article article:articleList){
System.out.println(article.getId());
System.out.println(article.getTitle());
System.out.println(article.getContent());
}
}
}
lucene查询索引库、分页、过滤、排序、高亮的更多相关文章
- Lucene查询索引(分页)
分页查询只需传入每页显示记录数和当前页就可以实现分页查询功能 Lucene分页查询是对搜索返回的结果进行分页,而不是对搜索结果的总数量进行分页,因此我们搜索的时候都是返回前n条记录 package c ...
- (转) 淘淘商城系列——使用SolrJ查询索引库
http://blog.csdn.net/yerenyuan_pku/article/details/72908538 我们有必要在工程中写查询索引库的代码前先进行必要的测试.我们先到Solr服务页面 ...
- lucene内存索引库、分词器
内存索引库 特点 在内存中开辟一块空间,专门为索引库存放.这样有以下几个特征: 1) 因为索引库在内存中,所以访问速度更快. 2) 在程序退出时,索引库中的文件也相应的消失了. 3) ...
- Lucene 07 - 对Lucene的索引库进行增删改查
目录 1 添加索引 2 删除索引 2.1 根据Term删除索引 2.2 删除全部索引(慎用) 3 更新索引 数据保存在关系型数据库中, 需要实现增.删.改.查操作; 索引保存在索引库中, 也需要实现增 ...
- Lucene之索引库的维护:添加,删除,修改
索引添加 Field域属性分类 添加文档的时候,我们文档当中包含多个域,那么域的类型是我们自定义的,上个案例使用的TextField域,那么这个域他会自动分词,然后存储 我们要根据数据类型和数据的用途 ...
- 搜索引擎学习(三)Lucene查询索引
一.查询理论 创建查询:构建一个包含了文档域和语汇单元的文档查询对象.(例:fileName:lucene) 查询过程:根据查询对象的条件,在索引中找出相应的term,然后根据term找到对应的文档i ...
- Lucene查询索引
索引创建 以新闻文档为例,每条新闻是一个document,新闻有news_id.news_title.news_source.news_url.news_abstract.news_keywords这 ...
- lucene查询索引之QueryParser解析查询——(八)
0.语法介绍:
- lucene查询索引之Query子类查询——(七)
0.文档名字:(根据名字索引查询文档)
随机推荐
- 页面中引入mui 地址选择,点击页面中其他input时页面回到顶部
问题:在页面中引入mui地址选择时,点击页面中的input页面会滚到顶部(谷歌浏览器中出现的bug),在手机上点击input会出现跳动.开始的时候是想修改mui.min.js里的滚动事件,但是后来找到 ...
- [HAOI 2008]硬币购物
Description 硬币购物一共有4种硬币.面值分别为c1,c2,c3,c4.某人去商店买东西,去了tot次.每次带di枚ci硬币,买si的价值的东西.请问每次有多少种付款方法. Input 第一 ...
- ●BOZJ 4456 [Zjoi2016]旅行者
题链: http://www.lydsy.com/JudgeOnline/problem.php?id=4456 题解: 分治好题.大致做法如下:对于一开始的矩形区域,过较长边的中点把矩形区域分为两个 ...
- Codeforces Round #430 A. Kirill And The Game
Kirill plays a new computer game. He came to the potion store where he can buy any potion. Each poti ...
- [IOI1998] Pictures
用线段树维护区间最小值和最小值个数来求一段区间里0的个数,把横的和竖的边分别拿出来,排序,然后每次查一下重复部分的长度即可 #include<iostream> #include<c ...
- @Transient 理解
transient使用小结 1)一旦变量被transient修饰,变量将不再是对象持久化的一部分,该变量内容在序列化后无法获得访问. 2)transient关键字只能修饰变量,而不能修饰方法和类.注意 ...
- node的异常处理
Node是单线程运行环境,一旦抛出的异常没有被捕获,就会引起整个进程的崩溃.所以,Node的异常处理对于保证系统的稳定运行非常重要. node的处理方法: 1.使用throw语句抛出异常 常用的捕获异 ...
- Docker安装tomcat和部署项目
随着微服务的流行,Docker越来越流行,正如它的理念"Build, Ship, and Run Any App, Anywhere"一样,Docker提供的容器隔离技术使得开发人 ...
- PostOffice最小距离问题
在一个按照东西和南北方向划分成规整街区的城市里,n个居民点散乱地分布在不同的街区中.用x 坐标表示东西向,用y坐标表示南北向.各居民点的位置可以由坐标(x,y)表示. 街区中任意2 点(x1,y1)和 ...
- WPF 窗口居中 & 变更触发机制
窗口居中 & 变更触发机制 解决: 1.单实例窗口,窗口每次隐藏后再显示时,位置居中显示 2.多屏幕下单实例窗口,当父窗口移动到其它屏幕时,单实例窗口再次弹出时,位置才更新到父窗口屏幕. 3. ...