Lucene 时间排序
在Lucene4.4中,想要实现搜索结果按照时间倒序的效果:如果两个文档得分相同,那么就按照发布时间倒序排列;否则就按照分数排列。这种效果在Lucene4.6中实现起来极其简单,直接利用search接口的Sort参数即可达成,完全不需要像某些人说的重写Similarity那么麻烦。三两行代码的事情,体现了Make it simple, stupid的精髓。
首先来看看测试例子,这个例子中我建立了四个文档,按照内容-发布日期来表示分别是:
2004年光棍节攻略 , 20041111
2005年光棍节攻略 , 20051111
2006年光棍节攻略 , 20061111
游戏攻略 ,20141111
统一使用“光棍节攻略”来搜索它们,用户希望最新的光棍节攻略排在第一。
如果不做排序处理的话,用户体验非常糟糕:
- package com.hankcs.test;
- import org.apache.lucene.analysis.Analyzer;
- import org.apache.lucene.document.*;
- import org.apache.lucene.index.*;
- import org.apache.lucene.queries.CustomScoreQuery;
- import org.apache.lucene.queries.function.FunctionQuery;
- import org.apache.lucene.queryparser.classic.ParseException;
- import org.apache.lucene.queryparser.classic.QueryParser;
- import org.apache.lucene.search.*;
- import org.apache.lucene.store.Directory;
- import org.apache.lucene.store.LockObtainFailedException;
- import org.apache.lucene.store.RAMDirectory;
- import org.apache.lucene.util.Version;
- import org.wltea.analyzer.lucene.IKAnalyzer;
- import java.io.IOException;
- /**
- * @author hankcs
- */
- public class TestSortByTime
- {
- public static void main(String[] args)
- {
- // Lucene Document的主要域名
- String fieldName = "text";
- // 实例化IKAnalyzer分词器
- Analyzer analyzer = new IKAnalyzer();
- Directory directory = null;
- IndexWriter iwriter;
- IndexReader ireader = null;
- IndexSearcher isearcher;
- try
- {
- //索引过程**********************************
- //建立内存索引对象
- directory = new RAMDirectory();
- //配置IndexWriterConfig
- IndexWriterConfig iwConfig = new IndexWriterConfig(Version.LUCENE_46, analyzer);
- iwConfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
- iwriter = new IndexWriter(directory, iwConfig);
- //写入索引
- for (int i = 0; i < 3; ++i)
- {
- int year = 2004 + i;
- Document doc = new Document();
- doc.add(new TextField(fieldName, year + "年光棍节攻略", Field.Store.YES));
- doc.add(new IntField("date", year * 10000 + 1111, Field.Store.YES));
- iwriter.addDocument(doc);
- }
- // 加入一个干扰文档
- Document doc = new Document();
- doc.add(new TextField(fieldName, "游戏攻略", Field.Store.YES));
- doc.add(new IntField("date", 20141111, Field.Store.YES));
- iwriter.addDocument(doc);
- iwriter.close();
- //搜索过程**********************************
- //实例化搜索器
- ireader = DirectoryReader.open(directory);
- isearcher = new IndexSearcher(ireader);
- String keyword = "光棍节攻略";
- //使用QueryParser查询分析器构造Query对象
- QueryParser qp = new QueryParser(Version.LUCENE_46, fieldName, analyzer);
- Query query = qp.parse(keyword);
- System.out.println("Query = " + query);
- //搜索相似度最高的5条记录
- TopDocs topDocs = isearcher.search(query, 5);
- System.out.println("命中:" + topDocs.totalHits);
- //输出结果
- ScoreDoc[] scoreDocs = topDocs.scoreDocs;
- for (int i = 0; i < Math.min(5, scoreDocs.length); i++)
- {
- Document targetDoc = isearcher.doc(scoreDocs[i].doc);
- System.out.print(targetDoc.getField(fieldName).stringValue());
- System.out.print(" , " + targetDoc.getField("date").numericValue());
- System.out.println(" , " + scoreDocs[i].score);
- }
- } catch (CorruptIndexException e)
- {
- e.printStackTrace();
- } catch (LockObtainFailedException e)
- {
- e.printStackTrace();
- } catch (IOException e)
- {
- e.printStackTrace();
- } catch (ParseException e)
- {
- e.printStackTrace();
- } finally
- {
- if (ireader != null)
- {
- try
- {
- ireader.close();
- } catch (IOException e)
- {
- e.printStackTrace();
- }
- }
- if (directory != null)
- {
- try
- {
- directory.close();
- } catch (IOException e)
- {
- e.printStackTrace();
- }
- }
- }
- }
- }
输出:
2004年光棍节攻略 , 20041111 , 0.71185887
2005年光棍节攻略 , 20051111 , 0.71185887
2006年光棍节攻略 , 20061111 , 0.71185887
游戏攻略 , 20141111 , 0.049675122
可以看到文档是严格按照分数排序的,如果分数相同,则按照索引顺序排序,导致最新的文章反而排在最下面。
使用search接口的Sort参数优化搜索结果:
- package com.hankcs.test;
- import org.apache.lucene.analysis.Analyzer;
- import org.apache.lucene.document.*;
- import org.apache.lucene.index.*;
- import org.apache.lucene.queries.CustomScoreQuery;
- import org.apache.lucene.queries.function.FunctionQuery;
- import org.apache.lucene.queryparser.classic.ParseException;
- import org.apache.lucene.queryparser.classic.QueryParser;
- import org.apache.lucene.search.*;
- import org.apache.lucene.store.Directory;
- import org.apache.lucene.store.LockObtainFailedException;
- import org.apache.lucene.store.RAMDirectory;
- import org.apache.lucene.util.Version;
- import org.wltea.analyzer.lucene.IKAnalyzer;
- import java.io.IOException;
- /**
- * @author hankcs
- */
- public class TestSortByTime
- {
- public static void main(String[] args)
- {
- // Lucene Document的主要域名
- String fieldName = "text";
- // 实例化IKAnalyzer分词器
- Analyzer analyzer = new IKAnalyzer();
- Directory directory = null;
- IndexWriter iwriter;
- IndexReader ireader = null;
- IndexSearcher isearcher;
- try
- {
- //索引过程**********************************
- //建立内存索引对象
- directory = new RAMDirectory();
- //配置IndexWriterConfig
- IndexWriterConfig iwConfig = new IndexWriterConfig(Version.LUCENE_46, analyzer);
- iwConfig.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);
- iwriter = new IndexWriter(directory, iwConfig);
- //写入索引
- for (int i = 0; i < 3; ++i)
- {
- int year = 2004 + i;
- Document doc = new Document();
- doc.add(new TextField(fieldName, year + "年光棍节攻略", Field.Store.YES));
- doc.add(new IntField("date", year * 10000 + 1111, Field.Store.YES));
- iwriter.addDocument(doc);
- }
- // 加入一个干扰文档
- Document doc = new Document();
- doc.add(new TextField(fieldName, "游戏攻略", Field.Store.YES));
- doc.add(new IntField("date", 20141111, Field.Store.YES));
- iwriter.addDocument(doc);
- iwriter.close();
- //搜索过程**********************************
- //实例化搜索器
- ireader = DirectoryReader.open(directory);
- isearcher = new IndexSearcher(ireader);
- String keyword = "光棍节攻略";
- //使用QueryParser查询分析器构造Query对象
- QueryParser qp = new QueryParser(Version.LUCENE_46, fieldName, analyzer);
- Query query = qp.parse(keyword);
- System.out.println("Query = " + query);
- //搜索相似度最高的5条记录
- Sort sort = new Sort(new SortField("text", SortField.Type.SCORE), new SortField("date", SortField.Type.INT, true));
- TopDocs topDocs = isearcher.search(query, 5, sort);
- System.out.println("命中:" + topDocs.totalHits);
- //输出结果
- ScoreDoc[] scoreDocs = topDocs.scoreDocs;
- for (int i = 0; i < Math.min(5, scoreDocs.length); i++)
- {
- Document targetDoc = isearcher.doc(scoreDocs[i].doc);
- System.out.print(targetDoc.getField(fieldName).stringValue());
- System.out.print(" , " + targetDoc.getField("date").numericValue());
- System.out.println(" , " + scoreDocs[i].score);
- }
- } catch (CorruptIndexException e)
- {
- e.printStackTrace();
- } catch (LockObtainFailedException e)
- {
- e.printStackTrace();
- } catch (IOException e)
- {
- e.printStackTrace();
- } catch (ParseException e)
- {
- e.printStackTrace();
- } finally
- {
- if (ireader != null)
- {
- try
- {
- ireader.close();
- } catch (IOException e)
- {
- e.printStackTrace();
- }
- }
- if (directory != null)
- {
- try
- {
- directory.close();
- } catch (IOException e)
- {
- e.printStackTrace();
- }
- }
- }
- }
- }
输出结果:
命中:4
2006年光棍节攻略 , 20061111 , NaN
2005年光棍节攻略 , 20051111 , NaN
2004年光棍节攻略 , 20041111 , NaN
游戏攻略 , 20141111 , NaN
我们看到“2006年光棍节攻略”因为时间比较新,并且相关性高,就排在了第一。“2005年光棍节攻略”相关度相同,因为时间旧就排在后面一点,而干扰文档“游戏攻略”即使时间最新,因为不相关的原因排在最后面。这种效果正好是我想要的,极大提升了用户体验。
Lucene 时间排序的更多相关文章
- lucene之排序、设置权重、优化、分布式搜索(转)
lucene之排序.设置权重.优化.分布式搜索(转) 1. 基本应用 using System;using System.Collections.Generic;using System.Text;u ...
- 如何对sharepoint图片库的文件夹的图片按照时间排序并分页显示
/// <summary> /// 获取图片库第一层文件夹--根据文件夹名称排序 /// </summary> /// <param name="siteUrl ...
- ls按时间排序输出文件列表
文件转自:http://www.2cto.com/os/201303/197829.html ls按时间排序输出文件列表 首先,ls --help查看ls相关的与时间排序相关的参数: > ...
- C#实现对指定文件夹中文件按修改时间排序
string path = "~/Document/Introduction/团队管理制度/"; DirectoryInfo dirinfo = new Di ...
- PHP读取文件夹目录,按时间排序,大小排序,名字排序
工作中有时候会遇到文件存储数据,但是在前台显示的时候又因为没有数据库,无法使用上传或最后一次修改日期字段排序,所以有了如下代码: <?php $dir = "./";//目录 ...
- lucene查询排序结果原理总结
参考文章 Lucene3.0结果排序原理+操作+示例 Lucene的排序算法 一句话总结lucene排序算法是什么样的 关键几个概念 参考文档: http://lucene.apache.org/co ...
- 几种能在O(n*log(n))时间排序
线性时间排序 各种排序算法总结已经介绍了几种能在O(n*log(n))时间内培训n个数的算法.归并排序和堆排序达到了最坏情况下的上界:快速排序在平均情况下达到该上界.这些算法都有一个有趣的性质:在 ...
- linux_常用命令_(ls, lsof,nslookup)_查看文件按照时间排序
平时收集些用到的命令 方便使用 1: ls -lrt 按时间排序 展示 2:nslookup 查看dns解析 3:lsof -p 进程号 lsof `which httpd` //那个进程在使用 ...
- Linux中ls对文件进行按大小排序和按时间排序,设置ls时间格式
1 按文件大小排序 使用 ll -S | grep '^[^d]' // 格式化文件大小形式 ll -Sh | grep '^[^d]' 2 按文件修改时间排序显示 使用 ll -rt 3 设置ls ...
随机推荐
- 在ASP.NET MVC的Action中直接接受客户端发送过来的HTML内容片段
出于安全的考虑,默认情况下,如果从客户端发送过来的数据中直接包括了HTML内容,ASP.NET会自动启动保护措施,你会收到下面的错误提示 这当然是一个不错的设计,只不过在某些特殊的事情,如果我们确实需 ...
- 窥探Swift之数组与字典
说到数组和字典,只要是编过程的小伙伴并不陌生.在Swift中的数组与字典也有着一些让人眼前一亮的特性,今天的博客就来窥探一下Swift中的Array和Dictionary.还是沿袭之前的风格,在介绍S ...
- CRL开发框架发布2.2版
CRL 2.3.0.0 CRL是一个面向对象的轻便型ORM业务框架 数据处理使用了对象/数据映射,采用Lambda表达式来表示条件查询,增加了可编程性和可靠性,出错机率低,同时也能用原生的SQL实现查 ...
- 多种方法实现Loading(加载)动画效果
当我们ajax提交一个按钮的时候,给那个按钮来个Loading效果会高端很多,体验也会上升个层次. 既能让用户知道正在提交中,也能防止二次提交,好处多多呢.
- 相克军_Oracle体系_随堂笔记002-基础
1.常见的Oracle生产库环境: 图2-1可以说是标准的生产库环境,处处体现了冗余,有效防止了单点故障.这就是HA(高可用) 而且冗在某种条件下还可以去掉,平常实现同时运行提供服务,如果一台坏掉,另 ...
- Selenium3.0 自动化测试
早在2013年的时候,Selenium官方宣布,Selenium新的版本会在圣诞节的时候发布.但是,他们并没有说哪一个圣诞节发布. 转眼的三年过去了,目前已经发布到Selenium3.0 beta4版 ...
- ASP.NET CMS模板培训教程
注意:此文档中出现所有的类,都是公司内部的,也就是说,只是给公司内部人员培训的一篇文章而已,如果其他的人看到了, 看不懂里面的类,那是因为这都是我公司内部的框架. 首先是进入我们的系统的后台,然后选择 ...
- Android之仿ele地图定位效果
PS:最近项目要求,希望在选择地址的时候能够仿ele来实现定位效果.因此就去做了一下.不过ele使用高德地图实现的,我是用百度地图实现的.没办法,公司说用百度那就用百度的吧.个人觉得高德应该更加的精准 ...
- 工作流引擎Oozie(二):coordinator
1. 简介 coordinator是workflow的定时提交器,基于时间条件与数据生成触发(based on time and data triggers).简单点说,coordinator按所定义 ...
- openfire 初始密码
openfire 初始密码 mssql2014 进入数据库,找到 ofUser 表 ,将密码字段对应的密文替换为下面的内容,则密码就是 admin ecbd03623cd819c48718db1b27 ...