排序是对于全文检索来言是一个必不可少的功能,在实际运用中,排序功能能在某些时候给我们带来很大的方便,比如在淘宝,京东等一些电商网站我们可能通过排序来快速找到价格最便宜的商品,或者通过排序来找到评论数最高或卖的最好的商品,再比如在Iteye里的博客栏里,每天都会以降序的方式,来显示出最新发出的几篇博客,有了排序,我们就能在某些时候很方便快速的得到某些有效信息,所以说排序功能,无处不在 ^_^。

  那么,本篇就来看下我们在Lucene中怎么使用其丰富的排序功能。

  在这之前,我们先来熟悉下lucene中排序的基本知识,在默认情况下,Lucene使用的是以关联性降序的方式为默认的排序方式,这样可以使得我们搜索的结果通常是最优的,因为它会尽可能的使得首先出现的几个结果是与我们搜索的内容最相关,而不需要我们翻页寻找我们最想要的内容,这一点是与数据库相比,是全文检索一个很大的优点。当然,在实际开发中我们也需要根据业务的实际情况来给我们的客户提供多种不同的排序方式。我们先来看下在Lucene中比较特殊的两种基本的排序方式

  
Sort里的属性 SortField里的属性 含义  
Sort.INDEXORDER SortField.FIELD_DOC 按照索引的顺序进行排序  
Sort.RELEVANCE SortField.FIELD_SCORE 按照关联性评分进行排序

  我们再来看几个检索时需要用的方法

  Java代码

  =========SortField类============

  //field是排序字段type是排序类型

  public SortField(String field, Type type);

  //field是排序字段type是排序类型reverse是指定升序还是降序

  //reverse 为true是降序 false为升序

  public SortField(String field, Type type, boolean reverse)

  =========Sort类============

  public Sort();//Sort对象构造方法默认是按文档评分排序

  public Sort(SortField field);//排序的一个SortField

  public Sort(SortField... fields)//排序的多个SortField可以传入一个数组

  =========IndexSearche类r========

  //query是查询的Query对象 filter是过滤 n返回的数量 sort是排序

  search(Query query, Filter filter, int n, Sort sort)

  //doDocScores 为true情况下每个命中的结果下都会被评分

  //doMaxScore 为true情况下对最大分值的搜索结果进行评分

  search(Query query, Filter filter, int n, Sort sort, boolean doDocScores, boolean doMaxScore)

  =========SortField类============

  //field是排序字段type是排序类型

  public SortField(String field, Type type);

  //field是排序字段type是排序类型reverse是指定升序还是降序

  //reverse 为true是降序 false为升序

  public SortField(String field, Type type, boolean reverse)

  =========Sort类============

  public Sort();//Sort对象构造方法默认是按文档评分排序

  public Sort(SortField field);//排序的一个SortField

  public Sort(SortField... fields)//排序的多个SortField可以传入一个数组

  =========IndexSearche类r========

  //query是查询的Query对象 filter是过滤 n返回的数量 sort是排序

  search(Query query, Filter filter, int n, Sort sort)

  //doDocScores 为true情况下每个命中的结果下都会被评分

  //doMaxScore 为true情况下对最大分值的搜索结果进行评分

  search(Query query, Filter filter, int n, Sort sort, boolean doDocScores, boolean doMaxScore)

  1,在还没有进行一点排序前我们先来看下索引里的内容,核心代码如下:

  Java代码

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000);

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000);

  2,使用默认的关联性评分后,核心代码和运行效果图如下:

  Java代码

  Sort sort=new Sort();//默认使用关联性评分

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  Sort sort=new Sort();//默认使用关联性评分

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  关于上图中乱码字符原因是因为默认排序情况下lucene是不会对搜索结果进行评分操作的,因为评分操作会降低性能,所以关于score的那一列返回的是NAN的字符串,出于格式的需要,散仙在用DecimalFormat类给其评分结果保留2位小数时,因为是一个特殊字符,所以就出现了上图情况。

3,按照日期降序排序,,核心代码和运行效果图如下:

  Java代码

  Sort sort=new Sort(new SortField("date", Type.INT,true));//true为降序排列

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  Sort sort=new Sort(new SortField("date", Type.INT,true));//true为降序排列

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  3,按照价格升序排序,,核心代码和运行效果图如下:

  Java代码

  Sort sort=new Sort(new SortField("price", Type.DOUBLE,false));//false为降序排列

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  Sort sort=new Sort(new SortField("price", Type.DOUBLE,false));//false为降序排列

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  4,多字段排序,按照日期降序的情况下,因为id为7和8的日期相同,所以我们就新增一个排序字段按ename升序排列,,核心代码和运行效果图如下:

  Java代码

  // Sort sort=new Sort(new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false));

  //这两段代码效果一样

  Sort sort=new Sort(new SortField[]{new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false)});

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  // Sort sort=new Sort(new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false));

  //这两段代码效果一样

  Sort sort=new Sort(new SortField[]{new SortField("date", Type.INT, true),new SortField("ename", Type.STRING, false)});

  TopDocs topDocs=searcher.search(new MatchAllDocsQuery(),10000,sort);

  5,带评分的排序,注意后面两个布尔类型的变量可以控制是否评分,特别是在没有要求需要打分时,建议别开启,大数量时对性能影响较大,检索“编程”得到的结果,默认按评分降序排序,核心代码和运行效果图如下:

  Java代码

  Sort sort=Sort.RELEVANCE;

  TopDocs topDocs=searcher.search(new TermQuery(new Term("bookname", "编程")),null,100,sort,true,true);

  Sort sort=Sort.RELEVANCE;

  TopDocs topDocs=searcher.search(new TermQuery(new Term("bookname", "编程")),null,100,sort,true,true);

  上面的编程,编程因为在切分时编程的tf出现了2次,所以在查询时有较高的得分,所以排在首位。

  6,注意几点 
(1)排序对一个文档里什么域都没存储,使用字符串排序会排在首位 
(2)排序对一个文档里什么域都没存储,使用数字类型排序会默认给其赋值为0进行排序 
(3)我们可以对数字类型的null值的文档进行代码控制,可以将其设置为最大,所以将会排在最后面,代码如下

  SortField sortField = new SortField("value", SortField.Type.INT);

  sortField.setMissingValue(Integer.MAX_VALUE);

Lucene4.4.0 开发之排序的更多相关文章

  1. 【转】lucene4.3.0 配置与调试

    lucene4.3.0 配置与调试 demo lucene的最新版本是4.3.0, http://www.apache.org/dyn/closer.cgi/lucene/java/4.3.0 luc ...

  2. ASP.NET Core 1.0 开发记录

    官方资料: https://github.com/dotnet/core https://docs.microsoft.com/en-us/aspnet/core https://docs.micro ...

  3. 用SignalR 2.0开发客服系统[系列2:实现聊天室]

    前言 交流群:195866844 上周发表了 用SignalR 2.0开发客服系统[系列1:实现群发通讯] 这篇文章,得到了很多帮助和鼓励,小弟在此真心的感谢大家的支持.. 这周继续系列2,实现聊天室 ...

  4. 用SignalR 2.0开发客服系统[系列3:实现点对点通讯]

    前言 交流群:195866844 目录: 用SignalR 2.0开发客服系统[系列1:实现群发通讯] 用SignalR 2.0开发客服系统[系列2:实现聊天室] 真的很感谢大家的支持,今天发表系列3 ...

  5. 用SignalR 2.0开发客服系统[系列4:负载均衡的情况下使用SignalR]

    前言 交流群:195866844 目录: 用SignalR 2.0开发客服系统[系列1:实现群发通讯] 用SignalR 2.0开发客服系统[系列2:实现聊天室] 用SignalR 2.0开发客服系统 ...

  6. 用SignalR 2.0开发客服系统[系列5:使用SignalR的中文简体语言包和其他技术点]

    前言 交流群:195866844 目录: 用SignalR 2.0开发客服系统[系列1:实现群发通讯] 用SignalR 2.0开发客服系统[系列2:实现聊天室] 用SignalR 2.0开发客服系统 ...

  7. vue 2.0 开发实践总结之疑难篇

    续上一篇文章:vue2.0 开发实践总结之入门篇 ,如果没有看过的可以移步看一下. 本篇文章目录如下: 1.  vue 组件的说明和使用 2.  vuex在实际开发中的使用 3.  开发实践总结 1. ...

  8. vue2.0 开发实践总结之入门篇

    vue2.0 据说也出了很久了,博主终于操了一次实刀. 整体项目采用  vue +  vue-router +  vuex (传说中的vue 全家桶 ),构建工具使用尤大大推出的vue-cli 后续文 ...

  9. Telerik JustDecompile 2014.1.255.0 开发版(.NET反编译神器,免费下载)

    Telerik JustDecompile是Telerik公司推出一个免费的.NET反编译工具,支持插件与Visual Studio 2015~2013集成,还能够创建Visual Studio Pr ...

随机推荐

  1. 关于.NET异常处理的思考

    年关将至,对于大部分程序员来说,马上就可以闲下来一段时间了,然而在这个闲暇的时间里,唯有争论哪门语言更好可以消磨时光,估计最近会有很多关于java与.net的博文出现,我表示要作为一个吃瓜群众,静静的 ...

  2. 细说前端自动化打包工具--webpack

    背景 记得2004年的时候,互联网开发就是做网页,那时也没有前端和后端的区分,有时一个网站就是一些纯静态的html,通过链接组织在一起.用过Dreamweaver的都知道,做网页就像用word编辑文档 ...

  3. Linux平台 Oracle 10gR2(10.2.0.5)RAC安装 Part1:准备工作

    Linux平台 Oracle 10gR2(10.2.0.5)RAC安装 Part1:准备工作 环境:OEL 5.7 + Oracle 10.2.0.5 RAC 1.实施前准备工作 1.1 服务器安装操 ...

  4. 通过Jexus 部署 dotnetcore版本MusicStore 示例程序

    ASPNET Music Store application 是一个展示最新的.NET 平台(包括.NET Core/Mono等)上使用MVC 和Entity Framework的示例程序,本文将展示 ...

  5. centos7+mono4+jexus5.6.2安装过程中的遇到的问题

    过程参考: http://www.linuxdot.net/ http://www.jexus.org/ http://www.mono-project.com/docs/getting-starte ...

  6. 9、委托、事件、Lambda

    开始 关于委托,肯定是要有问题的. 第一个问题,委托用来干什么? 看.net中的表述:在.net平台下,委托类型用来定义和相应应用程序中的回调.(回调?处理内存中两个实体双向通信的一种技术.)   第 ...

  7. [原] Cgroup CPU, Blkio 测试

    关于Cgroup的简单测试 [toc] 简单介绍Cgroup (如果对cgroup熟悉可以忽略) 一般情况下,cgroup挂载到一个虚拟文件目录,然后可以通过文件系统的API对其操作. ># m ...

  8. java观察者模式

      像activeMQ等消息队列中,我们经常会使用发布订阅模式,但是你有没有想过,客户端时如何及时得到订阅的主题的信息?其实就里就用到了观察者模式.在软件系统中,当一个对象的行为依赖于另一个对象的状态 ...

  9. SQL Server 2014聚集列存储索引

    转发请注明引用和原文博客(http://www.cnblogs.com/wenBlog) 简介 之前已经写过两篇介绍列存储索引的文章,但是只有非聚集列存储索引,今天再来简单介绍一下聚集的列存储索引,也 ...

  10. [Unity3D]利用Raycast实现物体的选择与操作

    本文系作者原创 转载请注明出处 如果是一个2D的平面项目或者说需要在三维空间选择一个物体时(经常表现为抓取物件),我们需要用到Raycast事件 那么首先先说说什么是Raycast 按照字面上来理解的 ...