Solr高亮

原理

做搜索时,高亮是很常见的需求,那么Solr肯定也为高亮提供了支持。先解释下Solr高亮的原理,在我们设置了需要高亮显示的Field之后,查询得到的返回结果会多出来下面的内容:

"highlighting": {

"519": {

"Artist_Name": [

"<em>周杰伦</em>"

]
}
}

其实就是多了highlighting的字段,并没有改变原来返回的字段内容。

Json串是使用 Unique Field :{高亮显示的内容}的形式。

SolrJ有三种高亮类型:

如果要对某field做高亮显示,必须对该field设置stored=true

Standard Highlighter,根据查询的docIdSet,获取Documents,并获取当前document的需要高亮的field的value,根据query的term和该field的value做匹配算法
FastVector Highlighter,效率比普通的高亮显示要高;需要定义termvector(占用空间和IO),包括position和offset,根据query term的termvector到field value中做快速的定位标记,进而实现快速的高亮显示
Postings Highlighter,由于高亮显示需要对field设置为store=true,所有对于单节点数据量比较大并且该字段比较大的话,会消耗大量的IO操作,那么可以把该字段存储在另外的地方,比如Hbase,在外部做高亮显示的匹配。

其中推荐使用的是Standard Highlighter,下面也是针对Standard Highlighter,

配置

下面介绍两种配置方式:

  1.SolrJ配置:

//设置高亮
songQuery.setHighlight(true); // 开启高亮组件或用query.setParam("hl", "true"); songQuery.addHighlightField("Song_Name,Song_SingerName");// 高亮字段
songQuery.set("hl.highlightMultiTerm","true");//启用多字段高亮
songQuery.setHighlightSimplePre("<font style=\"color:#A7D043;font-weight:bold;\">"); //标记,高亮关键字前缀
songQuery.setHighlightSimplePost("</font>");//后缀

  2.solrConfig.xml配置:

<requestHandler name="search" class="solr.SearchHandler" default="true">
<!-- default values for query parameters can be specified, these
will be overridden by parameters in the request
-->
<lst name="defaults">
<str name="echoParams">explicit</str>
<int name="rows">10</int>
<str name="df">text</str>
<str name="hl">true</str>
<str name="hl.fl">content</str>
<str name="f.name.hl.fragsize">50</str>
<str name="hl.simple.pre">&lt;font color=&quot;red&gt;</str>
<str name="hl.simple.post">&lt;/font&gt;</str>
</lst>
</requestHandler>

详细的RequestHandler配置请参看博客:五、SolrJ、Request Handler

其实这两种配置并没有本质上的区别。我个人习惯使用SolrJ配置。

解析

获取highlighting是非常简单的,一条语句搞定:

Map<String,Map<String,List<String>>> tempMap = response.getHighlighting();

相信大家也注意到了,虽然接受结果简单,但是如果想遍历就比较复杂了,因为接受到的结果是嵌套了很多层的类型Map<String,Map<String,List<String>>>

那么我这边把我解析的方法分享下:

Map<String,Map<String,List<String>>> tempMap = songHighlight.getHighlighting();
for(Map.Entry<String, Map<String,List<String>>> entry : tempMap.entrySet()) {
if(Integer.parseInt(entry.getKey()) == song.getSong_SongID()) { for(Map.Entry<String, List<String>> entryLayer2 : entry.getValue().entrySet()) {
if(null != entryLayer2.getKey() && "Song_Name".equals(entryLayer2.getKey())) {
//your Operation
}
if(null != entryLayer2.getKey() && "Song_SingerName".equals(entryLayer2.getKey())) {
//your Operation
}
}
}
}

这个方法比Iterator和foreach效率稍高。

我设置了两个字段需要高亮,所以在循环中判断了高亮是属于哪个字段,之后进行相应的操作。

因为我做的时候,一首歌可能有几个Song_SingerName,在数据库中用"/"分隔,所以这种情况更加复杂,我首先是把后缀中的/换成了出现概率很小的@

songQuery.setHighlightSimplePost("<@font>");//后缀

然后再用split("@")分隔出不同的Song_SingerName,但是这样就会有一个问题,就是我不知道高亮的歌手到底是哪一个歌手,所以这个时候,我还需要从分割后的String[]中提取所有的中文字符,比对后,存入另一个变量,最后再用"/"替换掉"@"。

Solr权重

概念

Solr底层依然用的是Lucene的权重算法,也就是通过一个公式计算每个Documents的得分,然后按得分高低排序,公式如下:

简单解释下这个公式中包含的一些因子:

Tf:Term frequency,就是条目出现的次数。

Idf: Inverse document frequency,就是用来描述在一个搜索关键字中,不同字词的稀有程度。比如搜索The Cat in the Hat,那么很明显The和in远没有Cat和Hat重要。

Boosting:这个使我们设置权重的重点,比如搜索歌手名,那么在一个document中还有歌手的ID、歌曲的清晰度、歌曲上传时间,而boosting是不同的Filed有不同权重,之后根据公式计算得分。所以可以看到,我们并不能直接影响solr搜索结果的排序,需要改变权重,进而改变不同Document的得分,从而影响排序。

其中还有很多因子和公式的解释,有兴趣的同学可以参考Solr in action这本书,里面有比较详细的解释。

因为我们只需简单的根据某一Filed的权重影响结果的排序,所以我们需要改变Document的Boosting,那么就需要用到Dismax,Dismax是一个查询解析器(Query parser),查询解析器的概念就是提供了一系列查询的参数,一旦我们在查询url中设置了相应的参数,那么查询解析器将会解析查询信息,从而得到搜索结果,其实完全也可以把查询解析器理解为一个Api,就是提供了相应的方法,我们设置,之后Solr根据我们设置的参数进行查询,只不过不同的Query Parser提供了不同的参数而已。

一共提供了三种Query Parser

Standard:最常用的,并且是默认

Dismax:

Extended Dismax

功能从上至下是逐渐递增的,在大部分情况下,Standard已经可以完全满足需求,但是因为要使用权重排序,那么需要用到Dismax,具体提供的参数请查看wiki:

https://cwiki.apache.org/confluence/display/solr/The+Standard+Query+Parser

那么首先需要设置Query Parser为Dismax:

songQuery.set("defType","dismax");

之后设置需要查询的Field:

songQuery.set("qf","Song_Name^2 Song_SingerName^0.2");

比如我这里就需要根据用户输入的关键字查询歌手名和歌曲名,之后返回这两个Field命中的结果、多个Query Filed中可以设置不同的权重,比如Song_Name的权重就为2,必须注意,在Solr权重的设置中,所有权重标准为1,意思是当权重设置大于1时,代表这个字段的权重变大,如果权重设置小于1并且大于0的时候,代表这个字段权重变小。

之后设置其它Field的权重:

songQuery.set("bf", "sum(div(Song_Quality,0.01),if(exists(Song_FileMV),20000,0),recip(ms(NOW,Song_CreateTimeForNew),1,10000,1))");

这里面用到了很多Function Query,比如div,代表相除、exists代表如果Song_FileMV如果不为空那么设置它的权重为20000,为空则为0。记住最后要sum起来,因为从上面的公式可以看出来,boosting是一个变量,所以最好要有一个和值。相关的函数请参考wiki:

http://wiki.apache.org/solr/FunctionQuery

这样搜索结果就会按照有MV的优先显示、最近上传的优先显示、清晰度高的优先显示。

六、Solr高亮与Field权重的更多相关文章

  1. Solr高亮与Field权重

    Solr高亮与Field权重   Solr高亮 原理 做搜索时,高亮是很常见的需求,那么Solr肯定也为高亮提供了支持.先解释下Solr高亮的原理,在我们设置了需要高亮显示的Field之后,查询得到的 ...

  2. solr与.net系列课程(六)solr定时增量索引与安全

     solr与.net系列课程(六)solr定时增量索引与安全 solr增量索引的方式,就是一个Http请求,但是这样的请求显然不能满足要求,我们需要的是一个自动的增量索引,solr官方提供了一个定时器 ...

  3. solr 高亮配置

    solrj中配置: 两种高亮开启设置 // solrParams.setHighlight(true); solrParams.setParam("hl", "true& ...

  4. solr schema.xml Field属性详解

    <field name="id" type="string" indexed="true" stored="true&quo ...

  5. solr高亮设置以及摘要

    高亮显示 public SolrDocumentList query(String str) { SolrQuery query = new SolrQuery(str); //设置高亮,以下两种方式 ...

  6. solr 基本命令二(权重查找)

    package zr.com.solr.utils; import java.io.IOException; import java.util.HashMap; import java.util.Li ...

  7. solr高亮及摘要

    修改了原文的一点内容:原文地址为:http://www.cnblogs.com/rainbowzc/p/3680343.html 高亮显示 两种方法: 1.在程序里通过设置query返回高亮信息 pu ...

  8. Solr高亮详解

    hl.fl: 用空格或逗号隔开的字段列表.要启用某个字段的highlight功能,就得保证该字段在schema中是stored.如果该参数未被给出,那么就会高亮默认字段 standard handle ...

  9. Solr字段类型field type的定义

    摘要: Solr的字段类型定义了Solr如何解析字段数据并将数据检索出来,了解Solr的字段类型定义有助于更好的配置与使用Solr. 字段类型的定义 字段类型的定义主要包含如下四个方面的信息: 名称 ...

随机推荐

  1. JAVA小项目之摇奖机

    功能: 点击”摇杆“开始: 两种结束滚动方式,A:点击”摇杆“ B:分别点击 对应结果框的按钮: 实现最后减速停下来效果,模拟真实摇奖机. 知识点:A.线程的控制,B.图片轮播原理 效果图:   窗口 ...

  2. sql server语句

    一.基础1.说明:创建数据库CREATE DATABASE 数据库名2.说明:删除数据库drop database 数据库名3.说明:备份sql server--- 创建 备份数据的 deviceUS ...

  3. CentOs上搭建git服务器

    CentOs上搭建git服务器 首先安装setuptools wget http://pypi.python.org/packages/source/s/setuptools/setuptools-0 ...

  4. iOS 网络与多线程--6.下载并保存网络图片

    使用二进制数据对象的,从制定网站获取数据的方法,下载网络图片,并转化为二进制数据,然后将二进制数据保存到磁盘 按照注释需要进行阅读以下代码 // Created by JinXin on 15/12/ ...

  5. CHAR数组转成STRING:C++

    有些时候,键入了CHAR数组却不会知道到底有多长,是不是很差评呢?但是,转成STRING就可以啦QWQ #include <iostream> #include <cstdio> ...

  6. assert实现

    测试网站在国内国外的访问速度 关于C的右左法则 assert宏的实现(一道笔试题) 2010-11-09 13:05:48|  分类: c |  标签: |举报 |字号大中小 订阅     asser ...

  7. CentOS6.4 GOOGLE chrome install

    yum install http://people.centos.org/hughesjr/chromium/6/i386/RPMS/chromium-28.0.1500.45-205727.i686 ...

  8. 关闭Centos的自动更新

    昨天跟老板汇报,提到我们的linux服务器每天自动更新,老板大发雷霆,说生产系统不能够这样,非常不安全,一个师兄也提到他原来在移动的时候,服务器更新也是很谨慎的事情.看来我的思维太技术了,不够全面,所 ...

  9. C程序设计语言练习题1-18

    练习1-18 编写一个程序,删除每个输入行末尾的空格及制表符,并删除完全是空格的行. 代码如下: #include <stdio.h> // 包含标准库的信息. #define MAXLI ...

  10. [POJ] 2226 Muddy Fields(二分图最小点覆盖)

    题目地址:http://poj.org/problem?id=2226 二分图的题目关键在于建图.因为“*”的地方只有两种木板覆盖方式:水平或竖直,所以运用这种方式进行二分.首先按行排列,算出每个&q ...