Solr搜索的排序打分规则探讨

使用Solr搭建搜索引擎很容易，但是如何制定合理的打分规则(boost)做排序却是一个很头痛的事情。Solr本身的排序打分规则是继承自Lucene的文本相关度的打分即boost，这一套算法对于通用的提供全文检索的服务来讲，已经够用了，但是对于一些专门领域的搜索来讲，文本相关度的打分是不合适的。

如何来定制适合自身业务的排序打分规则（boost）呢？经过这段时间的思考与实践，想到了如下三个方法

1、定制Lucene的boost算法，加入自己希望的业务规则；
2、使用Solr的edismax实现的方法，通过bf查询配置来影响boost打分。
3、在建索引的schema时设置一个字段做排序字段，通过它来影响文档的总体boost打分。

上面每一种方法都有其优劣，下面分析一下各自的优劣。

第一种方法技术难度要求较高，需要读懂Lucene的boost打分算法，在代码层做定制.
第二种方式就简单不少，不过因为受限于edismax提供的方法，所以有些局限性。
第三种排序可完全消除文本相关性打分的影响，文本检索匹配逻辑只负责找到匹配的项，排序由自定义字段处理。

下面结合最近使用Solr的实践，着重介绍一下通过使用Solr的DisMaxQParserPlugin通过配置来制定结果文档打分规则。

DisMaxQParserPlugin提供在针对文本boost打分上，支持搜索多个schema索引字段，并针对每一个字段设置不同的boost权限。

pf查询与 qf查询

pf: 可提供对一条记录的多个字段做匹配的功能

qf: 针对查询的每个字段设置不同的boost权重打分，其设置的字段必须为在pf中配置的项。

可在solrconfig.xml中的browse中配置做如下配置：

<requestHandler name="/browse" class="solr.SearchHandler"> <lst name="defaults"> <str name="defType">edismax</str> <str name="pf"> name info title </str> <str name="qf"> name^1 info^0.8 title^0.6 </str> </lst> </requestHandler>

上面一段的意思是，查询name，info,title三个字段，每个字段的文本相关度打分权重分别为1,0.8,0.6。计算查询出的每一条结果的权重方法如下：分别计算各字段的文本打分然后乘于配置的权重，最后三者相加即为该结果的boost得分。

bf查询

除去pf查询，qf查询之外，仍然希望索引记录的其它字段能够计入打分中，这时可以使用bf查询。bf查询支持一些数据函数，这些函数可作用在索引记录的字段上，多为时间，数值等字段。同样bf也支持添加权重。下面是一个使用bf查询配置的例子：

<requestHandler name="/browse" class="solr.SearchHandler"> <lst name="defaults"> <str name="defType">edismax</str> <str name="bf"> sum(recip(ms(NOW,created_time),3.16e-11,1,1),sqrt(log(max(sales,1))),sqrt(log(count)))^10 </str> <str name="pf"> name info title </str> <str name="qf"> name^1 info^0.8 title^0.6 </str> </lst> </requestHandler> 其中sum，recip，ms，sqrt，log，max这些都是Solr提供的数学方法，支持的所有数学方法可在这里查找到：http://wiki.apache.org/solr/FunctionQuery

edismax相关资源：http://wiki.apache.org/solr/DisMaxQParserPlugin

Solr搜索的排序打分规则探讨的更多相关文章

Solr 多字段、打分规则、权重和实时索引同步
1.字段 Filed:<field name="_id" type="text_ik" indexed="true" stored=& ...
#研发解决方案介绍#基于ES的搜索+筛选+排序解决方案
郑昀基于胡耀华和王超的设计文档最后更新于2014/12/3 关键词:ElasticSearch.Lucene.solr.搜索.facet.高可用.可伸缩.mongodb.SearchHub.商品中 ...
Lucene打分规则与Similarity模块详解
搜索排序结果的控制 Lucnen作为搜索引擎中,应用最为广泛和成功的开源框架,它对搜索结果的排序,有一套十分完整的机制来控制:但我们控制搜索结果排序的目的永远只有一个,那就是信息过滤,让用户快速,准确 ...
什么是Solr搜索
什么是Solr搜索一.Solr综述什么是Solr搜索我们经常会用到搜索功能,所以也比较熟悉,这里就简单的介绍一下搜索的原理. 当然只是介绍solr的原理,并不是搜索引擎的原理,那会更复杂. ...
Solr搜索结果高级设置
一.选择响应格式 XML是Solr的默认响应格式.从Solr的角度看,什么样的响应格式并不重要.Solr可以返回XML.JSON.Ruby.Python.PHP.二进制Java等,甚至是自定义格式.使 ...
Solr搜索技术
Solr搜索技术今日大纲回顾上一天的内容: 倒排索引 lucene和solr的关系 lucene api的使用 CRUD 文档.字段.目录对象(类).索引写入器类.索引写入器配置类.IK分词器查 ...
Solr系列五：solr搜索详解（solr搜索流程介绍、查询语法及解析器详解）
一.solr搜索流程介绍 1. 前面我们已经学习过Lucene搜索的流程,让我们再来回顾一下流程说明: 首先获取用户输入的查询串,使用查询解析器QueryParser解析查询串生成查询对象Query ...
1、SQL可搜索可排序可分页存储过程， 2、范围内的随机时间适用于sql 2008以上
-- ============================================= -- Author: 蜘蛛王 -- Create date: 2015-10-29 -- Descri ...
关于Solr搜索标点与符号的中文分词你必须知道的（mmseg源码改造）
关于Solr搜索标点与符号的中文分词你必须知道的(mmseg源码改造) 摘要:在中文搜索中的标点.符号往往也是有语义的,比如我们要搜索“C++”或是“C#”,我们不希望搜索出来的全是“C”吧?那样对程 ...

随机推荐

如何直接在网页中显示PDF文件
通过的浏览器:360.Firefox.IE.Chrome 2. 下面这个完整点: <param name="_Version" value="65539" ...
android将drawable下的图片转换成bitmap
将drawable下的图片转换成bitmap 1. Bitmap bitmap = BitmapFactory.decodeResource(getResources(), R.drawable.xx ...
LeetCode OJ：Binary Tree Paths（二叉树路径）
Given a binary tree, return all root-to-leaf paths. For example, given the following binary tree: 1 ...
EF各版本增删查改及执行Sql语句
自从我开始使用Visual Studio 也已经经历了好几个版本了,而且这中间EF等框架的改变也算是比较多的.本篇文章记录下各个版本EF执行Sql语句和直接进行增删查改操作的区别,方便自己随时切换版本 ...
UFLDL新版教程
http://ufldl.stanford.edu/tutorial/ 还带编程作业.
mysql之 xtrabackup原理、备份日志分析、备份信息获取
一. xtrabackup备份恢复工作原理: extrabackup备份简要步骤 InnoDB引擎很大程度上与Oracle类似,使用redo,undo机制,XtraBackup在备份的时候,以read ...
Sqoop-从hive导出分区表到MySQL
经多次验证,发现并没有特殊的方法能够直接把多个分区一次性读入,并插入MySQL的方法,以后发现会在此添加. Sqoop只提供了从MySQL导入到HIVE分区表的相关参数,反向并无特别参数. 从HIVE ...
第七篇 PHP编码规范
当码农多年,始终进步不大,前面说了第一个原因是没有明确的目标:第二个原因是没有养成良好的习惯(即优秀的职业规范). 1)pear 规范 http://pear.php.net/manual/en/st ...
verilog学习五点经验分享
1.规范很重要工作过的朋友肯定知道,公司里是很强调规范的,特别是对于大的设计(无论软件还是硬件),不按照规范走几乎是不可实现的.逻辑设计也是这样:如果不按规范做的话,过一个月后调试时发现有错,回头再看 ...
extjs控制器调用其他视图的函数实现控件赋值。

Solr搜索的排序打分规则探讨

Solr搜索的排序打分规则探讨的更多相关文章

随机推荐

热门专题