一、目的

一个搜索引擎使用的时候必定需要排序这个模块，一般情况下在不选择按照某一字段排序的情况下，都是按照打分的高低进行一个默认排序的，所以如果正式使用的话，必须对默认排序的打分策略有一个详细的了解才可以，否则被问起来为什么这个在前面，那个在后面不好办，因此对Elasticsearch的打分策略详细的看了下，虽然说还不是了解的很全部，但是大部分都看的差不多了，结合理论以及搜索的结果，做一个简单的介绍

二、Elasticsearch的打分公式

Elasticsearch的默认打分公式是lucene的打分公式，主要分为两部分的计算，一部分是计算query部分的得分，另一部分是计算field部分的得分，下面给出ES官网给出的打分公式：

score(q,d) =
queryNorm(q)
· coord(q,d)
· ∑ (
tf(t in d)
· idf(t)²
· t.getBoost()
· norm(t,d)
) (t in q)

在此给每一个部分做一个解释

queryNorm(q)：

对查询进行一个归一化，不影响排序，因为对于同一个查询这个值是相同的，但是对term于ES来说，必须在分片是1的时候才不影响排序，否则的话，还是会有一些细小的区别，有几个分片就会有几个不同的queryNorm值

queryNorm(q)=1 / √sumOfSquaredWeights

上述公式是ES官网的公式，这是在默认query boost为1，并且在默认term boost为1 的情况下的打分，其中

sumOfSquaredWeights =idf(t1)*idf(t1)+idf(t2)*idf(t2)+...+idf(tn)*idf(tn)

其中n为在query里面切成term的个数，但是上面全部是在默认为1的情况下的计算，实际上的计算公式如下所示：

coord(q,d):

coord(q,d)是一个协调因子它的值如下：

coord(q,d)=overlap/maxoverlap

其中overlap是检索命中query中term的个数，maxoverlap是query中总共的term个数，例如查询词为“无线通信”，使用默认分词器，如果文档为“通知他们开会”，只会有一个“通”命中，这个时候它的值就是1/4=0.25

tf(t in d):

即term t在文档中出现的个数，它的计算公式官网给出的是：

tf(t in d) = √frequency

即出现的个数进行开方，这个没什么可以讲述的，实际打分也是如此

idf(t):

这个的意思是出现的逆词频数，即召回的文档在总文档中出现过多少次，这个的计算在ES中与lucene中有些区别，只有在分片数为1的情况下，与lucene的计算是一致的，如果不唯一，那么每一个分片都有一个不同的idf的值，它的计算方式如下所示：

idf(t) = 1 + log ( numDocs / (docFreq + 1))

其中，log是以e为底的，不是以10或者以2为底，这点需要注意，numDocs是指所有的文档个数，如果有分片的话，就是指的是在当前分片下总的文档个数，docFreq是指召回文档的个数，如果有分片对应的也是在当前分片下召回的个数，这点是计算的时候与lucene不同之处，如果想验证是否正确，只需将分片shard的个数设置为1即可。

t.getboost():

对于每一个term的权值，没仔细研究这个项，个人理解的是，如果对一个field设置boost，那么如果在这个boost召回的话，每一个term的boost都是该field的boost

norm(t,d):

对于field的标准化因子，在官方给的解释是field越短，如果召回的话权重越大，例如搜索无线通信，一个是很长的内容，但都是包含这几个字，但是并不是我们想要的，另外一个内容很短，但是完整包含了无线通信，我们不能因为后面的只出现了一次就认为权重是低的，相反，权重应当是更高的，其计算公式如下所示：

其中d.getboost表明如果该文档权重越大那么久越重要

f.getboost表明该field的权值越大，越重要

lengthnorm表示该field越长，越不重要，越短，越重要，在官方文档给出的公式中，默认boost全部为1，在此给出官方文档的打分公式：

norm(d) = 1 / √numTerms

该值在计算的时候总是无法对上，查询网上的资料说是在打分的时候将结果先进行压缩，然后解压缩，所以结果跟原始值对不上，个人理解有点像量化的过程，因为在实际explain的时候发现该值有一定的规律性

三、实际的打分explain

在实际的时候，例如搜索“无线通信”，如下图所示，因为一些私人原因，将一些字段打码，查询的时候设置explain为true，如下图所示：

因为使用的是默认的分词器，所以最后的结果是将“无线通信”分成了四个字，并且认为是四个term来进行计算，最后将计算的结果进行相加得到最后的得分0.7605926，这个分数是“无”的得分：

最后的得分是0.7605926=0.118954286+0.1808154+0.14515185+0.31567，与上述符合，因为四个词都出现了所以在这里面的coord=1,总分数的计算知道后，我们单看每一部分的得分的计算，以“无”为例进行介绍：

其中每一个term内部分为两部分的分数，一部分是queryweight，一部分是fieldweight，其中总分数=queryweight*fieldweight

例如此处queryweight=0.51195854，fieldWeight=0.2323514，所以总的分数就是0.118954286

queryweigth计算：

对于queryweight部分的计算分为两个部分idf和querynorm，其中idf的值是2.8618271，这个值是如何计算的呢

idf=1+ln(1995/(309+1))=2.8618271,说明在分片四里面共有1995个文档，召回了包含“无”的309个文档，因此为这个值

querynorm部分的计算：根据上面“无”“线”“通”“信”四个的分数计算，可以看到，idf的值分别为

无：2.8618271

线：3.1053379

通：2.235371

信：2.901306

所以按照计算公式

querynorm=1 / √2.8618271*2.8618271+3.1053379*3.1053379+2.235371*2.235371+2.901306*2.901306=0.1788922

所以queryweight部分的值是0.1788922*2.8618271=0.51195854

再次总结下此处的公式：queryweight=idf*queryNorm(d)

fieldweight部分计算：

idf的计算上边已经算过，在此不详细叙述

tf的值是在此处出现3次，所以为√3=1.7320508

fieldnorm的值不知道如何计算，按照公式计算不出来explain的值，网上资料说是编解码导致的，哪位朋友知道如何计算麻烦回复下，多谢

总结下fieldweight部分的计算公式：fieldweight=idf*tf*fieldnorm=1.7320508*2.8618271*0.046875=0.2323514

所以总体的计算就是

score=queryweight*fieldweight=idf*queryNorm(d)*idf*tf*fieldnorm=coord*queryNorm(d)*tf*idf^2*fieldnorm

四、参考文档

http://www.cnblogs.com/forfuture1978/archive/2010/03/07/1680007.html

https://www.elastic.co/guide/en/elasticsearch/guide/current/scoring-theory.html#field-norm

【打分策略】Elasticsearch打分策略详解与explain手把手计算的更多相关文章

Elasticsearch SQL用法详解
Elasticsearch SQL用法详解 mp.weixin.qq.com 本文详细介绍了不同版本中Elasticsearch SQL的使用方法,总结了实际中常用的方法和操作,并给出了几个具体例子 ...
Lucene打分规则与Similarity模块详解
搜索排序结果的控制 Lucnen作为搜索引擎中,应用最为广泛和成功的开源框架,它对搜索结果的排序,有一套十分完整的机制来控制:但我们控制搜索结果排序的目的永远只有一个,那就是信息过滤,让用户快速,准确 ...
SQL Server 执行计划操作符详解（3）——计算标量(Compute Scalar)
接上文:SQL Server 执行计划操作符详解(2)--串联(Concatenation ) 前言: 前面两篇文章介绍了关于串联(Concatenation)和断言(Assert)操作符,本文介绍第 ...
elasticsearch 安装配置详解
一.安装简单的安装与启动于前文ElasticSearch初探(一)已有讲述,这里不再重复说明. 二.启动 1.自带脚本启动 1)bin/elasticsearch,不太任何参数,默认在前端启动 2) ...
【elasticsearceh】elasticsearch.yml配置文件详解
主要内容如下: cluster.name: elasticsearch 配置es的集群名称,默认是elasticsearch,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个 ...
ElasticSearch Java api 详解_V1.0
/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ ...
Elasticsearch之配置详解
Cluster 集群名称,默认为elasticsearch: cluster.name: elasticsearch 设置一个节点的并发数量,有两种情况,一种是在初始复苏过程中: cluster.ro ...
spring-boot-starter-data-elasticsearch 整合elasticsearch 5.x详解
1.使用原因近期公司在开发新的项目用到了elasticsearch ,因为项目框架用的spring Cloud所以依赖全用的是starter,从网上找的信息比较旧,并没有整合elasticsearc ...
Elasticsearch date 类型详解
引言一直对 elasticsearch 中的 date 类型认识比较模糊,而且在使用中又比较常见,这次决定多花些时间,彻底弄懂它,希望能对用到的同学提供帮助. 注意:本文测试使用是 elastics ...

随机推荐

网站/IIS/Web/WCF服务访问共享目录映射的解决方案
目录问题案例原因分析解决问题总结问题案例环境: 电脑A:winform程序: 电脑B:部署了一个文件上传的WCF服务在IIS上.且该服务的配置文件中已经增加 <identity im ...
【Python】详解Python多线程Selenium跨浏览器测试
前言在web测试中,不可避免的一个测试就是浏览器兼容性测试,在没有自动化测试前,我们总是苦逼的在一台或多台机器上安装N种浏览器,然后手工在不同的浏览器上验证主业务流程和关键功能模块功能,以检测不同浏 ...
Python几种并发实现方案的性能比较
http://blog.csdn.net/permike/article/details/54846831 Python几种并发实现方案的性能比较 2017-02-03 14:33 1541人阅读评 ...
你知道Windows和WordPress上帝模式吗？
一.Windows 上帝模式这个玩意出来很久很久了,估计不用多说,知道的同学还是挺多的,不知道的也只要百度一下,你就知道了. 方法很简单,在 Windows 系统任何地方新建一个文件夹,如下命名即可 ...
[py][mx]django-解决注册用户已存在,激活链接判断
注册时候,如果用户已存在,则提示错误激活用户时候,如果激活链接失效,则提示用户. class RegisterView(View): def get(self, request): register ...
JS 数组和对象的遍历方式，以及几种方式的比较。
通常我们会用循环的方式来遍历数组.但是循环是导致js 性能问题的原因之一.一般我们会采用下几种方式来进行数组的遍历: 方式1: for in 循环: var arr = [1,2,3,4,5]; v ...
ARM_Core的处理器模式与寄存器，结构杂谈
ARM处理器的工作状态:ARM处理器有两种工作状态.在程序的执行过程中,处理器可以在两种工作状态之间切换,并且不影响相应寄存器中的内容. ARM状态,此时处理器执行32位对齐的ARM指令:BX指令, ...
uva12083 二分图求最大独立集转化为求最大匹配由题意推出二分图
这题大白书例题 : Frank 是一个思想有些保守的高中老师,有一次,他需要带一些学生出去旅行,但又怕其中一些学生在旅途中萌生爱意.为了降低这种事情的发生概率,他决定确保带出去的任意两个学生至少要满足 ...
本地缓存之GUAVA
项目开发中,很多配置数据需要缓存,一般来说,开发人员都会手动写HashMap,HashSet或者ConcurrentHashMap,ConcurrentHashSet缓存数据,但是这样的缓存往往存在内 ...
Python tricks(5) -- string和integer的comparison操作
我们都知道, python是一个强类型的语言, 也是一个动态类型的语言. 但是在python2.X系列中, 这个强类型是需要打折扣的, 是非常接近强类型. 我们来看下面的代码片段 In [1]: 'a ...

【打分策略】Elasticsearch打分策略详解与explain手把手计算