概述

score在ES中有着很重要的作用，有了它才有了rank，是验证文档相关性的关键数据，score越大代表匹配到的文档相关性越大

官方解释

查询的时候可以用explain来展示score的计算过程，也可以增加format=yaml来讲json转成yaml方便阅读

类似xxx/_search?explain&format=yaml

下图是通过explain看到的一部分json，其实这个解释中就展示出了计算公式，不得不说ES在这点上还是很人性化的

计算方式

常说的相关性是指计算一个全文（full-text）字段的内容与全文查询字符串的相似程度的算法。

这个算法默认是BM25，一个基于TF-IDF（term frequency/inverse document frequency）的算法。

TF-IDF

首先是TF（term frequency），顾名思义，term在field出现的频率越高，则该term与field的相关性越高。

公式：

sqrt(TF)

然后是IDF（inverse document frequency），term在整个index出现的频率越高，则该term与该document的相关性越低。

公式：

Log(numDocs / docFreq + 1) + 1

BM25

BM全称（Best Match），这个名称不得不说有点过分，这个算法也同样有TF和IDF。

TF，BM25把TF的影响范围减小了，不像TF-IDF一样没有边界

公式：

（k+1）* tf /（k + tf），k一般是个常量，[1.2,2]，通过k可以改变回归的速度。

IDF几乎一样，只是多加了1（为了提高其整体影响比重）

BM25新加了另一个特征，Field-length norm，field的长度有多少，如果field的长度越长，则该term与field的相关性越低（分母越大，概率越小）。

公式：

|d|/avgDl（本文档的长度除以平均文档的长度）

下图为不同文档长度对应相同tf所影响最终tf的曲线。

公式：

（k + 1）* tf / k * ( 1.0 - b + b - L + tf) （其中b为常数）

BM25 Field-length norm之间的对比

TF-IDF和BM25对比

在TF角度的对比

计算流程

Score的计算过程依赖query clause（查询子条件），例如：

1.模糊查询计算匹配到的word和原来的word（匹配前的word）的相似度

2.term查询会包含找到该term所占的百分比

个别查询会结合TF-IDF的socre和其它因素，越多的query clause（查询子条件）匹配到，那么score就越高，具体来说，是query clause匹配得到的score联合起来计算出最终的score。

需要注意的是，TF-IDF默认是基于shard来计算的，假设1个index有5个shards，则就有5个TF-IDF的结果，也就是5个score，然后score再汇聚到request node，做排序后得到最终结果。所以这有产生了另一个问题，当index的documents数量较少时，score的结果会不准确，毕竟不是全局的，shard也只是通过hash来区分，有很大的随机性和偶然性。针对这种情况，ES给出了DFS Query Then Fetch（默认是采用Query Then Fetch）这种解决方案，采用全局计算TF-IDF的方式，解决这个问题，在查询的时候可以这么设置

search_type=dfs_query_then_fetch

（不过会影响效率，毕竟是全局计算，多了几次socket传输）。其实还有一种解决方法，直接把index的shard设置成1，这样自己就代表了全局。

Query Then Fetch

稍微解释一下Query Then Fetch，顾名思义，是先查询后获取。

查询流程如下

score as percentage

刚接触score的时候，总有疑惑，为什么不是一个百分比，这样可能更加直观的表现出匹配到正确的概率，也就是术语”normalized socre”。

这么想是错误的!

Score的意义仅仅在于对比一次查询的多个结果的对比，起到rank作用，并不能代表匹配到的概率，更不能拿几个匹配到的概率做比较，比如：当一个document本身没有发生变化，但是index发生变化，就会影响匹配到document的sorce。这样的概率是没什么意义的，虽然你可以强行造出一个概率。

另外

在做业务的过程中领悟到，搜索系统和推荐系统不是一个系统（之前没想过这个问题），重要区别之一就是主动和被动，详细看这篇博客吧，说的很详细了

http://blog.csdn.net/cserchen/article/details/50422553

参考资料

//官方对相关性的解释，也就是score的计算标准

https://www.elastic.co/guide/en/elasticsearch/guide/master/relevance-intro.html

//当你的数据很少时，请用DFS Query Then Fetch搜索方法

https://www.elastic.co/blog/understanding-query-then-fetch-vs-dfs-query-then-fetch

//ES的两个搜索方法

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-search-type.html

//ES官方解释的BM25和TF-IDF区别

https://www.elastic.co/blog/found-similarity-in-elasticsearch

//外国友人对BM25和TF-IDF的解读

http://opensourceconnections.com/blog/2015/10/16/bm25-the-next-generation-of-lucene-relevation/

//外国友人吐槽当score变成percentage的后果

https://wiki.apache.org/lucene-java/ScoresAsPercentages

elasticsearch系列（五）score的更多相关文章

elasticsearch系列五：搜索详解（查询建议介绍、Suggester 介绍）
一.查询建议介绍 1. 查询建议是什么? 查询建议,为用户提供良好的使用体验.主要包括: 拼写检查: 自动建议查询词(自动补全) 拼写检查如图: 自动建议查询词(自动补全): 2. ES中查询建议的A ...
Elasticsearch系列(五)----JAVA客户端之TransportClient操作详解
Elasticsearch JAVA操作有三种客户端: 1.TransportClient 2.JestClient 3.RestClient 还有种是2.3中有的NodeClient,在5.5.1中 ...
ElasticSearch第五步-.net平台下c#操作ElasticSearch详解
前面我们讲解了关于ElasticSearch的安装配置,以及CRUD 本章我将讲解怎么使用c#操作ElasticSearch. 首先你需要一定的技术储备,比如:asp.net webapi,mvc,j ...
CSS 魔法系列：纯 CSS 绘制各种图形《系列五》
我们的网页因为 CSS 而呈现千变万化的风格.这一看似简单的样式语言在使用中非常灵活,只要你发挥创意就能实现很多比人想象不到的效果.特别是随着 CSS3 的广泛使用,更多新奇的 CSS 作品涌现出来. ...
Netty4.x中文教程系列(五)编解码器Codec
Netty4.x中文教程系列(五)编解码器Codec 上一篇文章详细解释了ChannelHandler的相关构架设计,版本和设计逻辑变更等等. 这篇文章主要在于讲述Handler里面的Codec,也就 ...
WCF编程系列(五)元数据
WCF编程系列(五)元数据示例一中我们使用了scvutil命令自动生成了服务的客户端代理类: svcutil http://localhost:8000/?wsdl /o:FirstServic ...
JVM系列五:JVM监测&工具
JVM系列五:JVM监测&工具[整理中] http://www.cnblogs.com/redcreen/archive/2011/05/09/2040977.html 前几篇篇文章介绍了介 ...
SQL Server 2008空间数据应用系列五：数据表中使用空间数据类型
原文:SQL Server 2008空间数据应用系列五:数据表中使用空间数据类型友情提示,您阅读本篇博文的先决条件如下: 1.本文示例基于Microsoft SQL Server 2008 R2调测 ...
VSTO之旅系列(五)：创建Outlook解决方案
原文:VSTO之旅系列(五):创建Outlook解决方案本专题概要引言 Outlook对象模型自定义Outlook窗体小结一.引言在上一个专题中,为大家简单介绍了下如何创建Word解决方案 ...
系列五AnkhSvn
原文:系列五AnkhSvn AnkhSvn介绍 AnkhSVN是一款在VS中管理Subversion的插件,您可以在VS中轻松的提交.更新.添加文件,而不用在命令行或资源管理器中提交.而且该插件属于开 ...

随机推荐

Jquery Validation 验证控件的使用说明
转载自:http://blog.csdn.net/huang100qi/article/details/52453970,做了一些简化及修改下载地址:https://jqueryvalidation ...
个人php开发之工具--listary（一）
摘要:俗话说:工欲善其事,必先利其器.作为一名开发者来说,熟练的使用工具可以达到事半功倍的效果,我就我自己使用的工具说自己的看法.当然,每个人对某个软件都有自己的看法或使用经验,还是那句老话,什么是最 ...
用Entity Framework往数据库插数据时，出现异常，怎么查看异常的详细信息呢？
做项目时,在用Entity Framework往数据库插数据时,程序报异常,但是通过报的异常死活没法查看异常的详细信息.这让人很是烦恼.本着自己动手丰衣足食的原则,通过查看资料终于找到了显示异常详细信 ...
悬挂else引发的问题
这个问题虽然已经为人熟知,而且也并非C语言所独有,但即使是有多年经验的C程序员也常常在此失误过. 考虑下面的程序片段: if (x == 0) if (y == 0) error(); else{ z ...
java 操作FTP
package comm.ftp; import java.io.ByteArrayInputStream; import java.io.File; import java.io.FileInput ...
input元素之间的融合
将两个input融合在一起,注意input标签之间的空格 .put1{ width: 20px; height: 28px; vertical-align:middle; border: 1px so ...
openlayers应用（二）：加载百度离线瓦片
上一篇文章介绍了使用openlayers3加载百度在线地图,对某些项目或应用场景比如不允许上外网的单位,某些项目只针对一定区域地图加载应用,比如一个县的地图,可以采用下载百度瓦片地图,在服务器或者本机 ...
与64位版本的Windows不兼容，masm运行不了
问题: 在Window64位运行不了的masm 解决方法: 1.下载DosBox0.74(当前最新): 2.安装后运行,运行后出现控制台: 3.在DosBox的控制台下运行 Mount x: x:/m ...
TP5.0 PHPExcel 数据表格导出(原)
今天看的是PHPExcel这个扩展库,Comporse 下载不下来,最后只能自己去github里面手动下载,但有一个问题就是下载下来的PHPExcel没有命名空间,所以框架里面的use根本引入不进去, ...

elasticsearch系列（五）score

概述