相关性算分
  指文档与查询语句间的相关度,通过倒排索引可以获取与查询语句相匹配的文档列表
 
如何将最符合用户查询需求的文档放到前列呢?
  本质问题是一个排序的问题,排序的依据是相关性算分,确定倒排索引哪个文档排在前面
 
影响相关度算分的参数:
  A. TF(Term Frequency):词频,即单词在文档中出现的次数,词频越高,相关度越高,计算公式: tf(t in d) = √frequency
  B. Document Frequency(DF):文档词频, 该词出现在多少篇文档中
  C. IDF(Inverse Document Frequency):倒排文档频度,与文档词频相反,即 1/DF。即单词出现的文档数越少,相关度越高(如果一个单词在文档集出现越少,算为越重要单词),计算公式:idf(t) = 1 + log ( numDocs / (docFreq + 1))
  D. Field-length Norm:字段长度归约, 字段有多长?字段越短,那么其权重就越高。如果一个词条出现在较短的字段,如 title 字段中,那么该字段的内容相比更长的body 字段而言,更有可能是关于该词条的,计算公式: norm(d) = 1 / √numTerms
 
• TF/IDE 模型
                   
  a) score(q, d),文档 d 与查询 q 的相关度分数(relevance score)
  b) queryNorm(q),查询正则因子(query normalization factor)试图将查询正则化,以便可以比较两个不同 query 的结果
  c) coord(q, d),协调因子(coordination factor)
    
  d) tf(t in d),term t 在文档 d 中的词频
  e) idf(t),term t 的逆向文档频率
  f) t.getBoost(),查询中使用的自定义 boost,竞价排名用
  g) norm(t, d),文档 d 的文本长度正则值
 
• BM25 模型(5.X 之后的默认模型)
                  
  a) |D|:文档长度
  b) avgdl:所有文档的平均文档长度
  c) k1,b 是自由参数,lucene 默认 k1=1.2,b=0.75
  d) IDF = log((#Docs - #DocsHit + 0.5)/(#DocsHit + 0.5))
  e) TF = query count in one doc
 
 
 
BM25 相比 TF/IDF 的一大优化是降低了 tf 在过大时的权重,避免词频对查询影响过大

影响ES相关度算分的因素的更多相关文章

  1. ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    一.基于词项与全文的搜索 1.词项 Term(词项)是表达语意的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理Term. Term的使用说明: 1)Term Level Query:Ter ...

  2. Elasticsearch从入门到放弃:浅谈算分

    今天来聊一个 Elasticsearch 的另一个关键概念--相关性算分.在查询 API 的结果中,我们经常会看到 _score 这个字段,它就是用来表示相关性算分的字段,而相关性就是描述一个文档和查 ...

  3. Lucene TF-IDF 相关性算分公式(转)

    Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很 ...

  4. 影响pogo pin连接器使用寿命的因素

    精细化.安装简易化及使用寿命长是现在数码电子产品的趋势发展,pogo pin连接器体积小而且弹簧伸缩式设计,可以更好的缩小数码电子产品的尺寸并且连接安装更加的简单方便,因此pogo pin连接器得到了 ...

  5. Solr相似度算法一:Lucene TF-IDF 相关性算分公式

    Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很 ...

  6. Lucene TF-IDF 相关性算分公式

    转自: http://lutaf.com/210.htm Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF- ...

  7. RTMP服务器的延迟,多级边缘不影响延迟,gop为最大因素

    转自:http://blog.chinaunix.net/uid-26000296-id-4932826.html 编码器用FMLE,用手机秒表作为延迟计算. 结论: 1. 影响延迟的三个重要因素:网 ...

  8. UnixBench算分介绍

    关于如何用UnixBench,介绍文章很多,这里就不展开了.这里重点描述下它是如何算分的. 运行参数 碰到很多客户,装好后,直接./Run,就把结果跑出来了,然后还只取最后一个分值,比谁高谁低.下面列 ...

  9. Elasticsearch BM25相关度算法超详细解释

    Photo by Pixabay from Pexels 前言:日常在使用Elasticsearch的搜索业务中多少会出现几次 "为什么这个Doc分数要比那个要稍微低一点?".&q ...

随机推荐

  1. SpringCloud之Hystrix断路器(六)

    整合Hystrix order-service pom.xml         <dependency> <groupId>org.springframework.cloud& ...

  2. linux文本编辑器教学

    linux常见服务 一. 文本编辑器 vi vim是vi增强版 vim需要安装 sudo apt-get -y install vim 1 vim的三种工作模式 1 编辑模式 命令模式=>编辑模 ...

  3. 基本的sql 语句

    1,登陆数据库:mysql -u root -p2,退出数据库:exit quit ctr+d3,创建数据库:create database 数据库名 charset=utf84,使用数据库:use ...

  4. Pycharm 专业版激活码(转) 有效期到2020/06月

    亲测有效!!! 有效期截止为2020年06月,多谢大家支持与讨论! K6IXATEF43-eyJsaWNlbnNlSWQiOiJLNklYQVRFRjQzIiwibGljZW5zZWVOYW1lIjo ...

  5. vue页面首次加载缓慢原因及解决方案

    第一次打包vue的项目部署到服务器下时,发现初次加载特别的缓慢,将近20s页面才加载出来,完全没有开发环境上的那么流畅.主要原因是页面在打包后如果不进行相关配置会导致资源文件特别的大,一次想要全部加载 ...

  6. JavaSE语法

    二.JavaSE语法(上) 1.Java 有没有 goto 语句? goto 是 Java 中的保留字,在目前版本的 Java 中没有使用.根据 James Gosling(Java 之父)编写的&l ...

  7. 消息中心 - Laravel的Redis队列(一)

    前言 Laravel的队列可以用在轻量级的队列需求中.比如我们系统中的短信.邮件等功能,这些功能有一些普遍的特征,异步.重试.并发控制等.Laravel现在主要支持的队列服务有Null.Sync.Da ...

  8. NOIp2017 列队(线段树)

    嘛..两年前的题目了,想起第一次参加提高组还骗了一个省二回来呢...跟同学吹了好久的... 离退役又近了一骗博客啊.. 闲聊结束. 照常化简:给定一个1-n*m编号的矩阵,每次删除一个位置,然后左边向 ...

  9. T7

    #include<iostream> #include<cstring> #include<cstdio> #include<algorithm> us ...

  10. Kubernetes3-kubectl管理Kubernetes容器平台-2

    一.kubectl管理集群中deployment资源与service服务 1.相关参数 kubectl edit 编辑服务器侧资源 kubectl replace 替换,使用 yaml 配置文件来替换 ...