es搜索排序不正确

沿用该文章里的数据https://www.cnblogs.com/MRLL/p/12691763.html

查询时发现,一模一样的name,但是相关度不一样

GET /z_test/doc/_search

{

  "explain": false,

  "query": {

    "match_phrase": {

      "name": "测试"

    }

  }

}

结果

{

  "took" : ,

  "timed_out" : false,

  "_shards" : {

    "total" : ,

    "successful" : ,

    "skipped" : ,

    "failed" :

  },

  "hits" : {

    "total" : ,

    "max_score" : 0.5753642,

    "hits" : [

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "D4eQcnEBf_xjEc-wO9P0",

        "_score" : 0.5753642,

        "_source" : {

          "name" : "测试123"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "2oeLcnEBf_xjEc-wFNK2",

        "_score" : 0.5753642,

        "_source" : {

          "name" : "测试"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "_analyze",

        "_score" : 0.45840853,

        "_source" : {

          "name" : "测试"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "qHeKcnEBvg5mZsCPxwX1",

        "_score" : 0.3672113,

        "_source" : {

          "name" : "测试"

        }

      },

      {

        "_index" : "z_test",

        "_type" : "doc",

        "_id" : "AVSTcnEBjEFwhOIJHS0S",

        "_score" : 0.33573607,

        "_source" : {

          "name" : "测试1"

        }

      }

    ]

  }

}

查询文档后得知,在相关度分值的计算中有个属性为逆向文档频率,意思为该搜索字段在整个索引的文档里出现的频率,出现的越多所占分值权重越低

参照该文章https://blog.csdn.net/paditang/article/details/79098830

解决办法为用以下查询

GET /z_test/doc/_search?search_type=dfs_query_then_fetch

{

  "explain": false,

  "query": {

    "match": {

     "name": {"query": "测试"}

    }

  }

}

dfs_query_then_fetch意为使用全局的文档信息打分

默认查询参数为query then fetch

发送查询到每个shard
找到所有匹配的文档，并使用本地的Term/Document Frequency信息进行打分
对结果构建一个优先队列（排序，标页等）
返回关于结果的元数据到请求节点。注意，实际文档还没有发送，只是分数
来自所有shard的分数合并起来，并在请求节点上进行排序，文档被按照查询要求进行选择
最终，实际文档从他们各自所在的独立的shard上检索出来
结果被返回给用户

dfs_query_then_fetch

预查询每个shard，询问Term和Document frequency
发送查询到每隔shard
找到所有匹配的文档，并使用全局的Term/Document Frequency信息进行打分
对结果构建一个优先队列（排序，标页等）
返回关于结果的元数据到请求节点。注意，实际文档还没有发送，只是分数
来自所有shard的分数合并起来，并在请求节点上进行排序，文档被按照查询要求进行选择
最终，实际文档从他们各自所在的独立的shard上检索出来
结果被返回给用户

延伸:

词频:查询字段出现的越多分数越高,如果不在意词在某个字段中出现的频次，而只在意是否出现过，则可以在字段映射中禁用词频统计：

PUT /my_index

{

    "mappings": {

        "doc": {

            "properties": {

                "name": {

                    "type": "string",

                    "index_options": "docs"

                }

            }

        }

    }

}

es搜索排序不正确的更多相关文章

ES搜索排序，文档相关度评分介绍——Vector Space Model
Vector Space Model The vector space model provides a way of comparing a multiterm query against a do ...
ES搜索排序，文档相关度评分介绍——TF-IDF—term frequency, inverse document frequency, and field-length norm—are calculated and stored at index time.
Theory Behind Relevance Scoring Lucene (and thus Elasticsearch) uses the Boolean model to find match ...
ES搜索排序，文档相关度评分介绍——Field-length norm
Field-length norm How long is the field? The shorter the field, the higher the weight. If a term app ...
YII关联字段并带搜索排序功能
1.简介从接触yii框架到现在已经快有两个月了,但是自己对yii框架的了解程度并不是很深,并没有系统地去学习,仅仅只是在做项目的时候遇到不懂得知识才去翻手册. 在上一个项目中因为需要将关联的表的字段 ...
搜索实时个性化模型——基于FTRL和个性化推荐的搜索排序优化
本文来自网易云社区作者:穆学锋简介:传统的搜索个性化做法是定义个性化的标签,将用户和商品通过个性化标签关联起来,在搜索时进行匹配.传统做法的用户特征基本是离线计算获得,不够实时:个性化标签虽然具有 ...
【python】Leetcode每日一题-搜索排序数组2
[python]Leetcode每日一题-搜索排序数组2 [题目描述] 已知存在一个按非降序排列的整数数组 nums ,数组中的值不必互不相同. 在传递给函数之前,nums 在预先未知的某个下标 k( ...
从零搭建 ES 搜索服务（六）相关性排序优化
一.前言上篇介绍了搜索结果高亮的实现方法,本篇主要介绍搜索结果相关性排序优化. 二.相关概念 2.1 排序默认情况下,返回结果是按照「相关性」进行排序的--最相关的文档排在最前. 2.1.1 相关 ...
es定制排序搜索结果
GET /company/employee/_search { "query": { "constant_score": { "filter" ...
ES 搜索结果expalain 可以类似数据库性能调优来看排序算法的选择
When we run a simple term query with explain set to true (see Understanding the Score), you will see ...

随机推荐

IPFS(星际文件系统)-初步接触
〇.IPFS介绍从HTTP到IPFS,星际文件系统能变革信息传播的方式吗? 戴嘉乐:详解IPFS的本质.技术架构以及应用以下为实现相关摘要 1.存储在IPFS中,信息可以存储进IPFS系统中的块 ...
谈谈一些逻辑相同，性能差异却很大的sql
总结写在前面: 1. 本篇讲述了三个例子,其本质都是揭示了若对索引字段做函数操作,可能会破坏索引值的有序性,由此优化器就决定放弃走树搜索功能. 2. 由第1点提供了一个优化思路,即我们能否避免或转化s ...
Canvas方法总结
渲染上下文 getContext() // 获得渲染上下文和它的绘画功能绘制形状绘制矩形 fillRect(x, y, width, height) // 绘制一个填充的矩形 strokeRect ...
动态高度计算 height window.addEventListener('resize', () => {
created() { window.addEventListener('resize', () => { }) },
两个奇技淫巧，将 Docker 镜像体积减小 99%
原文链接:Docker Images : Part I - Reducing Image Size 对于刚接触容器的人来说,他们很容易被自己构建的 Docker 镜像体积吓到,我只需要一个几 MB 的 ...
网维大师无盘刷新B盘方法
[模板] dfs序
B.树之呼吸-贰之型-dfs序 Time Limit: 1000 MS Memory Limit: 32768 K Total Submit: 42 (16 users) Total Accepted ...
PAT-B 1003. 我要通过！(20) Java版
"答案正确"是自动判题系统给出的最令人欢喜的回复.本题属于PAT的"答案正确"大派送 -- 只要读入的字符串满足下列条件,系统就输出"答案正确&quo ...
Java中for(;;)和while(true)的区别
while(true): public class Test { public static void main(String[] args) { while(true) { } } } 在?看看汇编 ...
Java字符串反转常见的几种方式？
(1)通过StringBuilder的reverse()方法,速度最快: public class StringReverse { public static void main(String[] a ...

es搜索排序不正确

es搜索排序不正确的更多相关文章

随机推荐

热门专题