关于Elasticsearch 使用 MatchPhrase搜索的一些坑

对分词字段检索使用的通常是match查询，对于短语查询使用的是matchphrase查询，但是并不是matchphrase可以直接对分词字段进行不分词检索（也就是业务经常说的精确匹配），下面有个例子，使用Es的请注意。

某个Index下面存有如下内容

  {

      "id": "1",

      "fulltext": "亚马逊卓越有限公司诉讼某某公司"

  }

其中fulltext使用ik分词器进行分词存储，使用ik分词结果如下

  "tokens": [

      {

        "token": "亚马逊",

        "start_offset": 0,

        "end_offset": 3,

        "type": "CN_WORD",

        "position": 0

      },

      {

        "token": "亚",

        "start_offset": 0,

        "end_offset": 1,

        "type": "CN_WORD",

        "position": 1

      },

      {

        "token": "马",

        "start_offset": 1,

        "end_offset": 2,

        "type": "CN_CHAR",

        "position": 2

      },

      {

        "token": "逊",

        "start_offset": 2,

        "end_offset": 3,

        "type": "CN_WORD",

        "position": 3

      },

      {

        "token": "卓越",

        "start_offset": 3,

        "end_offset": 5,

        "type": "CN_WORD",

        "position": 4

      },

      {

        "token": "卓",

        "start_offset": 3,

        "end_offset": 4,

        "type": "CN_WORD",

        "position": 5

      },

      {

        "token": "越有",

        "start_offset": 4,

        "end_offset": 6,

        "type": "CN_WORD",

        "position": 6

      },

      {

        "token": "有限公司",

        "start_offset": 5,

        "end_offset": 9,

        "type": "CN_WORD",

        "position": 7

      },

      {

        "token": "有限",

        "start_offset": 5,

        "end_offset": 7,

        "type": "CN_WORD",

        "position": 8

      },

      {

        "token": "公司",

        "start_offset": 7,

        "end_offset": 9,

        "type": "CN_WORD",

        "position": 9

      },

      {

        "token": "诉讼",

        "start_offset": 9,

        "end_offset": 11,

        "type": "CN_WORD",

        "position": 10

      },

      {

        "token": "讼",

        "start_offset": 10,

        "end_offset": 11,

        "type": "CN_WORD",

        "position": 11

      },

      {

        "token": "某某",

        "start_offset": 11,

        "end_offset": 13,

        "type": "CN_WORD",

        "position": 12

      },

      {

        "token": "某公司",

        "start_offset": 12,

        "end_offset": 15,

        "type": "CN_WORD",

        "position": 13

      },

      {

        "token": "公司",

        "start_offset": 13,

        "end_offset": 15,

        "type": "CN_WORD",

        "position": 14

      }

    ]

对于如上结果，如果进行matchphrase查询 “亚马逊卓越”，无法匹配出任何结果
因为对 “亚马逊卓越” 进行分词后的结果为：

    {

      "tokens": [

        {

          "token": "亚马逊",

          "start_offset": 0,

          "end_offset": 3,

          "type": "CN_WORD",

          "position": 0

        },

        {

          "token": "亚",

          "start_offset": 0,

          "end_offset": 1,

          "type": "CN_WORD",

          "position": 1

        },

        {

          "token": "马",

          "start_offset": 1,

          "end_offset": 2,

          "type": "CN_CHAR",

          "position": 2

        },

        {

          "token": "逊",

          "start_offset": 2,

          "end_offset": 3,

          "type": "CN_WORD",

          "position": 3

        },

        {

          "token": "卓越",

          "start_offset": 3,

          "end_offset": 5,

          "type": "CN_WORD",

          "position": 4

        },

        {

          "token": "卓",

          "start_offset": 3,

          "end_offset": 4,

          "type": "CN_WORD",

          "position": 5

        },

        {

          "token": "越",

          "start_offset": 4,

          "end_offset": 5,

          "type": "CN_CHAR",

          "position": 6

        }

      ]

    }

和存储的内容对比发现原文存储中包含词语 “越有”，而查询语句中并不包含“越有”，包含的是“越”，因此使用matchphrase短语匹配失败，也就导致了无法检索出内容。
还是这个例子，换个词语进行检索，使用“亚马逊卓越有”，会发现竟然检索出来了，对“亚马逊卓越有”进行分词得到如下结果：

     {

      "tokens": [

        {

          "token": "亚马逊",

          "start_offset": 0,

          "end_offset": 3,

          "type": "CN_WORD",

          "position": 0

        },

        {

          "token": "亚",

          "start_offset": 0,

          "end_offset": 1,

          "type": "CN_WORD",

          "position": 1

        },

        {

          "token": "马",

          "start_offset": 1,

          "end_offset": 2,

          "type": "CN_CHAR",

          "position": 2

        },

        {

          "token": "逊",

          "start_offset": 2,

          "end_offset": 3,

          "type": "CN_WORD",

          "position": 3

        },

        {

          "token": "卓越",

          "start_offset": 3,

          "end_offset": 5,

          "type": "CN_WORD",

          "position": 4

        },

        {

          "token": "卓",

          "start_offset": 3,

          "end_offset": 4,

          "type": "CN_WORD",

          "position": 5

        },

        {

          "token": "越有",

          "start_offset": 4,

          "end_offset": 6,

          "type": "CN_WORD",

          "position": 6

        }

      ]

    }

注意到了吗？这里出现了越有这个词，这也就是说现在的分词结果和之前的全文分词结果完全一致了，所以matchphrash也就找到了结果。

再换一个极端点的例子，使用“越有限公司”去进行检索，你会惊讶的发现，竟然还能检索出来，对“越有限公司”进行分词，结果如下：

    {

      "tokens": [

        {

          "token": "越有",

          "start_offset": 0,

          "end_offset": 2,

          "type": "CN_WORD",

          "position": 0

        },

        {

          "token": "有限公司",

          "start_offset": 1,

          "end_offset": 5,

          "type": "CN_WORD",

          "position": 1

        },

        {

          "token": "有限",

          "start_offset": 1,

          "end_offset": 3,

          "type": "CN_WORD",

          "position": 2

        },

        {

          "token": "公司",

          "start_offset": 3,

          "end_offset": 5,

          "type": "CN_WORD",

          "position": 3

        }

      ]

    }

这个结果和原文中的结果又是完全一致（从越有之后的内容一致），所以匹配出来了结果，注意点这里有个词语“有限公司”，检索词语如果我换成了“越有限”，就会发现没有查询到内容，因为“越有限”分词结果为：

    {

      "tokens": [

        {

          "token": "越有",

          "start_offset": 0,

          "end_offset": 2,

          "type": "CN_WORD",

          "position": 0

        },

        {

          "token": "有限",

          "start_offset": 1,

          "end_offset": 3,

          "type": "CN_WORD",

          "position": 1

        }

      ]

    }

“越有”这个词是包含的，”有限”这个词语也是包含的，但是中间隔了一个“有限公司”，所以没有完全一致，也就匹配不到结果了。这时候如果我检索条件设置matchphrase的slop=1，使用“越有限”就能匹配到结果了，现在可以明白了，其实position的位置差就是slop的值，而matchphrase并不是所谓的词语拼接进行匹配，还是需要进行分词，以及position匹配的。

关于Elasticsearch 使用 MatchPhrase搜索的一些坑的更多相关文章

elasticsearch的rest搜索--- 查询
目录: 一.针对这次装B 的解释二.下载,安装插件elasticsearch-1.7.0 三.索引的mapping 四. 查询五.对于相关度的大牛的文档四. 查询 1. 查询的官网的文档 ...
elasticsearch实现网站搜索
使用elasticsearch 实现网站搜索,可以支持商品搜索,筛选项过滤搜索 ,价格排序, 打分筛选项聚合,还有其他综合排序后续推出搜索人工干预排序,根据销量,好评率,售卖率进行全方位的搜索实 ...
Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索作者:白宁超 2019年5月24日17:22:41 导读:件开发最大的麻烦事之一就是环境配置,操作系统设置,各种库和组件的安装.只有它们都正 ...
CentOS 7.4 下搭建 Elasticsearch 6.3 搜索群集
上个月 13 号,Elasticsearch 6.3 如约而至,该版本和以往版本相比,新增了很多新功能,其中最令人瞩目的莫过于集成了 X-Pack 模块.而在最新的 X-Pack 中 Elastics ...
笔记13：Python 和 Elasticsearch 构建简易搜索
Python 和 Elasticsearch 构建简易搜索 1 ES基本介绍概念介绍 Elasticsearch是一个基于Lucene库的搜索引擎.它提供了一个分布式.支持多租户的全文搜索引擎,它可 ...
elasticsearch联想加搜索实例
//搜索框具体的ajax如下: <form class="form-wrapper cf"> <img src="__PUBLIC__/Home/img ...
elasticsearch 单节点搭建与爬坑记录
elasticsearch 单节点搭建与爬坑记录 prepare 虚拟机或者云服务器(这里用的是阿里云ECS) linux---centos7 安装完毕的jdk 相应的安装包(在https:/ ...
畅购商城(五)：Elasticsearch实现商品搜索
好好学习,天天向上本文已收录至我的Github仓库DayDayUP:github.com/RobodLee/DayDayUP,欢迎Star,更多文章请前往:目录导航畅购商城(一):环境搭建畅购商 ...
Elasticsearch(2) 数据搜索
本文介绍如何在Elasticsearch中对数据进行搜索. 1.简述在Elasticsearch中的搜索中,有两类搜索: queries aggregations 区别在于:query可以进行全文搜 ...

随机推荐

不窃取用户隐私的搜索引擎: DuckDuckGo
不窃取用户隐私的搜索引擎: DuckDuckGo https://duckduckgo.com/ 最近goggle不给力, baidu搜出来的很多都是垃圾, bing用久了很烦. 于是用上了DuckD ...
Android反编译获取资源文件-android学习之旅(69)
有时候你看到一些很好看的布局,会考虑别人怎么实现的,回想参考一下,那么这时候反编译一下是很必要的. 要用到的工具apktool.bat和aapt.exe和apktool.jar(要最新版本) 下载前两 ...
LCS问题（最长公共子序列）-动态规划实现
问题描述: 问题] 求两字符序列的最长公共字符子序列注意: 并不要求子串(字符串一)的字符必须连续出现在字符串二中. 思路分析: 最优子结构和重叠子问题的性质都具有,所以要采取动态规划的算法最长公 ...
OC语言（二）
十.匿名对象即不将对象赋给指针,而是直接使用注意new对象的时候要用[ ]嵌套例如:[[Car new] run]; 十一.枚举书写规范注意空格 //注视 typedef enum { } X ...
Android Studio 使用SlidingMenu侧滑菜单
SlidingMenu是十分常用的开源框架,提供了一个滑动侧边栏的功能. 看了许多教程,都是往eclipse导入SlidingMenu库的,随后百度了几篇Android Studio导入的教程,鼓捣了 ...
android bitmap压缩几种色彩详解
android中的大图片一般都要经过压缩才显示,不然容易发生oom,一般我们压缩的时候都只关注其尺寸方面的大小,其实除了尺寸之外,影响一个图片占用空间的还有其色彩细节. 打开Android.graph ...
Media Player Classic - HC 源代码分析 2：核心类（CMainFrame）（1）
===================================================== Media Player Classic - HC 源代码分析系列文章列表: Media P ...
OpenCV——PS 滤镜，浮雕效果
具体的算法原理可以参考: PS 滤镜, 浮雕效果 // define head function #ifndef PS_ALGORITHM_H_INCLUDED #define PS_ALGORITH ...
web报表工具FineReport常用函数的用法总结（文本函数）
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符.CHAR函数可将计算机其他类型的数字代码转换为字符. Number:用于指定字符的数字,介于1Number:用于指定字符的数字 ...
How tomcat works 读书笔记十三 Host和Engine
Host Host是Context的父容器.如果想在一个tomcat上部署多个context就需要使用Host了.上下文容器的父容器是主机,但是可能有一些其它实现,没有必要的时候也可以忽略.不过在实践 ...

关于Elasticsearch 使用 MatchPhrase搜索的一些坑

关于Elasticsearch 使用 MatchPhrase搜索的一些坑的更多相关文章

随机推荐

热门专题