比如：要求实现SQL中like “%xxxx%”的匹配效果。

wildcard通配

这种效果在ES中最匹配的做法是用wildcard query通配，这种情况不会对query分词，而是直接遍历倒排索引逐个匹配计算，性能是无法想象的，大家慎用。

match全文匹配

效果最差的做法是用match全文检索，这种情况只要query分词的任何一个term出现在倒排中，就会召回文档，所以很容易搜出一些八竿子打不着的文档。

term匹配

如果你的搜索词本身不需要分词，只是一个term的话，那么直接走term query是最方便的。

match_phrase短语匹配

推荐一个折衷性能与准确度的做法就是用match_phrase短语匹配。

match_phrase的原理是对query分词，要求所有的term都出现在倒排中，并且连续且顺序一致的排列，下面一起看个例子。

我们采用ik_smart中文分词器，对”青岛上合蓝”分词：

[

'index' => 'article',

'body' => [

'analyzer' => 'ik_smart',

'text' => '青岛上合蓝',

]

得到结果：

{

"tokens": [{

"token": "青岛",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 0

}, {

"token": "上合",

"start_offset": 2,

"end_offset": 4,

"type": "CN_WORD",

"position": 1

}, {

"token": "蓝",

"start_offset": 4,

"end_offset": 5,

"type": "CN_WORD",

"position": 2

}]

}

大家看到，每个term都有一个position字段标识了term的位置，这将直接影响match_phrase是否可以召回。

接着我们进行搜索，query搜索词是：”上合蓝”，分词结果如下：

{

"tokens": [{

"token": "上合",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 0

}, {

"token": "蓝",

"start_offset": 2,

"end_offset": 3,

"type": "CN_WORD",

"position": 1

}]

}

“上合”与”蓝”的position紧密排列，与之前”青岛上合蓝”中的”上合”与”蓝”顺序一致且连续，所以match_phrase搜索”上合蓝”可以召回上述的”青岛上合蓝”。

相反，如果你query搜索”青岛蓝”，那么”青岛”与”蓝”中间少了一个”上合”，所以无法召回：

{

"tokens": [{

"token": "青岛",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 0

}, {

"token": "蓝",

"start_offset": 2,

"end_offset": 3,

"type": "CN_WORD",

"position": 1

}]

}

所以，match_phrase的确可以解决我们的这个场景。

因为match_phrase需要分词，所以如果分词效果不好（词库不足），query就会产生不同于doc的term，如果term都不同就肯定无法匹配了。

但是大家要注意，match_phrase与ik_max_word分词器是无法一起工作的，因为ik_max_word分词的term具有重叠问题，下面举个栗子：

先用ik_max_word分词：

[

'index' => 'article',

'body' => [

'analyzer' => 'ik_max_word',

'text' => '青岛上合蓝',

]

得到：

{

"tokens": [{

"token": "青岛",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 0

}, {

"token": "岛上",

"start_offset": 1,

"end_offset": 3,

"type": "CN_WORD",

"position": 1

}, {

"token": "岛",

"start_offset": 1,

"end_offset": 2,

"type": "CN_WORD",

"position": 2

}, {

"token": "上合",

"start_offset": 2,

"end_offset": 4,

"type": "CN_WORD",

"position": 3

}, {

"token": "蓝",

"start_offset": 4,

"end_offset": 5,

"type": "CN_WORD",

"position": 4

}]

}

你从”岛上”，”岛”就能看出，它的term之间具有重叠情况，这与ik_smart是完全不同的，因为ik_max_word的目标是尽可能产生更多的term组合，一般用于全文检索提高召回率。

接着我们搜索下面的query：

[

'index' => 'article',

'body' => [

'analyzer' => 'ik_max_word',

'text' => '青岛',

]

分词结果：

{

"tokens": [{

"token": "青岛",

"start_offset": 0,

"end_offset": 2,

"type": "CN_WORD",

"position": 0

}, {

"token": "岛",

"start_offset": 1,

"end_offset": 2,

"type": "CN_WORD",

"position": 1

}]

}

“青岛”与”岛”之间差着一个”岛上”，结果就是match_phrase不匹配。

最后给大家一个结论：

如果大家用match_phrase的话，需要注意2个方面：1）分词器不准会影响召回；2）只能用ik_smart。

其他对于ES 默认分词等其他分词同样适用

原文链接：https://yuerblog.cc/2018/09/13/ik-with-match_phrase

ES match match_phrase term willcard的查询原理的更多相关文章

ElasticSearch match, match_phrase, term区别
1.term结构化字段查询,匹配一个值,且输入的值不会被分词器分词. 比如查询条件是: { "query":{ "term":{ "foo" ...
ES 入门记录之 match和term查询的区别
ElasticSearch 系列文章 1 ES 入门之一安装ElasticSearcha 2 ES 记录之如何创建一个索引映射 3 ElasticSearch 学习记录之Text keyword 两 ...
es match、match_phrase、query_string和term的区别
(一)text字段和keyword字段的区别以下给出一个例子: 首先建立一个索引和类型,引入一个keywork的字段: PUT my_index { "mappings": { ...
elasticsearch 查询（match和term）
elasticsearch 查询(match和term) es中的查询请求有两种方式,一种是简易版的查询,另外一种是使用JSON完整的请求体,叫做结构化查询(DSL). 由于DSL查询更为直观也更为简 ...
（转载）elasticsearch 查询（match和term）
原文地址:https://www.cnblogs.com/yjf512/p/4897294.html elasticsearch 查询(match和term) es中的查询请求有两种方式,一种是简易版 ...
es创建普通索引以及各种查询
创建索引创建普通索引: PUT /my_index { "settings": { "index": { "number_of_shards&quo ...
基于Lucene查询原理分析Elasticsearch的性能
前言 Elasticsearch是一个很火的分布式搜索系统,提供了非常强大而且易用的查询和分析能力,包括全文索引.模糊查询.多条件组合查询.地理位置查询等等,而且具有一定的分析聚合能力.因为其查询场景 ...
ES 入门 - 基于词项的查询
准备首先先声明下,我这里使用的 ES 版本 5.2.0. 为了便于理解,这里以如下 index 为格式,该格式是通过 PMACCT 抓取的 netflow 流量信息, 文中所涉及的到的例子,全基于此 ...
Lucene 查询原理传统二级索引方案倒排链合并倒排索引跳表位图
提问: 1.倒排索引与传统数据库的索引相比优势? 2.在lucene中如果想做范围查找,根据上面的FST模型可以看出来,需要遍历FST找到包含这个range的一个点然后进入对应的倒排链,然后进行求并集 ...

随机推荐

LeetCode——688. Knight Probability in Chessboard
一.题目链接:https://leetcode.com/problems/knight-probability-in-chessboard/ 二.题目大意: 给定一个N*N的棋盘和一个初始坐标值(r, ...
在windows下安装、配置、运行PostgreSQL【转】
安装PostgreSQL 在Windows下的安装就位无脑安装,选择好安装路径就好了,我的安装目录为D:\PostgreSQL\10,需要注意一下几点: 安装过程中需要一个数据库的目录,我的为D:\P ...
在ubuntu中屏蔽“检测到系统程序出现问题”对话框
ubuntu各个版本中都会时常遇到 “检测到系统程序出现问题”对话框这是由于ubuntu系统中的“Apport”即错误信息的收集报告系统,将所有系统错误告警都不分大小和主次全部通知你,严重影响我们正 ...
js任意数组按下标相加
let a=[1,2,3], b=[4,5,6]; let s = a.map(function(v, i) { return v + b[i]; }); console.log(s);
js中的数据类型、以及浅拷贝和深拷贝
一.js中的数据类型 1.基本类型(值类型):Undefined.Boolean.String.Number.Symbol 2.引用类型:函数.数组.对象.null.new Number(10)都是对 ...
在socket的server端处理client端发来的数据
一.楔子最近做了一个需求遇到一个坑,归结成一个小问题,其实就是在socket的server端处理client端发来的数据的问题,现将这个问题总结一下,本文将数据在server端以字典的形式存储. 另 ...
[UE4]AttachToComponent的AttachmentRule
官方文档 KeepRelative 将当前相对转换保持为新父级的相对转换 KeepWorld 自动计算相对变换,使附着的组件保持相同的世界变换 SnapToTarget 捕捉转换到附着点
.net 多线程之线程取消
//线程取消不是操作线程,而是操作信号量(共享变量,多个线程都能访问到的东西,变量/数据库的数据/硬盘数据) //每个线程在执行的过程中,经常去查看下这个信号量,然后自己结束自己 //线程不能别人终止 ...
windows2012 IIS部署GeoTrust证书踩过的坑。视频测试可用 IIS 证书导入
证书导入方式 https://wenku.baidu.com/view/3504f29a55270722192ef78a.html https://www.cnblogs.com/jackrebel/ ...
Oracle数据库ORA-01109 数据库未打开
引致 https://blog.csdn.net/colinmok/article/details/39504879?locationNum=11&fps=1 感谢! 在plsql创建了2表 ...

ES match match_phrase term willcard的查询原理

比如：要求实现SQL中like “%xxxx%”的匹配效果。

wildcard通配

match全文匹配

term匹配

match_phrase短语匹配

ES match match_phrase term willcard的查询原理的更多相关文章

随机推荐

热门专题