【ES】match_phrase与regexp
刚开始接触es,由于弄不清楚match_phrase和regexp导致很多查询结果与预想的不同。在这整理一下。
regexp:针对的是单个词项
match_phrase:针对的是多个词项的相对位置
它们的查询结果跟分析器分词的方式有很大关系。
比如,我有两个字符串"HELLO-world" 和 "hello.WORLD",字段名称是title。
针对"HELLO-world",看下面两个语句。第二个是可以匹配的,第一个不可以。
{ "regexp": { "title": "hello-w.*" }}
{ "match_phrase": { "title": "hello world" }}
分析一下,可以看到,HELLO-world被分为了两个单词,hello和world。
-GET _analyze
{
"field": "title",
"text": "HELLO-world"
}
---------------------------
{
"tokens" : [
{
"token" : "hello",
"start_offset" : ,
"end_offset" : ,
"type" : "<ALPHANUM>",
"position" :
},
{
"token" : "world",
"start_offset" : ,
"end_offset" : ,
"type" : "<ALPHANUM>",
"position" :
}
]
}
首先,es是没有大写的,所有的字符都被转换成了小写。其次,"-"字符丢失了。
regexp是针对单个词项的,无论是hello还是world,都不符合正则条件,故没有匹配。
match_phrase是针对多个词项的。首先match_phrase的"hello world"被分为了hello和world两个单词,然后这两个单词在title的分词中都可以找到,并且相对位置满足条件,故语句可以匹配。
再看 "hello.WORLD"
{ "regexp": { "title": "hello\\.w.*" }}
{ "match_phrase": { "title": "hello world" }}
结果是,第一个可以匹配,而第二个不能。
原因看分词结果:
-GET_analyze
{
"field": "title",
"text": "hello.WORLD"
}
-------------------------------
{
"tokens" : [
{
"token" : "hello.world",
"start_offset" : ,
"end_offset" : ,
"type" : "<ALPHANUM>",
"position" :
}
]
}
坑爹的情况出现了,"."并不会被切分,整个"hello.world"被视作了一个词项。
match_phrase在词项中查找hello和world都查找不到,故不会匹配
regexp则能找到一个满足正则表达式的词项,故可以匹配。
ES的分词处理非常重要,很大的影响了查询结果!
【ES】match_phrase与regexp的更多相关文章
- hot load那点事
		
热加载,最初接触的时候是使用create-react-app的时候,创建一个项目出来,修改一点代码,页面自动刷新了,贫道当时就感叹,这是造福开发者的事情. 再后来编写静态页面的时候使用 VS Code ...
 - ES match  match_phrase term willcard的查询原理
		
比如:要求实现SQL中like “%xxxx%”的匹配效果. wildcard通配 这种效果在ES中最匹配的做法是用wildcard query通配,这种情况不会对query分词,而是直接遍历倒排索引 ...
 - ES查询-match VS match_phrase
		
我们以一个查询的示例开始,我们在student这个type中存储了一些学生的基本信息,我们分别使用match和match_phrase进行查询. 首先,使用match进行检索,关键字是“He is”: ...
 - es 基于match_phrase的模糊匹配原理及使用
		
[版权声明]:本文章由danvid发布于http://danvid.cnblogs.com/,如需转载或部分使用请注明出处 在业务中经常会遇到类似数据库的"like"的模糊匹配需求 ...
 - ES中文分词器之精确短语匹配(解决了match_phrase匹配不全的问题)
		
分词器选择 调研了几种分词器,例如IK分词器,ansj分词器,mmseg分词器,发现IK的分词效果最好.举个例子: 词:<<是的>><span>哈<\span ...
 - es match、match_phrase、query_string和term的区别
		
(一)text字段和keyword字段的区别 以下给出一个例子: 首先建立一个索引和类型,引入一个keywork的字段: PUT my_index { "mappings": { ...
 - ES 应用
		
1. ES的不同之处: 全文检索.处理同义词.通过相关性给文档评分, 从同样的数据中生成分析与聚合数据, 实时大型批处理. 安装es与kibana 1.下载:https://www.elastic ...
 - es中级部分知识点总结
		
--------------------------------------------------------------- 搜索开始-------------------------------- ...
 - ES之二:Elasticsearch原理
		
Elasticsearch是最近两年异军突起的一个兼有搜索引擎和NoSQL数据库功能的开源系统,基于Java/Lucene构建.最近研究了一下,感觉 Elasticsearch 的架构以及其开源的生态 ...
 
随机推荐
- LINUX_正则表达式
			
『正规表示法与通配符是完全不一样的东西!』这很重要喔!因为『通配符 (wildcard) 代表癿是 bash 操作接口癿一个功能』,但正觃表示法则是一种字符串处理癿表示方式  . (小数点):代表『 ...
 - Windows 系统安装多个版本JDK, 修改环境变量不生效
			
1. 前提: 1) 配置环境变量: JAVA_HOME 2) 配置PATH: 添加%JAVA_HOME%\bin 2. 解决: 1) 确保最新的, 你希望使用的JDK, 配置在PATH的字符串的前面, ...
 - location的三种连接方式和区别
			
location.href是一个属性,要这样使用:location.href='http://www.example.com'而location.assign('http://www.example. ...
 - Nginx+Swoole服务器配置
			
nginx 配置 server { listen 80; server_name www.swoole.com; root /data/wwwroot/www.swoole.com; location ...
 - Windows计划任务提示 0xE0434352 错误
			
写了一个计划任务每周去跑一个程序,但是并没有跑,报错是 0xE0434352,应该是没有找到路径(计划任务这么菜的吗)... 解决办法:双击启动程序 写上你当前程序的起始路径 然后在运行一下,就成功了
 - 所有HTTP请求参数及报文查看SERVLET【原】
			
HttpRequestServlet.java 说明: 用于接受所有http形式的请求,并把接受到的request中param及getInputStream全打印出来. package king.se ...
 - 使用rownum对oracle分页【原】
			
以Student表为例进行分页 建表及插入 -- 有表结构如下 create table STUDENT ( sno INTEGER, sname ), sage INTEGER ); -- 插入数据 ...
 - Frame size of 257 MB larger than max allowed 100 MB
			
ActiveMQ有时会报类似Frame size of 257 MB larger than max allowed 100 MB的错误,意思是单条消息超过了预设的最大值,在配置文件中 <tra ...
 - Dijkstra算法:任意两点间的最短路问题 路径还原
			
#define _CRT_SECURE_NO_WARNINGS /* 7 10 0 1 5 0 2 2 1 2 4 1 3 2 2 3 6 2 4 10 3 5 1 4 5 3 4 6 5 5 6 9 ...
 - webx roadmap
			
SpringExt 自定义Spring Schema的例子 基于Spring可扩展Schema提供自定义配置支持 使用SpringExt扩展Webx的示例 扩展点和捐献 一个namespace下可以声 ...