elasticsearch多字段搜索

https://blog.csdn.net/Ricky110/article/details/78888711

多字段搜索
多字符串查询
boost 参数 “最佳” 值，较为简单的方式就是不断试错，比较合理的区间处于 1 到 10 之间，当然也有可能是 15 。如果为 boost 指定比这更高的值，将不会对最终的评分结果产生更大影响，因为评分是被归一化的
GET /_search
{
"query": {
"bool": {
"should": [
{ "match": {
"title": {
"query": "War and Peace",
"boost": 2
}}},
{ "match": {
"author": {
"query": "Leo Tolstoy",
"boost": 2
}}},
{ "bool": { # 不写在上面一层，是因为tarnslator理论是只占总评分的三分之一，在上面一层就是四分之一了
"should": [
{ "match": { "translator": "Constance Garnett" }},
{ "match": { "translator": "Louise Maude" }}
]
}}
]
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
最佳字段
dis_max(Disjunction Max Query)查询,意思是或,指的是：将任何与任一查询匹配的文档作为结果返回，但只将最佳匹配的评分作为查询的评分结果返回;为了理解这句话，做给小实验
创建测试数据
DELETE my_index

PUT /my_index/my_type/1
{
"title": "Quick brown fox rabbits",
"body": "Brown eats rabbits are commonly seen."
}

PUT /my_index/my_type/2
{
"title": "Keeping pets healthy",
"body": "My quick brown fox eats rabbits on a regular basis."
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
查询比较
GET /my_index/my_type/_search
{
"query": {
"bool": {
"should": [
{ "match": { "title": "Brown fox eats" }},
{ "match": { "body": "Brown fox eats" }}
]
}
}
}
1
2
3
4
5
6
7
8
9
10
11
结果:id为1的文档在前面

GET /my_index/my_type/_search
{
"query": {
"dis_max": { # dis_max查询，文档查询的某个match评分最高的作为结果返回
"queries": [
{ "match": { "title": "Brown fox eats" }},
{ "match": { "body": "Brown fox eats" }}
]
}
}
}
1
2
3
4
5
6
7
8
9
10
11
结果:

最佳字段查询调优
tie_breaker：一个简单的 dis_max 查询会采用单个最佳匹配字段，而忽略其他的匹配，指定 tie_breaker 这个参数可以将其他匹配语句的评分也考虑其中；比如：

简单dis_max查询
{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Quick pets" }},
{ "match": { "body": "Quick pets" }}
]
}
}
}
1
2
3
4
5
6
7
8
9
10
结果：

tie_breaker
GET /my_index/my_type/_search
{
"query": {
"dis_max": {
"queries": [
{
"match": {
"title": "Quick pets"
}
},
{
"match": {
"body": "Quick pets"
}
}
],
"tie_breaker": 0.3
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
结果：

tie_breaker 参数提供了一种 dis_max 和 bool 之间的折中选择，范围[0,1]范围建议0.1-0.4, 0 代表使用 dis_max 最佳匹配语句的普通逻辑， 1 表示所有匹配语句同等重要，步骤如下：

获得最佳匹配语句的评分 _score
将其他匹配语句的评分结果与 tie_breaker 相乘
对以上评分求和并规范化
multi_match查询
为能在多个字段上反复执行相同查询提供了一种便捷方式，multi_match 多匹配查询的类型有多种，其中的三种恰巧与了解我们的数据中介绍的三个场景对应，即： best_fields 、 most_fields 和 cross_fields （最佳字段、多数字段、跨字段），默认情况下，查询的类型是 best_fields ，这表示它会为每个字段生成一个 match 查询，然后将它们组合到 dis_max 查询的内部
GET /my_index/my_type/_search
{
"query": {
"dis_max": {
"queries": [
{
"match": {
"title": {
"query": "Quick brown fox",
"minimum_should_match": "30%"
}
}
},
{
"match": {
"body": {
"query": "Quick brown fox",
"minimum_should_match": "30%"
}
}
}
],
"tie_breaker": 0.3
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
查询等价于

GET /my_index/my_type/_search
{
"query": {
"multi_match": {
"query": "Quick brown fox",
"type": "best_fields", # 默认为best_fields可以不指定
"fields": [
"title",
"body"
],
"tie_breaker": 0.3,
"minimum_should_match": "30%" # 这样的参数会被传递到生成的 match 查询中
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
结果:

查询字段名称的模糊匹配
字段名称可以用模糊匹配的方式给出
{
"multi_match": {
"query": "Quick brown fox",
"fields": "*_title"
}
}
1
2
3
4
5
6
提升单个字段的权重
可以使用 ^ 字符语法为单个字段提升权重，在字段名称的末尾添加 ^boost
{
"multi_match": {
"query": "Quick brown fox",
"fields": [ "*_title", "chapter_title^2" ]
}
}
1
2
3
4
5
6
多字段映射
是对我们的字段索引两次，一次使用词干模式以及一次非词干模式
添加多字段映射
DELETE /my_index

PUT /my_index
{
"settings": { "number_of_shards": 1 },
"mappings": {
"my_type": {
"properties": {
"title": {
"type": "string",
"analyzer": "english",
"fields": {
"std": {
"type": "string",
"analyzer": "standard"
}
}
}
}
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
Put值
PUT /my_index/my_type/1
{ "title": "My rabbit jumps" }

PUT /my_index/my_type/2
{ "title": "Jumping jack rabbits" }
1
2
3
4
5
get title

GET /my_index/_search
{
"query": {
"match": {
"title": "jumping rabbits"
}
}
}

# 结果命中2条
1
2
3
4
5
6
7
8
9
10
11
get title.std
GET /my_index/_search
{
"query": {
"match": {
"title.std": "jumping rabbits"
}
}
}
# 结果命中1条
1
2
3
4
5
6
7
8
9
most_fields 合并两次索引的评分，加权重
GET /my_index/_search
{
"query": {
"multi_match": {
"query": "jumping rabbits",
"type": "most_fields",
"fields": [ "title^10", "title.std" ]
}
}
}
1
2
3
4
5
6
7
8
9
10
跨字段实体搜索
当多个属性结合起来决定一个事物的时候，可以使用multi_match查询(依次查询每个字段并将每个字段的匹配评分结果相加),比如
以下字段表示一个人信息
{
"street": "5 Poland Street",
"city": "London",
"country": "United Kingdom",
"postcode": "W1V 3DG"
}
1
2
3
4
5
6
可以如下查询

{
"query": {
"bool": {
"should": [
{ "match": { "street": "Poland Street W1V" }},
{ "match": { "city": "Poland Street W1V" }},
{ "match": { "country": "Poland Street W1V" }},
{ "match": { "postcode": "Poland Street W1V" }}
]
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
或

{
"query": {
"multi_match": {
"query": "Poland Street W1V",
"type": "most_fields", # 合并所有匹配字段的评分
"fields": [ "street", "city", "country", "postcode" ]
}
}
}
1
2
3
4
5
6
7
8
9
most_fields也存在些问题
是为多数字段匹配任意词设计的，而不是在所有字段中找到最匹配的
不能使用 operator 或 minimum_should_match 参数来降低次相关结果造成的长尾效应
词频对于每个字段是不一样的，而且它们之间的相互影响会导致不好的排序结果
自定义_all
copy_to 参数来实现给字段添加自定义_all字段
PUT /my_index
{
"mappings": {
"person": {
"properties": {
"first_name": {
"type": "string",
"copy_to": "full_name"
},
"last_name": {
"type": "string",
"copy_to": "full_name"
},
"full_name": {
"type": "string"
}
}
}
}
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
可通过地址http://blog.csdn.net/jiao_fuyou/article/details/49800969来更深入学习_all

cross-fields跨字段查询
自定义 _all 的方式是一个好的解决方案，只需在索引文档前为其设置好映射，然而还可以使用cross_fields 类型进行 multi_match 查询

cross_fields 使用词中心式（term-centric）的查询方式，这与 best_fields 和 most_fields 使用字段中心式（field-centric）的查询方式非常不同

字段中心式
GET /_validate/query?explain
{
"query": {
"multi_match": {
"query": "peter smith",
"type": "most_fields",
"operator": "and",
"fields": [ "first_name", "last_name" ]
}
}
}
1
2
3
4
5
6
7
8
9
10
11
对于匹配的文档， peter 和 smith 都必须同时出现在相同字段中，要么是 first_name 字段，要么 last_name 字段

(+first_name:peter +first_name:smith)
(+last_name:peter +last_name:smith)
1
2
词中心式，词 peter 和 smith 都必须出现，但是可以出现在任意字段中，cross_fields 类型首先分析查询字符串并生成一个词列表，然后它从所有字段中依次搜索每个词
GET /_validate/query?explain
{
"query": {
"multi_match": {
"query": "peter smith",
"type": "cross_fields",
"operator": "and",
"fields": [ "first_name", "last_name" ]
}
}
}
1
2
3
4
5
6
7
8
9
10
11
为了让 cross_fields 查询以最优方式工作，所有的字段都须使用相同的分析器

采用 cross_fields 查询与自定义 _all 字段相比，其中一个优势就是它可以在搜索时为单个字段提升权重
GET /books/_search
{
"query": {
"multi_match": {
"query": "peter smith",
"type": "cross_fields",
"fields": [ "title^2", "description" ]
}
}
}
1
2
3
4
5
6
7
8
9
10
需要在 multi_match 查询中避免使用 not_analyzed 字段
---------------------
作者：Ricky110
来源：CSDN
原文：https://blog.csdn.net/Ricky110/article/details/78888711
版权声明：本文为博主原创文章，转载请附上博文链接！

elasticsearch多字段搜索的更多相关文章

Elasticsearch 全字段搜索_all，query_string查询，不进行分词
最近在使用ELasitcsearch的时候,需要用到关键字搜索,因为是全字段搜索,就需要使用_all字段的query_string进行搜索. 但是在使用的时候,遇到问题了.我们的业务并不需要分词,我在 ...
[Elasticsearch] 多字段搜索 (五) - 以字段为中心的查询
以字段为中心的查询(Field-centric Queries) 上述提到的三个问题都来源于most_fields是以字段为中心(Field-centric),而不是以词条为中心(Term-centr ...
[Elasticsearch] 多字段搜索 (一) - 多个及单个查询字符串
多字段搜索(Multifield Search) 本文翻译自官方指南的Multifield Search一章. 查询很少是只拥有一个match查询子句的查询.我们经常需要对一个或者多个字段使用相同或者 ...
Elasticsearch 多字段搜索
查询很少是对一个字段做 match 查询,通常都是一个 query 查询多个字段,比如一个 doc 有 title.content.pagetag 等文本字段,要在这些字段查询含多个 term 的 q ...
[Elasticsearch] 多字段搜索 (三) - multi_match查询和多数字段 <译>
multi_match查询 multi_match查询提供了一个简便的方法用来对多个字段执行相同的查询. NOTE 存在几种类型的multi_match查询,其中的3种正好和在“了解你的数据”一节中提 ...
[Elasticsearch] 多字段搜索 (六) - 自定义_all字段，跨域查询及精确值字段
自定义_all字段在元数据:_all字段中,我们解释了特殊的_all字段会将其它所有字段中的值作为一个大字符串进行索引.尽管将所有字段的值作为一个字段进行索引并不是非常灵活.如果有一个自定义的_al ...
[Elasticsearch] 多字段搜索 (三) - multi_match查询和多数字段
multi_match查询 multi_match查询提供了一个简便的方法用来对多个字段执行相同的查询. NOTE 存在几种类型的multi_match查询,其中的3种正好和在"了解你的数据 ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...
[Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优（转）
最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...

随机推荐

virtualenv的使用
virtualenv 是一个创建隔绝的Python环境的工具.在向服务器导入第三方库的时候特别有用. 1.首先,安装virtualenv pip install virtualenv 2.创建一个虚拟 ...
php 当前日期加一天和指定日期加一天
1.给当前时间加一天?一小时? <?phpecho "今天:",date('Y-m-d H:i:s'),"<br>";echo "明 ...
Hadoop2-HDFS学习笔记之入门（不含YARN及MR的调度功能）
架构 Hadoop整体由HDFS.YARN.MapReduce三大部分组成,推荐架构参考:https://www.cnblogs.com/zhjh256/p/10573684.html. 注:2.x的 ...
【题解】Luogu P5313 僕たちはひとつの光（[Ynoi2012]D2T2）
原题传送门 lovelive好评比赛时只拿到了60pts,还是自己太菜了这题的思想实际有点像Luogu P3674 小清新人渣的本愿与Luogu P5071 [Ynoi2015]此时此刻的光辉这 ...
C# readonly与const区别
静态常量:是指编译器在编译时候会对常量进行解析,并将常量的值替换成初始化的那个值. 动态常量的值则是在运行的那一刻才获得的,编译器编译期间将其标示为只读常量,而不用常量的值代替,这样动态常量不必在声明 ...
常用sql语句总结（二）（更新数据,序列,创建数据表,约束,注释）
常用sql语句总结(二)(更新数据,序列,创建数据表,约束,注释) 一. 增 INSERT INTO 数据表(字段,字段,-) VALUES(值,值-); INSERT INTO emp(empno, ...
GPIO8种方式小总结
在输出3时写1时上反向为0,下为1,1时MOS不接通,0接通为1时上导通输出高电平1: 为0时下导通输出低电平0: VDD为逻辑电源正 VSS为逻辑地若为输出状态则施密特触发器总为开然后经过上拉 ...
zeros（）和ones（）和eye（）
python--zeros函数和ones函数使用numpy.zeros,numpy.ones,numpy.eye等方法可以构造特定的矩阵 >>>from numpy import ...
[Java]先有Class还是先有Object？
先有鸡还是先有蛋这个问题让我想到了一个古老的问题,先有鸡还是先有蛋. 回到本题下面让我们详细看一下这个问题: 在Java的对象模型中: 所有的类都是Class类的实例,Object是类,那么Obj ...
【转载】RESTful 架构风格概述
本文转载自https://blog.igevin.info/posts/restful-architecture-in-general/ 在移动互联网的大潮下,随着docker等技术的兴起,『微服务』 ...

elasticsearch多字段搜索

elasticsearch多字段搜索的更多相关文章

随机推荐

热门专题