查询很少是对一个字段做 match 查询,通常都是一个 query 查询多个字段,比如一个 doc 有 title、content、pagetag 等文本字段,要在这些字段查询含多个 term 的 query,就要对它们的相关度评分做合理的合并。这被称为多词(multiword)、多字段(multifield)查询。

如果一个 query 可以结构化,如哪些词是 title,哪些词是 author,那么就可以直接在相关字段中查询,使用 bool 查询即可解决问题,bool 查询是“匹配越多越好”,如搜“War and Peace Leo Tolstoy”,查询语句如下:

GET /_search
{
"query": {
"bool": {
"should": [
{ "match": { "title": "War and Peace" }},
{ "match": { "author": "Leo Tolstoy" }}
]
}
}
}

还可以对不同的字段加不同的 boost 权重。

以上被称为多重查询字符串,也可算是结构化查询,不过现实中通常是一个 query 在多个字段中查询,即单一查询字符串。毕竟对 query 做结构化需要些 nlp 技术和额外的人力成本,且比起单一查询字符串的效果提升也有限,所以若不是对召回效果有更高追求,还是不要轻举妄动,就好好做一个 query 在多个字段的查询吧。

一个 query 在多个字段中的查询,有三种策略:best_fields、most_fields、cross_fields。

介绍这三种策略之前,先铺垫下布尔查询和 dis_max 查询。

1. bool 查询

一个 query 在多个字段中的查询,同样可使用 bool 查询。

{
"query": {
"bool": {
"should": [
{ "match": { "title": "Brown fox" }},
{ "match": { "body": "Brown fox" }}
]
}
}
}

不过由于 bool 查询评分公式的问题,效果不太好,比如一个文档 title 和 body 都包含 brown,不包含 fox,另一个文档在 body 字段包含了 brown 和 fox,显然后者更符合搜索意图,但 bool 查询的评分前者高,为了理解导致这样的原因,需要看下 bool 查询是如何计算评分的:

  • 它会执行 should 语句中的两个查询。

  • 加和两个查询的评分。

  • 乘以匹配字段的总数(这里不知是否理解正确,存疑,待验证)。

  • 除以所有语句总数(这里为:2)。

注意这里的“乘以匹配语句的总数”是关键,这会导致匹配字段越多,分值越大。(后面的 most_fields 也是使用这个计算,才使得匹配字段数越多,分值越大)

解决方案是,使用最佳匹配字段的分值作为整个查询的整体分值,让包含 query 两个单词的字段有更高的权重,而不是在不同的字段中重复出现的相同单词。dis_max 查询应运而生。

2. dis_max

dis_max 查询就是返回匹配了 query 的文档,分值是最佳匹配字段产生的分值。加上 tie_breaker 可得出很好的搜索效果。

{
"query": {
"dis_max": {
"queries": [
{ "match": { "title": "Quick pets" }},
{ "match": { "body": "Quick pets" }}
],
"tie_breaker": 0.3
}
}
}

3. best_fields

multi_match 查询提供了一个简便的方法对多个字段执行相同的查询。默认情况下,该查询以 best_fields 类型执行,它会为每个字段生成一个 match 查询,然后将这些查询包含在一个 dis_max 查询中。

例如:

GET /_search
{
"query": {
"multi_match" : {
"query": "brown fox",
"type": "best_fields",
"fields": [ "subject", "message" ],
"tie_breaker": 0.3
}
}
}

执行时就变成了:

GET /_search
{
"query": {
"dis_max": {
"queries": [
{ "match": { "subject": "brown fox" }},
{ "match": { "message": "brown fox" }}
],
"tie_breaker": 0.3
}
}
}

可通过 caret 语法(^) 对个别字段加权,如:

{
"multi_match": {
"query": "Quick brown fox",
"fields": [ "title", "chapter_title^2" ]
}
}

best_fields 和 most_fields 都是以字段为中心的查询,参数 operator 和 minimum_should_match 也是针对每个字段生效的,至少有一个字段满足要求,才会通过筛选并进入下一步计分,计分时也只有符合要求的字段才会参与计分。

operator 默认为 or,如果设置为 and,那么字段必须匹配所有 query 分词。当 operator 设为默认值 or 时,minimum_should_match 才会生效,设置每个字段应匹配分词数。

所以有些 query 信息是分布在多个字段上的,这时就不适合设置 operator 为 and,会减少召回量。如果确认 query 信息一定完全在某个字段上,则可设为 and。

为与 cross_fields 做对比,这里举个实际应用的例子。

搜索词为“苹果8plus国行”,文档有三个字段:cateName、title、content,其中 cateName 和 content 用 ik_smart 分词,title 用 ik_max_word 分词(不同字段的分词方法差异会在 cross_fields 中有所体现)。

看下 best_fields 查询的实际执行。

ES 语句:

curl -XGET 'ip:port/indexname/_validate/query?explain&pretty' -d'
{
"query": {
"function_score": {
"query": {
"bool": {
"should": [{
"multi_match": {
"query": "苹果8plus国行",
"fields": ["cate_name^1.0", "content^1.0", "title^1.0"],
"type": "best_fields",
"operator": "AND",
"tie_breaker": 0.3
}
}]
}
}
}
}
}
'

返回解释:

(
(+cate_name:苹果8 +cate_name:plus +cate_name:国行) |
(+content:苹果8 +content:plus +content:国行) |
(+title:苹果8 +title:苹果 +title:8plus +title:8 +title:plus +title:国 +title:行)
)~0.3

明显的以字段为中心的查询。

tips:字段名可以通过通配符指定,如:

{
"multi_match": {
"query": "Quick brown fox",
"fields": "*_title"
}
}

4. most_fields

有时为了尽可能多地匹配文档,会将同一文本的不同形式索引到多个字段。

ES语句(注意不要加 operator 或 minimum_should_match,不然就跟 best_fields 一样了):

curl -XGET 'ip:port/indexname/_validate/query?explain&pretty' -d'
{
"query": {
"function_score": {
"query": {
"bool": {
"should": [{
"multi_match": {
"query": "苹果8plus国行",
"fields": ["cate_name^1.0", "content^1.0", "title^1.0"],
"type": "most_fields"
}
}]
}
}
}
}
}
'

返回解释:

(
(cate_name:苹果8 cate_name:plus cate_name:国 cate_name:行) |
(content:苹果8 content:plus content:国 content:行) |
(title:苹果8 title:苹果 title:8plus title:8 title:plus title:国 title:行)
)~1.0

根据文档,most_fields 查询是用 bool 查询将两个字段语句包在里面,而不是像 best_fields 一样用 dis_max。(不知这个怎么验证,在自己的 ES 里试了下,看 explain 日志,没看出跟 best_fields 时 tie_breaker=1 有什么差别)

5. cross_fields

ES语句:

curl -XGET 'ip:port/indexname/_validate/query?explain&pretty' -d'
{
"query": {
"function_score": {
"query": {
"bool": {
"should": [{
"multi_match": {
"query": "苹果8plus国行",
"fields": ["cate_name^1.0", "content^1.0", "title^1.0"],
"type": "cross_fields",
"operator": "AND",
"tie_breaker": 0.3
}
}]
}
}
}
}
}
'

返回解释:

(
(+blended(terms:[cate_name:苹果8, content:苹果8]) +
blended(terms:[cate_name:plus, content:plus]) +
blended(terms:[cate_name:国行])) |
(+title:苹果8 +title:苹果 +title:8plus +title:8 +title:plus +title:国 +title:行)
)~0.3

这里 title 要和 cate_name、content 分开计算的原因,是因为两部分的分词方法不同,term 也不同。

根据《Elasticsearch: 权威指南》,关于 苹果8 的 IDF,会在 cate_name 和 content 中取最小值作为两个字段的 IDF。(待验证)

参考资料

  • Elasticsearch: 权威指南:https://www.elastic.co/guide/cn/elasticsearch/guide/current/_best_fields.html
  • Elasticsearch Reference:https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-multi-match-query.html

Elasticsearch 多字段搜索的更多相关文章

  1. elasticsearch多字段搜索

    https://blog.csdn.net/Ricky110/article/details/78888711 多字段搜索多字符串查询boost 参数 “最佳” 值,较为简单的方式就是不断试错,比较合 ...

  2. Elasticsearch 全字段搜索_all,query_string查询,不进行分词

    最近在使用ELasitcsearch的时候,需要用到关键字搜索,因为是全字段搜索,就需要使用_all字段的query_string进行搜索. 但是在使用的时候,遇到问题了.我们的业务并不需要分词,我在 ...

  3. [Elasticsearch] 多字段搜索 (五) - 以字段为中心的查询

    以字段为中心的查询(Field-centric Queries) 上述提到的三个问题都来源于most_fields是以字段为中心(Field-centric),而不是以词条为中心(Term-centr ...

  4. [Elasticsearch] 多字段搜索 (一) - 多个及单个查询字符串

    多字段搜索(Multifield Search) 本文翻译自官方指南的Multifield Search一章. 查询很少是只拥有一个match查询子句的查询.我们经常需要对一个或者多个字段使用相同或者 ...

  5. [Elasticsearch] 多字段搜索 (三) - multi_match查询和多数字段 <译>

    multi_match查询 multi_match查询提供了一个简便的方法用来对多个字段执行相同的查询. NOTE 存在几种类型的multi_match查询,其中的3种正好和在“了解你的数据”一节中提 ...

  6. [Elasticsearch] 多字段搜索 (六) - 自定义_all字段,跨域查询及精确值字段

    自定义_all字段 在元数据:_all字段中,我们解释了特殊的_all字段会将其它所有字段中的值作为一个大字符串进行索引.尽管将所有字段的值作为一个字段进行索引并不是非常灵活.如果有一个自定义的_al ...

  7. [Elasticsearch] 多字段搜索 (三) - multi_match查询和多数字段

    multi_match查询 multi_match查询提供了一个简便的方法用来对多个字段执行相同的查询. NOTE 存在几种类型的multi_match查询,其中的3种正好和在"了解你的数据 ...

  8. [Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优

    最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...

  9. [Elasticsearch] 多字段搜索 (二) - 最佳字段查询及其调优(转)

    最佳字段(Best Fields) 假设我们有一个让用户搜索博客文章的网站,就像这两份文档一样: PUT /my_index/my_type/1 { "title": " ...

随机推荐

  1. Py中的多维数组ndarray学习【转载】

    转自:http://blog.sciencenet.cn/home.php?mod=space&uid=3031432&do=blog&id=1064033 1. NumPy中 ...

  2. 从 Zero 到 Hero ,一文掌握 Python

    译文:开源中国 www.oschina.net/translate/learning-python-from-zero-to-hero 第一个问题,什么是 Python ?根据 Python 之父 G ...

  3. [转]一步一步玩控件:自定义TabControl——从山寨Safari开始

    作者:野比 (conmajia@gmail.com) 时间:May, 2012 封面图片为野比原创,请勿未经允许私自引用 #1-1 嗯,各位,又是我,生物钟颠倒的家伙. 今天我要山寨的是大名鼎鼎的Ap ...

  4. hadoop streaming怎么设置key

    充分利用hadoop的map输出自动排序功能,能够有效提高计算效率.Hadoop streaming框架默认情况下会以'/t’作为分隔符,将每行第一个'/t’之前的部分作为key,其余内容作为valu ...

  5. Postman + newman + jenkins 的API自动化测试应用

    一.环境配置 Postman postman 的具体使用可以参考另外一篇文章:postman 做接口测试之学习笔记 Newman 第一步,安装nodejs. 第二步,在nodejs命令行安装newma ...

  6. Catch all the latest Jordan Release Dates

    In case y'all missed yesterday's news, Air Jordan 13 Olive 2018 officially unveiled their 2017 Holid ...

  7. C#+Aspose.Cells 导出Excel及设置样式 (Webform/Winform)

    在项目中用到,特此记录下来,Aspose.Cells 不依赖机器装没有装EXCEL都可以导出,很方便.具体可以参考其他 http://www.aspose.com/docs/display/cells ...

  8. shell篇(二)

    Linux的shell种类比较多,常见的有:Bourne Shell(/user/bin/sh或者/bin/sh), Bourne Again Shell(/user/bin/bash或者/bin/b ...

  9. wprintf或_tprintf不显示中文和乱码问题

    1.由于中文问题,宽字节编译时会遇到一些不显示或显示乱码问题 如下列代码:  分别是WIN API写入和读取文件,测试_tprintf就会不显示 #include "stdafx.h&quo ...

  10. IO(字节流)

    1. 字节流类以InputStream 和 OutputStream为顶层类,他们都是抽象类(abstract) 2. 最重要的两种方法是read()和write(),它们分别对数据的字节进行读写.两 ...