常用术语查询

该common术语查询是一个现代的替代提高了精确度和搜索结果的召回（采取禁用词进去），在不牺牲性能的禁用词。

问题

查询中的每个术语都有成本。搜索"The brown fox" 需要三个术语查询，每个查询一个"the"，"brown"并且 "fox"所有查询都针对索引中的所有文档执行。查询"the"可能与许多文档匹配，因此对相关性的影响比其他两个术语小得多。

以前，这个问题的解决方案是忽略高频率的术语。通过将其"the"视为停用词，我们减少了索引大小并减少了需要执行的术语查询的数量。

这种方法的问题在于，虽然停用词对相关性的影响很小，但它们仍然很重要。如果我们删除了停用词，我们就会失去精确度（例如，我们无法区分"happy" 和"not happy"），并且我们会失去回忆（例如，文本在索引中"The The"或者 "To be or not to be"根本不存在）。

解决方案

该common术语的查询将所述查询术语分为两组：更重要（即低频率而言）和不太重要的（即，高频率而言这将先前已停用词）。

首先，它搜索与更重要的术语匹配的文档。这些术语出现在较少的文档中，对相关性有较大影响。

然后，它对不太重要的术语执行第二次查询 - 这些术语经常出现并且对相关性的影响很小。但是，它不是计算所有匹配文档的相关性分数，而是仅计算_score已经与第一个查询匹配的文档。通过这种方式，高频项可以改善相关性计算，而无需支付性能不佳的成本。

如果查询仅包含高频术语，则单个查询将作为AND（连接）查询执行，换句话说，所有术语都是必需的。即使每个单独的术语与许多文档匹配，术语组合也会将结果集缩小到最相关的范围。单个查询也可以作为OR特定的查询执行minimum_should_match，在这种情况下，应该使用足够高的值。

根据条件将术语分配给高频或低频组 cutoff_frequency，可以将其指定为绝对频率（>=1）或相对频率（0.0 .. 1.0）。（请记住，文档频率是按照每个分片级别计算的，如博客文章中所述，相关性已被破坏。）

也许这个查询最有趣的属性是它自动适应域特定的停用词。例如，在视频托管网站上，常见的术语如"clip"或"video"将自动表现为停用词而无需维护手动列表。

示例

在此示例中，文档频率大于0.1％（例如"this"和"is"）的单词将被视为常用术语。

GET /_search

{

    "query": {

        "common": {

            "body": {

                "query": "this is bonsai cool",

                "cutoff_frequency": 0.001

            }

        }

    }

}

可以使用minimum_should_match （high_freq，low_freq），low_freq_operator（默认"or"）和high_freq_operator（默认"or"）参数控制应匹配的术语数。

低频方面，设置low_freq_operator以"and"使所需的所有条件：

GET /_search

{

    "query": {

        "common": {

            "body": {

                "query": "nelly the elephant as a cartoon",

                "cutoff_frequency": 0.001,

                "low_freq_operator": "and"

            }

        }

    }

}

这大致相当于：

GET /_search

{

    "query": {

        "bool": {

            "must": [

            { "term": { "body": "nelly"}},

            { "term": { "body": "elephant"}},

            { "term": { "body": "cartoon"}}

            ],

            "should": [

            { "term": { "body": "the"}},

            { "term": { "body": "as"}},

            { "term": { "body": "a"}}

            ]

        }

    }

}

或者用于 minimum_should_match 指定必须存在的低频项的最小数量或百分比，例如：

GET /_search

{

    "query": {

        "common": {

            "body": {

                "query": "nelly the elephant as a cartoon",

                "cutoff_frequency": 0.001,

                "minimum_should_match": 2

            }

        }

    }

}

这大致相当于：

GET /_search

{

    "query": {

        "bool": {

            "must": {

                "bool": {

                    "should": [

                    { "term": { "body": "nelly"}},

                    { "term": { "body": "elephant"}},

                    { "term": { "body": "cartoon"}}

                    ],

                    "minimum_should_match": 2

                }

            },

            "should": [

                { "term": { "body": "the"}},

                { "term": { "body": "as"}},

                { "term": { "body": "a"}}

                ]

        }

    }

}

minimum_should_match 使用附加low_freq和high_freq参数可以对低频和高频术语应用不同的术语。以下是提供其他参数的示例（请注意结构的变化）：

GET /_search

{

    "query": {

        "common": {

            "body": {

                "query": "nelly the elephant not as a cartoon",

                "cutoff_frequency": 0.001,

                "minimum_should_match": {

                    "low_freq" : 2,

                    "high_freq" : 3

                }

            }

        }

    }

}

这大致相当于：

GET /_search

{

    "query": {

        "bool": {

            "must": {

                "bool": {

                    "should": [

                    { "term": { "body": "nelly"}},

                    { "term": { "body": "elephant"}},

                    { "term": { "body": "cartoon"}}

                    ],

                    "minimum_should_match": 2

                }

            },

            "should": {

                "bool": {

                    "should": [

                    { "term": { "body": "the"}},

                    { "term": { "body": "not"}},

                    { "term": { "body": "as"}},

                    { "term": { "body": "a"}}

                    ],

                    "minimum_should_match": 3

                }

            }

        }

    }

}

在这种情况下，这意味着高频项在至少有三个时对相关性有影响。但是minimum_should_match 对于高频术语最有趣的用法是当只有高频术语时：

GET /_search

{

    "query": {

        "common": {

            "body": {

                "query": "how not to be",

                "cutoff_frequency": 0.001,

                "minimum_should_match": {

                    "low_freq" : 2,

                    "high_freq" : 3

                }

            }

        }

    }

}

这大致相当于：

GET /_search

{

    "query": {

        "bool": {

            "should": [

            { "term": { "body": "how"}},

            { "term": { "body": "not"}},

            { "term": { "body": "to"}},

            { "term": { "body": "be"}}

            ],

            "minimum_should_match": "3<50%"

        }

    }

}

然后，高频率生成的查询的限制性略低于AND。

该common术语查询还支持boost并analyzer作为参数。

elasticsearch 基础 —— Common Terms Query常用术语查询的更多相关文章

elasticsearch 基础 —— Update By Query API
Update By Query API 最简单的用法是_update_by_query在不更改源的情况下对索引中的每个文档执行更新.这对于获取新属性或其他一些在线映射更改很有用 .这是API: POS ...
elasticsearch 基础 —— Delete By Query API
Delete By Query API _delete_by_query 的简单用法,就是在查询匹配到的每个文档上执行删除.例如: POST twitter/_delete_by_query { &q ...
ES之四、Elasticsearch集群和索引常用命令
REST API用途 elasticsearch支持多种通讯,其中包括http请求响应服务,因此通过curl命令,可以发送http请求,并得到json返回内容. ES提供了很多全面的API,常用的RE ...
elasticsearch Terms Query 实现类似于sql in查询
本文demo基于elasticsearch 5.1.1, 项目中使用的还是较早的版本例如 import com.alibaba.fastjson.JSON; import org.elastics ...
ElasticSearch 常用的查询过滤语句
query 和 filter 的区别请看: http://www.cnblogs.com/ghj1976/p/5292740.html Filter DSL term 过滤 term主要用于精确匹配 ...
[转] ElasticSearch 常用的查询过滤语句
备忘remark https://www.cnblogs.com/ghj1976/p/5293250.html query 和 filter 的区别请看: http://www.cnblogs.co ...
ElasticSearch 7.X版本19个常用的查询语句
整理一篇常用的CRUD查询语句,之前这篇文件是在17年左右发表的,从英文翻译过来,现在采用7.x 版本进行实验,弃用的功能或者参数,我这边会进行更新,一起来学习吧. 为了演示不同类型的 Elastic ...
Elasticsearch(入门篇)——Query DSL与查询行为
ES提供了丰富多彩的查询接口,可以满足各种各样的查询要求.更多内容请参考:ELK修炼之道 Query DSL结构化查询 Query DSL是一个Java开源框架用于构建类型安全的SQL查询语句.采用A ...
Elasticsearch 常用基本查询
安装启动很简单,参考官网步骤:https://www.elastic.co/downloads/elasticsearch 为了介绍Elasticsearch中的不同查询类型,我们将对带有下列字段的文 ...

随机推荐

html 头部设置
https://juejin.im/post/5a4ae29b6fb9a04504083cac <head> <meta charset="UTF-8"> ...
zabbix邮件报警通过脚本来发送邮件
zabbix默认邮件报警会将各个报警接收人单独发送邮件,为了使邮件能以群发的方式统一一封邮件发送所有接收人,需要改成脚本的形式: sendemail.py: #!/usr/bin/python imp ...
c++11 指针空值
1. 引入nullptr的必要性: 典型的指针初始化是将其指向一个空的位置.比如: int* my_ptr = 0; int* my_ptr = NULL; 一般情况下,NULL是一个宏定义. #un ...
[USACO17JAN]Balanced Photo平衡的照片 (树状数组)
题目链接 Solution 先离散化,然后开一个大小为 $100000$ 的树状数组记录前面出现过的数. 然后查询 $(h[i],n]$ 即可. 还要前后各做一遍. Code #include ...
[CSP-S模拟测试]:Travel（贪心+构造）
题目描述给定一个长度为$n$的格子序列$x_1,x_2,...,x_n$.每一次$Lyra$可以选择向左跳到任意一个还没到过的位置,也可以向右跳到任意一个还没到过的位置.如果现在$Lyra$在格子$ ...
python两个装饰器的运算顺序
#装饰顺序按靠近函数顺序执行,调用时由外而内,执行顺序和装饰顺序相反. def makebold(func): def wrap(): return "<i>"+fun ...
wangjunkai
<!Doctype html><html lang="en"> <head> <meta http-equiv="Content ...
php.ini 配置项详解
本文主要对php.ini文件进行详细的解释 engine = On ——> 在apache下启用php语言引擎 short_open_tag = Off ——> 是否开启段标签若php ...
Windows建立目录软连接
创建:mklink /j "I:\dst" "I:\src" 删除: rmdir "I:\dst"
架构-SOA：SOA（面向服务的架构）
ylbtech-架构-SOA:SOA(面向服务的架构) 面向服务的架构(SOA)是一个组件模型,它将应用程序的不同功能单元(称为服务)进行拆分,并通过这些服务之间定义良好的接口和契约联系起来.接口是采 ...

elasticsearch 基础 —— Common Terms Query常用术语查询

常用术语查询

问题

解决方案

elasticsearch 基础 —— Common Terms Query常用术语查询的更多相关文章

随机推荐

热门专题