通过Elasticsearch使用的你的数据

Elasticsearch 系列导航

持续更新中

正文

假设你已经有一份数据保存在Elasticsearch里，类似于下面这种schema,如果没有参考导入测试数据

{

    "account_number": 0,

    "balance": 16623,

    "firstname": "Bradshaw",

    "lastname": "Mckenzie",

    "age": 29,

    "gender": "F",

    "address": "244 Columbus Place",

    "employer": "Euron",

    "email": "bradshawmckenzie@euron.com",

    "city": "Hobucken",

    "state": "CO"

}

那么我们接下来就可以过滤，搜索，聚合来获取到我们想要的数据。

Elasticsearch提供了一套Json风格的领域特定语言来帮助查询，被称为Query DSL.

搜索通过在URL结尾加_search来指定，具体查询提交通过Request Body来指定，

比如下面的Request Body：

query：用来指定查询条件

from：从第几个开始取

size：取多少条记录，默认10条，比如这个例子有13条记录满足条件，但是只返回1条记录

sort：用来指定排序规则

OK，通过刚才的实验，我们对查询有了一个基本的认识，下面让我们来继续认识更加有趣的查询：

减少返回字段的个数（默认情况下是返回一个文档的所有字段信息）
```
{

  "query": { "match_all": {} },

  "_source": ["account_number", "balance"]

}
```
返回account_number等于20的account
```
{

  "query": { "match": { "account_number": 20 } }

}
```
match是一个模糊匹配，但是由于account_number是long类型，所以这里当做精确匹配来过滤
返回address字段中包含mill的account
```
{

  "query": { "match": { "address": "mill" } }

}
```
由于address是text类型，所以这里说的是包含mill而不是等于mill.
返回address字段中包含"mill" 或 "lane"的account
```
{

  "query": { "match": { "address": "mill lane" } }

}
```
由于address是text类型，而且"mill lane"这里在查询的时候被当作两个词来分别进行查询
返回address字段中包含"mill lane"的account
这里使用match_phrase（短语匹配）查询类型，把"mill lane"当作一个整体来查询
```
{

  "query": { "match_phrase": { "address": "mill lane" } }

}
```
返回address字段中同时包含"mill" 和 "lane"的account
```
{

  "query": {

    "bool": {

      "must": [

        { "match": { "address": "mill" } },

        { "match": { "address": "lane" } }

      ]

    }

  }

}
```
这里使用了bool查询语句，它允许我们组合多个小的查询一起来完成稍微复杂的查询，bool must 要求所有子查询返回true,所有子查询之间可以理解为一个and的操作。

返回address字段中包含"mill" 或 "lane"的account

bool should 要求子查询中的任一个满足条件，可以理解为或的关系

{

  "query": {

    "bool": {

      "should": [

        { "match": { "address": "mill" } },

        { "match": { "address": "lane" } }

      ]

    }

  }

}

返回address字段中既不包含"mill" 也不包含 "lane"的account

bool must_not子句之间是或的关系

{

  "query": {

    "bool": {

      "must_not": [

        { "match": { "address": "mill" } },

        { "match": { "address": "lane" } }

      ]

    }

  }

}

返回年龄等于40 且不住在ID地区的account

{  "query": {

    "bool": {

      "must": [

        { "match": { "age": "40" } }

      ],

      "must_not": [

        { "match": { "state": "ID" } }

      ]

    }

  }

}

我们可以同时联合must, should, and must_not子句在一个bool语句内，

也可以继续在bool子句下面继续嵌套使用bool子句来完成更加复杂的查询需求。

Filter 过滤

在返回的结果中有一个_score字段，score是一个数值，表示查询条件和这个文档的相关度，分数越高，说明某个文档的相关度越高，

反之，相关度越低，但是查询并不总是产生分数，尤其当你使用过滤子句来过滤文档的时候，Elasticsearch会自动检测这些场景，

自动优化查询，让他不要去计算无用的分数，之前我们使用的bool查询也支持filter子句，

例如我们想获取账户余额大于等于20000 小于等于30000的账户信息

{

  "query": {

    "bool": {

      "must": { "match_all": {} },

      "filter": {

        "range": {

          "balance": {

            "gte": 20000,

            "lte": 30000

          }

        }

      }

    }

  }

}

上面的这个例子其实挺好理解的，所有在这个range范围内的文档都具有相等的匹配度，

没有哪一个文档比其他的文档匹配度更高，要么在这个范围内，要么不在，所以相关度是相等的，

就没有必要再去计算这个score.

Aggregations聚合

聚合允许你给你的数据分组并获取他们的统计信息，你可以把它和SQL里面的goup by 以及SQL的聚合函数联系起来，

在Elasticsearch，你可以在一个响应里同时返回聚合信息和结果明细，

比如我们使用state来给所有的accounts分组，默认返回前10条聚合记录，顺序按照组内文档数量的倒序排列

{

  "size": 0,

  "aggs": {

    "group_by_state": {

      "terms": {

        "field": "state.keyword"

      }

    }

  }

}

你可以结合下面的SQL语句更好理解上面的语句

SELECT state, COUNT(*) FROM bank GROUP BY state ORDER BY COUNT(*) DESC
部分返回结果 如下显示：

{

  "took": 29,

  "timed_out": false,

  "_shards": {

    "total": 5,

    "successful": 5,

    "failed": 0

  },

  "hits" : {

    "total" : 1000,

    "max_score" : 0.0,

    "hits" : [ ]

  },

  "aggregations" : {

    "group_by_state" : {

      "doc_count_error_upper_bound": 20,

      "sum_other_doc_count": 770,

      "buckets" : [ {

        "key" : "ID",

        "doc_count" : 27

      }, {

        "key" : "TX",

        "doc_count" : 27

      }, {

        "key" : "AL",

        "doc_count" : 25

      }, {

        "key" : "MD",

        "doc_count" : 25

      }, {

        "key" : "TN",

        "doc_count" : 23

      }, {

        "key" : "MA",

        "doc_count" : 21

      }, {

        "key" : "NC",

        "doc_count" : 21

      }, {

        "key" : "ND",

        "doc_count" : 21

      }, {

        "key" : "ME",

        "doc_count" : 20

      }, {

        "key" : "MO",

        "doc_count" : 20

      } ]

    }

  }

}

你可以观察到，上面的聚合我们设置size=0,不去显示符合条件的原始记录，

因为我们这次仅仅需要聚合的结果信息，如果你也需要原始记录信息，那么你可以重新指定size的大小

下面这个例子我们来求余额的平均值

{

  "size": 0,

  "aggs": {

    "group_by_state": {

      "terms": {

        "field": "state.keyword"

      },

      "aggs": {

        "average_balance": {

          "avg": {

            "field": "balance"

          }

        }

      }

    }

  }

}

返回如下的结果，可以看到这里我们在group_by_state里面嵌套使用了average_balance，这是一种比较通用的做法，

你可以在任意聚合内嵌套任意聚合来获取需要的统计信息。

下面这个例子演示根据年龄组来分组，然后根据性别来分组最后求账户余额的平均值

{

  "size": 0,

  "aggs": {

    "group_by_age": {

      "range": {

        "field": "age",

        "ranges": [

          {

            "from": 20,

            "to": 30

          },

          {

            "from": 30,

            "to": 40

          },

          {

            "from": 40,

            "to": 50

          }

        ]

      },

      "aggs": {

        "group_by_gender": {

          "terms": {

            "field": "gender.keyword"

          },

          "aggs": {

            "average_balance": {

              "avg": {

                "field": "balance"

              }

            }

          }

        }

      }

    }

  }

}

下面是年龄组分组计算聚合的部分返回结果：

下面

通过Elasticsearch使用的你的数据的更多相关文章

elasticsearch 5.x 系列之五数据导入导出
一.首先给大家发一个福利,分享一个elasticsearch 数据导出工具. esm github 源码地址: https://github.com/medcl/esm 下载编译好的对应elastic ...
使用Spring Data ElasticSearch+Jsoup操作集群数据存储
使用Spring Data ElasticSearch+Jsoup操作集群数据存储 1.使用Jsoup爬取京东商城的商品数据 1)获取商品名称.价格以及商品地址,并封装为一个Product对象,代码截 ...
ElasticSearch怎样加入，检索数据
Elasticsearch是一个分布式的文档(document)存储引擎.它能够实时存储并检索复杂数据结构--序列化的JSON文档.换言说,一旦文档被存储在Elasticsearch中,它就能够在集群 ...
ES 17 - (底层原理) Elasticsearch增删改查索引数据的过程
目录 1 增删改document的流程 1.1 协调节点 - Coordinating Node 1.2 增删改document的流程 2 查询document的流程 1 增删改document的流程 ...
【原创】大数据基础之ElasticSearch（4）es数据导入过程
1 准备analyzer 内置analyzer 参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis- ...
elasticsearch -- Logstash实现mysql同步数据到elasticsearch
配置安装插件由于这里是从mysql同步数据到elasticsearch,所以需要安装jdbc的入插件和elasticsearch的出插件:logstash-input-jdbc.logstash-o ...
Elasticsearch学习笔记——安装、数据导入和查询
到elasticsearch网站下载最新版本的elasticsearch 6.2.1 ? 1 https://www.elastic.co/downloads/elasticsearch 中文文档请参 ...
使用ElasticSearch服务从MySQL同步数据实现搜索即时提示与全文搜索功能
最近用了几天时间为公司项目集成了全文搜索引擎,项目初步目标是用于搜索框的即时提示.数据需要从MySQL中同步过来,因为数据不小,因此需要考虑初次同步后进行持续的增量同步.这里用到的开源服务就是Elas ...
elasticsearch 使用快照方式迁移数据
注册快照仓库 ES是通过快照的方式来实现数据备份,并且是以增量的方式,所以一般第一次做的话会花费较长的时间.为了做快照,那么就需要注册一个快照仓库,告诉ES我们的快照应该如何保存以及将快照保存到哪里. ...

随机推荐

使用Nuget管理dll
前言 nuget 已经不是什么新东西,它是vs的一个扩展工具,可以让我们在项目中添加.删除.更新引用变得更加快捷方便.现在有许多传统公司对dll的管理还是很落后的,有些甚至时通过发送dll文件,这样做 ...
Mr.聂带你成为web开发大牛——入门篇（上）
作为一名IT届的后生,当初也经历过懵懂无知的实习期,对那种无力感深有体会.在这,希望能用我这几年的开发经验,让各位即将踏入或者刚刚踏入web开发领域的新人们少走些弯路.鉴于这是入门篇,下面我就从零为大 ...
mfc---单文档工程添加消息响应
写消息映射:.h中些函数头文件afx_mag … .cpp中写函数体 .cpp中写消息映射给toolbar添加消息: .h中添加头文件afx_msg …. .cpp中添加函数体,消息映射ON_COM ...
JavaScript:void(0);的作用
JavaScript中void是一个操作符,该操作符指定要计算一个表达式但是不返回值. void 操作符用法格式如下: 1. javascript:void (expression) 2. javas ...
mvc4中的过滤器
过滤器(Filter)把附加逻辑注入到MVC框架的请求处理.实现了交叉关注. 交叉关注:用于整个应用程序,又不适合放在某个局部位置的功能. 过滤器是.NET的注解属性(Attribute),它们对请求 ...
Nginx+IIS+Redis 处理Session共享问题 2
接下来主要说下利用nginx来测试两台Windows server 1.10.120.131.210 - 端口84部署demo 2.10.120.131.211 - 端口84部署demo ngi ...
Castle Windsor 学习-----Installer的几种安装方式
翻译当使用依赖注入容器时,你首先要向容器中注册你的组件,Windsor使用installers(该类型实现IWindsorInstaller接口)来封装和隔离注册的逻辑,可以使用Configurat ...
（六）javascriptJS中定义对象的几种方式（转）
JavaScript学习12 JS中定义对象的几种方式转自: http://www.cnblogs.com/mengdd/p/3697255.html JavaScript中没有类的概念,只有对象 ...
MySQL查看修改存储引擎总结
文总结了MySQL下查看.修改存储引擎的一些方法.测试.验证环境为MySQL 5.6 1:查看MySQL的存储引擎信息 1.1 使用show engines命令. .csharpcode, .csha ...
IE浏览器img不显示解决
下面的只是一个我们在网页中插入一个图片的简单例子,浏览的时候我们也没有任何问题 <!doctype html> <html> <head> <meta cha ...

通过Elasticsearch使用的你的数据

通过Elasticsearch使用的你的数据的更多相关文章

随机推荐

热门专题