ES数据
通过Elasticsearch使用的你的数据
Elasticsearch 系列导航
elasticsearch 与 elasticsearch-head 的安装
ElasticSearch Index API && Mapping
持续更新中
正文
假设你已经有一份数据保存在Elasticsearch里,类似于下面这种schema,如果没有参考导入测试数据
|
1
2
3
4
5
6
7
8
9
10
11
12
13
|
{ "account_number": 0, "balance": 16623, "firstname": "Bradshaw", "lastname": "Mckenzie", "age": 29, "gender": "F", "address": "244 Columbus Place", "employer": "Euron", "email": "bradshawmckenzie@euron.com", "city": "Hobucken", "state": "CO"} |
那么我们接下来就可以 过滤,搜索,聚合来获取到我们想要的数据。
Elasticsearch提供了一套Json风格的领域特定语言来帮助查询,被称为Query DSL.
搜索通过在URL结尾加_search来指定,具体查询提交通过Request Body来指定,
比如下面的Request Body:
query: 用来指定查询条件
from:从第几个开始取
size:取多少条记录,默认10条,比如这个例子有13条记录满足条件,但是只返回1条记录
sort:用来指定排序规则

OK,通过刚才的实验,我们对查询有了一个基本的认识,下面让我们来继续认识更加有趣的查询:
- 减少返回字段的个数(默认情况下是返回一个文档的所有字段信息)
1234
{"query": {"match_all": {} },"_source": ["account_number","balance"]} - 返回account_number等于20的account
123
{"query": {"match": {"account_number": 20 } }}match是一个模糊匹配,但是由于account_number是long类型,所以这里当做精确匹配来过滤
- 返回address字段中包含mill的account
123
{"query": {"match": {"address":"mill"} }}由于address是text类型,所以这里说的是包含mill而不是等于mill.
- 返回address字段中包含"mill" 或 "lane"的account
123
{"query": {"match": {"address":"mill lane"} }}由于address是text类型,而且"mill lane"这里在查询的时候被当作两个词来分别进行查询
- 返回address字段中包含"mill lane"的account
这里使用match_phrase查询类型,把"mill lane"当作一个整体来查询
123{"query": {"match_phrase": {"address":"mill lane"} }} - 返回address字段中同时包含"mill" 和 "lane"的account
12345678910
{"query": {"bool": {"must": [{"match": {"address":"mill"} },{"match": {"address":"lane"} }]}}}这里使用了bool查询语句,它允许我们组合多个小的查询一起来完成稍微复杂的查询,
bool must要求所有子查询返回true,所有子查询之间可以理解为一个and的操作。 - 返回address字段中包含"mill" 或 "lane"的account
bool should 要求子查询中的任一个满足条件,可以理解为或的关系12345678910{"query": {"bool": {"should": [{"match": {"address":"mill"} },{"match": {"address":"lane"} }]}}} - 返回address字段中既不包含"mill" 也不包含 "lane"的account
bool must_not子句之间是或的关系12345678910{"query": {"bool": {"must_not": [{"match": {"address":"mill"} },{"match": {"address":"lane"} }]}}} - 返回年龄等于40 且不住在ID地区的account
1234567891011
{"query": {"bool": {"must": [{"match": {"age":"40"} }],"must_not": [{"match": {"state":"ID"} }]}}}
我们可以同时联合must, should, and must_not子句在一个bool语句内,
也可以继续在bool子句下面继续嵌套使用bool子句来完成更加复杂的查询需求。
Filter 过滤
在返回的结果中有一个_score字段,score是一个数值,表示查询条件和这个文档的相关度,分数越高,说明某个文档的相关度越高,
反之,相关度越低,但是查询 并不总是产生分数,尤其当你使用过滤子句来过滤文档的时候,Elasticsearch会自动检测这些场景,
自动优化查询,让他不要去计算无用的分数,之前我们使用的bool查询也支持filter子句,
例如我们想获取账户余额大于等于20000 小于等于30000的账户信息
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
{ "query": { "bool": { "must": { "match_all": {} }, "filter": { "range": { "balance": { "gte": 20000, "lte": 30000 } } } } }} |
上面的这个例子其实挺好理解的,所有在这个range范围内的文档都具有相等的匹配度,
没有哪一个文档比其他的文档匹配度更高,要么在这个范围内,要么不在,所以相关度是相等的,
就没有必要再去计算这个score.
Aggregations聚合
聚合允许你给你的数据分组并获取他们的统计信息,你可以把它和SQL里面的goup by 以及SQL的聚合函数联系起来,
在Elasticsearch,你可以在一个响应里同时返回聚合信息和结果明细,
比如我们使用state来给所有的accounts分组,默认返回前10条聚合记录,顺序按照组内文档数量的倒序排列
|
1
2
3
4
5
6
7
8
9
10
|
{ "size": 0, "aggs": { "group_by_state": { "terms": { "field": "state.keyword" } } }} |
你可以结合下面的SQL语句更好理解上面的语句
SELECT state, COUNT(*) FROM bank GROUP BY state ORDER BY COUNT(*) DESC
部分返回结果 如下显示:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
|
{ "took": 29, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits" : { "total" : 1000, "max_score" : 0.0, "hits" : [ ] }, "aggregations" : { "group_by_state" : { "doc_count_error_upper_bound": 20, "sum_other_doc_count": 770, "buckets" : [ { "key" : "ID", "doc_count" : 27 }, { "key" : "TX", "doc_count" : 27 }, { "key" : "AL", "doc_count" : 25 }, { "key" : "MD", "doc_count" : 25 }, { "key" : "TN", "doc_count" : 23 }, { "key" : "MA", "doc_count" : 21 }, { "key" : "NC", "doc_count" : 21 }, { "key" : "ND", "doc_count" : 21 }, { "key" : "ME", "doc_count" : 20 }, { "key" : "MO", "doc_count" : 20 } ] } }} |
你可以观察到,上面的聚合我们设置size=0,不去显示符合条件的原始记录,
因为我们这次仅仅需要聚合的结果信息,如果你也需要原始记录信息,那么你可以重新指定size的大小
下面这个例子我们来求余额的平均值
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
|
{ "size": 0, "aggs": { "group_by_state": { "terms": { "field": "state.keyword" }, "aggs": { "average_balance": { "avg": { "field": "balance" } } } } }} |
返回如下的结果,可以看到这里我们在group_by_state里面嵌套使用了average_balance,这是一种比较通用的做法,
你可以在任意聚合内嵌套任意聚合来获取需要的统计信息。

下面这个例子演示根据年龄组来分组,然后根据性别来分组最后求账户余额的平均值
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
|
{ "size": 0, "aggs": { "group_by_age": { "range": { "field": "age", "ranges": [ { "from": 20, "to": 30 }, { "from": 30, "to": 40 }, { "from": 40, "to": 50 } ] }, "aggs": { "group_by_gender": { "terms": { "field": "gender.keyword" }, "aggs": { "average_balance": { "avg": { "field": "balance" } } } } } } }} |
下面是年龄组分组 计算聚合的部分返回结果:

ES数据的更多相关文章
- es 数据 导出 到 MySQL
暂时没有找到直接 导出到 mysql 数据库的工具 或者项目 目前实现思路: 使用 elasticdump 工具 实现 从 es 数据 导出到 json 文件 ,然后 使用 脚本程序 操作 改 js ...
- es数据增删改查
设置最大查询条数 curl -XPUT 'http://10.121.8.5:9200/zdl_mx_shzt_ztdf/_settings' -d'{"index":{" ...
- ES数据架构与关系数据库Mysql
ES数据架构的主要概念(与关系数据库Mysql对比) MySQL ElasticSearch Database Index Table Type Row Document Column Field S ...
- ES数据导入导出
ES数据导入导出 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 ...
- MySQL 到 ES 数据实时同步技术架构
MySQL 到 ES 数据实时同步技术架构 我们已经讨论了数据去规范化的几种实现方式.MySQL 到 ES 数据同步本质上是数据去规范化多种实现方式中的一种,即通过"数据迁移同步" ...
- 你的ES数据备份了吗?
前言: 无论使用哪种存储软件,定期的备份数据都是重中之重,在使用ElasticSearch的时候,随着数据日益积累,存放es数据的磁盘空间也捉襟见肘, 此时对于业务功能使用不到的索引数据,又不能直接删 ...
- ES数据-MySql处理Date类型的数据导入处理
用ES的小伙伴们,相信大家都遇到过Mapping处理Date类型的数据头疼问题吧. 不用头疼了,我来给你提供一种解决方案: 1.Maping定义为: { "mappings": ...
- 【原创】大数据基础之ElasticSearch(4)es数据导入过程
1 准备analyzer 内置analyzer 参考:https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis- ...
- elasticsearch-dump 迁移es数据 (elasticdump)
elasticsearch 部分查询语句 # 获取集群的节点列表: curl 'localhost:9200/_cat/nodes?v' # 列出所有索引: curl 'localhost:9200/ ...
- Spark sql读取数据库和ES数据进行处理代码
读取数据库数据和ElasticSearch数据进行连接处理 import java.util.HashMap; import java.util.List; import java.util.Map; ...
随机推荐
- 【例题 6-19 UVA - 1572】Self-Assembly
[链接] 我是链接,点我呀:) [题意] 在这里输入题意 [题解] 旋转和翻转,会发现. 如果可以顺着某个方向一直放的话. 总是能转换成往下或者往右连的. 则只要能够出现一个连接顺序的循环,则总是有解 ...
- EL表达式.md
操作符 描述 . 访问一个Bean属性或者一个映射条目 [] 访问一个数组或者链表的元素 ( ) 组织一个子表达式以改变优先级 + 加 - 减或负 * 乘 / or div 除 % or mod 取模 ...
- 10.2、android输入系统_必备Linux编程知识_双向通信(scoketpair)
2. 双向通信(socketpair) 输入系统肯定涉及进程通讯:进程A读取/分发输入事件,APP处理输入事件,进程A给APP发送输入事件,APP处理完事件回复信息给进程A,APP关闭的时候也要发信息 ...
- eclipse在线安装超级炫酷黑色主题
Darkest Dark Theme插件: 点击菜单栏 Help --> Eclipse Marketplace,输出Darkest Dark Theme进行搜索,如下图: 本主题有17套编辑器 ...
- [Ramda] Getter and Setter in Ramda & lens
Getter on Object: 1. prop: R.prop(}); //=> 100 R.prop('x', {}); //=> undefined 2. props: R.pro ...
- POJ 2642 The Brick Stops Here 0-1背包
poj: http://poj.org/problem?id=2642 大意: 给出n(n<=200)块黄铜合金,还有它们的浓度和价钱.给出若干个个询问使它们在n块中取 M 块 使得这M块合金的 ...
- [Tools] Fix Only Committed Files with Prettier and lint-staged
In this lesson we'll use prettier and lint-staged to run prettier only on files that have been chang ...
- UVA 10106 Product (大数相乘)
Product The Problem The problem is to multiply two integers X, Y. (0<=X,Y<10250) The Input The ...
- [Phonegap+Sencha Touch] 移动开发72 List列表横向滑动操作(仿QQ列表滑动删除)
原文链接:http://blog.csdn.net/lovelyelfpop/article/details/50425744 本插件有2个版本号:sencha touch 版本号和 extjs6 m ...
- sublime课程3 emmet插件中的常用符号有哪些
sublime课程3 emmet插件中的常用符号有哪些 一.总结 一句话总结:emmet插件中的符号和css选择器里面哪些符号的意思很像. 1.+是干嘛的? 组合 2.{}是干嘛的? 标签里面的inn ...