ES 分布式搜索

ES整个查询过程是scatter/gather的过程，具体如下：

图见 https://blog.csdn.net/thomas0yang/article/details/78572596?utm_source=copy 最后

我是有些怀疑文章里面的说法的，因为如果都是由master来做merge的话，那么势必master的在查询比较多的时候会负载很高！我个人感觉应该是client node接受到查询，然后去master node的metadata里获取各个index对应shard，拿到shard后，然后给所有的shard发送搜索请求，然后client node根据各shard的搜索结果进行merge，最后返回。

该文章里的说法：

elasticsearch整个查询是scatter/gather思想，也是多数分布式查询的套路，即：
1. master服务端（配置为node.master: true）接收客户端请求，查找对应的index、shard，分发数据请求到对应node服务端（node.data: true）
2. node端负责数据查询，返回结果到master端
3. master端把查询结果进行数据合并
上面流程是一个逻辑流程，es的具体查询过程中会分为不同的查询类型：QUERY_THEN_FETCH、QUERY_AND_FETCH（Deprecated），有不同的查询动作。
由于QUERY_AND_FETCH在5.X已经废除（使用QUERY_THEN_FETCH替代），所以这里只介绍QUERY_THEN_FETCH查询流程。

更加清楚的介绍在：https://blog.csdn.net/qqqq0199181/article/details/82702557

master服务端
1、接收查询请求，进行readblock检查。根据request的index构造相应的ShardsIterator，shardIterators由localShardsIterator和remoteShardIterators合并而成，用户遍历所有的shard。生成shardits会有一些查询策略，控制每个shard的查询优先次序和条件控制。

preferenceType = Preference.parse(preference);
switch (preferenceType) {
case PREFER_NODES:
final Set<String> nodesIds =
Arrays.stream(
preference.substring(Preference.PREFER_NODES.type().length() + 1).split(",")
).collect(Collectors.toSet());
return indexShard.preferNodeActiveInitializingShardsIt(nodesIds);
case LOCAL:
return indexShard.preferNodeActiveInitializingShardsIt(Collections.singleton(localNodeId));
case PRIMARY:
return indexShard.primaryActiveInitializingShardIt();
case REPLICA:
return indexShard.replicaActiveInitializingShardIt();
case PRIMARY_FIRST:
return indexShard.primaryFirstActiveInitializingShardsIt();
case REPLICA_FIRST:
return indexShard.replicaFirstActiveInitializingShardsIt();
case ONLY_LOCAL:
return indexShard.onlyNodeActiveInitializingShardsIt(localNodeId);
case ONLY_NODES:
String nodeAttributes = preference.substring(Preference.ONLY_NODES.type().length() + 1);
return indexShard.onlyNodeSelectorActiveInitializingShardsIt(nodeAttributes.split(","), nodes);
default:
throw new IllegalArgumentException("unknown preference [" + preferenceType + "]");
}
from：https://blog.csdn.net/thomas0yang/article/details/78572596?utm_source=copy

主(Master)节点说明

主节点的主要职责是和集群操作相关的内容，如创建或删除索引，跟踪哪些节点是群集的一部分，并决定哪些分片分配给相关的节点。

node.master: true

node.data: false

elasticsearch可以使用preference参数来指定分片查询的优先级，使用时就是在请求url上加上preference参数，如：http://ip:host/index/_search?preference=_primary

java的调用接口翻译为：client.prepareSearch("index").setPreference("_primary")。

默认情况下es有5种查询优先级：

_primary: 指查询只在主分片中查询

_primary_first: 指查询会先在主分片中查询，如果主分片找不到（挂了），就会在副本中查询。

_local: 指查询操作会优先在本地节点有的分片中查询，没有的话再在其它节点查询。

_only_node:指在指定id的节点里面进行查询，如果该节点只有要查询索引的部分分片，就只在这部分分片中查找，所以查询结果可能不完整。如_only_node:123在节点id为123的节点中查询。

Custom (string) value:用户自定义值，指在参数cluster.routing.allocation.awareness.attributes指定的值，如这个值设置为了zone，那么preference=zone的话就在awareness.attributes=zone*这样的节点搜索，如zone1、zone2。

ES 分布式搜索的更多相关文章

#研发解决方案介绍#基于ES的搜索+筛选+排序解决方案
郑昀基于胡耀华和王超的设计文档最后更新于2014/12/3 关键词:ElasticSearch.Lucene.solr.搜索.facet.高可用.可伸缩.mongodb.SearchHub.商品中 ...
elasticsearch 口水篇（5）es分布式集群初探
es有很多特性,分布式.副本集.负载均衡.容灾等. 我们先搭建一个很简单的分布式集群(伪),在同一机器上配置三个es,配置分别如下: cluster.name: foxCluster node.nam ...
分布式搜索ElasticSearch单机与服务器环境搭建
从上方插件官网中下载适合的dist包,然后解压.进入bin目录,可以看到一堆sh脚本.在bin目录下创建一个test.sh: bin=/home/csonezp/Dev/elasticsearch-j ...
分布式搜索Elasticsearch——QueryBuilders.matchPhrasePrefixQuery
注:该文项目基础为分布式搜索Elasticsearch——项目过程(一)和分布式搜索Elasticsearch——项目过程(二),项目骨架可至这里下载. ES源代码中对matchPhrasePrefi ...
分布式搜索ElasticSearch构建集群与简单搜索实例应用
分布式搜索ElasticSearch构建集群与简单搜索实例应用关于ElasticSearch不介绍了,直接说应用. 分布式ElasticSearch集群构建的方法. 1.通过在程序中创建一个嵌入es ...
ElasticSearch 学习记录之ES高亮搜索
高亮搜索 ES 通过在查询的时候可以在查询之后的字段数据加上html 标签字段,使文档在在web 界面上显示的时候是由颜色或者字体格式的 GET /product/_search { "si ...
分布式搜索elasticsearch几个概念解析
原文链接:http://blog.csdn.net/july_2/article/details/24367177 介绍下es的几个概念:cluster 代表一个集群,集群中有多个节点,其中有 ...
分布式搜索elasticsearch 基本概念
ElasticSearch官网:http://www.elasticsearch.org/ 先上一张elasticsearch的整体框架图: ElasticSearch是基于Lucene开发的分布式搜 ...
[Elasticsearch] 分布式搜索
分布式搜索本文翻译自Elasticsearch官方指南的Distributed Search Execution一章. 在继续之前,我们将绕一段路来谈谈在分布式环境中,搜索是怎样运行的.和在分布式文 ...

随机推荐

bzoj1641 / P2888 [USACO07NOV]牛栏Cow Hurdles
P2888 [USACO07NOV]牛栏Cow Hurdles Floyd $n<=300$?果断Floyd 给出核心式,自行体会 $d[i][j]=min(d[i][j],max(d[i][k ...
20145336 张子扬《网络对抗技术》 web安全基础实践
2014536 张子扬<网络攻防>Exp9 Web安全基础实践实验准备开启webgoat 1)开启webgoat,打开WebGoat: java -jar webgoat-contai ...
Socket:读写处理及连接断开的检测
作为进程间通信及网络通信的一种重要技术,在实际的开发中,socket编程是经常被用到的.关于socket编程的一般步骤,这里不再赘述,相关资料和文章很多,google/baidu即可. 本文主要是探讨 ...
Python3基础 os chdir 改变工作目录
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
linux网络编程--网络编程的基本函数介绍与使用【转】
本文转载自:http://blog.csdn.net/yusiguyuan/article/details/17538499 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览器浏览 ...
POJ 1740 A New Stone Game（博弈）题解
题意:有n个石子堆,每一个都可以轮流做如下操作:选一个石堆,移除至少1个石子,然后可以把这堆石子随便拿几次,随便放到任意的其他石子数不为0的石子堆,也可以不拿.不能操作败. 思路:我们先来证明,如果某 ...
hdu 6444 Neko's loop 单调队列优化DP
Neko's loop Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total ...
Spring报NoSuchBeanDefinitionException
org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type 上述可以看出Ac ...
HDU 6129 Just do it（杨辉三角）
http://acm.hdu.edu.cn/showproblem.php?pid=6129 题意: 给出数组a,并且bi=a1^a2^a3...^ai,并且现在会重复m次,求出最后的b数组. 思路: ...
Quartz.NET简介及入门指南
Quartz.NET简介 Quartz.NET是一个功能完备的开源调度系统,从最小的应用到大规模的企业系统皆可适用. Quartz.NET是一个纯净的用C#语言编写的.NET类库,是对非常流行的JAV ...

ES 分布式搜索

主(Master)节点说明

ES 分布式搜索的更多相关文章

随机推荐

热门专题