ES bulk源码分析—

对bulk request的处理流程：

1、遍历所有的request，对其做一些加工，主要包括：获取routing(如果mapping里有的话)、指定的timestamp(如果没有带timestamp会使用当前时间)，如果没有指定id字段，在action.bulk.action.allow_id_generation配置为true的情况下，会自动生成一个base64UUID作为id字段，并会将request的opType字段置为CREATE，因为如果是使用es自动生成的id的话，默认就是createdocument而不是updatedocument。（注：坑爹啊，我从github上面下的最新的ES代码，发现自动生成id这一段已经没有设置opType字段了，看起来和有指定id是一样的处理逻辑了，见https://github.com/elastic/elasticsearch/blob/master/core/src/main/java/org/elasticsearch/action/index/IndexRequest.java）。

2、创建一个shardId--> Operation的Map，再次遍历所有的request，获取获取每个request应该发送到的shardId，获取的过程是这样的：request有routing就直接返回，如果没有，会先对id求一个hash，这里的hash函数默认是Murmur3，当然你也可以通过配置index.legacy.routing.hash.type来决定使用的hash函数,决定发到哪个shard：

return MathUtils.mod(hash, indexMetaData.getNumberOfShards()); 注意：最新版ES代码已经改变！

即用hash对shard的总数求模来获取shardId，将shardId作为key，通过遍历的index和request组成BulkItemRequest的集合作为value放入之前说的map中（为什么要拿到遍历的index，因为在bulk response中可以看到对每个request的请求处理结果的），其实说了这么多就是要对request按shard来分组（为负载均衡）。

3、遍历上面得到的map，对不同的分组创建一个bulkShardRequest，包含配置consistencyLevel和timeout。并从集群state中获得primary shard，如果primary在本机就直接执行，如果不在会再发送到其shard所在的node。

源码位置：https://github.com/elastic/elasticsearch/blob/master/core/src/main/java/org/elasticsearch/action/bulk/TransportBulkAction.java

    void executeBulk(Task task, final BulkRequest bulkRequest, final long startTimeNanos, final ActionListener<BulkResponse> listener, final AtomicArray<BulkItemResponse> responses ) {

        final ClusterState clusterState = clusterService.state();

        // TODO use timeout to wait here if its blocked...

        clusterState.blocks().globalBlockedRaiseException(ClusterBlockLevel.WRITE);

        final ConcreteIndices concreteIndices = new ConcreteIndices(clusterState, indexNameExpressionResolver);

        MetaData metaData = clusterState.metaData();

        for (int i = 0; i < bulkRequest.requests.size(); i++) {

            DocWriteRequest docWriteRequest = bulkRequest.requests.get(i);

            //the request can only be null because we set it to null in the previous step, so it gets ignored

            if (docWriteRequest == null) {

                continue;

            }

            if (addFailureIfIndexIsUnavailable(docWriteRequest, bulkRequest, responses, i, concreteIndices, metaData)) {

                continue;

            }

            Index concreteIndex = concreteIndices.resolveIfAbsent(docWriteRequest);

            try {

                switch (docWriteRequest.opType()) {

                    case CREATE:

                    case INDEX:

                        IndexRequest indexRequest = (IndexRequest) docWriteRequest;

                        MappingMetaData mappingMd = null;

                        final IndexMetaData indexMetaData = metaData.index(concreteIndex);

                        if (indexMetaData != null) {

                            mappingMd = indexMetaData.mappingOrDefault(indexRequest.type());

                        }

                        indexRequest.resolveRouting(metaData);

                        indexRequest.process(mappingMd, allowIdGeneration, concreteIndex.getName());

                        break;

                    case UPDATE:

                        TransportUpdateAction.resolveAndValidateRouting(metaData, concreteIndex.getName(), (UpdateRequest) docWriteRequest);

                        break;

                    case DELETE:

                        TransportDeleteAction.resolveAndValidateRouting(metaData, concreteIndex.getName(), (DeleteRequest) docWriteRequest);

                        break;

                    default: throw new AssertionError("request type not supported: [" + docWriteRequest.opType() + "]");

                }

            } catch (ElasticsearchParseException | RoutingMissingException e) {

                BulkItemResponse.Failure failure = new BulkItemResponse.Failure(concreteIndex.getName(), docWriteRequest.type(), docWriteRequest.id(), e);

                BulkItemResponse bulkItemResponse = new BulkItemResponse(i, docWriteRequest.opType(), failure);

                responses.set(i, bulkItemResponse);

                // make sure the request gets never processed again

                bulkRequest.requests.set(i, null);

            }

        }

        // first, go over all the requests and create a ShardId -> Operations mapping

        Map<ShardId, List<BulkItemRequest>> requestsByShard = new HashMap<>();

        for (int i = 0; i < bulkRequest.requests.size(); i++) {

            DocWriteRequest request = bulkRequest.requests.get(i);

            if (request == null) {

                continue;

            }

            String concreteIndex = concreteIndices.getConcreteIndex(request.index()).getName();

            ShardId shardId = clusterService.operationRouting().indexShards(clusterState, concreteIndex, request.id(), request.routing()).shardId();

            List<BulkItemRequest> shardRequests = requestsByShard.computeIfAbsent(shardId, shard -> new ArrayList<>());

            shardRequests.add(new BulkItemRequest(i, request));

        }

        if (requestsByShard.isEmpty()) {

            listener.onResponse(new BulkResponse(responses.toArray(new BulkItemResponse[responses.length()]), buildTookInMillis(startTimeNanos)));

            return;

        }

        final AtomicInteger counter = new AtomicInteger(requestsByShard.size());

        String nodeId = clusterService.localNode().getId();

        for (Map.Entry<ShardId, List<BulkItemRequest>> entry : requestsByShard.entrySet()) {

            final ShardId shardId = entry.getKey();

            final List<BulkItemRequest> requests = entry.getValue();

            BulkShardRequest bulkShardRequest = new BulkShardRequest(shardId, bulkRequest.getRefreshPolicy(),

                    requests.toArray(new BulkItemRequest[requests.size()]));

            bulkShardRequest.waitForActiveShards(bulkRequest.waitForActiveShards());

            bulkShardRequest.timeout(bulkRequest.timeout());

            if (task != null) {

                bulkShardRequest.setParentTask(nodeId, task.getId());

            }

            shardBulkAction.execute(bulkShardRequest, new ActionListener<BulkShardResponse>() {

                @Override

                public void onResponse(BulkShardResponse bulkShardResponse) {

                    for (BulkItemResponse bulkItemResponse : bulkShardResponse.getResponses()) {

                        // we may have no response if item failed

                        if (bulkItemResponse.getResponse() != null) {

                            bulkItemResponse.getResponse().setShardInfo(bulkShardResponse.getShardInfo());

                        }

                        responses.set(bulkItemResponse.getItemId(), bulkItemResponse);

                    }

                    if (counter.decrementAndGet() == 0) {

                        finishHim();

                    }

                }

            });

        }

    }

路由代码：

ShardId shardId = clusterService.operationRouting().indexShards(clusterState, concreteIndex, request.id(), request.routing()).shardId();

ES bulk源码分析——ES 5.0的更多相关文章

模块化系列教程 | 深入源码分析阿里JarsLink1.0模块化框架
1. 概述 1.1 模块动态加载卸载主流程 2. 模块动态加载 2.1 模块加载源码分析 2.1.1 AbstractModuleRefreshScheduler 2.1.2 ModuleLoader ...
Android 框架学习2：源码分析 EventBus 3.0 如何实现事件总线
Go beyond yourself rather than beyond others. 上篇文章深入理解 EventBus 3.0 之使用篇我们了解了 EventBus 的特性以及如何使用,这 ...
Spring之WebContext不使用web.xml启动初始化重要的类源码分析（Servlet3.0以上的）
入口: org.springframework.web.SpringServletContainerInitializer implements ServletContainerInitializer ...
源码分析 SpringCloud 2020.0.4 版本 EurekaClient 的注册过程
1. 概述老话说的好:要善于思考,有创新意识. 言归正传,之前聊了 Springboot 的启动过程,今天来聊聊 Eureka Client 的注册过程. 2. Eureka Client 的注册过 ...
jQuery源码分析系列
声明:本文为原创文章,如需转载,请注明来源并保留原文链接Aaron,谢谢! 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://git ...
[转]jQuery源码分析系列
文章转自:jQuery源码分析系列-Aaron 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://github.com/JsAaro ...
分布式缓存技术之Redis_Redis集群连接及底层源码分析
目录 1. Jedis 单点连接 2. Jedis 基于sentinel连接基本使用源码分析本次源码分析基于: jedis-3.0.1 1. Jedis 单点连接当是单点服务时,Java ...
【转载】AsyncTask源码分析
原文地址:https://github.com/white37/AndroidSdkSourceAnalysis/blob/master/article/AsyncTask%E5%92%8CAsync ...
jQuery源码分析系列(转载来源Aaron.)
声明:非本文原创文章,转载来源原文链接Aaron. 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://github.com/JsAa ...

随机推荐

09: xmltodict 模块将xml格式转成json格式
1.1 : xmltodict 模块将xml格式转成json格式 <?xml version="1.0"?>  <data> ...
05: MySQL高级查询
MySQL其他篇目录: 参考网站 1.1 GROUP BY分组使用 1.2 mysql中NOW(),CURDATE(),CURTIME()的使用 1.3 DATEDIFF() 函数 1.4 DATE ...
05: python中的函数
1.1 python 函数 1.函数作用定义: 函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执行这个函数,只需调用其函数名即可特性: 减少重复代码使程序变的可扩展使程序变得 ...
Git 基础 —— 安装配置别名对象
Git 基础学习系列 Git 基础 -- 安装配置别名对象 Git 基础 -- 常用命令 Git 基础 -- 常见使用场景 Git基础 -- Github 的使用 Git 安装 Git下载地址 ...
linux下安装微信小程序开发工具
一.环境:: ubuntu 16.04 二.安装过程: 2.1 安装wine sudo apt-get install wine 2.2 安装nwjs-sdk 2.2.1 下载linux版nwjs-s ...
P3709 大爷的字符串题
题意询问区间众数出现的次数思路唯有水题快人心离散化+莫队莫队一定要先加后减,有事会出错的莫队维护区间众数: 维护两个数组,一个数组记录权值为x的出现次数,一个记录出现次数为x的数的个数 a ...
关于ActiveMQ、RocketMQ、RabbitMQ、Kafka一些总结和区别
这是一篇分享文转自:http://www.cnblogs.com/williamjie/p/9481780.html 尊重原作,谢谢消息队列为什么写这篇文章? 博主有两位朋友分别是小A和小B: ...
在线js编程网站精品版
https://jsfiddle.net/ 引自:http://www.ykmimi.com/tools.html
Android程序示例
目录 Android代码示例 OptionsMenu ImageButton CheckBox & RadioButton Context Menu快捷菜单 Key Event ListVie ...
HDU 5873 Football Games（竞赛图兰道定理）
http://acm.hdu.edu.cn/showproblem.php?pid=5873 题意: 现在有比赛,所有队伍两两进行比赛,赢的积2分,输的积0分,如果平局的话就各自都积1分,现在给出每只 ...

ES bulk源码分析——ES 5.0

ES bulk源码分析——ES 5.0的更多相关文章

随机推荐

热门专题