elastic(7)bulk

转自：https://www.cnblogs.com/xing901022/p/5339419.html

bulk批量导入

批量导入可以合并多个操作，比如index,delete,update,create等等。也可以帮助从一个索引导入到另一个索引。

语法大致如下；

action_and_meta_data\n

optional_source\n

action_and_meta_data\n

optional_source\n

....

action_and_meta_data\n

optional_source\n

需要注意的是，每一条数据都由两行构成（delete除外），其他的命令比如index和create都是由元信息行和数据行组成，update比较特殊它的数据行可能是doc也可能是upsert或者script,如果不了解的朋友可以参考前面的update的翻译。

注意，每一行都是通过\n回车符来判断结束，因此如果你自己定义了json，千万不要使用回车符。不然_bulk命令会报错的！

一个小例子

比如我们现在有这样一个文件，data.json：

{ "index" : { "_index" : "test", "_type" : "type1", "_id" : "1" } }

{ "field1" : "value1" }

它的第一行定义了_index，_type，_id等信息；第二行定义了字段的信息。

然后执行命令：

curl -XPOST localhost:9200/_bulk --data-binary @data.json

就可以看到已经导入进去数据了。

对于其他的index,delete,create,update等操作也可以参考下面的格式：

{ "index" : { "_index" : "test", "_type" : "type1", "_id" : "1" } }

{ "field1" : "value1" }

{ "delete" : { "_index" : "test", "_type" : "type1", "_id" : "2" } }

{ "create" : { "_index" : "test", "_type" : "type1", "_id" : "3" } }

{ "field1" : "value3" }

{ "update" : {"_id" : "1", "_type" : "type1", "_index" : "index1"} }

{ "doc" : {"field2" : "value2"} }

在Url中设置默认的index和type

如果在路径中设置了index或者type，那么在JSON中就不需要设置了。如果在JSON中设置，会覆盖掉路径中的配置。

比如上面的例子中，文件中定义了索引为test,类型为type1；而我们在路径中定义了默认的选项，索引为test333,类型为type333。执行命令后，发现文件中的配置会覆盖掉路径中的配置。这样也提供了统一的默认配置以及个性化的特殊配置的需求。

其他

由于bulk是一次性提交很多的命令，它会把这些数据都发送到一个节点，然后这个节点解析元数据（index或者type或者id之类的），然后分发给其他的节点的分片，进行操作。

由于很多命令执行后，统一的返回结果，因此数据量可能会比较大。这个时候如果使用的是chunk编码的方式，分段进行传输，可能会造成一定的延迟。因此还是对条件在客户端进行一定的缓冲，虽然bulk提供了批处理的方法，但是也不能给太大的压力！

最后要说一点的是，Bulk中的操作执行成功与否是不影响其他的操作的。而且也没有具体的参数统计，一次bulk操作，有多少成功多少失败。

扩展：在Logstash中，传输的机制其实就是bulk，只是他使用了Buffer,如果是服务器造成的访问延迟可能会采取重传，其他的失败就只丢弃了....

作者：xingoo

elastic(7)bulk的更多相关文章

Nutch配置：nutch-default.xml详解
/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ ...
Nutch的nutch-default.xml和regex-urlfilter.txt的中文解释
nutch-default解释.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl&qu ...
Bulk API
承接上文,使用Java High Level REST Client操作elasticsearch Bulk API 高级客户端提供了批量处理器以协助批量请求 Bulk Request BulkReq ...
Elastic数据迁移方法及注意事项
需求 ES集群Cluster_A里的数据(某个索引或某几个索引),需要迁移到另外一个ES集群Cluster_B中. 环境 Linux:Centos7 / Centos6.5/ Centos6.4Ela ...
elastic客户端TransportClient的使用
关于TransportClient,elastic计划在Elasticsearch 7.0中弃用TransportClient,并在8.0中完全删除它.后面,应该使用Java高级REST客户端,它执行 ...
ES bulk源码分析——ES 5.0
对bulk request的处理流程: 1.遍历所有的request,对其做一些加工,主要包括:获取routing(如果mapping里有的话).指定的timestamp(如果没有带timestamp ...
自定义Spark Partitioner提升es-hadoop Bulk效率
http://www.jianshu.com/p/cccc56e39429/comments/2022782 和 https://github.com/elastic/elasticsearch-ha ...
java连接elastic search 9300
java连接elastic search 导入jar包:https://www.elastic.co/guide/en/elasticsearch/client/java-api/5.5/_maven ...
Elasticsearch之CURL命令的bulk批量操作
大家,也可去看看我下面的博客 Elasticsearch之批量操作bulk 官网上,是举例了新建一个requests文件. [hadoop@master elasticsearch-]$ pwd /h ...

随机推荐

review34
Thread类与线程的创建让线程启动时使用我们自己创建run()的两种方式:一种是继承Thread类,实现其中的run()方法,然后用继承的类用无参构造方法创建对象就可以了.第二种是实现Runnab ...
html5笔记（标签）
1.aside aside字面理解为“旁边”,在html5中范围更广一点,是跟主内容相关,但是又可以独立的内容 ,可以是广告.引用.侧边栏等等. html5站的例子就是新闻的内容页或者列表页,以列表页 ...
卸载全部appx应用（包括应用商店）
在PowerShell中粘贴: Get-AppXPackage | Remove-AppxPackage
后勤LO采购数据源增强
EIS采购数据源增强 1. 2LIS_02_HRD增强 1.1. 在标准数据源上增加字段事务代码:LBWE 激活数据源字段激活数据源 1.2. 在结构MC02M_0H ...
js动态拼接参数到请求的url上
var queryConfig={ "page" : "index", "method" : 2, //1:按照方法A查看 2:按照方法B查 ...
GEF入门实例_总结_06_为编辑器添加内容
一.前言本文承接上一节:GEF入门实例_总结_05_显示一个空白编辑器在上一节我们为我们的插件添加了一个空白的编辑器,这一节我们将为此编辑器添加内容. 二.GEF的MVC模式在此只简单总结一下, ...
LeetCode OJ：Summary Ranges（概括区间）
Given a sorted integer array without duplicates, return the summary of its ranges. For example, give ...
java学习笔记 --- IO（2）
IO流的分类: 流向: 输入流读取数据输出流写出数据数据类型: 字节流字节输入流读取数据 InputStream 字节输出流写出数据 OutputStream 字符流字符 ...
BEC listen and translation exercise 9
You will do foolish things, but do them with enthusiasm. 你难免会做傻事,但要做,就做得满怀激情. In addition, there sho ...
PHP判断键值数组是否存在，使用empty或isset或array_key_exists(转)
一个例子猜猜看,下面的例子会输出什么? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 <?php $a = array('a'=>1, 'b'=>0, 'c'= ...