DataX写入ElasticSearch

1 快速介绍

数据导入elasticsearch的插件

2 实现原理

使用elasticsearch的rest api接口，批量把从reader读入的数据写入elasticsearch

3功能说明

3.1配置样例

{

	"job": {

		"setting": {

			"speed": {

				"channel": 1,

				"record": -1,

				"byte": -1

			}

		},

		"content": [{

			"reader": {

				"name": "mysqlreader",

				"parameter": {

					"username": "root",

					"password": "1234qwer",

					"column": [

						"id",

						"name"

					],

					"splitPk": "id",

					"connection": [{

						"table": [

							"datax_test"

						],

						"jdbcUrl": [

							"jdbc:mysql://localhost:3306/test"

						]

					}]

				}

			},

			"writer": {

				"name": "elasticsearchwriter",

				"parameter": {

					"endpoint": "http://localhost:9200",

					"accessId": "admin",

					"accessKey": "123456",

					"index": "test-datax",

					"type": "default",

					"cleanup": true,

					"settings": {

						"index": {

							"number_of_shards": 1,

							"number_of_replicas": 0

						}

					},

					"discovery": false,

					"batchSize": 1000,

					"splitter": ",",

					"column": [{

							"name": "id",

							"type": "id"

						},

						{

							"name": "name",

							"type": "string"

						}

					]

				}

			}

		}]

	}

}

参数说明
• endpoint
• 描述：ElasticSearch的连接地址
• 必选：是
• 默认值：无
• accessId
• 描述：http auth中的user
• 必选：否
• 默认值：空
• accessKey
• 描述：http auth中的password
• 必选：否
• 默认值：空
• index
• 描述：elasticsearch中的index名
• 必选：是
• 默认值：无
• type
• 描述：elasticsearch中index的type名
• 必选：否
• 默认值：index名
• cleanup
• 描述：是否删除原表
• 必选：否
• 默认值：false
• batchSize
• 描述：每次批量数据的条数
• 必选：否
• 默认值：1000
• trySize
• 描述：失败后重试的次数
• 必选：否
• 默认值：30
• timeout
• 描述：客户端超时时间
• 必选：否
• 默认值：600000
• discovery
• 描述：启用节点发现将(轮询)并定期更新客户机中的服务器列表。
• 必选：否
• 默认值：false
• compression
• 描述：http请求，开启压缩
• 必选：否
• 默认值：true
• multiThread
• 描述：http请求，是否有多线程
• 必选：否
• 默认值：true
• ignoreWriteError
• 描述：忽略写入错误，不重试，继续写入
• 必选：否
• 默认值：false
• ignoreParseError
• 描述：忽略解析数据格式错误，继续写入
• 必选：否
• 默认值：true
• alias
• 描述：数据导入完成后写入别名
• 必选：否
• 默认值：无
• aliasMode
• 描述：数据导入完成后增加别名的模式，append(增加模式), exclusive(只留这一个)
• 必选：否
• 默认值：append
• settings
• 描述：创建index时候的settings, 与elasticsearch官方相同
• 必选：否
• 默认值：无
• splitter
• 描述：如果插入数据是array，就使用指定分隔符
• 必选：否
• 默认值：-,-
• column
• 描述：elasticsearch所支持的字段类型，样例中包含了全部
• 必选：是
• dynamic
• 描述: 不使用datax的mappings，使用es自己的自动mappings
• 必选: 否
• 默认值: false

执行

./datax.py /Users/FengZhen/Desktop/Hadoop/dataX/json/ES/1.write2ES.json

看结果

FengZhendeMacBook-Pro:bin FengZhen$ curl -XGET 'http://localhost:9200/test-datax/default/_search?pretty'

{

"took" : 16,

"timed_out" : false,

"_shards" : {

"total" : 1,

"successful" : 1,

"skipped" : 0,

"failed" : 0

},

"hits" : {

"total" : 2,

"max_score" : 1.0,

"hits" : [

{

"_index" : "test-datax",

"_type" : "default",

"_id" : "1",

"_score" : 1.0,

"_source" : {

"name" : "fz"

}

},

{

"_index" : "test-datax",

"_type" : "default",

"_id" : "2",

"_score" : 1.0,

"_source" : {

"name" : "dx"

}

}

]

}

}

DataX-ElasticSearch(写)的更多相关文章

.Net Core 实践 - 使用log4net记录日志（3）— log4net向ElasticSearch写日志
demo地址:https://github.com/PuzzledAlien/log4net_demo/tree/master/DotNetCoreConsole_V3 Windows 10 安装部署 ...
How to resolve unassigned shards in Elasticsearch——写得非常好
How to resolve unassigned shards in Elasticsearch 转自:https://www.datadoghq.com/blog/elasticsearch-un ...
异构数据库迁移——DATAX
背景在最近接触到的一个case里面,需要把db2的数据迁移至oracle,客户可接收的停机时间为3小时. 同步方式的比较一说到停机时间,大家第一时间想到Oracle公司的GoldenGate实时同 ...
环境篇：数据同步工具DataX
环境篇:数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
Elasticsearch安装和使用
Elasticsearch安装和使用 Elasticsearch 是开源搜索平台的新成员,实时数据分析的神器,发展迅猛,基于 Lucene.RESTful.分布式.面向云计算设计.实时搜索.全文搜索. ...
ELK系列~log4-nxlog-Fluentd-elasticsearch写json数据需要注意的几点
经验与实践前两篇文章里我们介绍了nxlog的日志收集和转发<ELK系列~Nxlog日志收集加转发(解决log4日志换行导致json转换失败问题)>,今天我们主要总结一下,在与log4和f ...
Windows 10 安装 ElasticSearch
Java环境准备可以下载oracle最新的JDK,作为C#程序员,支持一下微软的Mobile OpenJDK,构建一下Java环境. 微软的OpenJDK是针对Xamarin.Android的SDK ...
ElasticSearch 索引剖析
ElasticSearch index 剖析在看ElasticSearch权威指南基础入门中关于:分片内部原理这一小节内容后,大致对ElasticSearch的索引.搜索底层实现有了一个初步的认识. ...

随机推荐

SQL.Cookbook 读书笔记4 插入更新和删除
第四章插入更新和删除 4.1 插入数据 ,'PROGRA','NEW YOURK'); 4.2 从一个表向另一个表中复制 insert into dept_east(deptno,dname,loc ...
Null Coalescing Operator
w Parse error: syntax error, unexpected '?'
Server Objects Extension（SOE）开发（三）
前言 SOE出现之前,一些复杂.耗时的gis操作,通常都是使用gp服务实现的.前面将gp服务和soe进行了对比分析,为了测试两种的效率,曾经做了个demo,使用soe和gp同时执行相同的业务逻辑,记录 ...
HDFS权限
1.1 超级用户启动namenode服务的用户就是超级用户, 该用户的组是supergroup 1.2 文件权限管理 1.2.1 创建时的owner和group 文件或者目录被创建之时,服从BS ...
android开发软键盘出现后防止EditText控件遮挡总体平移UI
在EditText控件接近底部的情况下软键盘弹出后会把获得焦点的EditText控件遮挡无法看到输入信息防止这种情况发生就须要设置AndroidManifest.xml的属性前面的xml信 ...
磁盘对齐-windows篇
什么是磁盘分区对齐(Disk Alignment.Partition Alignment): Windows的磁盘有一种结构叫做Master Boot Record(MBR), 它的默认大小为63个B ...
LeetCode：对角线遍历【498】
LeetCode:对角线遍历[498] 题目描述给定一个含有 M x N 个元素的矩阵(M 行,N 列),请以对角线遍历的顺序返回这个矩阵中的所有元素,对角线遍历如下图所示. 示例: 输入: [ [ ...
Android:日常学习笔记(6)——探究活动（4）
Android:日常学习笔记(6)——探究活动(4) 活动的启动模式 standard模式 standard是活动默认的启动模式,在不进行显示定义的情况下,所有活动都会自动使用这种启动模式. stan ...
PAT 天梯赛 L1-009. N个数求和【模拟】
题目链接 https://www.patest.cn/contests/gplt/L1-009 思路每一步每一步往上加,但是要考虑溢出,所以用 LONG LONG 而且每一步都要约分才能保 ...
Java生成json
JSON(JavaScript Object Notation):一种轻量级的数据交换格式: Be JSON:在线JSON校验格式化工具 www.bejson.com 需求:编写代码生成如下的json ...

DataX-ElasticSearch(写)