DataX写入ElasticSearch

1 快速介绍

数据导入elasticsearch的插件

2 实现原理

使用elasticsearch的rest api接口，批量把从reader读入的数据写入elasticsearch

3功能说明

3.1配置样例

{

	"job": {

		"setting": {

			"speed": {

				"channel": 1,

				"record": -1,

				"byte": -1

			}

		},

		"content": [{

			"reader": {

				"name": "mysqlreader",

				"parameter": {

					"username": "root",

					"password": "1234qwer",

					"column": [

						"id",

						"name"

					],

					"splitPk": "id",

					"connection": [{

						"table": [

							"datax_test"

						],

						"jdbcUrl": [

							"jdbc:mysql://localhost:3306/test"

						]

					}]

				}

			},

			"writer": {

				"name": "elasticsearchwriter",

				"parameter": {

					"endpoint": "http://localhost:9200",

					"accessId": "admin",

					"accessKey": "123456",

					"index": "test-datax",

					"type": "default",

					"cleanup": true,

					"settings": {

						"index": {

							"number_of_shards": 1,

							"number_of_replicas": 0

						}

					},

					"discovery": false,

					"batchSize": 1000,

					"splitter": ",",

					"column": [{

							"name": "id",

							"type": "id"

						},

						{

							"name": "name",

							"type": "string"

						}

					]

				}

			}

		}]

	}

}

参数说明
• endpoint
• 描述：ElasticSearch的连接地址
• 必选：是
• 默认值：无
• accessId
• 描述：http auth中的user
• 必选：否
• 默认值：空
• accessKey
• 描述：http auth中的password
• 必选：否
• 默认值：空
• index
• 描述：elasticsearch中的index名
• 必选：是
• 默认值：无
• type
• 描述：elasticsearch中index的type名
• 必选：否
• 默认值：index名
• cleanup
• 描述：是否删除原表
• 必选：否
• 默认值：false
• batchSize
• 描述：每次批量数据的条数
• 必选：否
• 默认值：1000
• trySize
• 描述：失败后重试的次数
• 必选：否
• 默认值：30
• timeout
• 描述：客户端超时时间
• 必选：否
• 默认值：600000
• discovery
• 描述：启用节点发现将(轮询)并定期更新客户机中的服务器列表。
• 必选：否
• 默认值：false
• compression
• 描述：http请求，开启压缩
• 必选：否
• 默认值：true
• multiThread
• 描述：http请求，是否有多线程
• 必选：否
• 默认值：true
• ignoreWriteError
• 描述：忽略写入错误，不重试，继续写入
• 必选：否
• 默认值：false
• ignoreParseError
• 描述：忽略解析数据格式错误，继续写入
• 必选：否
• 默认值：true
• alias
• 描述：数据导入完成后写入别名
• 必选：否
• 默认值：无
• aliasMode
• 描述：数据导入完成后增加别名的模式，append(增加模式), exclusive(只留这一个)
• 必选：否
• 默认值：append
• settings
• 描述：创建index时候的settings, 与elasticsearch官方相同
• 必选：否
• 默认值：无
• splitter
• 描述：如果插入数据是array，就使用指定分隔符
• 必选：否
• 默认值：-,-
• column
• 描述：elasticsearch所支持的字段类型，样例中包含了全部
• 必选：是
• dynamic
• 描述: 不使用datax的mappings，使用es自己的自动mappings
• 必选: 否
• 默认值: false

执行

./datax.py /Users/FengZhen/Desktop/Hadoop/dataX/json/ES/1.write2ES.json

看结果

FengZhendeMacBook-Pro:bin FengZhen$ curl -XGET 'http://localhost:9200/test-datax/default/_search?pretty'

{

"took" : 16,

"timed_out" : false,

"_shards" : {

"total" : 1,

"successful" : 1,

"skipped" : 0,

"failed" : 0

},

"hits" : {

"total" : 2,

"max_score" : 1.0,

"hits" : [

{

"_index" : "test-datax",

"_type" : "default",

"_id" : "1",

"_score" : 1.0,

"_source" : {

"name" : "fz"

}

},

{

"_index" : "test-datax",

"_type" : "default",

"_id" : "2",

"_score" : 1.0,

"_source" : {

"name" : "dx"

}

}

]

}

}

DataX-ElasticSearch(写)的更多相关文章

.Net Core 实践 - 使用log4net记录日志（3）— log4net向ElasticSearch写日志
demo地址:https://github.com/PuzzledAlien/log4net_demo/tree/master/DotNetCoreConsole_V3 Windows 10 安装部署 ...
How to resolve unassigned shards in Elasticsearch——写得非常好
How to resolve unassigned shards in Elasticsearch 转自:https://www.datadoghq.com/blog/elasticsearch-un ...
异构数据库迁移——DATAX
背景在最近接触到的一个case里面,需要把db2的数据迁移至oracle,客户可接收的停机时间为3小时. 同步方式的比较一说到停机时间,大家第一时间想到Oracle公司的GoldenGate实时同 ...
环境篇：数据同步工具DataX
环境篇:数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作(二)
CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...
使用Hive或Impala执行SQL语句，对存储在Elasticsearch中的数据操作
http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据 ...
Elasticsearch安装和使用
Elasticsearch安装和使用 Elasticsearch 是开源搜索平台的新成员,实时数据分析的神器,发展迅猛,基于 Lucene.RESTful.分布式.面向云计算设计.实时搜索.全文搜索. ...
ELK系列~log4-nxlog-Fluentd-elasticsearch写json数据需要注意的几点
经验与实践前两篇文章里我们介绍了nxlog的日志收集和转发<ELK系列~Nxlog日志收集加转发(解决log4日志换行导致json转换失败问题)>,今天我们主要总结一下,在与log4和f ...
Windows 10 安装 ElasticSearch
Java环境准备可以下载oracle最新的JDK,作为C#程序员,支持一下微软的Mobile OpenJDK,构建一下Java环境. 微软的OpenJDK是针对Xamarin.Android的SDK ...
ElasticSearch 索引剖析
ElasticSearch index 剖析在看ElasticSearch权威指南基础入门中关于:分片内部原理这一小节内容后,大致对ElasticSearch的索引.搜索底层实现有了一个初步的认识. ...

随机推荐

LIS(模板)
记录一下,O(nlgn)的算法求LIS //HHH #include <iostream> #include <stdio.h> #include <string.h&g ...
EasyDSS流媒体服务器软件支持HTTPS-启用https服务申请免费证书
EasyDSS流媒体服务器软件,提供一站式的转码.点播.直播.时移回放服务,极大地简化了开发和集成的工作. 其中,点播功能主要包含:上传.转码.分发.直播功能,主要包含:直播.录像, 直播支持RTMP ...
基于HttpClient、Jsoup的爬虫获取指定网页内容
不断尝试,发现越来越多有趣的东西,刚刚接触Jsoup感觉比正则表达式用起来方便,但也有局限只适用HTML的解析. 不能尝试运用到四则运算中(工作室刚开始联系的小程序). 在原来写的HttpClient ...
CRM客户关系管理系统-需求概设和详设
大概设计大概设计就是对需求进行一个整体性分析,把需要实现的功能都列出来,对于客户关系管理系统,我们需要从角色出发,从而确定有哪些需求,最好是画个思维导图首先我们是为培训学校这么一个场景来开发的,所 ...
offset,scroll,client系列
offsetHeight: 元素高,height+border+paddingoffsetWidth: 元素宽,width+border+paddingoffsetTop: 距离offsetParen ...
获取JDBC响应做接口关联
1:从sql表中将需要取的数据查出来 2:我们需要把这个id为4451的数据从sql里面取出来,传到下一个sql里面,执行删除 3:写一个接口的传参有些不同,变成了var_id_1.var_id是之前 ...
教你使用SQL数据库索引（1-15）
原文地址:http://www.sqlservercentral.com/stairway/72399/ 中文地址:https://www.cnblogs.com/tjy9999/category/4 ...
（4.7）怎么捕获和记录SQL Server中发生的死锁?
转自:https://blog.csdn.net/c_enhui/article/details/19498327 怎么捕获和记录SQL Server中发生的死锁? 关键词:死锁记录,死锁捕获 sql ...
[LeetCode-21]Construct Binary Tree from Preorder and Inorder Traversal
Given preorder and inorder traversal of a tree, construct the binary tree. Note: You may assume that ...
001-centos7安装笔记本联想G510
一.准备前提 1.联想G510AT 用winpe进入笔记本电脑,找到一个分区,删除即可 2.使用U盘安装 2.1.准备一个8G 的U盘,格式化ntfs. 2.2.在window下,下载UltraISO ...

DataX-ElasticSearch(写)