干货 | 快速实现数据导入及简单DCS的实现

原创：赵琦京东云开发者社区 4月18日

对于多数用户而言，在利用云计算的大数据服务时首先要面临的一个问题就是如何将已有存量数据快捷的导入到大数据仓库中。本文将演示如何基于京东云数据计算服务平台，简单、快速地将数据导入数据计算服务。

我们通常说的大数据平台主要包括三部分：数据相关的产品和技术、数据资产、数据管理。京东云数据计算服务（Data Computing Service，简称：DCS）是一个全托管、低使用成本的云上数据仓库服务。通过数据工厂，可轻松实现云上各数据源(包括对象存储、云数据库、数据仓库等)间、本地数据源与云数据源间的多种不同数据源的数据同步，实现多源数据分析与管理。

在数据工厂服务中可以创建同步任务来搬运数据，并按照指定的调度策略（每天、每周、每月）运行。该模块提供任务监控和告警功能，用户可以通过任务执行的明细日志和告警历史，轻松查明问题所在；同时，提供全面托管的工作流服务，支持图形化设计数据分析。以工作流任务的方式实现对数据的处理和相互依赖，帮助用户快速构建数据处理分析作业并周期性地执行。

下面会以MySQL数据库为例说明如何利用京东云数据工厂进行数据采集和DTS数据库之间的数据同步。数据工厂支持常见RDS数据库，如MySQL、SQLServer、Oracle、DB2和NoSQL数据库，也支持从OSS、FTP站点及Elastic Search等。

下图是数据工厂支持的数据源种类：

下面会演示以MySQL数据库为例，如何利用数据工厂进行数据采集，以及如何利用数据工厂作为DTS在两个数据源之间进行数据迁移。

为了方便测试，首先我们要创建数据库表单并灌入测试数据。为了测试方便，提前创建了一台CentOS 7.4云主机作为模拟客户端对数据库进行访问。

一、核心概念

数据集

在数据工厂服务中的数据集，是指由同步任务时需指定的数据源端或数据目标端的不同数据存储实例。因此，在创建同步任务之前，你必须先连接数据集。同一个数据集，可以是多个同步任务的数据源端或者数据目标端。

数据集的连通性

在用户创建数据集连接时，为检验数据集成服务能否连接成功，需要用户更具根据不同的数据集类型，填入相应的值用于连通性校验。数据集连接成功，是数据同步任务成功的前提。

同步任务

同步任务，是用户使用数据集成服务的最小单元。每一个同步任务需要用户配置数据源端、数据目标端以及相应的同步策略（如脏数据的处理等）。

工作流

工作流以图形化设计任务的方式实现对数据的处理和相互依赖。

开始实战

一、准备测试数据源

首先创建模拟数据环境。本例采用京东云的RDS MySQL 8.0数据库服务作为数据源，创建时可指定数据库名字为Testdb。数据库创建完成后要开启外网访问，数据工厂可以通过公网IP或域名对数据库进行访问，详细域名可以在数据库的详情页中找到。

创建MySQL数据库可以通过图形界面按提示填写必要信息开通，这里不赘述。需要提醒的是数据库开通后默认不允许外网访问，要点击开启外网访问，并记住默认端口3306。

对MySQL访问可以通过图形界面访问或通过客户端访问。当然也可以通过其他支持MySQL的图形化客户端进行访问。

本例使用CentOS 系统作为客户端访问，如未安装客户端可以使用Yum命令安装 MySQL。顺利安装可以看到如下提示。


 1[root@CentOS ~]# yum install mysql

 2Loaded plugins: fastestmirror, langpacks

 3Loading mirror speeds from cached hostfile

 4base                                | 3.6 kB     00:00     

 5epel                                | 4.7 kB     00:00     

 6extras                              | 3.4 kB     00:00     

 7updates                             | 3.4 kB     00:00     

 8(1/2): epel/x86_64/updateinfo         | 986 kB   00:00     

 9(2/2): epel/x86_64/primary_db         | 6.7 MB   00:00     

10Resolving Dependencies

11--> Running transaction check

12---> Package mariadb.x86_64 1:5.5.60-1.el7_5 will be installed

13--> Processing Dependency: mariadb-libs(x86-64) = 1:5.5.60-1.el7_5 for package: 1:mariadb-5.5.60-1.el7_5.x86_64

14--> Running transaction check

15---> Package mariadb-libs.x86_64 1:5.5.56-2.el7 will be updated

16---> Package mariadb-libs.x86_64 1:5.5.60-1.el7_5 will be an update

17--> Finished Dependency Resolution

18

19Dependencies Resolved

20

21===========================================================

22 Package        Arch     Version              Repository

23                                                      Size

24===========================================================

25Installing:

26 mariadb        x86_64   1:5.5.60-1.el7_5     base   8.9 M

27Updating for dependencies:

28 mariadb-libs   x86_64   1:5.5.60-1.el7_5     base   758 k

29

30Transaction Summary

31===========================================================

32Install  1 Package

33Upgrade             ( 1 Dependent package)

34

35Total download size: 9.6 M

36Is this ok [y/d/N]: y

37Downloading packages:

38Delta RPMs disabled because /usr/bin/applydeltarpm not installed.

39(1/2): mariadb-libs-5.5.60-1.el7_5.x8 | 758 kB   00:00     

40(2/2): mariadb-5.5.60-1.el7_5.x86_64. | 8.9 MB   00:00     

41-----------------------------------------------------------

42Total                          11 MB/s | 9.6 MB  00:00     

43Running transaction check

44Running transaction test

45Transaction test succeeded

46Running transaction

47  Updating   : 1:mariadb-libs-5.5.60-1.el7_5.x86_64    1/3 

48  Installing : 1:mariadb-5.5.60-1.el7_5.x86_64         2/3 

49  Cleanup    : 1:mariadb-libs-5.5.56-2.el7.x86_64      3/3 

50  Verifying  : 1:mariadb-libs-5.5.60-1.el7_5.x86_64    1/3 

51  Verifying  : 1:mariadb-5.5.60-1.el7_5.x86_64         2/3 

52  Verifying  : 1:mariadb-libs-5.5.56-2.el7.x86_64      3/3 

53

54Installed:

55  mariadb.x86_64 1:5.5.60-1.el7_5                          

56

57Dependency Updated:

58  mariadb-libs.x86_64 1:5.5.60-1.el7_5                     

59

60Complete!

安装后执行MySQL命令，测试一下是否可以链接数据库，客户端访问命令格式是MySQL -h主机地址 -u用户名－p用户密码主机地址使用MySQL数据库的外部域名。从连接数据库到创建表单的详细执行过程如下：

1、验证是否可以正常连接数据库


1[root@CentOS ~]# mysql -h mysql-cn-north-1-aed0e558da5e4877.public.jcloud.com -P3306 -umysqlxxx –pPasswordxxx

如可以正常连接，可以新开一个窗口创建SQL脚本用于数据库的创建和测试数据插入操作，也可以提前制作好并上传到客户端。

创建数据表格，创建一个测试数据库和测试表便于测试。选择合适目录创建SQL脚本文件，可以用vi ctable.sql 创建，也可以用其他文本编辑工具制作，脚本内容如下：


 1[root@CentOS ~]# cat ctable.sql 

 2USE testdb;

 3DROP TABLE IF EXISTS `sqltest`;

 4CREATE TABLE `sqltest` (

 5    `id` int(10) unsigned NOT NULL AUTO_INCREMENT,

 6    `user_id` varchar(20) NOT NULL DEFAULT '',

 7    `vote_num` int(10) unsigned NOT NULL DEFAULT '0',

 8    `group_id` int(10) unsigned NOT NULL DEFAULT '0',

 9    `status` tinyint(2) unsigned NOT NULL DEFAULT '1',

10    `create_time` datetime NOT NULL DEFAULT '0000-00-00 00:00:00',

11    PRIMARY KEY (`id`),

12    KEY `index_user_id` (`user_id`) USING HASH

13) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

2、创建临时数据产生脚本文件，vi adddb.sql


 1[root@CentOS ~]# cat adddb.sql

 2DELIMITER // -- 修改MySQL delimiter：'//'

 3DROP FUNCTION IF EXISTS `rand_string` //

 4SET NAMES utf8 //

 5CREATE FUNCTION `rand_string` (n INT) RETURNS VARCHAR(255) CHARSET 'utf8'

 6BEGIN 

 7    DECLARE char_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';

 8    DECLARE return_str varchar(255) DEFAULT '';

 9    DECLARE i INT DEFAULT 0;

10    WHILE i 

-- 创建插入数据的存储过程

 1DROP PROCEDURE IF EXISTS `adddb` //

 2CREATE PROCEDURE `adddb`(IN n INT)

 3BEGIN

 4    DECLARE i INT DEFAULT 1;

 5    DECLARE vote_num INT DEFAULT 0;

 6    DECLARE group_id INT DEFAULT 0;

 7    DECLARE status TINYINT DEFAULT 1;

 8    WHILE i 

-- 改回默认的 MySQL delimiter：';'

3、登陆数据库执行ctable.sql和adddb.sql脚本



执行命令：

1MySQL [testdb]> source /root/ctable.sql;

2MySQL [testdb]> source /root/adddb.sql;

增加100条数据

1MySQL [testdb]> call adddb(100);

通过调整adddb（要增加数字）参数的数字，也可以增加1000条如adddb（1000）。

至此我们有了数据源的测试环境，接下来可以开始利用数据工厂进行数据同步。
二、利用数据工厂进行源数据采集
选择大数据与分析的数据工厂菜单。在连接管理中添加连接，如下：

建立连接时建议点击连接测试按钮先进行测试数据库连接，不能连接时请检查域名、端口、用户名密码是否正确，数据库是否允许外网访问。
建立好数据库连接后，就可以进行数据同步工作了。数据同步工作可以在数据同步中单独建立任务设置，也可以在工作流中通过数据集成选项进行设置。数据集成设置后会自动生成数据同步任务。


调度策略可以选择手工执行、周期调度和单次运行三种模式，也可以直接选择单次运行。


执行完毕后在数据计算服务中就同步产生了数据。
上述操作可以用工作流的形式实现，衔接更为复杂的Spark计算脚本。

成功执行后可以在运维中心查看执行情况，在实例列表中的画图试布中看到执行节点变为绿色。

通过以上建立数据同步任务和工作流两种形式都能实现数据源的数据获取，数据获取后就可以直接使用大数据服务进行数据处理了。在大数据与分析菜单下选择数据计算服务管理。默认用自己用户名/PIN（本例用户名是jdc-14）为实例名，建立了Default HIVE INSTANCE。

数据的库表管理下可以看到刚刚新建的库MySQLdb和表SQLTest，点击进入SQLTest表名可以看到更详细的表信息如图。


可以基于获取的大数据信息在数据计算服务中进行任务开发，任务开发可以使用SQL或开发脚本对数据进行计算。

三、DCS大数据导出
可以利用这个能力把数据工厂当作简单DTS工具，把数据传给目的数据库。本例在京东云建立一个MySQL目的数据库，把SQLTest同步给目的数据库，实现两个数据库的数据同步。
准备好或新建立目的MySQL数据库 destmysqldb，将数据计算服务的MySQLdb同步给目的数据库destmysqldb。
在数据工厂菜单下，选择连接管理，新建到destmysqldb的连接。

新建同步任务，将数据计算服务的数据同步给destmysqldb数据库，任务名称synctodest。选择数据源端要选择大数据的数据计算服务，数据库名为mysqldb数据表名为sqltest，表的数据可以预览，避免出错。
在传输数据前要在数据库中事先建立空表结构，执行文章开头的ctable.sql建立表SQLTest，数据插入时要选择目的表名。

执行完毕后可以在destmysqldb中确认结果，通过select count（*） from sqltest 可以确认数据已经成功导入。

可以确认利用数据工厂作为简单DTS工具进行源数据库数据同步到目的数据库，实战成功！
欢迎点击“链接”了解更多精彩内容


阅读原文
												

											干货 | 快速实现数据导入及简单DCS的实现的更多相关文章	

								mysql 命令行快速导出数据,导入数据
		如果数据有20几万以上的时候,下面的方法很实用 导出数据 1.into outfile select * from table into outfile 'C:/a.sql'; 2.mysqldump ...
		
						Winform开发框架之通用数据导入导出操作的事务性操作完善
		1.通用数据导入导出操作模块回顾 在我的Winfrom开发框架里面,有一个通用的导入模块,它在默默处理这把规范的Excel数据导入到不同的对象表里面,一直用它来快速完成数据导入的工作.很早在随笔< ...
		
						(视频) 《快速创建网站》 3.1 WordPress 数据导入
		本文是<快速创建网站>系列的第5篇,如果你还没有看过之前的内容,建议你点击以下目录中的章节先阅读其他内容再回到本文. 访问本系列目录,请点击:http://devopshub.cn/tag ...
		
						使用MySQL Migration Toolkit快速将Oracle数据导入MySQL[转]
		使用MySQL Migration Toolkit快速将Oracle数据导入MySQL上来先说点废话本人最近在学习一些数据库方面的知识,之前接触过Oracle和MySQL,最近又很流行MongoDB非 ...
		
						rapidminer 数据导入及几个算子简单应用
		rapidminer 数据导入及几个算子简单应用 一. 数据集选择 本次实验选择的数据集为: bank-data.csv 其中有600条数据 结构如下图: 二.数据集文件格式转换 Rapidminer ...
		
						规模数据导入高效方式︱将数据快速读入R—readr和readxl包
		本文由雪晴数据网负责翻译整理,原文请参考New packages for reading data into R - fast作者David Smith.转载请注明原文链接http://www.xue ...
		
						通过管道传输快速将MySQL的数据导入Redis
		通过管道传输pipe将MySQL数据批量导入Redis      自Redis 2.6以上版本起,Redis支持快速大批量导入数据,即官网的Redis Mass Insertion,即Pipe传输,  ...
		
						Hive数据导入——数据存储在Hadoop分布式文件系统中，往Hive表里面导入数据只是简单的将数据移动到表所在的目录中！
		转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...
		
						使用MySQLMigrationToolkit快速将Oracle数据导入MySQL
		使用MySQL Migration Toolkit快速将Oracle数据导入MySQL 上来先说点废话 本人最近在学习一些数据库方面的知识,之前接触过Oracle和MySQL,最近又很流行MongoD ...
		
		
	

随机推荐	

									文献阅读报告 - Social BiGAT + Cycle GAN
			原文文献 Social BiGAT : Kosaraju V, Sadeghian A, Martín-Martín R, et al. Social-BiGAT: Multimodal Trajec ...
			
						[题解] LuoguP2764 最小路径覆盖问题
			传送门 好久没做网络流方面的题发现自己啥都不会了qwq 题意:给一张有向图,让你用最少的简单路径覆盖所有的点. 考虑这样一个东西,刚开始,我们有\(n\)条路径,每条路径就是单一的一个点,那么我们的目 ...
			
						PLC中双线圈问题
			以上重要 .所以一个线圈的状态在一个扫描周期 只能刷新一次.
			
						Express - 采用bcryptjs进行密码加密
			1.安装bcryptjs模块 npm install bcryptjs --save 2.在需要加密的模块中引入bcryptjs库    require('bcryptjs');   实战 : /** ...
			
						JAVA - SpringBoot项目引用MyBatis操作数据库
			JAVA - SpringBoot项目引用MyBatis操作数据库 1. 创建SpringBoot项目,参考:https://www.cnblogs.com/1285026182YUAN/p/1232 ...
			
						jsp页面使用<% 语句%> SQL Server数据库报空指针异常（在控制台可以正常执行）
			一直反感用SQL Server数据库,很影响电脑性能!!数据库作业不得不用 前几天作业一直报空指针异常: 自己检查了所传参数,和数组不为空 数据库查询语句不为空 然后查看SQL服务是否启动  主要是S ...
			
						javaweb 最简单的分页技术
			原文来自于https://www.cnblogs.com/xwlych/p/6017833.html 个人由加了一点注释,他的代码我运行不起来,弄了好一会 bean包  User.java packa ...
			
						kafka源码系列之mysql数据增量同步到kafka
			一,架构介绍 生产中由于历史原因web后端,mysql集群,kafka集群(或者其它消息队列)会存在一下三种结构. 1,数据先入mysql集群,再入kafka 数据入mysql集群是不可更改的,如何再 ...
			
						区间DP----模板
			简介 区间dp,顾名思义就是在一段区间上进行动态规划.对于每段区间,他们的最优值都是由几段更小区间的最优值得到,是分治思想的一种应用,将一个区间问题不断划分为更小的区间直至一个元素组成的区间,枚举他们 ...
			
						hdu 4300 Clairewd’s message 字符串哈希
			Clairewd’s message Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Other ...