1、DataX 基本介绍

  • DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。

  • 设计理念

    • 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
  • 当前使用现状

    • DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。

    • 此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX 3.0,有了更多更强大的功能和更好的使用体验。

    • Github主页地址:https://github.com/alibaba/DataX

2、DataX 3.0 框架设计

  • DataX 本身作为离线数据同步框架,采用Framework + plugin 架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。

    • Reader

      • Reader 为数据采集模块,负责采集数据源的数据,将数据发送给 Framework。
    • Writer
      • Writer 为数据写入模块,负责不断向 Framework 取数据,并将数据写入到目的端。
    • Framework
      • Framework 用于连接 Reader 和 Writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。

3、DataX 3.0 插件体系

  • 经过几年积累,DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下:

    类型 数据源 Reader(读) Writer(写) 文档
    RDBMS 关系型数据库 MySQL  、
      Oracle  、
      SQLServer  、
      PostgreSQL  、
      DRDS  、
      达梦  、
      通用RDBMS(支持所有关系型数据库)  、
    阿里云数仓数据存储 ODPS  、
      ADS  
      OSS  、
      OCS  、
    NoSQL数据存储 OTS  、
      Hbase0.94  、
      Hbase1.1  、
      MongoDB  、
      Hive  、
    无结构化数据存储 TxtFile  、
      FTP  、
      HDFS  、
      Elasticsearch  

4、DataX 3.0 核心架构

    • DataX 3.0 支持单机多线程模式完成 数据同步作业,本小节按一个DataX作业生命周期的时序图,从整体架构设计简要说明DataX各个模块之间的相互关系。

    • 核心模块介绍

        1. DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
        1. DataX Job启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。
        1. 切分多个Task之后,DataX Job会调用 Scheduler 模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
        1. 每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
        1. DataX作业运行起来之后, Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出。否则,异常退出,进程退出值非0。
    • DataX调度流程

      • 举例来说,用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面。 DataX的调度决策思路是:

          1. DataXJob根据分库分表切分成了100个Task。
          1. 根据20个并发,默认单个任务组的并发数量为5,DataX计算共需要分配4个TaskGroup。
          1. 这里4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。

DataX 安装部署

安装前置要求
Linux 使用Centos7
JDK ( 1.8 以上 )
Python ( 2.6 以上 ) Centos7 默认安装了Python 2.7

  • 1、访问官网下载安装包

  • 2、上传安装包到服务器hadoop03节点

  • 3、解压安装包到指定的目录中

    tar -zxvf datax.tar.gz -C /bigdata/install
  • 4、运行自检脚本测试

    [hadoop@hadoop03 bin]$ cd /bigdata/install/datax/bin
    [hadoop@hadoop03 bin]$ python datax.py ../job/job.json

DataX 实战案例 -- 使用datax实现将mysql数据导入到hdfs

 
  • 需求: 将mysql表student的数据导入到hdfs的 /datax/mysql2hdfs/路径下面去。

  • 1、创建mysql数据库和需要用到的表结构,并导入实战案例需要用到的数据

      [hadoop@hadoop02 ~] mysql -uroot -p123456
    mysql> create database datax;
    mysql> use datax;
    mysql> create table student(id int,name varchar(20),age int,createtime timestamp );
    mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('1','zhangsan','18','2021-05-10 18:10:00');
    mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('2','lisi','28','2021-05-10 19:10:00');
    mysql> insert into `student` (`id`, `name`, `age`, `createtime`) values('3','wangwu','38','2021-05-10 20:10:00');
  • 2、创建作业的配置文件(json格式)

    • 查看配置模板,执行脚本命令

      [hadoop@hadoop03 datax]$ cd /bigdata/install/datax
      [hadoop@hadoop03 datax]$ python bin/datax.py -r mysqlreader -w hdfswriter DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
      Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved. Please refer to the mysqlreader document:
      https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md Please refer to the hdfswriter document:
      https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md Please save the following configuration as a json file and use
      python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
      to run the job. {
      "job": {
      "content": [
      {
      "reader": {
      "name": "mysqlreader",
      "parameter": {
      "column": [],
      "connection": [
      {
      "jdbcUrl": [],
      "table": []
      }
      ],
      "password": "",
      "username": "",
      "where": ""
      }
      },
      "writer": {
      "name": "hdfswriter",
      "parameter": {
      "column": [],
      "compress": "",
      "defaultFS": "",
      "fieldDelimiter": "",
      "fileName": "",
      "fileType": "",
      "path": "",
      "writeMode": ""
      }
      }
      }
      ],
      "setting": {
      "speed": {
      "channel": ""
      }
      }
      }
      }
    • 其中hdfswriter插件文档
  • 3、根据模板写配置文件

    • 进入到 /bigdata/install/datax/job 目录,然后创建配置文件 mysql2hdfs.json, 文件内容如下:

      {
      "job": {
      "setting": {
      "speed": {
      "channel":1
      }
      },
      "content": [
      {
      "reader": {
      "name": "mysqlreader",
      "parameter": {
      "username": "root",
      "password": "123456",
      "connection": [
      {
      "querySql": [
      "select id,name,age,createtime from student where age < 30;"
      ],
      "jdbcUrl": [
      "jdbc:mysql://hadoop02:3306/datax"
      ]
      }
      ]
      }
      },
      "writer": {
      "name": "hdfswriter",
      "parameter": {
      "defaultFS": "hdfs://hadoop01:8020",
      "fileType": "text",
      "path": "/datax/mysql2hdfs/",
      "fileName": "student.txt",
      "column": [
      {
      "name": "id",
      "type": "INT"
      },
      {
      "name": "name",
      "type": "STRING"
      },
      {
      "name": "age",
      "type": "INT"
      },
      {
      "name": "createtime",
      "type": "TIMESTAMP"
      }
      ],
      "writeMode": "append",
      "fieldDelimiter": "\t",
      "compress":"gzip"
      }
      }
      }
      ]
      }
      }
  • 4、启HDFS, 创建目标路径

    [hadoop@hadoop01 ~]$ start-dfs.sh
    [hadoop@hadoop01 ~]$ hdfs dfs -mkdir -p /datax/mysql2hdfs
  • 5、启动DataX

    [hadoop@hadoop03 bin]$ cd /bigdata/install/datax
    [hadoop@hadoop03 bin]$ python bin/datax.py job/mysql2hdfs.json
  • 6、观察控制台输出结果

    同步结束,显示日志如下:
    
    2021-06-18 01:41:26.452 [job-0] INFO  JobContainer -
    任务启动时刻 : 2021-06-18 01:41:14
    任务结束时刻 : 2021-06-18 01:41:26
    任务总计耗时 : 11s
    任务平均流量 : 3B/s
    记录写入速度 : 0rec/s
    读出记录总数 : 2
    读写失败总数 : 0
  • 7、查看HDFS上文件生成,并验证结果

    将上边结果下载解压后打开,可以看到里面的结果和mysql中结果对比

  •  
 
 

DataX 实战案例 -- 使用datax实现将hdfs数据导入到mysql表中

 
  • 需求: 将hdfs上数据文件 user.txt 导入到mysql数据库的user表中。

  • 1、创建作业的配置文件(json格式)

    • 查看配置模板,执行脚本命令

      [hadoop@hadoop03 ~]$ cd /bigdata/install/datax
      [hadoop@hadoop03 datax]$ python bin/datax.py -r hdfsreader -w mysqlwriter DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
      Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved. Please refer to the hdfsreader document:
      https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md Please refer to the mysqlwriter document:
      https://github.com/alibaba/DataX/blob/master/mysqlwriter/doc/mysqlwriter.md Please save the following configuration as a json file and use
      python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json
      to run the job. {
      "job": {
      "content": [
      {
      "reader": {
      "name": "hdfsreader",
      "parameter": {
      "column": [],
      "defaultFS": "",
      "encoding": "UTF-8",
      "fieldDelimiter": ",",
      "fileType": "orc",
      "path": ""
      }
      },
      "writer": {
      "name": "mysqlwriter",
      "parameter": {
      "column": [],
      "connection": [
      {
      "jdbcUrl": "",
      "table": []
      }
      ],
      "password": "",
      "preSql": [],
      "session": [],
      "username": "",
      "writeMode": ""
      }
      }
      }
      ],
      "setting": {
      "speed": {
      "channel": ""
      }
      }
      }
      }
    • 其中hdfsreader插件文档
  • 2、根据模板写配置文件

    • 进入到 /bigdata/install/datax/job 目录,然后创建配置文件 hdfs2mysql.json, 文件内容如下:

      {
      "job": {
      "setting": {
      "speed": {
      "channel":1
      }
      },
      "content": [
      {
      "reader": {
      "name": "hdfsreader",
      "parameter": {
      "defaultFS": "hdfs://hadoop01:8020",
      "path": "/user.txt",
      "fileType": "text",
      "encoding": "UTF-8",
      "fieldDelimiter": "\t",
      "column": [
      {
      "index": 0,
      "type": "long"
      },
      {
      "index": 1,
      "type": "string"
      },
      {
      "index": 2,
      "type": "long"
      }
      ]
      }
      },
      "writer": {
      "name": "mysqlwriter",
      "parameter": {
      "writeMode": "insert",
      "username": "root",
      "password": "123456",
      "column": [
      "id",
      "name",
      "age"
      ],
      "preSql": [
      "delete from user"
      ],
      "connection": [
      {
      "jdbcUrl": "jdbc:mysql://hadoop02:3306/datax?useUnicode=true&characterEncoding=utf-8",
      "table": [
      "user"
      ]
      }
      ]
      }
      }
      }
      ]
      }
      }
  • 3、准备HDFS上测试数据文件 user.txt

    • user.txt文件内容如下

      1	zhangsan  20
      2 lisi 29
      3 wangwu 25
      4 zhaoliu 35
      5 kobe 40
    • 文件中每列字段通过\t 制表符进行分割,上传文件到hdfs上
      [hadoop@hadoop03 ~]$ hdfs dfs -put user.txt /
  • 4、创建目标表

    mysql> create table datax.user(id int,name varchar(20),age int);
  • 5、启动DataX

    [hadoop@hadoop03 ~]$ cd /bigdata/install/datax
    [hadoop@hadoop03 bin]$ python bin/datax.py job/hdfs2mysql.json
  • 6、观察控制台输出结果

    同步结束,显示日志如下:
    
    任务启动时刻                    : 2021-06-18 12:02:47
    任务结束时刻 : 2021-06-18 12:02:58
    任务总计耗时 : 11s
    任务平均流量 : 4B/s
    记录写入速度 : 0rec/s
    读出记录总数 : 5
    读写失败总数 : 0
    SHELL 复制 全屏
  • 7、查看user表数据

 
 

数据同步工具-DataX的更多相关文章

  1. 环境篇:数据同步工具DataX

    环境篇:数据同步工具DataX 1 概述 https://github.com/alibaba/DataX DataX是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 ...

  2. 比Sqoop功能更加强大开源数据同步工具DataX实战

    @ 目录 概述 定义 与Sqoop对比 框架设计 支持插件 核心架构 核心优势 部署 基础环境 安装 从stream读取数据并打印到控制台 读取MySQL写入HDFS 读取HDFS写入MySQL 执行 ...

  3. Spark记录-阿里巴巴开源工具DataX数据同步工具使用

    1.官网下载 下载地址:https://github.com/alibaba/DataX DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSe ...

  4. 数据同步工具Sqoop和DataX

    在日常大数据生产环境中,经常会有集群数据集和关系型数据库互相转换的需求,在需求选择的初期解决问题的方法----数据同步工具就应运而生了.此次我们选择两款生产环境常用的数据同步工具进行讨论 Sqoop ...

  5. Linux实战教学笔记21:Rsync数据同步工具

    第二十一节 Rsync数据同步工具 标签(空格分隔): Linux实战教学笔记-陈思齐 ---本教学笔记是本人学习和工作生涯中的摘记整理而成,此为初稿(尚有诸多不完善之处),为原创作品,允许转载,转载 ...

  6. Rsync数据同步工具

                                        Rsync数据同步工具 什么是Rsync? Rsync是一款开源的.快速的.多功能的,可以实现全量及增量的本地或原程数据同步备份 ...

  7. rsync数据同步工具的配置

    rsync数据同步工具的配置 1. rsync介绍 1.1.什么是rsync rsync是一款开源的快速的,多功能的,可实现全量及增量的本地或远程数据同步备份的优秀工具.Rsync软件适用于 unix ...

  8. Linux系统备份还原工具4(rsync/远程数据同步工具)

    rsync即是能备份系统也是数据同步的工具. 在Jenkins上可以使用rsync结合SSH的免密登录做数据同步和分发.这样一来可以达到部署全命令化,不需要依赖任何插件去实现. 命令参考:http:/ ...

  9. rsync---远程数据同步工具

    rsync命令是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件.rsync使用所谓的“rsync算法”来使本地和远程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而 ...

  10. kafka2x-Elasticsearch 数据同步工具demo

    Bboss is a good elasticsearch Java rest client. It operates and accesses elasticsearch in a way simi ...

随机推荐

  1. 斜率优化初探:以 [HNOI2008]玩具装箱 为例

    题目传送门 记 \(f[i]\) 表示装好前 \(i\) 个的最小花费.容易写出转移: \[f[i] = \min_{j \lt i} \ [f[j]+(s[i] - s[j] - 1 - L) ^ ...

  2. Java,启动!

    即日起,Java启动!目标是年后找到大厂Java日常实习,特立此随笔作证. 学习路线: Java基础(Java基础用不了多少时间,因为之前有学习过,大概花费1~2周,做到理解案例代码,看懂知识点原理即 ...

  3. 开源 - Ideal库 - 常用时间转换扩展方法(二)

    书接上回,我们继续来分享一些关于时间转换的常用扩展方法. 01.时间转日期时间 TimeOnly 该方式是把TimeOnly类型转为DateTime类型,其中日期部分使用系统当前日期,时间部分则使用T ...

  4. 低功耗4G模组HTTP网络协议应用

    ​ 大家好,今天我们来学习合宙Air780E模组LuatOS开发4G通信中HTTP网络协议的应用,实现模组和服务器之间数据的传输. 一.HTTP概述 1.1 简介 HTTP是HyperTextTran ...

  5. How to disable ipv6 in ubuntu

    To disable ipv6, you have to open /etc/sysctl.conf using any text editor and insert the following li ...

  6. OSG开发笔记(三十三):同时观察物体不同角度的多视图从相机技术

    前言   前面的相机hud可以单独显示图形,继续深入研究相机hud,技术就是子视图了,实现该功能的直接技术是从相机技术.  本篇描述osg从相机技术   Demo         相机视口的关键调用 ...

  7. 记录一次CTF经典PHP反序列化

    PHP反序列化 序列化通俗来讲就是将对象转化为可以存储.传输的字符串,反序列化就是把字符串再变回对象的过程. 例如: <?php class chybate { var $test = '123 ...

  8. Docker容器使用问题:Failed to get D-Bus connection: Operation not permitted

    原因是dbus-daemon没能启动.其实systemctl并不是不可以使用.将你的CMD或者entrypoint设置为/usr/sbin/init即可.如: docker run --privile ...

  9. SQL SERVER日常运维巡检系列——数据库备份

    前言 做好日常巡检是数据库管理和维护的重要步骤,而且需要对每次巡检日期.结果进行登记,同时可能需要出一份巡检报告. 本系列旨在解决一些常见的困扰: 不知道巡检哪些东西 不知道怎么样便捷体检 机器太多体 ...

  10. Uniapp input的maxlength问题

    前情 uni-app是我很喜欢的跨平台框架,它能开发小程序,H5,APP(安卓/iOS),对前端开发很友好,自带的IDE让开发体验也很棒,公司项目就是主推uni-app. 坑位 最近在做一个input ...