Sqoop 数据迁移工具

sqoop : SQL to hadOOP

两个功能:

1、 RDB 向HDFS导入

2、 HDFS向RDB导入

注:拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下

HDFS导入使用

命令很长,一般写成shell脚本。(运行需要启动 HDFS 、Yarn[mapreduce作业必须]、SQL)

COLUMN 、WHERE限定

sqoop import \
#import指从sql导入到hdfs
--connect jdbc:mysql://localhost:3306/test \
# 可选 --driver com.mysql.jdbc.Driver
#test是目标数据库名
--table customers \
#目标表名
--columns "fname,lname" \
#可以使用columns指定字段
--where "order_date>'2019-1-1'" \
#可以使用where筛选原数据
--username root \
#数据库登陆用户名
--password rw \
#密码
--target-dir /sqoop/test_rdb/customers \
#hdfs 的目标路径,不指定的话会放在/user/【username】/【tbl_name】下
--delete-target-dir \
#覆盖到hdfs(即删除原目录),慎选
-m 3
#map工作者数目,决定最终文件数
#导入的结果是csv格式的文件
注意:斜杠符需要前空格

自由Query查询导入

sqoop import \
#import指从sql导入到hdfs
--connect jdbc:mysql://localhost:3306/test \
#test是目标数据库名
#自由查询不需要指定--table,会冲突
#目标表名
--query "select * from userinfos where host!='127.0.0.1' and \$CONDITIONS" \
# '\$CONDITIONS' 查询必须以该语句结尾
--split-by 'username' \ #指定按照那个字段分区(split到各个mapper)
--username root \
--password rw \
--target-dir /sqoop/test_rdb/customers \ #自由查询必须要指定,因为无法根据--table 自动生成目录名
-m 3

增量导入

--incremental append|lastmodified  #指定增量方式,append追加记录,lastmodified更新
--check-column fieldname \ #指定增量列,排序列
--last-value 'xxxx' \ #上一次导入时,check-column的最大值,从这个值开始升序导入

注:lastmodified 要求排序列必须是时间戳(int)或者日期格式(yyyy-MM-dd)

HDFS导入总结:

必要参数:
sqoop import \
--connect jdbc:mysql://ip:3306/dbname
--username name \
--password passwd \
--table tbl_name \
可选参数:
-m 3 #指定mapper工作者数量
-as-sequencefile|textfile|parquetfile|avrodatafile #存储类型
自由查询:
--query "select ... and \$CONDITIONS" \
--target-dir /path/ \ #必须
--split-by 'filedName' #可选
一般限定:
--columns "field1,field2" \ #可选
--where "field<=value" \ #可选
--target-dir /path/ \ #可选

HIVE导入使用

sqoop import \
--connect jdbc....
--table orders \ #也可以使用query
--username root \
--password rw \ --hive-import \
--create-hive-table \ #自动建表,表元数据同sql,名已存在会报错,一般不用。--hive-overwrite是自动覆盖旧表。
--hive-database dbname \ #目标hive数据库和表
--hive-table orders \ #也可以使用库名.表名的方式
-m 3

指定分区

--hive-partition-key "field_name" \
--hive-partition-value "value" \
#通过字段和值,指定要存储的分区。

可能的运行错误:

——————————————————————————————————

Q: ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

A:往/etc/profile最后加入

export HADOOP_CLASSPATH=HADOOP_CLASSPATH:$HIVE_HOME/lib/*

export HIVE_CONF_DIR=/opt/hive/conf

A2:复制hive/lib目录下的hive-common*包到sqoop/lib目录下

——————————————————————————————————

Q:ERROR Could not register mbeans java.security.AccessControlException: access denied

("javax.management.MBeanTrustPermission" "register")

A:将hive-site.xml复制到${SQOOP_HOME}/conf下即可.

A2:添加以下代码到${JDK_HOME}/jre/lib/security/java.policy

grant {
  permission javax.management.MBeanTrustPermission "register";
};

——————————————————————————————————

Q:ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;

A:jackson jar包版本冲突,将sqoop/lib下的jackson.jar备份(mv移动到另一个目录下), 然后将hive/lib包下的jackson.*拷贝到sqoop/lib下。

——————————————————————————————————

Q:IOException throw in HIVE

A:复制hive/lib/log4j-slf4j-impl* 包到sqoop/lib 目录下,或者export HADOOP_CLASSPATH=HADOOP_CLASSPATH:$HIVE_HOME/lib/*

HBase导入使用

sqoop import \
--connect jdbc:mysql://localhost:3306/test \
--username root \
--password rw \
--table customers \
--columns "customer_id,custmoer_firstname,customer_lastname" \ --hbase-table customerinfo \
--column-family CustomerName \
--hbase-row-key customernum \
-m 1

HDFS导出到mysql

sqoop export \
--connect jdbc:mysql://localhost:3306/test \
--username root \
--password rw \
--table customers \ #这是目标sql库中的表,表必须已存在
--export-dir /data/sqoop/emp \ #源文件路径
-m 1
#其他的同导入,运行时反过来就可以了
#!/bin/bash
sqoop export \
--connect jdbc:mysql://localhost:3306/mytest \
--username root \
--password rw \
--table customers \ #这是目标sql库中的表,表必须已存在
--fields-terminated-by "\001" \ #默认字段分隔符是\001,如果DDL时指定了则使用指定的分隔符
--export-dir /user/hive/warehouse/customers \ #这是hive中表内容的存储目录,desc formatted tbl
-m 1

Sqoop 数据迁移工具的更多相关文章

  1. Sqoop数据迁移工具的使用

    文章作者:foochane  原文链接:https://foochane.cn/article/2019063001.html Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDF ...

  2. Sqoop数据迁移工具

    一.概述 sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具. 导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS. HIVE. ...

  3. 数据迁移工具sqoop

    有问题........数据迁移工具sqoop sqoop安装 [root@sqoop data]# wget  wget http://apache.fayea.com/sqoop/1.4.6/sqo ...

  4. sqoop 数据迁移

    sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.H ...

  5. sqoop数据校验

    sqoop数据校验 # check data oracle_cnt=$(sqoop eval \ -Dmapred.job.queue.name=${queue} \ --connect ${conn ...

  6. 撸了个 django 数据迁移工具 django-supertube

    撸了个 django 数据迁移工具 django-supertube 支持字段映射和动态字段转化. 欢迎 star,issue https://github.com/FingerLiu/django- ...

  7. 【Hadoop离线基础总结】Sqoop数据迁移

    目录 Sqoop介绍 概述 版本 Sqoop安装及使用 Sqoop安装 Sqoop数据导入 导入关系表到Hive已有表中 导入关系表到Hive(自动创建Hive表) 将关系表子集导入到HDFS中 sq ...

  8. 数据迁移工具Sqoop和DataX功能比较

    本文转载自: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html ...

  9. sqoop数据导出导入命令

    1. 将mysql中的数据导入到hive中 sqoop import --connect jdbc:mysql://localhost:3306/sqoop --direct --username r ...

随机推荐

  1. 使用cronolog按日期分割日志

    cronologcronolog是一个简单的过滤程序从标准输入读取日志文件条目,每个条目写入到输出文件指定一个文件名模板和当前的日期和时间.当扩大的文件名更改,关闭当前文件,并打开一个新的. cron ...

  2. H3C交换机堆叠

    (1)      配置Device A# 将用作IRF物理端口的Ten-GigabitEthernet1/0/1-Ten-GigabitEthernet1/0/4的手工关闭.使用端口批量配置功能可以更 ...

  3. 秒啊,速来get这9个jupyter实用技巧

    1 简介 jupyter notebook与jupyter lab作为广受欢迎的ide,尤其适合开展数据分析相关工作,而掌握它们相关的一些实用技巧,势必会大大提升日常工作效率.而今天我就来给大家介绍9 ...

  4. rockchip的yocto编译环境搭建

    作者:良知犹存 转载授权以及围观:欢迎添加微信公众号:Conscience_Remains 总述   嵌入式的朋友们,应该知道Linux驱动开发过程中,需要进行搭建交叉编译工具链环境.移植u-boot ...

  5. 2019牛客暑期多校训练营(第四场)A-meeting(树的直径)

    >传送门< 题意:n给城市有n-1条路相连,每两个城市之间的道路花费为1,有k个人在k个城市,问这k个人聚集在同一个城市的最小花费 思路:(官方给的题解写的挺好理解的) 考虑距离最远的两个 ...

  6. Network of Schools POJ - 1236 有向强连通图

    //题意://给你n个学校,其中每一个学校都和一些其他学校有交流,但是这些边都是单向的.你至少需要给几个学校//传递消息可以使全部学校都收到消息,第二问你最少添加几条边可以使它变成一个强连通图//题解 ...

  7. AtCoder Beginner Contest 177 E - Coprime (数学)

    题意:给你\(n\)个数,首先判断它们是否全都__两两互质__.然后再判断它们是否全都互质. 题解:判断所有数互质很简单,直接枚举跑个gcd就行,关键是第一个条件我们要怎么去判断,其实我们可以对所有数 ...

  8. ZYB loves Xor I HDU - 5269 字典树

    题意: T组样例,给你n个数.你要找出来这n个数中任意两个数的二进制位中  最低位不同  的位置(假设是k),然后让所有2^k加起来就是结果 什么意思? 例如4 和 2 4的二进制是(100),2的二 ...

  9. woj1005-holding animals-01pack woj1006-Language of animals-BFS

    title: woj1005-holding animals-01pack date: 2020-03-05 categories: acm tags: [acm,woj,pack] 01背包.中等题 ...

  10. App icons generator

    App icons generator https://appicon.co/ Drag or select an app icon image (1024x1024) to generate dif ...