Sqoop 数据迁移工具

sqoop : SQL to hadOOP

两个功能:

1、 RDB 向HDFS导入

2、 HDFS向RDB导入

注:拷贝mysql-connector.jar 和 json.jar 到sqoop/lib目录下

HDFS导入使用

命令很长,一般写成shell脚本。(运行需要启动 HDFS 、Yarn[mapreduce作业必须]、SQL)

COLUMN 、WHERE限定

sqoop import \
#import指从sql导入到hdfs
--connect jdbc:mysql://localhost:3306/test \
# 可选 --driver com.mysql.jdbc.Driver
#test是目标数据库名
--table customers \
#目标表名
--columns "fname,lname" \
#可以使用columns指定字段
--where "order_date>'2019-1-1'" \
#可以使用where筛选原数据
--username root \
#数据库登陆用户名
--password rw \
#密码
--target-dir /sqoop/test_rdb/customers \
#hdfs 的目标路径,不指定的话会放在/user/【username】/【tbl_name】下
--delete-target-dir \
#覆盖到hdfs(即删除原目录),慎选
-m 3
#map工作者数目,决定最终文件数
#导入的结果是csv格式的文件
注意:斜杠符需要前空格

自由Query查询导入

sqoop import \
#import指从sql导入到hdfs
--connect jdbc:mysql://localhost:3306/test \
#test是目标数据库名
#自由查询不需要指定--table,会冲突
#目标表名
--query "select * from userinfos where host!='127.0.0.1' and \$CONDITIONS" \
# '\$CONDITIONS' 查询必须以该语句结尾
--split-by 'username' \ #指定按照那个字段分区(split到各个mapper)
--username root \
--password rw \
--target-dir /sqoop/test_rdb/customers \ #自由查询必须要指定,因为无法根据--table 自动生成目录名
-m 3

增量导入

--incremental append|lastmodified  #指定增量方式,append追加记录,lastmodified更新
--check-column fieldname \ #指定增量列,排序列
--last-value 'xxxx' \ #上一次导入时,check-column的最大值,从这个值开始升序导入

注:lastmodified 要求排序列必须是时间戳(int)或者日期格式(yyyy-MM-dd)

HDFS导入总结:

必要参数:
sqoop import \
--connect jdbc:mysql://ip:3306/dbname
--username name \
--password passwd \
--table tbl_name \
可选参数:
-m 3 #指定mapper工作者数量
-as-sequencefile|textfile|parquetfile|avrodatafile #存储类型
自由查询:
--query "select ... and \$CONDITIONS" \
--target-dir /path/ \ #必须
--split-by 'filedName' #可选
一般限定:
--columns "field1,field2" \ #可选
--where "field<=value" \ #可选
--target-dir /path/ \ #可选

HIVE导入使用

sqoop import \
--connect jdbc....
--table orders \ #也可以使用query
--username root \
--password rw \ --hive-import \
--create-hive-table \ #自动建表,表元数据同sql,名已存在会报错,一般不用。--hive-overwrite是自动覆盖旧表。
--hive-database dbname \ #目标hive数据库和表
--hive-table orders \ #也可以使用库名.表名的方式
-m 3

指定分区

--hive-partition-key "field_name" \
--hive-partition-value "value" \
#通过字段和值,指定要存储的分区。

可能的运行错误:

——————————————————————————————————

Q: ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

A:往/etc/profile最后加入

export HADOOP_CLASSPATH=HADOOP_CLASSPATH:$HIVE_HOME/lib/*

export HIVE_CONF_DIR=/opt/hive/conf

A2:复制hive/lib目录下的hive-common*包到sqoop/lib目录下

——————————————————————————————————

Q:ERROR Could not register mbeans java.security.AccessControlException: access denied

("javax.management.MBeanTrustPermission" "register")

A:将hive-site.xml复制到${SQOOP_HOME}/conf下即可.

A2:添加以下代码到${JDK_HOME}/jre/lib/security/java.policy

grant {
  permission javax.management.MBeanTrustPermission "register";
};

——————————————————————————————————

Q:ERROR exec.DDLTask: java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.ObjectMapper.readerFor(Ljava/lang/Class;)Lcom/fasterxml/jackson/databind/ObjectReader;

A:jackson jar包版本冲突,将sqoop/lib下的jackson.jar备份(mv移动到另一个目录下), 然后将hive/lib包下的jackson.*拷贝到sqoop/lib下。

——————————————————————————————————

Q:IOException throw in HIVE

A:复制hive/lib/log4j-slf4j-impl* 包到sqoop/lib 目录下,或者export HADOOP_CLASSPATH=HADOOP_CLASSPATH:$HIVE_HOME/lib/*

HBase导入使用

sqoop import \
--connect jdbc:mysql://localhost:3306/test \
--username root \
--password rw \
--table customers \
--columns "customer_id,custmoer_firstname,customer_lastname" \ --hbase-table customerinfo \
--column-family CustomerName \
--hbase-row-key customernum \
-m 1

HDFS导出到mysql

sqoop export \
--connect jdbc:mysql://localhost:3306/test \
--username root \
--password rw \
--table customers \ #这是目标sql库中的表,表必须已存在
--export-dir /data/sqoop/emp \ #源文件路径
-m 1
#其他的同导入,运行时反过来就可以了
#!/bin/bash
sqoop export \
--connect jdbc:mysql://localhost:3306/mytest \
--username root \
--password rw \
--table customers \ #这是目标sql库中的表,表必须已存在
--fields-terminated-by "\001" \ #默认字段分隔符是\001,如果DDL时指定了则使用指定的分隔符
--export-dir /user/hive/warehouse/customers \ #这是hive中表内容的存储目录,desc formatted tbl
-m 1

Sqoop 数据迁移工具的更多相关文章

  1. Sqoop数据迁移工具的使用

    文章作者:foochane  原文链接:https://foochane.cn/article/2019063001.html Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDF ...

  2. Sqoop数据迁移工具

    一.概述 sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具. 导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS. HIVE. ...

  3. 数据迁移工具sqoop

    有问题........数据迁移工具sqoop sqoop安装 [root@sqoop data]# wget  wget http://apache.fayea.com/sqoop/1.4.6/sqo ...

  4. sqoop 数据迁移

    sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.H ...

  5. sqoop数据校验

    sqoop数据校验 # check data oracle_cnt=$(sqoop eval \ -Dmapred.job.queue.name=${queue} \ --connect ${conn ...

  6. 撸了个 django 数据迁移工具 django-supertube

    撸了个 django 数据迁移工具 django-supertube 支持字段映射和动态字段转化. 欢迎 star,issue https://github.com/FingerLiu/django- ...

  7. 【Hadoop离线基础总结】Sqoop数据迁移

    目录 Sqoop介绍 概述 版本 Sqoop安装及使用 Sqoop安装 Sqoop数据导入 导入关系表到Hive已有表中 导入关系表到Hive(自动创建Hive表) 将关系表子集导入到HDFS中 sq ...

  8. 数据迁移工具Sqoop和DataX功能比较

    本文转载自: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html ...

  9. sqoop数据导出导入命令

    1. 将mysql中的数据导入到hive中 sqoop import --connect jdbc:mysql://localhost:3306/sqoop --direct --username r ...

随机推荐

  1. Apache Cocoon XML注入 [CVE-2020-11991]

    受影响版本: Apache Cocoon <= 2.1.x 程序使用了StreamGenerator这个方法时,解析从外部请求的xml数据包未做相关的限制,恶意用户就可以构造任意的xml表达式, ...

  2. Memcached 缓存系统简介

    memcached官网:http://memcached.org/ What is Memcached? Memcached是一个自由开源的,高性能,高并发,分布式内存对象缓存系统. Memcache ...

  3. dedecms织梦后台栏目显示文档数不为0,但点进去之后什么都没有

    曾经通过sql语句直接删除过dede_addonarticle或者dede_archives或者dede_arctiny中的记录,这三个表是有关联的,如果要通过sql语句删除内容,一定要同时将这三个表 ...

  4. 使用汇编语言实现memcpy

    把内核放入内存,究竟需做什么 写满实现内核功能的代码的文件会被编译成一个ELF文件.这个ELF文件不同于LOADER BIN文件.后者实质是一个没有使用DOS命令的COM文件.因此,只需将它原封不动地 ...

  5. 一周精彩内容分享(第 1 期):"世纪逼空大战"

    这里记录过去一周,我看到的值得分享的东西. 一方面是整理记录一下自己一周的学习,另一方面也是期待自己有更多的输出,有更多的价值. 周刊开源(Github:wmyskxz/weekly),欢迎提交 is ...

  6. 2018-2019 ACM-ICPC Brazil Subregional Programming Contest PART (10/13)

    $$2018-2019 ACM-ICPC Brazil Subregional Programming Contest$$ \(A.Slackline\ Adventure\) \(B.Marbles ...

  7. 【洛谷 p3381】模板-最小费用最大流(图论)

    题目:给出一个网络图,以及其源点和汇点,每条边已知其最大流量和单位流量费用,求出其网络最大流和在最大流情况下的最小费用. 解法:在Dinic的基础下做spfa算法. 1 #include<cst ...

  8. 【noi 2.6_666】放苹果 & 【noi 2.6_8467】鸣人的影分身(DP)

    这题其实在2.6前面的专题也有出现过,我还以为我有写,结果发现,并没有.于是就现在写了.这2题其实重复了......我就按放苹果的来说. 题意:把N个苹果放在M个盘子里,允许有的盘子空着不放,问共有多 ...

  9. AcWing 238.银河英雄传说 (边带权并查集)

    题意:有\(n\)列,有\(T\)条指令,若指令格式为\(M\),则将第\(i\)号的所有战舰移到第\(j\)号所在列的后面,若指令格式为\(C\),询问\(i\)和\(j\)是否在同一列,如果在,问 ...

  10. 手动编译Selenium源码

    起因 Selenium ChromeDriver和Chrome升级到最新v81版本,同时需要将Selenium3.3.1升级到3.141.59. Selenium本身不支持https,所以修改源码用于 ...