Sqoop葵花宝典

基于Sqoop1.x

场景

导入流程

graph LR
A[RDBMS] -->|Sqoop| B(Hive)

导出流程

graph LR
A[Hive] -->|Sqoop| B(RDBMS)

字段说明

字段 MySQL类型 Hive类型
id int int
name varchar(100) string
desc varchar(255) string

导入

普通表

三种表建表语句类似,只是文件格式变化。

CREATE TABLE user_parquet(
id int,
name string,
desc string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;

txt格式

sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_text

注意: txt格式可以不需要使用hive-database,直接使用hive-table即可(database.tablename的形式)

parquet格式

sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_parquet \
--as-parquetfile

注意: 如果是parquet格式,sqoop脚本需要使用hive-databaseas-parquetfile参数。

orc格式

sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc \

注意: 需要使用hcatalog-databasehcatalog-table参数来进行导入。

分区表

CREATE TABLE user_parquet_p(
id int,
name string,
desc string
)
PARTITIONED BY (part_dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;

txt格式

sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_text_p \
--hive-partition-key part_dt \
--hive-partition-value '20190314'

注意: 分区表需要增加hive-partition-keyhive-partition-value来指定导入的分区,但是不支持多分区

也可以通过orc这样方式使用hcatalog来进行导入。

parquet格式

暂时没有找到导入的方式。

orc格式

sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc_p \
--hive-partition-key 'part_dt' \
--hive-partition-value '20190314' 或者通过如下的方式: sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc_p \
--hcatalog-partition-keys 'part_dt' \
--hcatalog-partition-values '20190314'

注意: 通过hcatalog-databasehcatalog-tablehive-partition-keyhive-partition-value四个参数导入数据到单个分区。或者通过hcatalog-partition-keyshcatalog-partition-values参数指定多个分区(通过逗号分隔)

导出

普通表

txt格式

sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--export-dir /apps/hive/warehouse/test.db/user_text \
--input-fields-terminated-by '\001' 或者下面的方式: sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_text

注意: export-dir为hive表在hdfs的存储路径。发现使hcatalog-databasehcatalog-table参数也可以。

parquet格式

sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_parquet

注意:export-dir指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-databasehcatalog-table参数。

orc格式

sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_orc

注意:export-dir指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-databasehcatalog-table参数。

分区表

txt格式

sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--export-dir /apps/hive/warehouse/test.db/user_text_p/part_dt=20190314 \
--input-fields-terminated-by '\001' 或者通过如下的方式导出所有分区的数据: sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_text_p

注意: 通过export-dir指定hive表在hdfs的存储路径时需要包含分区目录,只能导出一个分区的数据。通过hcatalog-databasehcatalog-table参数可以导出所有分区的数据。

parquet格式

sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_parquet_p

注意: 通过export-dir指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-databasehcatalog-table参数导出所有分区的数据。此时,不需要指定字段分割符。

orc格式

sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_orc_p

注意: 通过export-dir指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-databasehcatalog-table参数导出所有分区的数据。此时,不需要指定字段分割符。

其他

导出不像导入那么强大,不能指定querywhere,但可以通过columns参数限定导出的列。

问题

多字符分割

sqoop不支持多字符分割,如果指定多字符,则会默认按照第一个字符作为分割符。

导入多分区

sqoop导入只支持一个分区,不支持多分区导入。

Sqoop葵花宝典的更多相关文章

  1. sqoop:Failed to download file from http://hdp01:8080/resources//oracle-jdbc-driver.jar due to HTTP error: HTTP Error 404: Not Found

    环境:ambari2.3,centos7,sqoop1.4.6 问题描述:通过ambari安装了sqoop,又添加了oracle驱动配置,如下: 保存配置后,重启sqoop报错:http://hdp0 ...

  2. JavaScript葵花宝典之闭包

    闭包,写过JS脚本的人对这个词一定不陌生,都说闭包是JS中最奇幻的一个知识点,  虽然在工作中,项目里经常都会用到~  但是是不是你已经真正的对它足够的了解~~ 又或者是你代码中出现的闭包,并不是你刻 ...

  3. 安装sqoop

    安装sqoop 1.默认已经安装好java+hadoop 2.下载对应hadoop版本的sqoop版本 3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-a ...

  4. Hadoop学习笔记—18.Sqoop框架学习

    一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易.Apache Sqoop正在加 ...

  5. 微冷的雨ASP.NET MVC之葵花宝典(MVC)

    微冷的雨ASP.NET MVC之葵花宝典 By:微冷的雨 第一章 ASP.NET MVC的请求和处理机制. 在MVC中: 01.所有的请求都要归结到控制器(Controller)上. 02.约定优于配 ...

  6. Oozie分布式任务的工作流——Sqoop篇

    Sqoop的使用应该是Oozie里面最常用的了,因为很多BI数据分析都是基于业务数据库来做的,因此需要把mysql或者oracle的数据导入到hdfs中再利用mapreduce或者spark进行ETL ...

  7. [大数据之Sqoop] —— Sqoop初探

    Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中. Sqoop也是基于Mapreduce来做的数据导入. 关于 ...

  8. [大数据之Sqoop] —— 什么是Sqoop?

    介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具.你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中:也可以把数据从hdfs中导出到关系型数据 ...

  9. Sqoop切分数据的思想概况

    Sqoop通过--split-by指定切分的字段,--m设置mapper的数量.通过这两个参数分解生成m个where子句,进行分段查询.因此sqoop的split可以理解为where子句的切分. 第一 ...

随机推荐

  1. python捕获异常及方法总结

    调试Python程序时,经常会报出一些异常,异常的原因一方面可能是写程序时由于疏忽或者考虑不全造成了错误,这时就需要根据异常Traceback到出错点,进行分析改正:另一方面,有些异常是不可避免的,但 ...

  2. Java基础 -- String,StringBuilder,StringBuffer三者的区别

    结论 1-String,StringBuilder,StringBuffer 之间的区别主要是在两个方面,即运行速度和线程安全这两方面: 首先说运行速度,或者说是执行速度,在这方面运行速度快慢为:St ...

  3. 基于Spring注解搭建SpringMVC项目

    在2018寒冬,我下岗了,因为我的左脚先迈进了公司的大门.这不是重点,重点是我扑到了老板小姨子的怀里. 网上好多教程都是基于XML的SpringMVC,想找一篇注解的,但是写的很模糊,我刚好学到这里, ...

  4. 利用YOLOV3训练自己的数据

    写在前面:YOLOV3只有修改了源码才需要重新make,而且make之前要先make clean. 一.准备数据 在/darknet/VOCdevkit1下建立文件夹VOC2007. voc2007文 ...

  5. Spring Cloud 2-RabbitMQ 集成(八)

    Spring Cloud  RabbitMQ  pom.xml application.yml 提供者 消费者 队列配置 单元测试 通过消息队列MQ做为通信中心,这里采用RabbitMQ.安装方参考: ...

  6. C# 操作Session、Cookie,Url 编码解码工具类WebHelper

    using System; using System.Collections.Generic; using System.IO; using System.Net; using System.Text ...

  7. js数据结构与算法——集合

    <script> function Set(){ var items = {};//使用对象表示集合,因为js对象不允许一个键指向两个不同的值,保证集合里面的匀速唯一性 this.add ...

  8. DataTable插件通过js导出Excel

    $('#myTab').DataTable( { serverSide: false,//分页,取数据等等的都放到服务端去. true为后台分页,每次点击分页时会请求后台数据,false为前台分页 d ...

  9. 学习日志1 :java 三大框架 了解

    1.spring--------利用它的IOC和AOP来处理控制业务(负责对数据库的操作) https://blog.csdn.net/yu616568/article/details/7073997 ...

  10. JAVA -数据类型与表达式---字符串

    字符串 Java中,字符串就是对象,它由 String类定义.字符串是计算机程序设计中非常基础的类型,因此Java允许定义字符串常量(string literal),并以双引号作为字符串的定界符. 一 ...