Sqoop葵花宝典
Sqoop葵花宝典
基于Sqoop1.x
场景
导入流程
A[RDBMS] -->|Sqoop| B(Hive)
导出流程
A[Hive] -->|Sqoop| B(RDBMS)
字段说明
| 字段 | MySQL类型 | Hive类型 |
|---|---|---|
| id | int | int |
| name | varchar(100) | string |
| desc | varchar(255) | string |
导入
普通表
三种表建表语句类似,只是文件格式变化。
CREATE TABLE user_parquet(
id int,
name string,
desc string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;
txt格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_text
注意: txt格式可以不需要使用hive-database,直接使用hive-table即可(database.tablename的形式)
parquet格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_parquet \
--as-parquetfile
注意: 如果是parquet格式,sqoop脚本需要使用hive-database、as-parquetfile参数。
orc格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc \
注意: 需要使用hcatalog-database、hcatalog-table参数来进行导入。
分区表
CREATE TABLE user_parquet_p(
id int,
name string,
desc string
)
PARTITIONED BY (part_dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;
txt格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_text_p \
--hive-partition-key part_dt \
--hive-partition-value '20190314'
注意: 分区表需要增加hive-partition-key、hive-partition-value来指定导入的分区,但是不支持多分区。
也可以通过orc这样方式使用hcatalog来进行导入。
parquet格式
暂时没有找到导入的方式。
orc格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc_p \
--hive-partition-key 'part_dt' \
--hive-partition-value '20190314'
或者通过如下的方式:
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc_p \
--hcatalog-partition-keys 'part_dt' \
--hcatalog-partition-values '20190314'
注意: 通过hcatalog-database、hcatalog-table、hive-partition-key、hive-partition-value四个参数导入数据到单个分区。或者通过hcatalog-partition-keys、hcatalog-partition-values参数指定多个分区(通过逗号分隔)
导出
普通表
txt格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--export-dir /apps/hive/warehouse/test.db/user_text \
--input-fields-terminated-by '\001'
或者下面的方式:
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_text
注意: export-dir为hive表在hdfs的存储路径。发现使hcatalog-database、hcatalog-table参数也可以。
parquet格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_parquet
注意: 通export-dir指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-database、hcatalog-table参数。
orc格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_orc
注意: 通export-dir指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-database、hcatalog-table参数。
分区表
txt格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--export-dir /apps/hive/warehouse/test.db/user_text_p/part_dt=20190314 \
--input-fields-terminated-by '\001'
或者通过如下的方式导出所有分区的数据:
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_text_p
注意: 通过export-dir指定hive表在hdfs的存储路径时需要包含分区目录,只能导出一个分区的数据。通过hcatalog-database、hcatalog-table参数可以导出所有分区的数据。
parquet格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_parquet_p
注意: 通过export-dir指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-database、hcatalog-table参数导出所有分区的数据。此时,不需要指定字段分割符。
orc格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_orc_p
注意: 通过export-dir指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-database、hcatalog-table参数导出所有分区的数据。此时,不需要指定字段分割符。
其他
导出不像导入那么强大,不能指定query、where,但可以通过columns参数限定导出的列。
问题
多字符分割
sqoop不支持多字符分割,如果指定多字符,则会默认按照第一个字符作为分割符。
导入多分区
sqoop导入只支持一个分区,不支持多分区导入。
Sqoop葵花宝典的更多相关文章
- sqoop:Failed to download file from http://hdp01:8080/resources//oracle-jdbc-driver.jar due to HTTP error: HTTP Error 404: Not Found
环境:ambari2.3,centos7,sqoop1.4.6 问题描述:通过ambari安装了sqoop,又添加了oracle驱动配置,如下: 保存配置后,重启sqoop报错:http://hdp0 ...
- JavaScript葵花宝典之闭包
闭包,写过JS脚本的人对这个词一定不陌生,都说闭包是JS中最奇幻的一个知识点, 虽然在工作中,项目里经常都会用到~ 但是是不是你已经真正的对它足够的了解~~ 又或者是你代码中出现的闭包,并不是你刻 ...
- 安装sqoop
安装sqoop 1.默认已经安装好java+hadoop 2.下载对应hadoop版本的sqoop版本 3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-a ...
- Hadoop学习笔记—18.Sqoop框架学习
一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易.Apache Sqoop正在加 ...
- 微冷的雨ASP.NET MVC之葵花宝典(MVC)
微冷的雨ASP.NET MVC之葵花宝典 By:微冷的雨 第一章 ASP.NET MVC的请求和处理机制. 在MVC中: 01.所有的请求都要归结到控制器(Controller)上. 02.约定优于配 ...
- Oozie分布式任务的工作流——Sqoop篇
Sqoop的使用应该是Oozie里面最常用的了,因为很多BI数据分析都是基于业务数据库来做的,因此需要把mysql或者oracle的数据导入到hdfs中再利用mapreduce或者spark进行ETL ...
- [大数据之Sqoop] —— Sqoop初探
Sqoop是一款用于把关系型数据库中的数据导入到hdfs中或者hive中的工具,当然也支持把数据从hdfs或者hive导入到关系型数据库中. Sqoop也是基于Mapreduce来做的数据导入. 关于 ...
- [大数据之Sqoop] —— 什么是Sqoop?
介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具.你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中:也可以把数据从hdfs中导出到关系型数据 ...
- Sqoop切分数据的思想概况
Sqoop通过--split-by指定切分的字段,--m设置mapper的数量.通过这两个参数分解生成m个where子句,进行分段查询.因此sqoop的split可以理解为where子句的切分. 第一 ...
随机推荐
- shiro教程
ref https://www.jianshu.com/p/5a35d0100a71 https://www.jianshu.com/p/0366a1675bb6 https://blog.csdn. ...
- shiroUtil工具类
package com.chabansheng.util; import org.apache.shiro.SecurityUtils; import org.apache.shiro.authc.A ...
- VS2017 性能优化方法
原文地址:https://www.cnblogs.com/mahatmasmile/p/10394168.html 出处1:https://docs.microsoft.com/zh-cn/visua ...
- Hutool工具里,POST方法,body中传参的几种调用方法
接口说明: POSTMAN测试: JAVA代码: package com.provy.guard.api; import java.util.HashMap; import java.util.Map ...
- 提示缺少tns_admin的解决办法
问题:安装ZL数据安全辅助工具后,执行时出现 “未设置系统环境变量tns_admin!” 解决: 1.查找tnsnames.ora所在目录,比如这里的目录为:C:\app\H\product\11.2 ...
- SSM增删改查
闲着无聊配置一遍SSM以及添加功能增删改查,如下图,其中坎坷也挺多!!! 1.工程如下图.(请忽略红叉,没有错误) 2.首先配置pom.xml文件. <project xmlns="h ...
- mathJax基础语法-0基础开始,(这是网上抄来的如果有权限和版权问题联系本人处理,仅供学术参考)
- W3CSchool实战闯关笔记(JavaScript)
//handsome /** *ugly **/ 第一关注释 // 举例 var myName; // Define myName below this line 第二关声明变量 // Setup v ...
- 如何设置PDF签名文档,PDF签名文档怎么编辑
在工作中我们都会遇到有文件需要签名的时候,如果是在身边就直接拿笔来签名了,那么如果没有在身边又是电子文件需要签名的时候应该怎么办呢,这个时候就应该设置一个电子的签名文档,其他的文件电子文件签名很简单, ...
- 烽火2640路由器命令行手册-11-IP语音配置命令
IP语音配置命令 目 录 第1章 配置拨号对命令... 1 1.1 配置拨号对命令... 1 1.1.1 dial-peer voice. 1 1.1.2 application. 2 1.1.3 ...