Sqoop 工具使用
Sqoop 是什么及安装
Hadoop sqoop
Apache sqoop (SQL to Hadoop)
Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainframes. You can use Sqoop to import data from a relational database management system (RDBMS) such as MySQL or Oracle or a mainframe into the Hadoop Distributed File System (HDFS), transform the data in Hadoop MapReduce, and then export the data back into an RDBMS.
Sqoop是一种用于在Hadoop和关系数据库或大型机之间传输数据的工具。你可以使用Sqoop从一个关系数据库管理系统(RDBMS)中导入数据,比如MySQL或Oracle,或者一个大型机到Hadoop分布式文件系统(HDFS),在Hadoop MapReduce中转换数据,然后将数据导出到RDBMS中。
sqoop 安装
1.解压
2.配置sqoop-env.sh文件
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6
#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6
#Set the path to where bin/hive is available
export HIVE_HOME=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6
3.拷贝 MySQL 连接 jar 包到 lib 目录下
4.使用工具
# 帮助文档
bin/sqoop help
bin/sqoop list-databases --help
# 连接数据库
bin/sqoop list-databases \
--connect jdbc:mysql://hostname-ubuntu:3306 \
--username root \
--password ubuntu
Imports( RDBMS > HDFS )
底层通过JDBC连接数据库,通过生成 JAVA (只有 map 程序) 代码,编译成 jar ,经过 YARN 执行
#执行命令(五要素)
bin/sqoop import \
--connect jdbc:mysql://hostname-ubuntu:3306/test \
--username root \
--password ubuntu \
--table user \
--target-dir /user/cen/sqoop/imp_user \
# 注意文件夹不能存在
# 若此项不设置默认会在 /user/cen/tablename/ 创建文件夹
# 可添加以下选项解决
# 删除目标目录
--delete-target-dir \
# 选择列
--columns id,name \
# 增加查询条件
--where "age = '18'" \
# 设置压缩
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec
# 设置输出的分隔符
--fields-terminated-by '\t' \
# 设置map数目
--num-mappers 1 \
# 设置文件存储格式(默认是textfile)
--as-parquetfile \
# 设置直接从 MySQL 直接导入(不经过MapReduce)
--direct
#日志分析
Running Sqoop version: 1.4.5-cdh5.3.6 说明执行版本
Setting your password on the command-line is insecure. Consider using -P instead. 这样使用密码是不安全的,推荐使用-p的方式
Preparing to use a MySQL streaming resultset. 使用MySQL流导出数据
Beginning code generation 开始生成Java代码
Executing SQL statement: SELECT t.* FROM `user` AS t LIMIT 1 执行SQL查询语句
Executing SQL statement: SELECT t.* FROM `user` AS t LIMIT 1 执行SQL查询语句
HADOOP_MAPRED_HOME is /opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6 Hadoop的目录是。。。
Note: /tmp/sqoop-cen/compile/55ff43412ccc6eae25cf74ff6a4b119a/user.java uses or overrides a deprecated API. 生成jar
Note: Recompile with -Xlint:deprecation for details.
Writing jar file: /tmp/sqoop-cen/compile/55ff43412ccc6eae25cf74ff6a4b119a/user.jar 写入jar文件
It looks like you are importing from mysql.
This transfer can be faster! Use the --direct 这个转换可以更快,使用直接模式
option to exercise a MySQL-specific fast path.
Setting zero DATETIME behavior to convertToNull (mysql)
Beginning import of user 开始导入数据
Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
mapred.jar is deprecated. Instead, use mapreduce.job.jar 使用mapreduce的jar包
使用SQL查询语句(无需 tablename 无需选择列 无需where )
bin/sqoop import \
--connect jdbc:mysql://hostname-ubuntu:3306/test \
--username root \
--password ubuntu \
--query 'select id from user where $CONDITIONS' \
--target-dir /user/cen/sqoop/imp_user_query \
--split-by id
错误:When importing query results in parallel, you must specify --split-by.
增加:--split-by id
错误:Query [select id from user] must contain '$CONDITIONS' in WHERE clause.
解决:--query 'select id from user where $CONDITIONS' \
增量数据导入Incremental import(只导入新增加的)
1. query 对时间戳进行条件查询(更好用)
where createtime => 20170721000000 and createtimt < 201707220000
2. 使用 sqoop 的参数
--check-column Source column to check for incremental
change 根据哪一个字段进行查询
--incremental Define an incremental import of type
'append' or 'lastmodified' 追加方式
--last-value Last imported value in the incremental
check column 查询的开始值
Export( HDFS > RDBMS )( Hive > RDBMS )
底层通过JDBC连接数据库,通过生成 JAVA (只有 map 程序) 代码,编译成 jar ,经过 YARN 执行
#执行命令(五要素)
bin/sqoop export \
--connect jdbc:mysql://hostname-ubuntu:3306/test \
--username root \
--password ubuntu \
--table user \
--export-dir /user/cen/sqoop/imp_user
Import Hive table
从 RDBMS 导入到 Hive 表中,底层实现:正常 Import > HDFS > load
# 关系型数据库 4 要素(IP+database/username/pw/table) + Hive 4 要素(import/database/table/分隔符)
bin/sqoop import \
--connect jdbc:mysql://hostname-ubuntu:3306/test \
--username root \
--password ubuntu \
--table user \
--hive-import \
--hive-database default \
--hive-table user \
--fields-terminated-by '\t' \
--delete-target-dir \
# 需要缓冲目录,若目录存在则删除
--create-hive-table #若表不存在,需要创建的话
通过文件执行 sqoop 命令
!!格式如下:
#这是注释!!
bin/sqoop
import
--connect
jdbc:mysql://hostname-ubuntu:3306/test
--username
root
--password
ubuntu
--table
user
--target-dir
/user/cen/sqoop/imp_user
执行:
sqoop --options-file /opt/datas/xxx.xx
Sqoop 工具使用的更多相关文章
- 使用sqoop工具从oracle导入数据
sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 从RDBMS中抽取出的数据可以被Ma ...
- sqoop工具从oracle导入数据2
sqoop工具从oracle导入数据 sqoop工具是hadoop下连接关系型数据库和Hadoop的桥梁,支持关系型数据库和hive.hdfs,hbase之间数据的相互导入,可以使用全表导入和增量导入 ...
- Sqoop工具
简介 SQOOP是用于对数据进行导入导出的. (1)把MySQL.Oracle等数据库中的数据导入到HDFS.Hive.HBase中 (2)把HDFS.Hive.HBase中的数据导出到MySQL.O ...
- hive数据导入Sqoop工具
下载Sqoop ,直接解压缩;然后导入2个环境变量 1.导入oracle数据库中表emp的数据到hive表中 1.导入到HDFS中 $ sqoop import --connect jdbc:mysq ...
- sqoop工具介绍(hdfs与关系型数据库进行数据导入导出)
数据表 第一类:数据库中的数据导入到HDFS上 #数据库驱动jar包用mysql-connector-java--bin,否则有可能报错! ./sqoop import --connect jdbc: ...
- 初识sqoop
Sqoop 产生背景 Sqoop 的产生主要源于以下几种需求: 1.多数使用 Hadoop 技术处理大数据业务的企业,有大量的数据存储在传统的关系型数据库(RDBMS)中. 2.由于缺乏工具的支持,对 ...
- 大数据之sqoop
一.安装: 1 解压然后把mysql的驱动放在$SQOOP_HOME/lib 目录中2. conf/sqoop-en.sh export HADOOP_COMMON_HOME=/home/hadoop ...
- sqoop的安装与使用
1.什么是Sqoop Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具.充分利用MapReduce并行特点以批处理的方式加快传输数据.发展至今 ...
- Sqoop安装与使用(sqoop-1.4.5 on hadoop 1.0.4)
1.什么是Sqoop Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今 ...
随机推荐
- 转:Oracle优化总结
本文主要从大型数据库ORACLE环境四个不同级别的调整分析入手,分析ORACLE的系统结构和工作机理,从九个不同方面较全面地总结了 ORACLE数据库的优化调整方案. 关键词 ORACLE数据库 环境 ...
- chrom锚点不能跳转的问题
最近做一调查页,对没有选择的问题做定位和提示,谷歌下定位不能跳转,解决方法: window.location.hash = 锚点: window.location = window.location;
- javascript:json对象和json字符串的相互转换
json对象和字符串的相互转换 //使用json中的parser方法转换: var str='{"name":"fendouer", "age&quo ...
- ffmpeg控制台上不能输出信息的解决办法
最近遇到下面类似的问题 我下载了最新版本(1.1.2)版本的ffmpeg,在windows平台下使用msys+mingw编译成功后,我输入命令后,一点输出信息都没有,例如: ffmpeg -v 这时候 ...
- Selenium入门15 截图
截图方法: 1 保存截图 get_screenshot_as_file('保存路径\\文件名.png') #有一个\是转义符 2 保存截图 save_screenshot('保存路径\\文件名 ...
- IOS tableView的性能优化(缓存池)
使用缓存池(标识类型) 1.通过 一个 标识 去 缓存池 中寻找可循环得用的cell 2.如果缓存池找不到可循环得用的cell:创建一个新的cell(给cell贴个标识) 3.给cell设置新的数据 ...
- JS二维数组的写法以及注意事项
最终数组:"line":[ { "Name":"WK_CT", "Sex":"CT", " ...
- Jenkins添加项目说明,增加项目描述
背景:往往正常Jenkins上呈现的内容,太过简短,不易直观看了解项目是干嘛的,如下面的内容: 解决方案,使用插件,Extra Columns Plugin 安装成功后配置,需要结合自定义视图使用,新 ...
- SPOJ - LIS2 Another Longest Increasing Subsequence Problem
cdq分治,dp(i)表示以i为结尾的最长LIS,那么dp的递推是依赖于左边的. 因此在分治的时候需要利用左边的子问题来递推右边. (345ms? 区间树TLE /****************** ...
- 【BZOJ1453】[WC] Dface双面棋盘(LCT维护联通块个数)
点此看题面 大致题意: 给你一个\(n*n\)的黑白棋盘,每次将一个格子翻转,分别求黑色连通块和白色连通块的个数. \(LCT\)动态维护图连通性 关于这一部分内容,可以参考这道例题:[BZOJ402 ...