安装 sqoop
简介
Sqoop是一个用来将Hadoop(Hive、HBase)和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中,但是不能将hbase、hive的数据导入到关系型数据库。
下载
因为官方并不建议在生产环境中使用sqoop2,即1.99.7,所以这里我用的是sqoop1,即1.4.7
点击下载:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
安装
解压
#tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /data/hadoop/
#cd /data/hadoop
#mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop
配置环境变量~/.bashrc
export SQOOP_HOME=/data/hadoop/sqoop
export PATH=${SQOOP_HOME}/bin:$PATH
编辑完成后,执行命令: source /etc/profile
sqoop配置文件修改
进入 /data/hadoop/sqoop/conf 目录下,
# cd /data/hadoop/sqoop/conf 将sqoop-env-template.sh复制一份,并取名为sqoop-env.sh
# cp sqoop-env-template.sh sqoop-env.sh
在sqoop-env.sh文件最后添加如下参数
# Hadoop
export HADOOP_HOME=/data/hadoop/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_YARN_HOME=${HADOOP_HOME}
# Native Path
export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
# Hadoop end #Hive (如果存在)
export HIVE_HOME=/data/hadoop/hive
export PATH=$HIVE_HOME/bin:$PATH #HBase (如果存在)
export HBASE_HOME=/data/hadoop/hbase
export PATH=$HBASE/bin:$PATH
mysql驱动包
下载地址:https://dev.mysql.com/downloads/connector/j/
解压与拷贝
# tar zxvf mysql-connector-java-8.0..tar.gz
# cd mysql-connector-java-8.0.13/
# cp mysql-connector-java-8.0.13.jar /data/hadoop/sqoop/lib/
sqoop使用
1、查看帮助
# sqoop help
Available commands:
codegen Generate code to interact with database records
create-hive-table Import a table definition into Hive
eval Evaluate a SQL statement and display the results
export Export an HDFS directory to a database table
help List available commands
import Import a table from a database to HDFS
import-all-tables Import tables from a database to HDFS
import-mainframe Import datasets from a mainframe server to HDFS
job Work with saved jobs
list-databases List available databases on a server
list-tables List available tables in a database
merge Merge results of incremental imports
metastore Run a standalone Sqoop metastore
version Display version information
想要显示具体的参数用法,可以使用sqoop help options
# sqoop help import
2、显示mysql所有数据库(mysql的安装自行百度)
# sqoop list-databases --connect jdbc:mysql://192.168.1.91 --username root --password 123456 注意,url地址要写对,mysql权限要赋予。
如果报如下的错误:
19/07/20 18:23:16 ERROR tool.BaseSqoopTool: Got error creating database manager: java.io.IOException: No manager for connect string: jdbc.mysql://192.168.1.91
这种情况要么是mysql驱动程序拷贝,要么是url地址写错误了 上诉的这个错误就是url写错了,正常应该是 jdbc:mysql://192.168.1.91 这里写成了 jdbc.mysql://192.168.1.91
我在这里卡了好一会,,尴尬的一批。0.0 也可以使用如下的命令查询某一个数据库
# sqoop list-databases --connect jdbc:mysql://192.168.1.91:3306/test?characterEncoding=UTF-8 --username root --password '123456'
3、显示数据库里面的所有表
# sqoop list-tables --connect jdbc:mysql://192.168.1.91:3306/hadoop?characterEncoding=UTF-8 --username root --password '123456'
4、使用sqoop导入数据
sqoop利用Hadoop MapReduce(只是执行map阶段)来执行数据的导入和导出。
查看import帮助
# sqoop help import
usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS]
....
sqoop import命令有两个基本部分,一个是GENERIC参数,另一个是TOOL参数
在导入前,首先在mysql里面创建一个hadoop数据库
create database hadoop;
use hadoop;
创建表
create table learn(id int,name char,age int);
插入一条简单的数据
insert into learn values(1,'yjt',22);
导入数据到hdfs
# sqoop import --connect jdbc:mysql://192.168.1.91:3306/hadoop --username root --password '123456' --table learn --target-dir /test
报错了
ERROR tool.ImportTool: Import failed: No primary key could be found for table learn. Please specify one with --split-by or perform a sequential import with '-m 1'.
说这个learn没有主键。报错的后面提示了解决办法,,--split-by <column> 指定以什么字段分割 -m是指定map任务数 重新执行
# sqoop import --connect jdbc:mysql://192.168.1.91:3306/hadoop --username root --password '123456' --table learn --target-dir /test --split-by id 查看hdfs上的test目录存在的数据
# hadoop fs -cat /test/part-m-00000
1,y,22
说明成功把数据导入到了hdfs
当使用Sqoop导入命令时,Sqoop将数据集切分成多个分区,并启动map-only任务将数据块传输到hdfs,Sqoop从数据库的元数据中推断出数据类型。所以,sqoop导入可以分为两个过程:
(1) sqoop收集要导入的数据所需的元数据。
(2)Sqoop将map任务提交到Hadoop集群。
Sqoop是不直接连接到关系型数据库或者仓库来导入(导出)数据的。Sqoop通过运行MapReduce作业来连接到数据库,读取数据并将数据导入到hdfs。
在上诉的导入命令中,需要输入一大堆的参数,能不能把一些每次导入需要的选项保存下来呢,,答案是可以的,可以使用选项文件(--options-file)参数,如下:
创建文本文件,以保存参数
# cat sqoop-option-file.txt
--connect
jdbc:mysql://192.168.1.91/hadoop
--username
root
--password
执行sqoop导入操作
# sqoop import --options-file sqoop-option-file.txt --table learn --target-dir /test1 --split-by id
5、Sqoop是如何导入数据的???
(1)Sqoop连接数据库。
(2)获取表的元数据
(3)生成一个Java类并进行编译
(4)连接到Hadoop集群
(5)在Hadoop集群执行MapReduce作业
(6)MapReduce使用在步骤2中生成的元数据执行map任务来完成导入过程
(7)MapReduce将输出作为hdfs中的一组文件生成
6、指定密码的几种方式
(1)使用--password password
(2)使用--p 以交互式方式输入密码
(3)使用--password-file password-file 从文件中读取密码
(4)保存到sqoop metastore中,可以通过在sqoop-site.xml文件设置sqoop.metastore.client.record.password属性来设置明文密码。
参考文章:
https://www.cnblogs.com/frankdeng/p/9132194.html
https://www.cnblogs.com/frankdeng/p/9067092.html
https://www.cnblogs.com/cenyuhai/p/3306037.html
安装 sqoop的更多相关文章
- 安装sqoop
安装sqoop 1.默认已经安装好java+hadoop 2.下载对应hadoop版本的sqoop版本 3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-a ...
- 简易安装sqoop
版本 :hive-0.13.1-cdh5.3.6.tar.gz 1:解压 然后 进到 conf 目录 修改 sqoop-env.sh 2:如果使用mysql 数据库 要将 mysql驱动包拷贝到 ...
- centos6.5系统hadoop2.7安装sqoop
一.sqoop简介 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ...
- 安装sqoop 1.99.4
参考http://sqoop.apache.org/docs/1.99.4/Installation.html 1.简介 sqoop2分为server和client两部分.server作为maprde ...
- ubuntu - 安装sqoop
解析过程 参考:https://www.cnblogs.com/qingyunzong/p/8807252.html#_label4 一.下载 二.解压到指定目录 三.配置sqoop环境变量并生效 四 ...
- Linux安装Sqoop及基础使用
下载Sqoop 官网地址 http://sqoop.apache.org/ wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7 ...
- centos 7 安装sqoop 1.4.7
1. 下载sqoop1.4.7 cd /home/workspace wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/sqoo ...
- Sqoop安装及操作
一.集群环境: Hostname IP Hadoop版本 Hadoop 功能 系统 node1 192.168.1.151 0.20.0 namenode hive+sqoop rhel5.4X86 ...
- Sqoop安装配置及数据导入导出
前置条件 已经成功安装配置Hadoop和Mysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase. 下载sqoop和Mysql的JDBC驱动 sqoop-1.2.0- ...
随机推荐
- 进入恢复模式(Recovery HD)
进入恢复模式(Recovery HD) 1,选中要启动的虚拟机,随后点击VM菜单的启动按钮后面向下箭头,随后点击菜单项”打开电源时进入固件“. 2,在虚拟机里面,用上下键移动到”Enter setup ...
- 传统IDC 部署网站
选择IDC机房 1.选择云主机. 2.传统IDC a购买服务器 b服务器托管 c装系统 装系统 虚拟机软件 vmware workstation virtualbox hyper-v 下载:r.ami ...
- 【洛谷 P5341】 [TJOI2019]甲苯先生和大中锋的字符串(后缀自动机)
题目链接 建出\(sam\),求出parent tree上每个点的\(endpos\)集合大小. 如果等于\(k\),说明到达这个点的都可以.给\((len[fa(i)],len[i]]\)的\(cn ...
- iOS - 第三方库总结篇
Swift版本点击这里 欢迎加入QQ群交流: 594119878 About A curated list of iOS objective-C ecosystem. How to Use Simpl ...
- XnViewer管理浏览照片、图片
有时候拍完照片想要浏览照片.浏览照片的时候想做一些标记,这个时候就需要使用照片管理器: 之前一直使用谷歌的picasa(不更新了),adobe也有个管理器(比较大):这里主要推荐一个: https:/ ...
- 时间模块time和datetime的使用
日期和时间 一 time模块 import time 时间的表示形式: 时间戳 时间戳是指格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现 ...
- CentOS7怎样安装Jenkins
参考 http://pkg.jenkins-ci.org/redhat/ wget -O /etc/yum.repos.d/jenkins.repo http://pkg.jenkins-ci.org ...
- java在win系统下的环境的搭建
学习Java第一步是配置本地开发环境,学习最基本的桌面开发,下面以win7为例配置Java开发环境,安装JDK的时候会默认安装JRE,根据提示安装就可以了. 首先去官网下载适合系统版本的JDK,下载地 ...
- 《你们都是魔鬼吗》第八次团队作业:第四天Alpha冲刺
<你们都是魔鬼吗>第八次团队作业:Alpha冲刺 项目 内容 这个作业属于哪个课程 任课教师博客主页链接 这个作业的要求在哪里 作业链接地址 团队名称 你们都是魔鬼吗 作业学习目标 完成最 ...
- nginx+keepalived高可用 (主从+双主)
1.Nginx+keepalived 主从配置这种方案,使用一个vip地址,前端使用2台机器,一台做主,一台做备,但同时只有一台机器工作,另一台备份机器在主机器不出现故障的时候,永远处于浪费状态,对于 ...