通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据\

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互导最后给出命令。
一、Mysql与HDFS互导数据
环境:
宿主机器操作系统为Win7,Mysql安装在宿主机上,宿主机地址为192.168.66.96
3台虚拟机操作系统为Ubuntu-12.04.1-32位
三台虚拟机已成功安装hadoop,并实现免密钥互访,配hosts为:
192.168.66.91 masternode
192.168.66.92 slavenode1
192.168.66.93 slavenode2
/etc/profile已配置好必备环境变量HADOOP_HOME,JAVA_HOME
实验在masternode上进行,已成功连接mysql

步骤一,下载安装包:
我安装的Hadoop版本是原生hadoop-0.20.203.0,SQOOP不支持此版本,可使用CDH3版本hadoop,也可以通过拷贝相应的包到sqoop-1.2.0-CDH3B4/lib下,依然可以使用。
下载相关文件:
http://archive.cloudera.com/cdh/3/hadoop-0.20.2-CDH3B4.tar.gz
http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz
sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop- 0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2- CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
另外,sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。

步骤二,相关配置:
修改SQOOP的文件configure-sqoop,注释掉hbase和zookeeper检查(除非你准备使用HABASE等HADOOP上的组件) #if [ ! -d "${HBASE_HOME}" ]; then 
# echo “Error: $HBASE_HOME does not exist!” 
# echo ‘Please set $HBASE_HOME to the root of your HBase installation.’ 
# exit 1 
#fi 
#if [ ! -d "${ZOOKEEPER_HOME}" ]; then 
# echo “Error: $ZOOKEEPER_HOME does not exist!” 
# echo ‘Please set $ZOOKEEPER_HOME to the root of your ZooKeeper installation.’ 
# exit 1 
#fi

修改/etc/profile环境变量文件(su root之后,sudo gedit /etc/profile):
添加  export SQOOP_HOME=/home/grid/sqoop
在原有PATH后添加 :$SQOOP_HOME/bin

步骤三,在mysql中建立测试用户,测试表和数据,并测试sqoop连接mysql:
创建用户sqoop并授权:
grant all privileges on *.* to  'sqoop'@'%' identified by 'sqoop' with grant option;

创建表空间(schema)sqoop,并创建测试表:
create table students (
id int not null primary key,
name varchar(20),
age int)

插入测试数据:
insert into students values('10001','liyang',29);
insert into students values('10002','lion',28);
insert into students values('10003','leon',26);

在masternode测试sqoop能否成功连接宿主机器上的mysql:
sqoop list-tables --connect  jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop
如果能正确显示出sqoop表空间中的students表,就说明sqoop已经可以成功连接mysql!

步骤四,将mysql中sqoop表空间的students表的三行数据导入HDFS:
启动hadoop:
start-all.sh
用jps验证启动是否成功
显示正在运行以下进程即为启动成功:
2820 SecondaryNameNode
4539 Jps
2887 JobTracker
2595 NameNode

从mysql导入数据,运行如下命令:
sqoop import --connect  jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password  sqoop  --table students -m 1

验证导入数据是否成功:
若导入成功,运行 hadoop dfs -ls 将能看到根目录/user/grid/下有以表名命名的文件夹students
运行 hadoop dfs -ls /user/grid/students 能看到该文件夹中包含文件:/user/grid/students/part-m-00000
运行 hadoop dfs -cat /user/grid/students/part-m-00000 就能看到该文件已经包含mysql中students表的三行数据:
10001,liyang,29
10002,lion,28
10003,leon,26

步骤五,将HDFS中的数据导入Mysql的students表中:
首先将mysql的students表数据清空:
delete from students;

然后在masternode上执行导出数据命令:
sqoop export --connect  jdbc:mysql://192.168.66.96:3306/sqoop --username sqoop --password sqoop --table students --export-dir hdfs://masternode:9000/user/grid/students/part-m-00000

若成功,在mysql中会看到students表中的数据恢复了!

注意:过程中可能会因为slavenode的50010端口没打开而报错,需用root用户通过sudo ufw allow 50010命令打开端口!

二、Mysql与Hbase互导数据
将mysql的数据导入hbase的命令格式为:
sqoop import --connect jdbc:mysql://mysqlserver_IP/databaseName --username --password password --table datatable --hbase-create-table --hbase-table hbase_tablename --column-family col_fam_name --hbase-row-key key_col_name
其中 ,databaseName 和datatable 是mysql的数据库和表名,hbase_tablename是要导成hbase的表名,key_col_name可以指定datatable中哪一列作 为hbase新表的rowkey,col_fam_name是除rowkey之外的所有列的列族名

例如:可通过如下命令将Mysql中的students表导入到Hbase中:
/home/grid/sqoop/bin/sqoop import --connect jdbc:mysql://192.168.66.96/sqoop --username sqoop --password liyang16 --table students --hbase-create-table --hbase-table students --column-family stuinfo --hbase-row-key id
成功执行后,可在hbase中用以下命令查看结果:
hbase(main):011:0> scan 'students'    
ROW                   COLUMN+CELL                                                
10001                column=stuinfo:age, timestamp=1356759994058, value=29      
10001                column=stuinfo:name, timestamp=1356759994058, value=liyang 
10002                column=stuinfo:age, timestamp=1356760044478, value=28      
10002                column=stuinfo:name, timestamp=1356760044478, value=lion   
10003                column=stuinfo:age, timestamp=1356760044478, value=26      
10003                column=stuinfo:name, timestamp=1356760044478, value=leon   
3 row(s) in 0.0900 seconds

三、Oracle与Hbase互导数据
将Oracle中的dept表(列为id,name,addr)导出至hbase中的dept表(行键为id,列族为deptinfo)
sqoop import --append --connect jdbcracle:thin:@192.168.66.90:1521rcl --username test --password test --m 1 --table dept --columns id,name,addr --hbase-create-table --hbase-table dept --hbase-row-key id --column-family deptinfo

通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据的更多相关文章

  1. sqoop从mysql导入到hdfs出现乱码问题

    最近把hive元数据库的快照数据导入到hdfs中,以便对历史的元数据进行查询. 命令如下: sqoop import -D mapred.job.queue.name=do.production -- ...

  2. 教程 | 使用Sqoop从MySQL导入数据到Hive和HBase

    基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 S ...

  3. Sqoop_具体总结 使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出

    一.使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvYWFyb25oYWRvb3A=/ ...

  4. sqoop命令,mysql导入到hdfs、hbase、hive

    1.测试MySQL连接 bin/sqoop list-databases --connect jdbc:mysql://192.168.1.187:3306/trade_dev --username ...

  5. 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟

    使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 ...

  6. 分布式计算(二)使用Sqoop实现MySQL与HDFS数据迁移

    近期接触了一个需求,业务背景是需要将关系型数据库的数据传输至HDFS进行计算,计算完成后再将计算结果传输回关系型数据库.听到这个背景,脑海中就蹦出了Sqoop迁移工具,可以非常完美的支持上述场景. 当 ...

  7. 使用sqoop将MySQL数据库中的数据导入Hbase

    使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-con ...

  8. Sqoop将mysql数据导入hbase的血与泪

    Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天)  版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunsh ...

  9. Hadoop生态组件Hive,Sqoop安装及Sqoop从HDFS/hive抽取数据到关系型数据库Mysql

    一般Hive依赖关系型数据库Mysql,故先安装Mysql $: yum install mysql-server mysql-client [yum安装] $: /etc/init.d/mysqld ...

随机推荐

  1. web 前端学习笔记

    <!DOCTYPE HTML> <head> <style type="text/css"> body {  background: #ff00 ...

  2. 20170322js面向对象

    <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...

  3. QT 相关资源(书籍、论坛、博客等。。。)整理

     QT 相关资源(书籍.论坛.博客等...)整理... 中文名:<提问的智慧> 英文名:How To Ask Questions The Smart Way 中文链接1:http://ww ...

  4. hdoj--5100--Chessboard(数学推理)

     Chessboard Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others) To ...

  5. Python中的math和保留小数位数方法

    转载自 http://xukaizijian.blog.163.com/blog/static/17043311920111163272414/ math模块实现了许多对浮点数的数学运算函数.  这些 ...

  6. 原生JS---3

    原生js学习笔记3——数组 定义数组 两种方式定义一个数组: 1. var array1 = new array(1, 2, 3, 4); 2. var array2 = [1, 2, 3, 4]; ...

  7. com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Duplicate entry 'admin' for key 'UK_dgxl7aijrr4hq8314exhw407s'

    严重: Servlet.service() for servlet [spring-mvc] in context with path [/learn] threw exception [Reques ...

  8. golang闭包,传统斐波那契

    package main import (    "fmt") func main() {    f := fibonacci()    for i := 0; i < 10 ...

  9. 【WPF】使用 XAML 的 Trigger 系统实现三态按钮

    利用 WPF 的 Trigger 系统,也可以很简单的只使用xmal实现三态按钮.在Window或UserControl的资源中声明按钮的style并加入触发功能.使用的时候直接在button里复写s ...

  10. sql server 还原数据库,数据库提示正在还原中的处理办法

      还原数据库时,提示还原成功,可是数据库列表中该数据库显示正在还原中: 执行此命令即可: RESTORE DATABASE EnterPriseBuilding WITH RECOVERY 了解SQ ...