该文章是基于 Hadoop2.7.6_01_部署、 Hive-1.2.1_01_安装部署 进行的

1. 前言

在一个完整的大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：

1.1. 概述

sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

　　导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；

　　导出数据：从Hadoop的文件系统中导出数据到关系数据库

1.3. 工作机制

将导入或导出命令翻译成mapreduce程序来实现

在翻译出的mapreduce中主要是对inputformat和outputformat进行定制

2. Sqoop的安装部署

2.1. 软件部署

 [yun@mini01 software]$ pwd

 /app/software

 [yun@mini01 software]$ tar xf sqoop-1.4..bin__hadoop-2.6..tar.gz

 [yun@mini01 software]$ mv sqoop-1.4..bin__hadoop-2.6. /app/sqoop-1.4.

 [yun@mini01 software]$ cd /app/

 [yun@mini01 ~]$ ln -s sqoop-1.4./ sqoop

 [yun@mini01 ~]$ ll

 total

 …………

 lrwxrwxrwx   yun yun     Aug   : sqoop -> sqoop-1.4./

 drwxr-xr-x   yun yun    Dec    sqoop-1.4.

2.2. 配置修改

 [yun@mini01 conf]$ pwd

 /app/sqoop/conf

 [yun@mini01 conf]$ ll

 total

 -rw-rw-r--  yun yun  Dec    oraoop-site-template.xml

 -rw-rw-r--  yun yun  Dec    sqoop-env-template.cmd

 -rwxr-xr-x  yun yun  Dec    sqoop-env-template.sh

 -rw-rw-r--  yun yun  Dec    sqoop-site-template.xml

 -rw-rw-r--  yun yun  Dec    sqoop-site.xml

 [yun@mini01 conf]$ cp -a sqoop-env-template.sh sqoop-env.sh

 [yun@mini01 conf]$ cat sqoop-env.sh

 # Licensed to the Apache Software Foundation (ASF) under one or more

 ………………

 # Set Hadoop-specific environment variables here.

 #Set path to where bin/hadoop is available  # 修改的配置

 export HADOOP_COMMON_HOME=${HADOOP_HOME}

 #Set path to where hadoop-*-core.jar is available  # 修改的配置

 export HADOOP_MAPRED_HOME=${HADOOP_HOME}

 #set the path to where bin/hbase is available

 #export HBASE_HOME=

 #Set the path to where bin/hive is available  # 修改的配置

 export HIVE_HOME=${HIVE_HOME}

 #Set the path for where zookeper config dir is

 #export ZOOCFGDIR=

2.3. 加入mysql的jdbc驱动包

 [yun@mini01 software]$ pwd

 /app/software

 [yun@mini01 software]$ cp -a mysql-connector-java-5.1..jar /app/sqoop/lib

2.4. 加入hive的执行包

 [yun@mini01 lib]$ pwd

 /app/hive/lib

 [yun@mini01 lib]$ cp -a hive-exec-1.2..jar /app/sqoop/lib/

避免出现

2.5. 验证启动

 [yun@mini01 bin]$ pwd

 /app/sqoop/bin

 [yun@mini01 bin]$ ./sqoop-version

 // :: INFO sqoop.Sqoop: Running Sqoop version: 1.4.

 Sqoop 1.4.

 git commit id 2328971411f57f0cb683dfb79d19d4d19d185dd8

 Compiled by maugli on Thu Dec  :: STD

 [yun@mini01 bin]$ ./sqoop help  # 查看帮助

 // :: INFO sqoop.Sqoop: Running Sqoop version: 1.4.

 usage: sqoop COMMAND [ARGS]

 Available commands:

   codegen            Generate code to interact with database records

   create-hive-table  Import a table definition into Hive

   eval               Evaluate a SQL statement and display the results

   export             Export an HDFS directory to a database table

   help               List available commands

   import             Import a table from a database to HDFS

   import-all-tables  Import tables from a database to HDFS

   import-mainframe   Import datasets from a mainframe server to HDFS

   job                Work with saved jobs

   list-databases     List available databases on a server

   list-tables        List available tables in a database

   merge              Merge results of incremental imports

   metastore          Run a standalone Sqoop metastore

   version            Display version information

 See 'sqoop help COMMAND' for information on a specific command.

3. 数据库信息

 # 建库

 CREATE DATABASE sqoop_test DEFAULT CHARACTER SET utf8 ;

 # 建账号  数据库在mini03机器上

 grant all on sqoop_test.* to sqoop_test@'%' identified by 'sqoop_test';

 grant all on sqoop_test.* to sqoop_test@'mini03' identified by 'sqoop_test';

 # 刷新权限

 flush privileges;

3.1. 表信息

表emp:

id	name	deg	salary	dept
1201	gopal	manager	50000	TP
1202	manisha	Proof reader	50000	TP
1203	khalil	php dev	30000	AC
1204	prasanth	php dev	30000	AC
1205	kranthi	admin	20000	TP

表emp_add:

id	name	deg	salary
1201	288A	vgiri	jublee
1202	108I	aoc	sec-bad
1203	144Z	pgutta	hyd
1204	78B	old city	sec-bad
1205	720X	hitec	sec-bad

表emp_conn:

id	name	deg
1201	2356742	gopal@tp.com
1202	1661663	manisha@tp.com
1203	8887776	khalil@ac.com
1204	9988774	prasanth@ac.com
1205	1231231	kranthi@tp.com

4. Sqoop的数据导入

“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据（或者Avro、sequence文件等二进制数据）

 $ sqoop import (generic-args) (import-args)

 $ sqoop-import (generic-args) (import-args)

4.1. 导入表数据到HDFS

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import   \

   --connect jdbc:mysql://mini03:3306/sqoop_test   \

   --username sqoop_test  \

   --password sqoop_test   \

   --table emp   \

   --m

 // :: INFO sqoop.Sqoop: Running Sqoop version: 1.4.

 // :: WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.

 ………………

 // :: INFO mapreduce.Job:  map % reduce %

 // :: INFO mapreduce.Job: Job job_1533196573365_0001 completed successfully

 ………………

 // :: INFO mapreduce.ImportJobBase: Transferred  bytes in 47.2865 seconds (3.1933 bytes/sec)

 // :: INFO mapreduce.ImportJobBase: Retrieved  records.

查看导入的数据

 [yun@mini02 ~]$ hadoop fs -ls /user/yun/emp

 Found  items

 -rw-r--r--    yun supergroup           -- : /user/yun/emp/_SUCCESS

 -rw-r--r--    yun supergroup         -- : /user/yun/emp/part-m-

 [yun@mini02 ~]$ hadoop fs -cat /user/yun/emp/part-m-

 ,gopal,manager,,TP

 ,manisha,Proof reader,,TP

 ,khalil,php dev,,AC

 ,prasanth,php dev,,AC

 ,kranthi,admin,,TP

4.2. 导入表到HDFS指定目录

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --target-dir /sqoop_test/table_emp/queryresult \

   --table emp --num-mappers

　　注意：如果没有目录，那么会创建

查看导入的数据

 [yun@mini02 ~]$ hadoop fs -ls /sqoop_test/table_emp/queryresult

 Found  items

 -rw-r--r--    yun supergroup           -- : /sqoop_test/table_emp/queryresult/_SUCCESS

 -rw-r--r--    yun supergroup         -- : /sqoop_test/table_emp/queryresult/part-m-

 [yun@mini02 ~]$ hadoop fs -cat /sqoop_test/table_emp/queryresult/part-m-

 ,gopal,manager,,TP

 ,manisha,Proof reader,,TP

 ,khalil,php dev,,AC

 ,prasanth,php dev,,AC

 ,kranthi,admin,,TP

4.3. 导入关系表到HIVE

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --table emp --hive-import \

   --num-mappers

 // :: INFO sqoop.Sqoop: Running Sqoop version: 1.4.

 // :: WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.

 ………………

 // :: INFO mapreduce.ImportJobBase: Transferred  bytes in 20.6744 seconds (7.3037 bytes/sec)

 // :: INFO mapreduce.ImportJobBase: Retrieved  records.

 // :: INFO mapreduce.ImportJobBase: Publishing Hive/Hcat import job data to Listeners for table emp

 // :: INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM `emp` AS t LIMIT

 // :: WARN hive.TableDefWriter: Column salary had to be cast to a less precise type in Hive

 // :: INFO hive.HiveImport: Loading uploaded data into Hive

 // :: INFO hive.HiveImport:

 // :: INFO hive.HiveImport: Logging initialized using configuration in jar:file:/app/sqoop-1.4./lib/hive-exec-1.2..jar!/hive-log4j.properties

 // :: INFO hive.HiveImport: OK

 // :: INFO hive.HiveImport: Time taken: 1.677 seconds

 // :: INFO hive.HiveImport: Loading data to table default.emp

 // :: INFO hive.HiveImport: Table default.emp stats: [numFiles=, totalSize=]

 // :: INFO hive.HiveImport: OK

 // :: INFO hive.HiveImport: Time taken: 0.629 seconds

 // :: INFO hive.HiveImport: Hive import complete.

 // :: INFO hive.HiveImport: Export directory is contains the _SUCCESS file only, removing the directory.

查看导入的数据

 hive (default)> show tables;

 OK

 emp

 Time taken: 0.031 seconds, Fetched:  row(s)

 hive (default)> select * from emp;

 OK

     gopal    manager    50000.0    TP

     manisha    Proof reader    50000.0    TP

     khalil    php dev    30000.0    AC

     prasanth    php dev    30000.0    AC

     kranthi    admin    20000.0    TP

 Time taken: 0.489 seconds, Fetched:  row(s)

4.4. 导入表到HIVE指定库指定表

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --table emp \

   --delete-target-dir \

   --fields-terminated-by '\t' \

   --hive-import \

   --hive-database sqoop_test \

   --hive-table hive_emp \

   --num-mappers

注意：hive的库sqoop_test，必须先建立。否则会报：FAILED: SemanticException [Error 10072]: Database does not exist: sqoop_test

查看导入的数据

 : jdbc:hive2://mini01:10000> use sqoop_test;

 No rows affected (0.049 seconds)

 : jdbc:hive2://mini01:10000> show tables;

 +-----------+--+

 | tab_name  |

 +-----------+--+

 | hive_emp  |

 +-----------+--+

  row selected (0.076 seconds)

 : jdbc:hive2://mini01:10000> select * from hive_emp;

 +--------------+----------------+---------------+------------------+----------------+--+

 | hive_emp.id  | hive_emp.name  | hive_emp.deg  | hive_emp.salary  | hive_emp.dept  |

 +--------------+----------------+---------------+------------------+----------------+--+

 |          | gopal          | manager       | 50000.0          | TP             |

 |          | manisha        | Proof reader  | 50000.0          | TP             |

 |          | khalil         | php dev       | 30000.0          | AC             |

 |          | prasanth       | php dev       | 30000.0          | AC             |

 |          | kranthi        | admin         | 20000.0          | TP             |

 +--------------+----------------+---------------+------------------+----------------+--+

  rows selected (0.162 seconds)

4.5. 导入表数据子集

4.5.1. where子句的导入

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --table emp_add \

   --where "city ='sec-bad'" \

   --target-dir /sqoop_test/table_emp/queryresult2 \

   --num-mappers

查看导入的数据

 [yun@mini02 ~]$ hadoop fs -ls /sqoop_test/table_emp/queryresult2

 Found  items

 -rw-r--r--    yun supergroup           -- : /sqoop_test/table_emp/queryresult2/_SUCCESS

 -rw-r--r--    yun supergroup          -- : /sqoop_test/table_emp/queryresult2/part-m-

 [yun@mini02 ~]$ hadoop fs -cat /sqoop_test/table_emp/queryresult2/part-m-

 ,108I,aoc,sec-bad

 ,78B,old city,sec-bad

 ,720X,hitec,sec-bad

4.5.2. query按需导入

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --query 'select id,name,deg from emp WHERE  id>1203 and $CONDITIONS' \

   --split-by id \

   --fields-terminated-by '\t' \

   --target-dir /sqoop_test/table_emp/queryresult4 \

   --num-mappers

查看导入的数据

 [yun@mini02 ~]$ hadoop fs -cat /sqoop_test/table_emp/queryresult4/part-m-

     prasanth    php dev

     kranthi    admin

4.6. 增量导入

所需参数

 --check-column (col)

 --incremental (mode)        # mode include append and lastmodified

 --last-value (value)

示例

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop import --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --table emp \

   --incremental append \

   --check-column id \

   --last-value  \

   --fields-terminated-by '\t' \

   --target-dir /sqoop_test/table_emp/queryresult4 \

   --num-mappers

查看导入的数据

 [yun@mini02 ~]$ hadoop fs -ls /sqoop_test/table_emp/queryresult4/

 Found  items

 -rw-r--r--    yun supergroup           -- : /sqoop_test/table_emp/queryresult4/_SUCCESS

 -rw-r--r--    yun supergroup          -- : /sqoop_test/table_emp/queryresult4/part-m-

 -rw-r--r--    yun supergroup          -- : /sqoop_test/table_emp/queryresult4/part-m-

 [yun@mini02 ~]$

 [yun@mini02 ~]$ hadoop fs -cat /sqoop_test/table_emp/queryresult4/part-m-

     prasanth    php dev

     kranthi    admin

 [yun@mini02 ~]$ hadoop fs -cat /sqoop_test/table_emp/queryresult4/part-m-

     khalil    php dev        AC

     prasanth    php dev        AC

     kranthi    admin        TP

5. Sqoop的数据导出

将数据从HDFS导出到RDBMS数据库

导出前，目标表必须存在于目标数据库中。

默认操作是从将文件中的数据使用INSERT语句插入到表中
更新模式下，是生成UPDATE语句更新表数据

 $ sqoop export (generic-args) (export-args)

 $ sqoop-export (generic-args) (export-args)

5.1. 示例

数据

 [yun@mini02 ~]$ hadoop fs -ls /sqoop_test/table_emp/queryresult

 Found  items

 -rw-r--r--    yun supergroup           -- : /sqoop_test/table_emp/queryresult/_SUCCESS

 -rw-r--r--    yun supergroup         -- : /sqoop_test/table_emp/queryresult/part-m-

 [yun@mini02 ~]$ hadoop fs -cat /sqoop_test/table_emp/queryresult/part-m-

 ,gopal,manager,,TP

 ,manisha,Proof reader,,TP

 ,khalil,php dev,,AC

 ,prasanth,php dev,,AC

 ,kranthi,admin,,TP

1、首先需要手动创建mysql中的目标表

 MariaDB [(none)]> use sqoop_test;

 Database changed

 MariaDB [sqoop_test]> CREATE TABLE employee (

           id INT NOT NULL PRIMARY KEY,

           name VARCHAR(),

           deg VARCHAR(),

           salary INT,

           dept VARCHAR());

 Query OK,  rows affected (0.00 sec)

 MariaDB [sqoop_test]> show tables;

 +----------------------+

 | Tables_in_sqoop_test |

 +----------------------+

 | emp                  |

 | emp_add              |

 | emp_conn             |

 | employee             |

 +----------------------+

  rows in set (0.00 sec)

2、然后执行导出命令

 [yun@mini01 sqoop]$ pwd

 /app/sqoop

 [yun@mini01 sqoop]$ bin/sqoop export \

   --connect jdbc:mysql://mini03:3306/sqoop_test \

   --username sqoop_test --password sqoop_test \

   --table employee \

   --export-dir /sqoop_test/table_emp/queryresult/

3、验证表mysql命令行

 MariaDB [sqoop_test]> select * from employee;

 +------+----------+--------------+--------+------+

 | id   | name     | deg          | salary | dept |

 +------+----------+--------------+--------+------+

 |  | gopal    | manager      |   | TP   |

 |  | manisha  | Proof reader |   | TP   |

 |  | khalil   | php dev      |   | AC   |

 |  | prasanth | php dev      |   | AC   |

 |  | kranthi  | admin        |   | TP   |

 +------+----------+--------------+--------+------+

  rows in set (0.00 sec)

Sqoop-1.4.7-部署与常见案例的更多相关文章

jQuery常见案例
jQuery常见案例通过jQuery实现全选,反选取消: 选择地址端口 1.1.1.1 80 1.1.1.1 80 1.1.1.1 80 1.1.1.1 80 代码实现 <body> ...
iis 部署webapi常见错误及解决方案
iis 部署webapi常见错误及解决方案错误一: 原因:asp.net web api部署在Windows服务器上后,按照WebAPI定义的路由访问,老是出现404,但定义一个静态文件从站点访问, ...
上海苹果维修点分享苹果电脑MACBOOK故障维修常见案例
苹果的电子设备无论是外观和性能都是无与伦比的美丽,很多开发者都开始选用苹果电脑macbook.近年来苹果售后维修点来维修苹果电脑的用户也越来越多,我们上海苹果维修点就整理分享了一些苹果电脑MACBOO ...
Android内存溢出、内存泄漏常见案例及最佳实践总结
内存溢出是Android开发中一个老大难的问题,相关的知识点比较繁杂,绝大部分的开发者都零零星星知道一些,但难以全面.本篇文档会尽量从广度和深度两个方面进行整理,帮助大家梳理这方面的知识点(基于Jav ...
Azkaban-2.5.0-部署与常见案例
该文章是基于 Hadoop2.7.6_01_部署 . Hive-1.2.1_01_安装部署进行的 1. 前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核 ...
mysql 案例 ~ 常见案例汇总
一简介:这里汇总了一些mysql常见的问题二案例场景问题1 mysql设置了默认慢日志记录1S,为何会记录不超过1S的sql语句答案 mysql~log_queries_not_usi ...
Flume-1.8.0_部署与常用案例
该文章是基于 Hadoop2.7.6_01_部署进行的 Flume官方文档:FlumeUserGuide 常见问题:记flume部署过程中遇到的问题以及解决方法(持续更新) 1. 前言在一个完整的 ...
KingbaseES V8R6C5禁用root用户ssh登录图形化部署集群案例
案例说明: 对于KingbaseES V8R6C5版本在部集群时,需要建立kingbase.root用户在节点间的ssh互信,如果在生产环境禁用root用户ssh登录,则通过ssh部署会失败:在图形化 ...
0基础入门 docker 部署各种 Prometheus 案例 - 程序员学点xx 总集篇
目录大家好, 学点xx 系列也推出一段时间了.虽然 yann 能力有限,但还是收到了很多鼓励与赞赏.对这个系列 yann 还是很喜欢的,特别是 Prometheus 篇,在期间经历公众号 100 篇 ...

随机推荐

从零开始学 Web 之 CSS（一）选择器
大家好,这里是「 Daotin的梦呓」从零开始学 Web 系列教程.此文首发于「 Daotin的梦呓」公众号,欢迎大家订阅关注.在这里我会从 Web 前端零基础开始,一步步学习 Web 相关的知识 ...
Java 容器源码分析之ConcurrentHashMap
深入浅出ConcurrentHashMap(1.8) 前言 HashMap是我们平时开发过程中用的比较多的集合,但它是非线程安全的,在涉及到多线程并发的情况,进行put操作有可能会引起死循环,导致CP ...
python的Web框架，html分页
使用简单的算法得出页码数,然后在html中获取即可.仅供参考. views的写法 def crm_stu(request): section = '教师后台管理页' search = request. ...
nginx配置指南
nginx(读作engine x)是一款设计优秀的Http服务器, 其占用内存少, 负载能力强且稳定性高, 正在被越来越多的用户所采用. nginx可以为HTTP, HTTPS, SMTP, POP3 ...
[HEOI2017] 寿司餐厅 + 最大权闭合子图的总结
Description 太长了自己看叭点这里! Solution 先学一波什么叫最大权闭合子图. 先要明白什么是闭合子图,闭合子图就是给定一个有向图,从中选择一些点组成一个点集V.对于V中任意一个点 ...
python字典操作和内置方法
一字典基本介绍 python中只有字典是映射结构,通过key取值,并且key是不可变数据类型,而value可以是任意数据类型. 字典通过一个花括号,里面存放key:value的数据结构来定义.理论上 ...
Linux命令行快捷键及vim快捷方式
Linux命令行快捷键快捷键: tab键自动补全路径目录名字, 自动不全命令快捷键: ctrl +l(小写) 清屏 . ctrl +c 取消当前操作快捷键: ctrl +d(小写) 退出当 ...
命令查看当前电脑安装所有版本.NET Core SKD
dotnet --version 查看当前使用版本 dotnet --info 安装的所有版本包括版本地址也可用命令帮助 dotnet help
(转)C# 快速高效率复制对象的方式
1.需求在项目代码中经常需要把对象复制到新的对象中,或者把属性名相同的值复制一遍. 比如: public class Student { public int Id { get; set; } pu ...
hadoop 集群中数据块的副本存放策略
HDFS采用一种称为机架感知(rack-aware)的策略来改进数据的可靠性.可用性和网络带宽的利用率.目前实现的副本存放策略只是在这个方向上的第一步.实现这个策略的短期目标是验证它在生产环境下的有效 ...

Sqoop-1.4.7-部署与常见案例

1. 前言

1.1. 概述

1.3. 工作机制

2. Sqoop的安装部署

2.1. 软件部署

2.2. 配置修改

2.3. 加入mysql的jdbc驱动包

2.4. 加入hive的执行包

2.5. 验证启动

3. 数据库信息

3.1. 表信息

4. Sqoop的数据导入

4.1. 导入表数据到HDFS

4.2. 导入表到HDFS指定目录

4.3. 导入关系表到HIVE

4.4. 导入表到HIVE指定库指定表

4.5. 导入表数据子集

4.5.1. where子句的导入

4.5.2. query按需导入

4.6. 增量导入

5. Sqoop的数据导出

5.1. 示例

Sqoop-1.4.7-部署与常见案例的更多相关文章

随机推荐

热门专题