Sqoop数据迁移工具
一、概述
sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具。
导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS、 HIVE、 HBASE 等数据存储系统;
    导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等
    Sqoop 的本质还是一个命令行工具,和 HDFS, Hive 相比,并没有什么高深的理论。

二、工作机制
将导入或导出命令翻译成 mapreduce 程序来实现
      在翻译出的 mapreduce 中主要是对 inputformat 和 outputformat 进行定制
三、sqoop安装
安装 sqoop 的前提是已经具备 java 和 hadoop 的环境
     安装包下载地址 http://ftp.wayne.edu/apache/sqoop/1.4.6/
     安装步骤 :
(1)准备安装包 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
      (2) 解压安装包到安装目录
              tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C apps/
              cd apps
              mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha/ sqoop1.4.6
      (3) 进入到 conf 文件夹,找到 sqoop-env-template.sh,修改其名称为 sqoop-env.sh
              cd conf
              mv sqoop-env-template.sh sqoop-env.sh
     (4) 修改 sqoop-env.sh

(5) 加入 mysql 驱动包到 sqoop1.4.6/lib 目录下
          cp mysql-connector-java-5.1.39.jar apps/sqoop1.4.6/lib/
   (6) 配置系统环境变量
         vi /etc/profile
         然后输入:
        export SQOOP_HOME=/root/apps/sqoop1.4.6
         export PATH=$PATH:$SQOOP_HOME/bin
        然后保存退出
        source /etc/profile
   (7) 验证安装是否成功
          sqoop –version

(8)出现如图所示画面,证明安装成功,那么接下来就可以正常使用了。
四、sqoop基本命令介绍


五、sqoop数据导入
“导入工具”导入单个表从 RDBMS 到 HDFS。表中的每一行被视为 HDFS 的记录。所有记录 都存储为文本文件的文本数据(或者 Avro、 sequence 文件等二进制数据)
1、导入mysql数据到HDFS
(1)普通导入

如果我们没有给该命令指定导出的文件的存储路径,那么默认会保存在 HDFS 上的
/user/root/help_keyword 目中
其中,第一个 user 是固定的,第二个 root,表示链接的用户名,第三个表示表名


从以上结果可以得出一个结论: 如果没有指定路径,则会按默认规则生成路径,如果没有 指定分隔符,默认按照逗号分隔
(2)指定分隔符和导入路径


(3)导入where条件数据
我们可以导入表的使用 Sqoop 导入工具, "where"子句的一个子集。它执行在各自的数据库 服务器相应的 SQL 查询,并将结果存储在 HDFS 的目标目录。 

(4)导入 Query 结果数据


2、导入 MySQL 到 HIVE
Sqoop 导入关系型数据到 hive 的过程是先导入到 hdfs,然后再 load 进入 hive
Sqoop数据迁移工具的更多相关文章
- Sqoop数据迁移工具的使用
		文章作者:foochane 原文链接:https://foochane.cn/article/2019063001.html Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDF ... 
- Sqoop 数据迁移工具
		Sqoop 数据迁移工具 sqoop : SQL to hadOOP 两个功能: 1. RDB 向HDFS导入 2. HDFS向RDB导入 注:拷贝mysql-connector.jar 和 json ... 
- 数据迁移工具sqoop
		有问题........数据迁移工具sqoop sqoop安装 [root@sqoop data]# wget wget http://apache.fayea.com/sqoop/1.4.6/sqo ... 
- sqoop 数据迁移
		sqoop 数据迁移 1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.H ... 
- sqoop数据校验
		sqoop数据校验 # check data oracle_cnt=$(sqoop eval \ -Dmapred.job.queue.name=${queue} \ --connect ${conn ... 
- 撸了个 django 数据迁移工具 django-supertube
		撸了个 django 数据迁移工具 django-supertube 支持字段映射和动态字段转化. 欢迎 star,issue https://github.com/FingerLiu/django- ... 
- 【Hadoop离线基础总结】Sqoop数据迁移
		目录 Sqoop介绍 概述 版本 Sqoop安装及使用 Sqoop安装 Sqoop数据导入 导入关系表到Hive已有表中 导入关系表到Hive(自动创建Hive表) 将关系表子集导入到HDFS中 sq ... 
- 数据迁移工具Sqoop和DataX功能比较
		本文转载自: http://www.cnblogs.com/panfeng412/archive/2013/04/29/data-migration-tool-sqoop-and-datax.html ... 
- sqoop数据导出导入命令
		1. 将mysql中的数据导入到hive中 sqoop import --connect jdbc:mysql://localhost:3306/sqoop --direct --username r ... 
随机推荐
- jquery Ajax请求中显示Loading...
			jquery Ajax请求中显示Loading... $('#btnTest').click(function(){ $.ajax({ url ---- ,根据你需要设置 ... 
- KEIL5的安装
			安装注意事项 1.最好不要安装在带有中文路径的文件夹. 2.试用版的Keil MDK只能编译32K以下的代码,代码大于32K只能使用正版或破解版才能编译通过. 安装MKD 这里选择MKD512A版本安 ... 
- [ Continuously Update ] This is an  *Index Page*.
			The links below present papers in certain fields. Despite overlaps exist, their emphasis is markedly ... 
- Java跨平台的实现原理
			不同操作系统支持的指令集有所差异,只要在不同操作系统上安装对应的jvm,jvm负责把Java字节码翻译成对应机器的二进制码,从而实现java语言的跨平台. 
- 产品需求文档(PRD)的写作 【转】
			产品需求文档(PRD)的写作 一.文章的摘要介绍 无论我们做什么事都讲究方式方法,写产品需求文档(以下称PRD文档)也是如此,之前我通过四篇文章分享了自己写PRD文档的一些方法,而这一篇文章主要是 ... 
- ThinkPHP - 6 - 学习笔记(2015.5.4)
			解决:OneThink 站点无法被友言uyan后台识别 打开友言uyan插件功能,但OneThink站点无法被友言uyan后台检测到.页面生成的uyan代码为: <!-- UY BEGIN -- ... 
- hbase Problem binding to node1/192.168.1.13:16020 : 地址已在使用
			这是hbase 从0.9.x升级到1.x后HMaster与HRegionServer端口冲突问题 在hbase升级到1.0.0版本后,默认端口做了改动.其中16020端口是hmaster服务和hreg ... 
- <力荐>非常好的正则表达式的详解<力荐>
			正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串.将匹配的子串做替换或者从某个串中取出符合某个条件的子串等. 列目录时, dir *.t ... 
- Scrum立会报告+燃尽图(Beta阶段第二周第四次)
			此作业要求参见:https://edu.cnblogs.com/campus/nenu/2018fall/homework/2412 项目地址:https://coding.net/u/wuyy694 ... 
- 福大软工1816:Beta(7/7)
			Beta 冲刺 (7/7) 队名:第三视角 组长博客链接 本次作业链接 团队部分 团队燃尽图 工作情况汇报 张扬(组长) 过去两天完成了哪些任务 文字/口头描述 组织会议 wxpy中多个功能的开发 整 ... 
