Sqoop迁移Hadoop与RDBMS间的数据

Sqoop是用来实现结构型数据（如:关系型数据库RDBMS）和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输，
同时也借助MapReduce实现容错。

一、将MySQL中的表迁移到HDFS上（RDBMS —> HDFS）

导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;
```
sqoop import \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--table mysql_emp \

--target-dir /data/hdfs_sqoop \

--delete-target-dir \

--num-mappers 1    \

--fields-terminated-by '\t'
```
--table mysql中目标表；
--target-dir hdfs存放目录；
--delete-target-dir：若hdfs存放目录已存在，则自动删除；
--num-mappers：指定maptask数量；
--fields-terminated-by:各字段间的分隔符；

将MySQL的查询结果导入HDFS上;

sqoop import \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--target-dir /data/hdfs_sqoop \

--delete-target-dir \

--num-mappers 1    \

--fields-terminated-by '\t' \

--query 'SELECT emp_no,first_name,last_name FROM mysql_emp WHERE gender="M" and $CONDITIONS;'

”$CONDITIONS"表示将查询结果带回。

使用sqoop的关键字筛选查询后的结果导入到HDFS；

sqoop import \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--table mysql_emp \

--target-dir /data/hdfs_sqoop \

--delete-target-dir \

--num-mappers 1    \

--fields-terminated-by '\t' \

--where "gender='F'"

从MySQL导入指定’列’到HDFS上;

sqoop import \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--table mysql_emp \

--target-dir /data/hdfs_sqoop \

--delete-target-dir \

--num-mappers 1    \

--fields-terminated-by '\t' \

--columns emp_no,gender,birth_date

二、MySQL ——> Hive (RDBMS ——> HIVE)

将MySQL中的表导入Hive中;

sqoop import \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--num-mappers 1    \

--table mysql_emp \

--hive-import \

--hive-table db_hive_sqoop.hive_emp \

--fields-terminated-by '\t' \

--hive-overwrite \

--delete-target-dir

三、MySQL –> Hbase(RDBMS ——> Hbase)

将MySQL中的表导入Hbase中；

sqoop import \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--table book \

--columns "id,name,price" \

--column-family "info" \

--hbase-create-table \

--hbase-row-key "id" \

--hbase-table "hbase_book" \

--num-mappers 1  \

--split-by id

四、HDFS/Hive —> MySQL (HDFS/Hive —> RDBMS)

在MySQL中创建对应的表,然后使用如下语句;

sqoop export \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--table myqsl_dept \

--num-mappers 1 \

--export-dir /usr/hive/warehouse/db_hive_sqoop.db/hive_dept \

--input-fields-terminated-by '\t'

五、导出MySQL表结构到hive

导出MySQL表结构；

sqoop create-hive-table \

--connect jdbc:mysql://hadoopone:3306/db_sqoop \

--username root \

--password root \

--table mysql_stu \

--hive-database db_hive_sqoop \

--hive-table hive_stu

Sqoop迁移Hadoop与RDBMS间的数据的更多相关文章

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具
Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS.Hive.HBase)与传统关系数据库(MySql.Oracle等)间进行数据传递工作.Sqoop最早是作为Hadoop的一个第三 ...
Sqoop是一款开源的工具，主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递
http://niuzhenxin.iteye.com/blog/1706203 Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql.. ...
阿里云 RDS实例间的数据迁移
使用数据传输DTS可以实现两个RDS实例间的数据迁移.对于支持增量迁移的存储引擎,还可以使用DTS在源RDS实例不停服的情况下,将数据迁移到目标RDS实例.目前对于RDS不同存储引擎,只支持同构迁移( ...
Hadoop基础之初识大数据与Hadoop
前言从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
关于Hadoop结合RDBMS应用的一些思考
最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习.安装配置优化以及一些框架结构的设计.在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下. ...
hadoop集群间的hdfs文件拷贝
1.背景部门有个需求,在网络互通的情况下,把现有的hadoop集群(未做Kerberos认证,集群名为:bd-stg-hadoop)的一些hdfs文件拷贝到新的hadoop集群(做了Kerberos ...
PHP+Hadoop+Hive+Thrift+Mysql实现数据统计分析
原址:http://www.cnblogs.com/wicub/p/6094045.html 安装 Hadoop安装: http://www.powerxing.com/install-hadoo ...
小菜学习Winform（五）窗体间传递数据
前言做项目的时候,winfrom因为没有B/S的缓存机制,窗体间传递数据没有B/S页面传递数据那么方便,今天我们就说下winfrom中窗体传值的几种方式. 共有字段传递共有字段传递实现起来很方便, ...
View与Control间的数据交互
View与Control间的数据交互 1.ViewBag.Name ="Name1" 2.ViewData["VD"] = "view data&qu ...

随机推荐

“全栈2019”Java第七十三章：外部类里多个静态非静态内部类详解
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java第 ...
swift 的基本类型之字符串
一:创建字符串 //字符串的创建有两种 //不可变字符串 let str = "I'm a string" //可变字符串 var string = "I'm a mut ...
now（）的用法
在平时对于数据库操作中,有时候会使用到时间,比如-数据的创建时间/更新时间之类问题,可能是需要查询出时间的结果,也存在大量的需要搜索某个时间点或时间段的操作: MySQL中取本地时间 now() 取本 ...
maven初步了解
目标:创建一个父maven项目,有两个子项目分别为serverCenter,dbConnector. 建议:全程不要导入Jar包,全部使用maven依赖的方式导入包. 1.创建maven项目这个创建 ...
js计算器案例
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>j ...
2016级算法第一次练习赛-C.斐波那契进阶
870 斐波那契进阶题目链接:https://buaacoding.cn/problem/870/index 思路通过读题就可以发现这不是一般的求斐波那契数列,所以用数组存下所有的答案是不现实的. ...
Dynamics CRM 365常用js记录。
var entityname =window.parent.Xrm.Page.data.entity.getEntityName();//获取实体名称 var sampid = window.pare ...
OnClick和OnClientClick
OnClientClick是客户端事件处理方法,一般采用JavaScript来进行处理,也就是直接在IE端运行,一点击就运行 OnClick是服务器端事件处理方法,在服务器端也就是IIS中运行,点击后 ...
使用java配置来构建spring项目
java配置是Spring4.x推荐的配置方式,可以完全代替xml配置,java配置是通过@Configuration和@Bean来实现的.@Configuration声明当前类是一个配置类,相当于S ...
MVC目录规范
入口程序单一入口机制,单一入口指在一个web应用程序中,所有的请求都是指向一个脚本文件,例如我们经常看到某一个网站所有的页面都是index.php??xxxx这样的形式.所有对使用程序的访问都是必须 ...