Sqoop迁移Hadoop与RDBMS间的数据
Sqoop是用来实现结构型数据(如:关系型数据库RDBMS)和Hadoop之间进行数据迁移的工具。它充分利用了MapReduce的并行特点以批处理的方式加快数据的传输,
同时也借助MapReduce实现容错。
一、将MySQL中的表迁移到HDFS上(RDBMS —> HDFS)
- 导入MySQL"db_sqoop.mysql_emp表"所有数据到HDFS中;
sqoop import \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--table mysql_emp \
--target-dir /data/hdfs_sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by '\t'--table mysql中目标表;
--target-dir hdfs存放目录;
--delete-target-dir:若hdfs存放目录已存在,则自动删除;
--num-mappers:指定maptask数量;
--fields-terminated-by:各字段间的分隔符; - 将MySQL的查询结果导入HDFS上;
sqoop import \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--target-dir /data/hdfs_sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by '\t' \
--query 'SELECT emp_no,first_name,last_name FROM mysql_emp WHERE gender="M" and $CONDITIONS;'”$CONDITIONS"表示将查询结果带回。
- 使用sqoop的关键字筛选查询后的结果导入到HDFS;
sqoop import \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--table mysql_emp \
--target-dir /data/hdfs_sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by '\t' \
--where "gender='F'" - 从MySQL导入指定’列’到HDFS上;
sqoop import \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--table mysql_emp \
--target-dir /data/hdfs_sqoop \
--delete-target-dir \
--num-mappers 1 \
--fields-terminated-by '\t' \
--columns emp_no,gender,birth_date
二、MySQL ——> Hive (RDBMS ——> HIVE)
- 将MySQL中的表导入Hive中;
sqoop import \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--num-mappers 1 \
--table mysql_emp \
--hive-import \
--hive-table db_hive_sqoop.hive_emp \
--fields-terminated-by '\t' \
--hive-overwrite \
--delete-target-dir
三、MySQL –> Hbase(RDBMS ——> Hbase)
- 将MySQL中的表导入Hbase中;
sqoop import \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--table book \
--columns "id,name,price" \
--column-family "info" \
--hbase-create-table \
--hbase-row-key "id" \
--hbase-table "hbase_book" \
--num-mappers 1 \
--split-by id
四、HDFS/Hive —> MySQL (HDFS/Hive —> RDBMS)
- 在MySQL中创建对应的表,然后使用如下语句;
sqoop export \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--table myqsl_dept \
--num-mappers 1 \
--export-dir /usr/hive/warehouse/db_hive_sqoop.db/hive_dept \
--input-fields-terminated-by '\t'
五、导出MySQL表结构到hive
- 导出MySQL表结构;
sqoop create-hive-table \
--connect jdbc:mysql://hadoopone:3306/db_sqoop \
--username root \
--password root \
--table mysql_stu \
--hive-database db_hive_sqoop \
--hive-table hive_stu
Sqoop迁移Hadoop与RDBMS间的数据的更多相关文章
- Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具
Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS.Hive.HBase)与传统关系数据库(MySql.Oracle等)间进行数据传递工作.Sqoop最早是作为Hadoop的一个第三 ...
- Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、oracle...)间进行数据的传递
http://niuzhenxin.iteye.com/blog/1706203 Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql.postgresql.. ...
- 阿里云 RDS实例间的数据迁移
使用数据传输DTS可以实现两个RDS实例间的数据迁移.对于支持增量迁移的存储引擎,还可以使用DTS在源RDS实例不停服的情况下,将数据迁移到目标RDS实例.目前对于RDS不同存储引擎,只支持同构迁移( ...
- Hadoop基础之初识大数据与Hadoop
前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配 ...
- 关于Hadoop结合RDBMS应用的一些思考
最近一段时间一直在从事和hadoop相关的工作,主要是技术内容学习.安装配置优化以及一些框架结构的设计.在此期间,我对于RDBMS和Hadoop的结合应用有了一些自己的看法,写出来大家共同探讨一下. ...
- hadoop集群间的hdfs文件拷贝
1.背景 部门有个需求,在网络互通的情况下,把现有的hadoop集群(未做Kerberos认证,集群名为:bd-stg-hadoop)的一些hdfs文件拷贝到新的hadoop集群(做了Kerberos ...
- PHP+Hadoop+Hive+Thrift+Mysql实现数据统计分析
原址:http://www.cnblogs.com/wicub/p/6094045.html 安装 Hadoop安装: http://www.powerxing.com/install-hadoo ...
- 小菜学习Winform(五)窗体间传递数据
前言 做项目的时候,winfrom因为没有B/S的缓存机制,窗体间传递数据没有B/S页面传递数据那么方便,今天我们就说下winfrom中窗体传值的几种方式. 共有字段传递 共有字段传递实现起来很方便, ...
- View与Control间的数据交互
View与Control间的数据交互 1.ViewBag.Name ="Name1" 2.ViewData["VD"] = "view data&qu ...
随机推荐
- 【转】ListBox Dock Fill 总是有空隙的问题
源地址:https://www.cnblogs.com/norsd/p/6359291.html ListBox Dock设置了Fill, Right等 设计界面如己所愿,但是实际运行时,底部总是有不 ...
- vm虚拟机安装,配置与使用
百度网盘下载地址: 链接: https://pan.baidu.com/s/1cNn458wUyKNOcAxQ8vEPQg密码: 8vrw 创建虚拟机: 1.创建一个虚拟机: 2.选择标准模式: 3. ...
- Jsp页面跳转和js控制页面跳转的几种方法
Jsp 页面跳转的几种方法 1. RequestDispatcher.forward() 在服务器端起作用,当使用forward()时,Servlet engine传递HTTP请求从当前的Servle ...
- 2016级算法第二次上机-D.Bamboo的饼干
Bamboo的饼干 分析 从两个数组中各取一个数,使两者相加等于给定值.要注意去重和排序 难度不大,方法很多,基本只要不大于O(n^2 ) 的都可以过.本意想考察二分搜索 还可以借助stl中的map, ...
- git.exe 妙用
1.如果 window 上的命令行,在进行编译的不好使 可以尝试在git 中运行 2.运行 python 脚本 ,保持脚本一直执行(尤其是中间出错) 可以做一个 sh 文件,然后在git 中运行 #! ...
- linux 系统管理(三) 系统信息查看 inx
inxi infomation x i (信息每个人都爱) Inxi 最初是为控制台和 IRC(网络中继聊天)开发的一个强大且优秀的命令行系统信息脚本.可以使用它获取用户的硬件和系统信息,它也用于调试 ...
- Apache 配置代理服务
1.根据项目需要,Apache服务下面有2个tomcat 分别指向不同的域名 2.修改 Apache-conf-httpd.conf LoadModule proxy_module modules/m ...
- 批量生成python自动化测试脚本
先前有家供应商与我们合作开发自动化工程,采用的py unittest作为脚本运行框架.我发现他们出的脚本都是挨个手写的,格式上也是参差不齐.所以有了根据用例表批量生成脚本的一段小代码 对一个测试脚本必 ...
- (转)python time模块和datetime模块详解
python time模块和datetime模块详解 原文:http://www.cnblogs.com/tkqasn/p/6001134.html 一.time模块 time模块中时间表现的格式主要 ...
- Android控件之ListView的使用
ListView是Android当中一个非常常用的数据显示控件. 第一种可以使用List<HashMap<String , Object>>,作为适配器的数据源来显示要显示的数 ...