#Oracle的连接字符串，其中包含了URL，SID，和PORT
URL=jdbc:oracle:thin:@132.232.19.79:10521:szdw

#使用的用户名
USERNAME=szdw
#使用的密码
PASSWORD=szdw
#需要从Oracle中导入的表名
TableNAME=proc_resource_admin
#需要从Oracle中导入的表中的字段名
COLUMNS=AREA_ID,TEAM_NAME
#将Oracle中的数据导入到HDFS后的存放路径
HADFPATH=/home/hadoop/data/proc_resource_admin

#执行导入逻辑。将Oracle中的数据导入到HDFS中
sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HAFSPATH --num-mappers 1 --table $TABLENAME --COLUMNS $columns --fields-terminated-by '\t';

执行这个脚本之后，导入程序就完成了。

接下来，用户可以自己创建外部表，将外部表的路径和HDFS中存放Oracle数据的路径对应上即可。

注意：这个程序导入到HDFS中的数据是文本格式，所以在创建Hive外部表的时候，不需要指定文件的格式为RCFile，而使用默认的TextFile即可。数据间的分隔符为'\t'。如果多次导入同一个表中的数据，数据以append的形式插入到HDFS目录中。

并行导入

假设有这样这个sqoop命令，需要将Oracle中的数据导入到HDFS中：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 1 --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";

请注意，在这个命令中，有一个参数“-m”，代表的含义是使用多少个并行，这个参数的值是1，说明没有开启并行功能。

现在，我们可以将“-m”参数的值调大，使用并行导入的功能，如下面这个命令：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 4 --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";

一般来说，Sqoop就会开启4个进程，同时进行数据的导入操作。

但是，如果从Oracle中导入的表没有主键，那么会出现如下的错误提示：

ERROR tool.ImportTool: Error during import: No primary key could be found for table creater_user.popt_cas_redirect_his. Please specify one with --split-by or perform a sequential import with '-m 1'.

在这种情况下，为了更好的使用Sqoop的并行导入功能，我们就需要从原理上理解Sqoop并行导入的实现机制。

如果需要并行导入的Oracle表的主键是id，并行的数量是4，那么Sqoop首先会执行如下一个查询：

select max(id) as max, select min(id) as min from table [where 如果指定了where子句];

通过这个查询，获取到需要拆分字段（id）的最大值和最小值，假设分别是1和1000。

然后，Sqoop会根据需要并行导入的数量，进行拆分查询，比如上面的这个例子，并行导入将拆分为如下4条SQL同时执行：

select * from table where 0 <= id < 250;

select * from table where 250 <= id < 500;

select * from table where 500 <= id < 750;

select * from table where 750 <= id < 1000;

注意，这个拆分的字段需要是整数。

从上面的例子可以看出，如果需要导入的表没有主键，我们应该如何手动选取一个合适的拆分字段，以及选择合适的并行数。

再举一个实际的例子来说明：

我们要从Oracle中导入creater_user.popt_cas_redirect_his。

这个表没有主键，所以我们需要手动选取一个合适的拆分字段。

首先看看这个表都有哪些字段：

然后，我假设ds_name字段是一个可以选取的拆分字段，然后执行下面的sql去验证我的想法：

select min(ds_name), max(ds_name) from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'

发现结果不理想，min和max的值都是相等的。所以这个字段不合适作为拆分字段。

再测试一下另一个字段：CLIENTIP
select min(CLIENTIP), max(CLIENTIP) from creater_user.popt_cas_redirect_his where data_desc='2011-02-26'

这个结果还是不错的。所以我们使用CLIENTIP字段作为拆分字段。

所以，我们使用如下命令并行导入：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 12 --split-by CLIENTIP --table $TABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26'";

这次执行这个命令，可以看到，消耗的时间为：20mins, 35sec，导入了33,222,896条数据。

另外，如果觉得这种拆分不能很好满足我们的需求，可以同时执行多个Sqoop命令，然后在where的参数后面指定拆分的规则。如：

sqoop import --append --connect $URL --username $USERNAME --password $PASSWORD --target-dir $HDFSPATH --m 1 --table $oTABLENAME --columns $columns --fields-terminated-by '\t' --where "data_desc='2011-02-26' logtime<10:00:00"

从而达到并行导入的目的。

利用SQOOP将ORACLE到HDFS的更多相关文章

sqoop将oracle数据导入hdfs集群
使用sqoop将oracle数据导入hdfs集群集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubati ...
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据
通过Sqoop实现Mysql / Oracle 与HDFS / Hbase互导数据\ 下文将重点说明通过Sqoop实现Mysql与HDFS互导数据,Mysql与Hbase,Oracle与Hbase的互 ...
详解大数据采集引擎之Sqoop&采集oracle数据库中的数据
一.Sqoop的简介: Sqoop是一个数据采集引擎/数据交换引擎,采集关系型数据库(RDBMS)中的数据,主要用于在RDBMS与HDFS/Hive/HBase之间进行数据传递,可以通过sqoop i ...
[Sqoop]利用sqoop对mysql运行DML操作
业务背景利用sqoop对mysql进行查询.加入.删除等操作. 业务实现 select操作: sqoop eval \ --connect jdbc:mysql://127.0.0.1:3306/m ...
利用sqoop对mysql执行DML操作
业务背景利用Sqoop对MySQL进行查询.添加.删除等操作. 业务实现 select操作: sqoop eval \ --connect jdbc:mysql://127.0.0.1:3306/m ...
利用sqoop将hive数据导入导出数据到mysql
一.导入导出数据库常用命令语句 1)列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://localhost:3306 ...
sqoop 从oracle导数据到hive中，date型数据时分秒截断问题
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了 ...
利用Sqoop将MySQL海量测试数据导入HDFS和HBase
声明:作者原创,转载注明出处. 作者:帅气陈吃苹果一.安装Sqoop 1.下载sqoop,解压.文件夹重命名 wget http://mirror.bit.edu.cn/apache/sqoop/1 ...
使用sqoop从Oracle或mysql抽取数据到HDFS遇到的报错及解决
一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-o ...

随机推荐

C++ 通过对象方式、指针方式两种方式去访问成员变量（属性或者方法）
准备 1.在VS中新建一个项目-Viscal C++ ---常规--空项目 2.建立一个.h的头文件定义一个类声明其成员(C#中的属性和方法) #include<iostream> # ...
QT5.7交叉编译安装到arm（好多系列文章）
以下采用的系统为ubuntu16.04,开发板为迅为iTOP4412,4.3寸屏. 下载qt5.7源码qt-everywhere-opensource-src-5.7.0.tar.xz http:// ...
十条常用nmap命令行格式
十条常用nmap命令行格式 ) 获取远程主机的系统类型及开放端口 nmap -sS -P0 -sV -O <target> 这里的 < target > 可以是单一 IP, 或 ...
java参数传递时到底是值传递还是引用传递
java参数传递时到底是值传递还是引用传递(baidu搜集) 问”,很多人的BLOG里都引用这些面试题,最近因为工作内容比较枯燥,也来看看这些试题以调节一下口味,其中有一道题让我很费解. 原题是:当一 ...
POJ (线段相交最短路) The Doors
题意: 一个正方形中有n道竖直的墙,每道墙上开两个门.求从左边中点走到右边中点的最短距离. 分析: 以起点终点和每个门的两个端点建图,如果两个点可以直接相连(即不会被墙挡住),则权值为两点间的欧几里得 ...
Arch 常用工具
一.网络浏览 pacman -S firefox firefox-i18n注:该命令中的前者为 Firefox 主程序,后者为语言包.pacman -S opera 二.图像编辑 pacman -S ...
[Mac][phpMyAdmin] [2002] No such file or directory
我从phpMyAdmin的官网下载了最新版,将它解压到 /Library/WebServer/Documents 下,然后把文件夹改名 phpmyadmin . 接着输入在浏览器中输入 localho ...
【转】【iOS】导航栏那些事儿
原文网址:http://www.jianshu.com/p/f797793d683f 参考文章 navigationItem UINavigationItem UINavigationBar UIBa ...
017QTP 描述性编程的使用方法
一.什么时候使用描述性编程在测试过程中,有些界面元素是动态出现或动态变化的,在录制的时候并没有添加到对象库中二.描述性编程的运行原理用描述性编程编写的测试脚本在运行时,QTP会使用测试脚本中给出 ...
中文Win7下成功安装calabash-android步骤
Calabash-android是支持android的UI自动化测试框架,网上看见很多同学说,安装calabash比较费劲,特别是Windows下安装,也没有一个详细的安装手册可供参考.正好,今天在W ...

利用SQOOP将ORACLE到HDFS

并行导入

利用SQOOP将ORACLE到HDFS的更多相关文章

随机推荐

热门专题