Sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库(例如：mysql,oracle,等)中的数据导入到hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

1.简介

首先切换到到hadoop用户：su - hadoop

温馨提示：oracle的所有表名列名都要大写！！！

下面的代码，在命令行输入的时候，可能要写成一行

比如第一条需要写成：

sqoop export --table Oracle_table_name --connect jdbc:oracle:thin:@ip:1521:数据库名 --username 用户名 --password 密码 --export-dir hdfs:/user/hive/warehouse/XXX --columns COLUMN1,2,3 --input-fields-terminated-by '\001' --input-lines-terminated-by '\n'

1.导hive表到Oracle

sqoop export

--table Oracle_table_name

--connect jdbc:oracle:thin:@ip:1521:数据库名

--username 用户名

--password 密码

--export-dir hdfs:/user/hive/warehouse/XXX

--columns COLUMN1,2,3,

--input-fields-terminated-by '\001'  #或者其他分隔符，比如逗号等

--input-lines-terminated-by '\n'

注意：导hive表是“\001”

–解释:

sqoop export

–table Oracle_table_name（// 数据库Oracle的表名）

–connect jdbc:oracle:thin:@ip:1521:数据库名

（//数据库的地址，其中1521为端口号，默认都为1521，ibd为数据库实例名）

–username用户名（//数据库用户名）

–password用户名（//数据库密码）

–export-dir hdfs:/user/hive/warehouse/XXX

（//hdfs上Hive表的绝对路径）

–columns column1, column2…

(//数据库表的所有列名)

–input-fields-terminated-by ‘\001’（列分隔符）

–input-lines-terminated-by ‘\n’ （行分隔符）

2. 查询数据导入到Oracle的数据是否成功

sqoop eval

--connect jdbc:oracle:thin:@YOUR-IP-ADDRESS:1521:database-name

--username XXX

--password XXX

--query "select * from table_name"

3.导Oracle表到hive表

sqoop import

--connect jdbc:oracle:thin:@YOUR-IP-ADDRESS:1521:database-name

--username xxx

--password xxx

--table TABLE_NAME

--columns COLUMN1,2,3...

--hive-import

--hive-table  hive_table_name

-m 1

—解释:

TABLE_NAME为oracle表名(切忌：Oracle个表名在命令中必须是大写，不然会报错)

hive_test为hive表名（hive中的这个表可以不用提前建，只用给表名即可，导成功后列名和Oracle表的列名相同）

4. 连接oracle数据库，列出数据库中的表

sqoop list-tables

--connect jdbc:oracle:thin:@YOUR-IP-ADDRESS:1521:database-name

--username xxx

--password xxx

5.从数据库导出表的数据到HDFS文件(这个比较实用)

sqoop import

--connect jdbc:oracle:thin:@YOUR-IP-ADDRESS:1521:database-name

--username xxx

--password xxx

--table DD

--m 1

--target-dir /home/dpt

解释：

DD为oracle表名(切忌：Oracle表名在命令中必须是大写，不然会报错)；

/home/dpt为目的目录，如果没有这个目录则会在hdfs上自动创建这个目录.

导成功后可以用命令查看：

hadoop fs -text /home/dpt/part-m-00000

6.分区表的导入

通过sqoop将hive中的表导入到oracle中

sqoop export

--table t_amap_all

--connect jdbc:oracle:thin:@YOUR-IP-ADDRESS:1521:database-name

--username xxx

--password xxx

--export-dir  hdfs://user/hive/warehouse/

--columns 1,2,3...

--input-fields-terminated-by '\t'

--input-lines-terminated-by '\n';

导入分区表需要指定到具体分区目录，不然会找不到数据，在oracle表中能指定分区这个字段！

分隔符要遵循hive表的具体分隔符

导致任务失败有可能是表名不一致，字段不一致，oracle中的字段大小不够

2.可能遇到的问题

连接oracle数据库，列出数据库中的表时

sqoop list-tables

--connect jdbc:oracle:thin:@YOUR-IP-ADDRESS:1521:database-name

--username xxx

--password xxx

报错：

16/01/28 09:27:15 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: oracle.jdbc.OracleDriver

则

1)发现sqoop的安装目录 /usr/lib/sqoop/lib中缺ojdbc驱动包,然后将驱动包（ojdbc6-11.2.0.1.0.jar）复制到your-ip的sqoop安装目录就可以了：

scp ./ojdbc6-11.2.0.1.0.jar root@your-ip:/usr/lib/sqoop/lib

参考链接

1.下载链接：

https://github.com/apache/sqoop

2.官方文档：

http://sqoop.apache.org/docs/1.4.6/SqoopUserGuide.html#_introduction

3.官网：

http://sqoop.apache.org/

Sqoop 数据导入导出实践的更多相关文章

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具
Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS.Hive.HBase)与传统关系数据库(MySql.Oracle等)间进行数据传递工作.Sqoop最早是作为Hadoop的一个第三 ...
如何利用sqoop将hive数据导入导出数据到mysql
运行环境 centos 5.6 hadoop hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具. 上海尚学堂 ...
利用sqoop将hive数据导入导出数据到mysql
一.导入导出数据库常用命令语句 1)列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://localhost:3306 ...
从零自学Hadoop(16)：Hive数据导入导出，集群数据迁移上
阅读目录序导入文件到Hive 将其他表的查询结果导入表动态分区插入将SQL语句的值插入到表中模拟数据文件下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并 ...
Winform开发框架之通用数据导入导出操作的事务性操作完善
1.通用数据导入导出操作模块回顾在我的Winfrom开发框架里面,有一个通用的导入模块,它在默默处理这把规范的Excel数据导入到不同的对象表里面,一直用它来快速完成数据导入的工作.很早在随笔< ...
SQL Server数据导入导出的几种方法
在涉及到SQL Server编程或是管理时一定会用到数据的导入与导出, 导入导出的方法有多种,结合我在做项目时的经历做一下汇总: 1. SQL Server导入导出向导,这种方式是最方便的. 导入向导 ...
通过 Sqoop1.4.7 将 Mysql5.7、Hive2.3.4、Hbase1.4.9 之间的数据导入导出
目录目录 1.什么是 Sqoop? 2.下载应用程序及配置环境变量 2.1.下载 Sqoop 1.4.7 2.2.设置环境变量 2.3.设置安装所需环境 3.安装 Sqoop 1.4.7 3.1.修 ...
HData——ETL 数据导入/导出工具
HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC.Hive.HDFS.HBase.MongoDB.FTP.Http.CSV.Excel.Kafka等)之间数据 ...
hive之数据导入导出
hive数据导入导出一.导入数据4种方式建表语句 create table test( name string, friends array, children map<string, in ...

随机推荐

Failed to initialize component [Connector[HTTP/1.1-8086]]
严重: Failed to initialize end point associated with ProtocolHandler ["http-apr-8086"] java. ...
Qt之滚动字幕
简述滚动字幕,也就是传说中的跑马灯效果. 简单地理解就是:每隔一段时间(一般几百毫秒效果较佳)显示的文字进行变化(即滚动效果). 简述实现效果源码实现利用定时器QTimer,在固定的时间 ...
iOS6和iOS7处理push不同之处，解决反复push，-(void) application: didReceiveRemoteNotification: fetchCompletionHandl
如果读者已经知道push的基本知识,本文仅仅是解决一些适配,兼容问题.如果对push 不甚了解,參考以下的文章 1.[iOS push全方位解析](一) push的概述 2.[iOS push全方位解 ...
pydev 安装
pydev断断续续空余时间安装了好几天,终于安装上了,需要注意的几点有, 1.插件地址 http://update-production-pydev.s3.amazonaws.com/pydev/up ...
51nod-1296: 有限制的排列
[传送门:51nod-1296] 简要题意: 有一个集合,集合中的数为1到n 给出a限制条件,a[i]表示第a[i]位置的数要比相邻位置的数要小给出b限制条件,b[i]表示第b[i]位置的数要比相邻 ...
spark pipeline 例子
""" Pipeline Example. """ # $example on$ from pyspark.ml import Pipeli ...
hdoj--5256--序列变换(lis变形)
序列变换 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submi ...
7. 关于IntelliJ IDEA删除项目
转自:https://www.cnblogs.com/zhangqian27/p/7698148.html 刚开始使用IDEA . 自己创建项目玩,结果发现IDEA无法删除,我也是醉了,Eclipse ...
uwsgi和wsgi
一个Web应用的本质就是: 浏览器发送一个HTTP请求: 服务器收到请求,生成一个HTML文档: 服务器把HTML文档作为HTTP响应的Body发送给浏览器: 浏览器收到HTTP响应,从HTTP Bo ...
SSRS 报表日期类表达式
一.如何填写表达式右键点击单元格-表达式二.表达式当月1号 =DateSerial(DatePart("yyyy",Now()), DatePart("m" ...

Sqoop 数据导入导出实践