Hadoop业务的大致开发流程以及Sqoop在业务中的地位:


Sqoop概念

Sqoop可以理解为【SQL–to–Hadoop】,正如名字所示,Sqoop是一个用来将关系型数据库和Hadoop中的数据进行相互转移的工具。它可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。


Sqoop版本对比

Sqoop1和Sqoop2对比:

  • 两个版本,完全不兼容,Sqoop1几乎无法平滑升级到Sqoop2
  • 版本号划分区别
  • Apache版本:1.4.x(Sqoop1); 1.99.x(Sqoop2)
  • CDH版本 : Sqoop-1.4.3-cdh4(Sqoop1) ; Sqoop2-1.99.2-cdh4.5.0 (Sqoop2)
  • Sqoop2 相对 Sqoop1的改进
  • 引入Sqoop server,集中化管理connector等
  • 访问方式多样化:CLI(command-line interface,命令行界面),Web UI,REST API
  • 引入基于角色的安全机制

在架构上,sqoop2引入了sqoop server(具体服务器为tomcat),对connector实现了集中的管理。其访问方式也变得多样化了,其可以通过REST API、JAVA API、WEB UI以及CLI控制台方式进行访问。

另外,其在安全性能方面也有一定的改善,在sqoop1中我们经常用脚本的方式将HDFS中的数据导入到mysql中,或者反过来将mysql数据导入到HDFS中,其中在脚本里边都要显示指定mysql数据库的用户名和密码的,安全性做的不是太完善。在sqoop2中,如果是通过CLI方式访问的话,会有一个交互过程界面,你输入的密码信息不被看到。


Sqoop架构对比




安装部署

移步sqoop官网:http://sqoop.apache.org/



我们可以看到现在的稳定版本是1.4.6,1.99.7与1.4.6不兼容,并且1.99.7不适用于生产部署。所以我们下载1.4.6版本。

1、下载

下载地址:http://www-eu.apache.org/dist/sqoop/1.4.6/

下载 sqoop-1.4.6.bin__hadoop-1.0.0.tar.gz

2、解压安装

tar -zxvf sqoop-1.4.6.bin__hadoop-1.0.0.tar.gz -C /data
cd /data
mv sqoop-1.4.6.bin__hadoop-1.0.0/ sqoop1
chmod -R 775 /data/sqoop1
chown -R hadoop:hadoop /data/sqoop1

3、配置环境变量

vim /etc/profile

export SQOOP_HOME=/data/sqoop1
export PATH=$PATH:$SQOOP_HOME/bin source /etc/profile

4、其他配置

(1)下载mysql驱动包,mysql-connector-java-5.1.40-bin.jar,把jar包丢到到$SQOOP_HOME/lib下面

(2)接下来修改sqoop的配置文件

cd /data/sqoop1/conf
cp sqoop-env-template.sh sqoop-env.sh vim sqoop-env.sh # 指定各环境变量的实际配置
# Set Hadoop-specific environment variables here. #Set path to where bin/hadoop is available
#export HADOOP_COMMON_HOME= #Set path to where hadoop-*-core.jar is available
#export HADOOP_MAPRED_HOME= #set the path to where bin/hbase is available
#export HBASE_HOME= #Set the path to where bin/hive is available
#export HIVE_HOME=

5、验证是否成功

# 列出所有数据库
sqoop list-databases --connect jdbc:mysql://ip:port --username username --password pwd # 列出数据库所有表
sqoop list-tables --connect jdbc:mysql://ip:port/dbname --username username --password pwd

链接相关

大数据进阶计划

http://wangxin123.com/2017/02/18/大数据进阶计划/

Sqoop下载地址

http://www-eu.apache.org/dist/sqoop/1.4.6/

Sqoop v1.4.6 文档

http://sqoop.apache.org/docs/1.4.6/index.html

Sqoop简介及安装的更多相关文章

  1. Sqoop 简介与安装

    一.Sqoop 简介 Sqoop是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从MySQL,Oracle等关系型数据库中导入数据到HDFS.Hive.HBase ...

  2. 入门大数据---Sqoop简介与安装

    一.Sqoop 简介 Sqoop 是一个常用的数据迁移工具,主要用于在不同存储系统之间实现数据的导入与导出: 导入数据:从 MySQL,Oracle 等关系型数据库中导入数据到 HDFS.Hive.H ...

  3. Sqoop介绍、安装与操作

    搭建环境 部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放 Hadoop等组件运行包.因为该目录用于安装hadoo ...

  4. java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式

    Hadoop简介和安装及伪分布式 大数据概念 大数据概论 大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...

  5. Node.js 教程 01 - 简介、安装及配置

    系列目录: Node.js 教程 01 - 简介.安装及配置 Node.js 教程 02 - 经典的Hello World Node.js 教程 03 - 创建HTTP服务器 Node.js 教程 0 ...

  6. Java Gradle入门指南之简介、安装与任务管理

        这是一篇Java Gradle入门级的随笔,主要介绍Gradle的安装与基本语法,这些内容是理解和创建build.gradle的基础,关于Gradle各种插件的使用将会在其他随笔中介绍.    ...

  7. 细细品味Storm_Storm简介及安装

    Storm是由专业数据分析公司BackType开发的一个分布式实时数据处理软件,可以简单.高效.可靠地处理大量的数据流.Twitter在2011年7月收购该公司,并于2011年9月底正式将Storm项 ...

  8. VMware vSphere 5.1 简介与安装

    虚拟化系列-VMware vSphere 5.1 简介与安装  标签: 虚拟化 esxi5.1 VMware vSphere 5.1 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 . ...

  9. Nutch搜索引擎(第2期)_ Solr简介及安装

    1.Solr简介 Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器.同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展并对查询性能进行了优化 ...

随机推荐

  1. jmeter 使用jmeter 录制web脚本

    1.打开jmeter.鼠标右击工作台.添加HTTP代理服务器 2.设置端口号.目标控制器.分组 3.添加查看结果树 4.点击启动.确定完成 5.打开浏览器直接进行操作.就可以看到所录制的脚本信息

  2. .Net Core MVC 过滤器(一)

    1.过滤器   过滤器运行在MVC Action Invocation Pipeline(MVC Action 请求管道),我们称它为Filter Pipleline(过滤器管道),Filter Pi ...

  3. STM32F0的flash读写

    flash大小64k Rom+8k Ram的大小,stm32f051有64k Rom,总的分为 64页,一页1024byte ,在flash的Rom里面写数据掉电保存,相当于W25q80 uint32 ...

  4. configure: error: Cannot find php-config. Please use --with-php-config=PATH 错误的解决方案

    一般出现这个错误说明你执行 ./configure 时  --with-php-config 这个参数配置路径错误导致的. 修改为: ./configure --with-php-config=/us ...

  5. JVM 方法调用之动态分派

    1. 动态分派 一个体现是重写(override).下面的代码,运行结果很明显. public class App { public static void main(String[] args) { ...

  6. mac地址学习笔记

    MAC(Media Access Control或者Medium Access Control)地址, 意译为媒体访问控制,或称为物理地址.硬件地址,用来定义网络设备的位置. 在OSI模型中,第三层网 ...

  7. Python批量修改文件名与后缀

    引言: 有时因为文件版本的更新,后缀名会发生变化,例如Word13的docx到Word16的doc,又例如我们想修改音频文件的后缀.一个一个修改后缀名往往很麻烦,于是我们便可以写一个Python的脚本 ...

  8. 分针网——每日分享: jquery选择器的用法

    jQuery选择器是jQuery库的一大特色,用这些选择器不但可以省去繁琐的JavaScript 书写方式,还可以节省时间和效率,正是有这些jQuery选择器,才让我们更容易的操作JavaScript ...

  9. 我是这样发现ISP劫持HTTP请求的

    编者按:Fundebug的客户通过分析我们提供的报警信息,定位了一个非常棘手的问题—ISP劫持http请求.他的分析过程非常有意思,同时也提醒我们,应该及时支持HTTPS来保证站点安全. 原文: IS ...

  10. poj 1056 IMMEDIATE DECODABILITY 字典树

    题目链接:http://poj.org/problem?id=1056 思路: 字典树的简单应用,就是判断当前所有的单词中有木有一个是另一个的前缀,直接套用模板再在Tire定义中加一个bool类型的变 ...