1.什么是sqoop

clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具


2.版本及其区别

现在分为sqoop1和sqoop2

1)架构图(sqoop1和hadoop2完全不兼容)

  

  

  2)优缺点:

  sqoop1的架构,仅仅使用一个sqoop客户端,sqoop2的架构,引入了sqoop server集中化管理connector,以及rest api,web,UI,并引入权限安全机制。 
  sqoop1优点架构部署简单 
  sqoop1的缺点命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏,安装需要root权限,connector必须符合JDBC模型 
  sqoop2的优点多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写。 
  sqoop2的缺点,架构稍复杂,配置部署更繁琐。


sqoop服务器端存在着个connector,每个connector既可以充当FORM也可以充当TO,由connector组成link,再由FROM link和TO link组成一个JOB

sqoop的底层实现是MR

sqoop客户端有shell、rest API和java APIs三种方式。rest API是基于TOMCAT服务器的。

三个组件的唯一标示符是 ID。


3.编译

  sqoop2虽然部署繁琐了,但是必须是趋势。

  官网上提供了binary包和源码包,

  

  (我比较疑惑的是binary包中有pom.xml,也就是说可以编译,当然编译出来的就是这样一个binary;源码包不挂src字样)

  下载sqoop-1.99.4.tar.gz,以及依赖的maven等。在README.txt中有编译指示:mvn package -Pbinary -Dhadoop.profile=100;

  sqoop2已经对hadoop的版本支持的很好,支持hadoop1和hadoop2,不过编译的时候要指定,所以命令应该为:

  mvn package -Pbinary -Dhadoop.profile=200 -DskipTests(我习惯性的跳过测试阶段)

  1.99.4已经没有了1.99.3中maven插件版本的bug,不过要更改JDK,使它和自己环境的JDK版本一致;

  在包中的pom.xml中,默认是1.6,我的环境中JDK是1.7,则改为1.7

  

  在编译的过程中总是卡在一个生成tomcat包中的地方

  

  始终过不去,更改网络不行,而且本身这个链接就可以连接到,所以应该一个BUG或者自己的某些原因

  我的解决办法是自己下载对应版本然后手动改名称后放到dist/target包下面就可以了

  


4.安装  

  安装还是比较简单的,而且docs中已经给了官方步骤以及要求(最大的要求就是HADOOP)

  1).下载解压

  ... ...

  2).修改安装目录下的server/conf中的sqoop.properties,在132行把hadoop配置文件路径替换成自己的

  

  3).修改安装目录下的server/conf中的catalina.properties,把属性common.loader值修改成自己的目录

  (我把sqoop目录下中server/lib/的jar包也包含进去了,官网没让包含,但是不包含后面会出问题)

  4).把JDBC的驱动拷到${SQOOP_HOME}/lib/目录下(默认没有lib文件夹,自己创建,官网说了)

  

  5).把sqoop加入环境变量

  ... ...

  6).启动:sqoop2-server start
     停止:sqoop2-server stop

  (默认sqoop中bin目录下的脚步无执行权限的,要先给权限。官网也没说-_-!)

  

  

  7).进入shell:sqoop2 shell

  

  8).测试

   

  

  9).实例

  HDFS上建立文件,MySQL中建表

  

  

  建立Link

  

  

  建立 job

  

  执行 job

  

  过一会儿就可以查看结果了,可以使用 status job -j 1 来查看进度

  

  

  结果:

  

  

  


自己在编译的时候总是卡在生成tomcat的步骤上,浪费了不少时间,不过也带了一些好处,就是让我把doc一个单词一个单词的看完了,颇有收获

不过这个doc的缺点是没有给出比如利用sqoop在MySQL和hive之间传递数据的帮助文档和实例。没有这些实例就需要自己去摸索和百度谷歌了。

还有一点就是Apache的老毛病,doc的更新慢,也可以说是doc有错,而且不止一处,比如:

这是给出的更新Link的官方文档里面的解释,但实际中:

缩写好像在1.99.3中是 -x,但是1.99.4是 -l 。


MD,其实我最初的目的是把hive中的数据通过sqoop导出到mysql中,供查询使用,看了好几遍API以及看遍了亲爱的百度的文章,都没有能实现目的的方法

只有Google的时候才看到老外遇到同样的问题,认同了心里面不想认同的事实:sqoop2只支持传统数据库到HDFS之间的传输。没有hive和hbase!!

现在也明白了为什么sqoop在Apache官网上同时存在1.4.5和1.99.4两个版本的下载和文档。

看到 not feature complete ,想哭的心都有了。

采纳的答案是:

看来问题老外采纳了换回sqoop1的方案。不过使用sqoop2仍有方法

不过可以看到,是 less efficient 的,总归可以实现。

而 hive 将数据导出的方法有三种:http://blog.csdn.net/fuyangchang/article/details/5301839

分别是导出到另一张表中,导出到本地系统,导出到HDFS。对,到HDFS上中转一下... ...

导出到HDFS:
  hive> insert overwrite directory '/admln/sqoop2'
        > select * from test;

还有一个值得注意的知识点是:JDBC链接的是数据库中的表;HDFS是基于目录的。



sqoop1.99.4安装与简介的更多相关文章

  1. Hadoop2.2.0环境下Sqoop1.99.3安装

    本文转载自http://blog.csdn.net/liuwenbo0920/article/details/40504045 1.安装准备工作: 已经装好的hadoop环境是hadoop 2.2.0 ...

  2. [sqoop1.99.7] sqoop入门-下载、安装、运行和常用命令

    一.简介 Apache Sqoop is a tool designed for efficiently transferring data betweeen structured, semi-str ...

  3. hadoop 2.6.0上安装sqoop-1.99.6-bin-hadoop200

    第一步:下载sqoop-1.99.6-bin-hadoop200.tar.gz  地址:http://www.eu.apache.org/dist/sqoop/1.99.6/ 第二步:将下载好的sqo ...

  4. Sqoop 1.99.4 安装

    1.安装准备工作:已经装好的 hadoop 环境是 hadoop-2.5.1 64位下载的sqoop安装包(注意是hadoop200)http://www.us.apache.org/dist/sqo ...

  5. sqoop1.9.7安装和使用

    安装1.下载sqoop1.9.7.地址: http://www.apache.org/dyn/closer.lua/sqoop/1.99.72.解压sqoop ,并配置环境变量 ~/.bash_pro ...

  6. Sqoop 1.99.6 安装和使用

        安装   1.安装准备工作:   下载的sqoop安装包 http://mirrors.hust.edu.cn/apache/sqoop/1.99.6/sqoop-1.99.6.tar.gz ...

  7. [sqoop1.99.7] sqoop实例——数据ETL

    一.创建一个mysql的link MySQL链接使用的是JDBC,必须有对应的驱动文件jar,还得有对应的访问权限,请确保能在server端访问MySQL.确保mysql的jar包已经导入到${SQO ...

  8. InfluxDB学习之InfluxDB的安装和简介

    最近用到了 InfluxDB,在此记录下学习过程,同时也希望能够帮助到其他学习的同学. 本文主要介绍InfluxDB的功能特点以及influxDB的安装过程.更多InfluxDB详细教程请看:Infl ...

  9. sqoop1.99.4 JAVA API操作

    貌似天国还没有介绍1.99.4的java操作代码的,自己吃一次螃蟹吧 如果你是MAVEN项目 <dependency> <groupId>org.apache.sqoop< ...

随机推荐

  1. OperateParticleWithCodes

    [OperateParticleWithCodes] Listing 6-6 shows how you might configure an emitter’s scale property. Th ...

  2. Java断言assert

    public class Welcome{ public static void main(String[] args){ assert false; System.out.println(" ...

  3. Python流程控制语句(Control Flow)

    Python用于流程控制的语句包括if,for,while,这些都是从C语言借鉴过来的,然后我们会提到pass语句. 1,if if的语法很简答,我们举一个例子就好,注意关键字if, elif, el ...

  4. 汇编语言程序入门实验一:在dos下对用户输入作出应答

    汇编语言程序入门实验一:在dos下对用户输入作出应答 1,背景 成功预言了今天要上计算机操作系统上机实验课,昨天预习后,今天的两个上机实验做得很成功.但是也有一些问题.问题1:学校的系统目前是wind ...

  5. 浏览器判断及IE版本区分

    备注:在火狐下和IE下,js的执行不一致,很多语句结果不一致,其他浏览器也可能,注意验证,多用if else包括window.onload: ①只用来区分IE和非IE内核的浏览器,由于只有IE支持Ac ...

  6. 【转】Android-Universal-Image-Loader 图片异步加载类库的使用(超详细配置)

    Android-Universal-Image-Loader 原文地址:http://blog.csdn.net/vipzjyno1/article/details/23206387 这个图片异步加载 ...

  7. Array--Good parts

    js数组没有上届 --如果你用大于或等于当前length的数字作为下标来存储一个元素,那么length会被增大以容纳新元素,不会发生数组越界. 数组也是对象 --可以添加属性.a["name ...

  8. Mac OS X取消Apache(httpd)开机启动

    安装MAMP后,启动服务时提示Apache启动失败,80端口被占用.查看进程发现存在几个httpd. OS X自带Apache,可是默认是没有启动的.我也没有开启Web共享,怎么就开机启动了呢? 不知 ...

  9. Beyond Compare3 添加到右键菜单

    Beyond Compare 是个优秀的工具,我们经常用于对比文件和文件夹,右键点点就可以调用对比,着实很方便.但从3.2版本之前,我们可以从设置中将bc关联到文件夹和文件右键,但之后的版本已经找不到 ...

  10. sc7731 Android 5.1 LCD驱动简明笔记之一

    基于展讯sc7731 - Android 5.1 代码分析浏览.将屏蔽细节,把握整体,并且不涉及其他设备和LCD的交互. 以下对sc7731 lcd大体流程进行简要说明. 第一,lcd 的两个阶段 1 ...