1.什么是sqoop

clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具


2.版本及其区别

现在分为sqoop1和sqoop2

1)架构图(sqoop1和hadoop2完全不兼容)

  

  

  2)优缺点:

  sqoop1的架构,仅仅使用一个sqoop客户端,sqoop2的架构,引入了sqoop server集中化管理connector,以及rest api,web,UI,并引入权限安全机制。 
  sqoop1优点架构部署简单 
  sqoop1的缺点命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏,安装需要root权限,connector必须符合JDBC模型 
  sqoop2的优点多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写。 
  sqoop2的缺点,架构稍复杂,配置部署更繁琐。


sqoop服务器端存在着个connector,每个connector既可以充当FORM也可以充当TO,由connector组成link,再由FROM link和TO link组成一个JOB

sqoop的底层实现是MR

sqoop客户端有shell、rest API和java APIs三种方式。rest API是基于TOMCAT服务器的。

三个组件的唯一标示符是 ID。


3.编译

  sqoop2虽然部署繁琐了,但是必须是趋势。

  官网上提供了binary包和源码包,

  

  (我比较疑惑的是binary包中有pom.xml,也就是说可以编译,当然编译出来的就是这样一个binary;源码包不挂src字样)

  下载sqoop-1.99.4.tar.gz,以及依赖的maven等。在README.txt中有编译指示:mvn package -Pbinary -Dhadoop.profile=100;

  sqoop2已经对hadoop的版本支持的很好,支持hadoop1和hadoop2,不过编译的时候要指定,所以命令应该为:

  mvn package -Pbinary -Dhadoop.profile=200 -DskipTests(我习惯性的跳过测试阶段)

  1.99.4已经没有了1.99.3中maven插件版本的bug,不过要更改JDK,使它和自己环境的JDK版本一致;

  在包中的pom.xml中,默认是1.6,我的环境中JDK是1.7,则改为1.7

  

  在编译的过程中总是卡在一个生成tomcat包中的地方

  

  始终过不去,更改网络不行,而且本身这个链接就可以连接到,所以应该一个BUG或者自己的某些原因

  我的解决办法是自己下载对应版本然后手动改名称后放到dist/target包下面就可以了

  


4.安装  

  安装还是比较简单的,而且docs中已经给了官方步骤以及要求(最大的要求就是HADOOP)

  1).下载解压

  ... ...

  2).修改安装目录下的server/conf中的sqoop.properties,在132行把hadoop配置文件路径替换成自己的

  

  3).修改安装目录下的server/conf中的catalina.properties,把属性common.loader值修改成自己的目录

  (我把sqoop目录下中server/lib/的jar包也包含进去了,官网没让包含,但是不包含后面会出问题)

  4).把JDBC的驱动拷到${SQOOP_HOME}/lib/目录下(默认没有lib文件夹,自己创建,官网说了)

  

  5).把sqoop加入环境变量

  ... ...

  6).启动:sqoop2-server start
     停止:sqoop2-server stop

  (默认sqoop中bin目录下的脚步无执行权限的,要先给权限。官网也没说-_-!)

  

  

  7).进入shell:sqoop2 shell

  

  8).测试

   

  

  9).实例

  HDFS上建立文件,MySQL中建表

  

  

  建立Link

  

  

  建立 job

  

  执行 job

  

  过一会儿就可以查看结果了,可以使用 status job -j 1 来查看进度

  

  

  结果:

  

  

  


自己在编译的时候总是卡在生成tomcat的步骤上,浪费了不少时间,不过也带了一些好处,就是让我把doc一个单词一个单词的看完了,颇有收获

不过这个doc的缺点是没有给出比如利用sqoop在MySQL和hive之间传递数据的帮助文档和实例。没有这些实例就需要自己去摸索和百度谷歌了。

还有一点就是Apache的老毛病,doc的更新慢,也可以说是doc有错,而且不止一处,比如:

这是给出的更新Link的官方文档里面的解释,但实际中:

缩写好像在1.99.3中是 -x,但是1.99.4是 -l 。


MD,其实我最初的目的是把hive中的数据通过sqoop导出到mysql中,供查询使用,看了好几遍API以及看遍了亲爱的百度的文章,都没有能实现目的的方法

只有Google的时候才看到老外遇到同样的问题,认同了心里面不想认同的事实:sqoop2只支持传统数据库到HDFS之间的传输。没有hive和hbase!!

现在也明白了为什么sqoop在Apache官网上同时存在1.4.5和1.99.4两个版本的下载和文档。

看到 not feature complete ,想哭的心都有了。

采纳的答案是:

看来问题老外采纳了换回sqoop1的方案。不过使用sqoop2仍有方法

不过可以看到,是 less efficient 的,总归可以实现。

而 hive 将数据导出的方法有三种:http://blog.csdn.net/fuyangchang/article/details/5301839

分别是导出到另一张表中,导出到本地系统,导出到HDFS。对,到HDFS上中转一下... ...

导出到HDFS:
  hive> insert overwrite directory '/admln/sqoop2'
        > select * from test;

还有一个值得注意的知识点是:JDBC链接的是数据库中的表;HDFS是基于目录的。



sqoop1.99.4安装与简介的更多相关文章

  1. Hadoop2.2.0环境下Sqoop1.99.3安装

    本文转载自http://blog.csdn.net/liuwenbo0920/article/details/40504045 1.安装准备工作: 已经装好的hadoop环境是hadoop 2.2.0 ...

  2. [sqoop1.99.7] sqoop入门-下载、安装、运行和常用命令

    一.简介 Apache Sqoop is a tool designed for efficiently transferring data betweeen structured, semi-str ...

  3. hadoop 2.6.0上安装sqoop-1.99.6-bin-hadoop200

    第一步:下载sqoop-1.99.6-bin-hadoop200.tar.gz  地址:http://www.eu.apache.org/dist/sqoop/1.99.6/ 第二步:将下载好的sqo ...

  4. Sqoop 1.99.4 安装

    1.安装准备工作:已经装好的 hadoop 环境是 hadoop-2.5.1 64位下载的sqoop安装包(注意是hadoop200)http://www.us.apache.org/dist/sqo ...

  5. sqoop1.9.7安装和使用

    安装1.下载sqoop1.9.7.地址: http://www.apache.org/dyn/closer.lua/sqoop/1.99.72.解压sqoop ,并配置环境变量 ~/.bash_pro ...

  6. Sqoop 1.99.6 安装和使用

        安装   1.安装准备工作:   下载的sqoop安装包 http://mirrors.hust.edu.cn/apache/sqoop/1.99.6/sqoop-1.99.6.tar.gz ...

  7. [sqoop1.99.7] sqoop实例——数据ETL

    一.创建一个mysql的link MySQL链接使用的是JDBC,必须有对应的驱动文件jar,还得有对应的访问权限,请确保能在server端访问MySQL.确保mysql的jar包已经导入到${SQO ...

  8. InfluxDB学习之InfluxDB的安装和简介

    最近用到了 InfluxDB,在此记录下学习过程,同时也希望能够帮助到其他学习的同学. 本文主要介绍InfluxDB的功能特点以及influxDB的安装过程.更多InfluxDB详细教程请看:Infl ...

  9. sqoop1.99.4 JAVA API操作

    貌似天国还没有介绍1.99.4的java操作代码的,自己吃一次螃蟹吧 如果你是MAVEN项目 <dependency> <groupId>org.apache.sqoop< ...

随机推荐

  1. C#获取文件的绝对路径

    要在c#中获取路径有好多方法,一般常用的有以下五种: //获取应用程序的当前工作目录. String path1 = System.IO.Directory.GetCurrentDirectory() ...

  2. Spark生态系统BDAS

    目前,Spark已经发展成为包含众多子项目的大数据计算平台. 伯克利将Spark的整个生态系统称为伯克利数据分析栈(BDAS). 其核心框架是Spark,同时BDAS涵盖支持结构化数据SQL查询与分析 ...

  3. KMP(http://acm.hdu.edu.cn/showproblem.php?pid=1711)

    http://acm.hdu.edu.cn/showproblem.php?pid=1711 #include<stdio.h> #include<math.h> #inclu ...

  4. TPARAMS和OLEVARIANT相互转换

    所谓的“真3层”有时候是需要客户端上传数据集的TPARAMS到中间件的. 现在,高版本的DATASNAP的远程方法其实也是直接可以传输TPARAMS类型的变量,但是DELPHI7(七爷).六爷它们是不 ...

  5. python svn

    svn 0.3.36 Downloads ↓ Intuitive Subversion wrapper. Introduction svn is a simple Subversion library ...

  6. 结构类模式(七):代理(Proxy)

    定义 为其他对象提供一种代理以控制对这个对象的访问. 代理模式也叫做委托模式,它是一项基本设计技巧.许多其他的模式,如状态模式.策略模式.访问者模式本质上是在更特殊的场合采用了委托模式,而且在日常的应 ...

  7. [OAuth2 & OpenID] 1.OAuth2授权

    1 OAuth2解决什么问题的? 举个栗子先.小明在QQ空间积攒了多年的照片,想挑选一些照片来打印出来.然后小明在找到一家提供在线打印并且包邮的网站(我们叫它PP吧(Print Photo缩写

  8. 【ToolGood.Words】之【StringSearch】字符串搜索——基于BFS算法

    字符串搜索中,BFS算法很巧妙,个人认为BFS算法效率是最高的. [StringSearch]就是根据BFS算法并优化. 使用方法: string s = "中国|国人|zg人|fuck|a ...

  9. 【原创】省市二级联动纯javascript

    // 北京 上海 天津 重庆 河北 山西 内蒙古 辽宁 吉林 黑龙江 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 宁夏 青海 新疆 香港 ...

  10. Programming pages of Jasper Neumann

    http://programming.sirrida.de/ Discussion topics Bit permutations Download source files List of func ...