一、 第二阶段课程回顾

hadoop 2.x

  HDFS

  YARN

  MapReduce

  Zookeeper

Hive

二、大数据协作框架

对日志类型的海量数据进行分析

hdfs

mapreduce/hive

1. 数据来源

(1)RDBMS(Oracle、MySQL、DB2...)  ->   sqoop(SQL to Hadoop)

(2)文件(apache,nginx日志数据)  ->   Flume(实时抽取数据)

2. 任务调度

对数据的分析任务Job,至少都是上千(互联网公司)

任务调度:什么时候执行,多长执行一次

某一些业务的分析,需要许多job任务共同完成,相互依赖关系,工作流。

Ooozie

宙斯

3. 监控

统一WEB UI界面管理 Hue

三、业务流程

对数据进行分析

结果集存储:hdfs文件/hive表中

Sqoop=>导出到RDBMS

四、Apache Sqoop

1. Sqoop: SQL-to-Hadoop

2. 连接传统关系型数据库和Hadoop的桥梁

(1)把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中

(2)把数据从Hadoop系统里抽取并导出到关系型数据库里

3. 利用MapReduce加快数据传输速度

批处理方式进行数据传输

将常用的MapReduce(数据导入导出)进行封装,通过传递参数的形式,运行MapReduce任务。

MapReduce任务

Cli

bin/sqoop import ...

4. 以Hadoop为主体,RDBMS为客体

sqoop import

将RDBMS数据放入hadoop中,就是导入,import

sqoop export

将hadoop中的数据放入到RDBMS中,就是导出,export

5. sqoop依赖于hadoop

(1)数据的乙方,存储在hdfs

(2)底层的数据的传输实现MapReduce / YARN

五、环境搭建

《OD学Sqoop》数据转换工具Sqoop的更多相关文章

  1. 数据集成工具—Sqoop

    数据集成/采集/同步工具 @ 目录 数据集成/采集/同步工具 Sqoop简介 Sqoop安装 1.上传并解压 2.修改文件夹名字 3.修改配置文件 4.修改环境变量 5.添加MySQL连接驱动 6.测 ...

  2. [大数据之Sqoop] —— 什么是Sqoop?

    介绍 sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具.你可以通过sqoop把数据从数据库(比如mysql,oracle)导入到hdfs中:也可以把数据从hdfs中导出到关系型数据 ...

  3. 《OD学Hive》第六周20160730

    一.Hive的JDBC连接 日志分析结果数据,存储在hive中 <property> <name>hive.server2.thrift.port</name> & ...

  4. [Android开发学iOS系列] 工具篇: Xcode使用和快捷键

    [Android开发学iOS系列] 工具篇: Xcode使用和快捷键 工欲善其事必先利其器. 编辑 Cmd + N: 新建文件 Option + Cmd + N: 新建文件夹 Cmd + / : 注释 ...

  5. Apache Sqoop 结构化、非结构化数据转换工具

    简介: Apache Sqoop 是一种用于 Apache Hadoop 与关系型数据库之间结构化.非结构化数据转换的工具. 一.安装 MySQL.导入测试数据 1.文档链接:http://www.c ...

  6. 数据同步工具Sqoop和DataX

    在日常大数据生产环境中,经常会有集群数据集和关系型数据库互相转换的需求,在需求选择的初期解决问题的方法----数据同步工具就应运而生了.此次我们选择两款生产环境常用的数据同步工具进行讨论 Sqoop ...

  7. sqoop导出工具

    sqoop的导出工具是把HDFS上文件中的数据导出到mysql中 mysql中的表 现在在linux上创建一个文件,并把这个文件上传到hdfs上 cat person.txt ,no7, ,no8, ...

  8. 《OD大数据实战》Sqoop入门实例

    官网地址: http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.5-cdh5.3.6/SqoopUserGuide.html 一.环境搭建 1. 下载 s ...

  9. 关系数据库数据与hadoop数据进行转换的工具 - Sqoop

    Sqoop 本文所使用的Sqoop版本为1.4.6 1.官网 http://sqoop.apache.org 2.作用 A:可以把hadoop数据导入到关系数据库里面(e.g. Hive -> ...

随机推荐

  1. UICollectionViewLayout

    http://blog.csdn.net/majiakun1/article/details/17204921

  2. rdtsc获取时间统计程序的运行效率

    __u64 rdtsc() {         __u32 lo,hi;           __asm__ __volatile__         (          "rdtsc&q ...

  3. PHP扩展迁移为兼容PHP7记录

    PHP7扩展编写的时候,提供的一些内核方法和之前的PHP之前的版本并不能完全兼容.有不少方法参数做了调整.下面是在迁移过程中遇到的一些问题.记录下来,避免大家再踩坑. PHP7扩展开发之hello w ...

  4. 使用Rails 4.2+ 测试异步邮件系统

    [导读]异步测试总是一个很大的问题,邮件发送测试更是让很多开发同学不知道从哪里入手.在新版的Rails里,这类测试在很大程度上被简化了. 以下为译文 在编写需要发送邮件的应用时,控制器是绝不能被阻塞的 ...

  5. Tech Stuff - Mobile Browser ID (User-Agent) Strings

    Tech Stuff - Mobile Browser ID (User-Agent) Strings The non-mobile stuff is here (hint: you get jerk ...

  6. POJ 1978

    #include <iostream> #define MAXN 55 using namespace std; int _m[MAXN]; int tem[MAXN]; void cop ...

  7. 深入浅出ES6(九):学习Babel和Broccoli,马上就用ES6

    作者 Jason Orendorff  github主页  https://github.com/jorendorff 现在,我们将向你分步展示如何做到的这一切.上面提及的工具被称为转译器,你可以将它 ...

  8. java基础知识回顾之javaIO类---FileInputStream和FileOutputStream字节流复制图片

    package com.lp.ecjtu; import java.io.FileInputStream; import java.io.FileNotFoundException; import j ...

  9. OpenCV4Android开发之旅(一)----OpenCV2.4简介及 app通过Java接口调用OpenCV的示例

    转自:  http://blog.csdn.net/yanzi1225627/article/details/16917961 开发环境:windows+ADT Bundle+CDT+OpenCV-2 ...

  10. POJ2402/UVA 12050 Palindrome Numbers 数学思维

    A palindrome is a word, number, or phrase that reads the same forwards as backwards. For example,the ...