04_Apache Hadoop 生态系统

内容提纲：

1）对 Apache Hadoop 生态系统的认识（Hadoop 1.x 和 Hadoop 2.x）

2） Apache Hadoop 1.x 框架架构原理的初步认识

3） Apache Hadoop 1.x 安装的三种模式

Hadoop 1.x 生态系统

ETL: 提取à转换à加载：从数据库中获取数据，并进行一系列的数据清理和清洗筛选，将合格的数据进行转换成一定的格式数据进行存储，将格式化的数据存储到 HDFS 文件系统上，以供计算框架进行数据分析和挖掘。

格式化数据：

|- TSV 格式：每行数据的每列之间以【制表符 \t 】进行分割

|- CSV 格式：每行数据的每列之间以【逗号】进行分割

Sqoop：将关系型数据库中的数据与 HDFS（HDFS 文件，HBase 中表，Hive 中的表）上的数据进行相互导入导出。

Flume：收集各个应用系统和框架的日志，并将其放到 HDFS 分布式文件系统的相应制定的目录下。

Hadoop 2.x 生态系统

对于分布式系统和框架的架构来说，一般分为两部分：

第一部分：管理层，用于管理应用层的

第二部分：应用层（工作的）

HDFS，分布式文件系统，

NameNode ：属于管理层，用于管理数据的存储

SecondaryNameNode：也属于管理层，辅助 NameNode 进行管理

DataNode ：属于应用层，用户进行数据的储存，被 NameNode 进行管理，要定时的向 NameNode

进行工作汇报，执行 NameNode 分配分发的任务。

MapReduce ，分布式的并行计算矿建，

JobTracker：属于管理层，管理集群资源和对任务进行资源调度，监控人去的执行。

TaskTracker：属于应用层，执行 JobTracker 分配分发的任务，并向 JobTracker 汇报工作情况。

NameNode，存储文件的元数据，

1）文件名称

2）文件的目录结构

3）文件的属性（权限，副本数，生成的时间）

4）文件à（对应）Block块à（存储在）DataNodes 上

Apache Hadoop 安装部署模式

伪分布模式（Pseudo-Distributed Mode），

　　1）一台机器上运行所有的 Hadoop 服务（五个守护进程）。

2）我们整个课程，基本上都是使用伪分布式环境（尤其是讲解 MapReduce）

04_Apache Hadoop 生态系统的更多相关文章

Hadoop概念学习系列之Hadoop 生态系统（十二）
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
Hadoop生态系统如何选择搭建
Apache Hadoop项目的目前版本(2.0版)含有以下模块: Hadoop通用模块:支持其他Hadoop模块的通用工具集. Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分 ...
Hadoop 生态系统
1.概述最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生态系统,并将其进行了归 ...
从问题域出发认识Hadoop生态系统
近些年来Hadoop生态系统发展迅猛,它本身包含的软件越来越多,同时带动了周边系统的繁荣发展.尤其是在分布式计算这一领域,系统繁多纷杂,时不时冒出一个系统,号称自己比MapReduce或者Hive高效 ...
hadoop生态系统的详细介绍
1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YAR ...
hadoop 之Hadoop生态系统
1.Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点. Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YAR ...
Hadoop概念学习系列之Hadoop 生态系统
当下 Hadoop 已经成长为一个庞大的生态体系,只要和海量数据相关的领域,都有 Hadoop 的身影.下图是一个 Hadoop 生态系统的图谱,详细列举了在 Hadoop 这个生态系统中出现的各种数 ...
Apache Kudu： Hadoop生态系统的新成员实现对快速数据的快速分析
A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop's storage la ...
阿里巴巴飞天大数据架构体系与Hadoop生态系统
很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...

随机推荐

009android初级篇之APP中使用系统相机相册等集成应用
android应用中使用相机功能,大致有两种方式实现: 直接调用系统内部的相机程序,显示的也是系统预设的界面(简单,只有简单的拍照功能): 自己去implement一个相机程序(不难,较具备弹性,但相 ...
[转]Netbeans IDE默认UTF-8编码
NetBeans是一款优秀的开源集成开发环境,可以用于Java,C/C++,PHP等语言的开发.同时它也是一个可扩展的开发平台,可以通过插件来扩展官方版本没有的功能. NetBeans有一个很弱智的地 ...
ASP.NET动态网站制作（24）-- ADO.NET（3）
前言:ADO.NET的第三节课.今天主要讲SQL Helper. 内容: 1.DataReader和DataSet的区别: (1)DataReader是一行一行地读,且只能向前读:DataSet是一次 ...
FIR滤波器与IIR滤波器
FIR(Finite Impulse Response)滤波器有限长单位冲激响应滤波器,又称为非递归型滤波器特点: FIR滤波器的最主要的特点是没有反馈回路,稳定性强,故不存在不稳定的问题: FI ...
java前端传入的json字符串保存到表中的方法
表 service_goods_base 字段如下: 传入的json 字符串: servicePictureArray : [{"picServiceUrl": "h ...
poj3177Redundant Paths tarjan缩点
//给一个连通图,问最少须要加入多少条边才干使得 //随意两个点都有两条不同的路走到 //对于一个强连通分量的全部随意两点都能有两点能够到达 //先用tarjan缩点,缩点以后就是一棵树,对于这个树考 ...
Oracle 表管理约束索引
表的约束与完整性: 1.实体完整性主键唯一性 2.域完整性不能向number中插入varchar 3.参照完整性外键以别的表的字段作为外键,再插入该表时所插入外键的值必须在被参照表中该字段有那 ...
Docker学习（2Docker基本命令）
1.首先我们需要明确在docker中需要了解的一些基础知识 Docker虚拟化有三个概念需要理解,分别镜像.容器.仓库. 1) 镜像:docker的镜像其实就是模板,跟我们常见的ISO镜像类似,是一个 ...
EasyNVR内网摄像机接入网关+EasyNVS云端管理平台，组件起一套轻量级类似于企业级萤石云的解决方案
背景分析对于EasyNVR我们应该都了解,主要应用于互联安防直播,对于EasyNVR,我们可以清楚的发现,EasyNVR的工作机制是EasyNVR拉取摄像机的RTSP/Onvif视频流,然后客户端可 ...
SQL判断字符类型是否为数字
用ISNUMERIC函数确定表达式是否为一个有效的数字类型. 语法 ISNUMERIC ( expression ) 参数 expression 要计算的表达式. 返回类型 int 注释当输入表达 ...

04_Apache Hadoop 生态系统

04_Apache Hadoop 生态系统的更多相关文章

随机推荐

热门专题