1、Hadoop架构

1、Hadoop 是一个能够对大量数据进行分布式处理的软件框架，实现了Google的MapReduce编程模型和框架，能够把应用程序分割成许多小的工作单元放到任何集群节点上执行。

作业（job）:一个准备提交执行的应用程序；

任务（task）:从一个作业划分出的、运行于各计算节点的工作单元；

HDFS:主要负责各个节点上的数据存储，并实现高吞吐率的数据读写；

2、在分布式存储和分布式计算方面，Hadoop使用主/从(Master/Slave)架构，在集群中运行一系列后台程序

（1）NameNode：HDFS的守护程序，负责记录文件是如何分割成数据块的，以及这些数据块分别被存储到哪些数据节点上。主要功能是对内存及I/O进行集中管理；NameNode所在服务器不存储任何用户信息或执行任何计算任务，以免这些程序降低服务器性能。但NameNode是Hadoop集群中的一个单点，一旦宕机，整个系统将无法运行；（50070端口）

（2）DataNode：集群中的每个从服务器都运行一个DataNode后台程序，负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读写某个数据时，先由NameNode告诉客户端从哪个DataNode进行具体读写操作，然后直接与这个DataNode服务器上的后台程序进行通信，并且对相关的数据块进行读写操作；

（3）Secondary NameNode: 用来监控HDFS状态的辅助后台程序。每个集群都有一个Secondary NameNode，部署在一台单独的服务器上，他不接收或记录任何实时的数据变化，但会与NameNode通信，以便定期地保存HDFS的快照功能，可以将NameNode的宕机时间和数据损失降低到最小，可以作为备用NameNode使用；

（4）JobTracker: 用来连接应用程序与Hadoop。用户代码提交到集群后有JobTracker决定哪个文件将被处理，并且为不同的task分配节点，同时还监控所以运行的task,一旦某个task失败了，JobTracker就会自动重新开启这个task,大多数情况下这个task会被放在不同的节点上。具体取决于重启的预设值。每个Hadoop集群只有一个JobTracker，一般运行在Master节点上；（50030端口）

（5）TaskTracker: 与负责存储数据的DataNode相结合，其处理结构上也遵循主从架构。TaskTracker位于从节点，独立管理各自的task。每个TaskTracker负责独立执行具体的task，而JabTracker负责分配task.每个TaskTracker可以产生多个Java虚拟机（JVM），用于处理多个map及reduce任务。TaskTracker的一个重要职责就是雨JobTracker交互，如果JobTracker无法准时获取TaskTracker提交的信息，JobTracker就判定TaskTracker已经崩溃，并将任务分配给其他节点处理。

其中NameNode、Secondary NameNode、JobTracker运行于Master节点上，而在每个Slave节点上部署DataNode、TaskTracker，以便直接处理本机的数据

1、Hadoop架构的更多相关文章

Hadoop架构的初略总结（2）
Hadoop架构的初略总结(2) 回顾一下前文,我们总结了以下几个方面.我们为什么需要Hadoop:Hadoop2.0生态系统的构成:Hadoop1.0中HDFS和MapReduce的结构模型. 我们 ...
Hadoop架构的初略总结（1）
Hadoop架构的初略总结(1) Hadoop是一个开源的分布式系统基础架构,此架构可以帮助用户可以在不了解分布式底层细节的情况下开发分布式程序. 首先我们要理清楚几个问题. 1.我们为什么需要Had ...
Hadoop 架构与原理
1.1. Hadoop架构 Hadoop1.0版本两个核心:HDFS+MapReduce Hadoop2.0版本,引入了Yarn.核心:HDFS+Yarn+Mapreduce Yarn是资源调度框 ...
Hadoop架构及集群
Hadoop是一个由Apache基金会所开发的分布式基础架构,Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了 ...
Hadoop架构: 流水线(PipeLine)
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览流水线(PipeLine),简单地理解就是客户端向DataNode传输数据(Packet)和接收Dat ...
Hadoop架构: HDFS中数据块的状态及其切换过程，GS与BGS
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览首先,我们要提出HDFS存储特点: 1.高容错 2.一个文件被切成块(新版本默认128MB一个块)在不 ...
Hadoop架构: 关于Recovery (Lease Recovery , Block Recovery, PipeLine Recovery)
该系列总览: Hadoop3.1.1架构体系——设计原理阐述与Client源码图文详解 : 总览在HDFS中,有三种Recovery 1.Lease Recovery 2.Block Recover ...
hadoop知识点总结（一）hadoop架构以及mapreduce工作机制
1,为什么需要hadoop 数据分析者面临的问题数据日趋庞大,读写都出现性能瓶颈: 用户的应用和分析结果,对实时性和响应时间要求越来越高: 使用的模型越来越复杂,计算量指数级上升. 期待的解决方案 ...
hadoop架构
HADOOP中可以分为两个大的模块,存储模块和计算模块.HDFS作为存储模块,JobTracker,TaskTracker构成计算模块. 1.HADOOP的文件是以HDFS格式存储的 HDFS ...

随机推荐

CF-358D-Dima and Hares【T^T+*^*】
[文章标题打着转载,是因为不是自己想出来的解题,但下面的文字是自己敲的[~捂脸*>_<*~]] 题目就不贴了~~~DP+greedy的题.弱爆了看别人的代码思路过的.T^T但还是自己复述一 ...
spring.net异常处理
接下来我们看一下SpringNetAop层的内容:此层主要是实现一些AOP的代码,以及特性和一个统一调用spring.net的类:记录日志我们使用Log4Net来实现: 1:Aspects 文件夹里存 ...
自动化mobile测试
MicroFocus推出手机自动化测试工具 - Silk Mobilehttp://automationqa.com/forum.php?mod=viewthread&tid=1068& ...
大数据工具——Splunk
Splunk是机器数据的引擎.使用 Splunk 可收集.索引和利用所有应用程序.服务器和设备(物理.虚拟和云中)生成的快速移动型计算机数据 .从一个位置搜索并分析所有实时和历史数据. 使用 Splu ...
JavaScript 类的定义和引用 JavaScript高级培训自定义对象
在Java语言中,我们可以定义自己的类,并根据这些类创建对象来使用,在Javascript中,我们也可以定义自己的类,例如定义User类.Hashtable类等等. 一,概述在Java语言中 ...
【Todo】CSDN的《问底》系列-学习
看到CSDN的这个系列<问底>,看各篇文章的题目感觉不错.好好学习下: http://www.csdn.net/tag/%E9%97%AE%E5%BA%95/news
函数lock_rec_get_first_on_page
lock结构体详见 /*********************************************************************//** Gets the first ...
source导入错码解决办法
mysql -uroot -p --default-character-set=utf8 test < D:/bak/1.sql
DOM对象常用对象的方法和属性
HTML文档中的常用节点类型: 接口 nodeType 备注 Element 1 元素节点 Text 3 文本节点 Document 9 Document Comment 8 注释文本 Docum ...
ecshop lib包含lib文件
在lbi文件中增加lbi方法方法1. {include file='library/name.lbi '} 方法2. <?php echo $this->fetch('library/n ...

1、Hadoop架构

1、Hadoop架构的更多相关文章

随机推荐

热门专题