hadoop from rookie to ninja - 1. Basic Architecture(基础架构)

1. Daemons(守护进程)

新老架构

老的:

Apache Hadoop 1.x (MRv1)

新的:

Apache Hadoop 2.x (YARN)-Yet Another Resource Negotiator

1-1) Apache Hadoop 1.x (MRv1) 包含如下后台进程:

• Namenode (名称节点)

• Secondary namenode (第二名称节点)

• Jobtracker (工作跟踪器)

• Datanode (数据节点)

• Tasktracker (任务跟踪器)

a) 所有的后台进程是运行在自己的JVM虚拟机中的Java服务。

b) 主从模式

namenode 和 jobtracker 是 master daemons

datanode 和 tasktracker 是 slave daemons

2. NameNode(名称节点)

2-1) 名称节点是master daemon, 它负责存储HDFS文件系统上所有文件的位置信息。

名称节点从不存储实际数据，换句话说，它存储所有的元数据(metadata)。

(备注: 元数据（Metadata），又称中介数据、中继数据，为描述数据的数据（data about data），

主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。）

2-2) 名称节点在内存(RAM)中维护所有的元数据，这样客户端可以快速得到请求它的响应。

因此，需要在有较多内存分配的服务器上运行名称节点。(非常重要!!)

HDFS中的文件数量越多，名称节点所消耗的内存也越高。

2-3) 由于在内存中存储元数据信息，因此名称节点后台进程也同时在硬盘上存储了一个用来持久化元数据的检查点文件，该文件名叫fsimage。

每当集群中的文件发生新增/删除/更新操作的时候，动作信息会被更新到一个叫做edits log的日志文件中。

更新完日志后，内存中的元数据信息也会相应地更新。

需要注意的是: fsimage文件不会针对每次写操作进行更新。

有人要问，如果名称节点的后台进程重启了怎么办，信息不都在内存中吗？丢失了呀！

答案是不会，下列操作会发生：

1. 从磁盘上读取fsimage文件的信息并把它加载到内存。

2. 从edits log读取所有的操作信息，并把它还原到内存中。

3. 最后把修改后的内存中的信息再写入磁盘上的fsimage文件。

2-4) Hadoop 1.x名称节点的弱点以及Hadoop 2.x的改进

a. Hadoop 1.x里的名称节点是单节点的，因此，如果该服务器宕机了的话，整个HDFS文件系统将不可使用了。

为了解决这种情况，以前管理员需要配置下，把fsimage同时写到本地磁盘和网络上的远程磁盘。

那台新备份的机器其实相当于冷备份，在名称节点宕机的时候可以临时启动。

b. Hadoop 2.x支持高可用(High Availability - HA)

部署2台名称节点的服务器, 分别是active和passive, 如果active的那台服务器宕机了, passive的那台服务器会接管

控制权，相当于双机热备份。

3. Secondary namenode(第二名称节点)

hadoop from rookie to ninja - 1. Basic Architecture(基础架构)的更多相关文章

[Architecture] 系统架构正交分解法
[Architecture] 系统架构正交分解法前言随着企业成长,支持企业业务的软件,也会越来越庞大与复杂.当系统复杂到一定程度,开发人员会发现很多系统架构的设计细节,很难有条理.有组织的用一张大 ...
[Architecture Design] 3-Layer基础架构
[Architecture Design] 3-Layer基础架构三层式体系结构只要是软件从业人员,不管是不是本科系出身的,相信对于三层式体系结构一定都不陌生.在三层式体系结构中,将软件开发所产出 ...
【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践
[原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践
EDA: Event-Driven Architecture事件驱动架构
EDA: Event-Driven Architecture事件驱动架构 2009-09-24 17:28 5 赞异步编程软件架构 EDA事件驱动 SOA的核心 ...
Hadoop(分布式系统基础架构)---Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. Hive是什么? Apache Hive是 ...
hadoop之yarn详解（基础架构篇）
本文主要从yarn的基础架构和yarn的作业执行流程进行阐述一.yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管 ...
hadoop搭建一：虚拟机网络配置和基础（未完成）
基于VMware 15+CentOS 7+Hadoop 2.6,hadoop的搭建主要用于个人学习,水平有限. hadoop搭建一:虚拟机网络配置和基础 hadoop搭建二:hadoop全分布搭建 h ...
Hadoop(1): HDFS基础架构
1. What's HDFS? Hadoop Distributed File System is a block-structured file system where each file is ...
[转] An In-Depth Look at the HBase Architecture - HBase架构深度剖析
[From] https://mapr.com/blog/in-depth-look-hbase-architecture/ In this blog post, I’ll give you an i ...

随机推荐

poj1195二维树状数组模板
二维树状数组和一维的也差不多,改一下add和query函数即可:即按行修改,行内单点修改即可 /* 二维树状数组,询问一个二维区间内的数之和 */ #include<iostream> # ...
python 全栈开发，Day102(支付宝支付)
昨日内容回顾 1. django请求生命周期? - 当用户在浏览器中输入url时,浏览器会生成请求头和请求体发给服务端请求头和请求体中会包含浏览器的动作(action),这个动作通常为get或者po ...
Spring 核心API
BeanFactory: 这是一个工厂,用于生产任意Bean,采用延迟加载,第一次getBean时才会加载 ApplicationContext: 是BeanFactory的一个子接口,功能更强大(国 ...
云平台Linux主机安装流程
==一.安装包===================================================================================如果是1+2主机安装 ...
.NetCore源码阅读笔记系列之Security （四） Authentication & AddJwtBearer
接下来我们在来看下AddJwtBearer,这个与AddOpenIdConnect不太一样,后者是远程发起身份认证请求是一种主动发起式的,多用于web等客户端,验证发生在身份认证服务端,而前者是一种被 ...
day15--JavaScript
上节作业回顾 <style></style>代表的是CSS样式 <script></script>代表的是JavaScript样式 1. ...
BZOJ1968 [Ahoi2005]COMMON 约数研究数论
欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解题目传送门 - BZOJ1968 题意概括求 ΣF(i) (1<=i<=n)N<=1000000 F( ...
android和java以太坊开发区块链应用使用web3j类库
如何使用web3j为Java应用或Android App增加以太坊区块链支持,教程内容即涉及以太坊中的核心概念,例如账户管理包括账户的创建.钱包创建.交易转账,交易与状态.智能合约开发与交互.过滤器和 ...
css 选择器、元素默认宽度、media screen
@media screen and (min-width:800px){ .a{ background: url('../image/banner/banner1.jpg') no-repeat l ...
[CodeForces-1036E] Covered Points 暴力 GCD 求交点
题意: 在二维平面上给出n条不共线的线段,问这些线段总共覆盖到了多少个整数点解法: 用GCD可求得一条线段覆盖了多少整数点,然后暴力枚举线段,求交点,对于相应的整数交点,结果-1即可 #inclu ...

hadoop from rookie to ninja - 1. Basic Architecture(基础架构)

hadoop from rookie to ninja - 1. Basic Architecture(基础架构)的更多相关文章

随机推荐

热门专题