1. Daemons(守护进程)

新老架构

老的:

Apache Hadoop 1.x (MRv1)
 
新的:
Apache Hadoop 2.x (YARN)-Yet Another Resource Negotiator
 
1-1) Apache Hadoop 1.x (MRv1) 包含如下后台进程:
• Namenode (名称节点)
• Secondary namenode (第二名称节点)
• Jobtracker (工作跟踪器)
• Datanode (数据节点)
• Tasktracker (任务跟踪器)
 
  a) 所有的后台进程是运行在自己的JVM虚拟机中的Java服务。
  b) 主从模式
  namenode 和 jobtracker 是 master daemons
  datanode 和 tasktracker 是 slave daemons
 
 2. NameNode(名称节点)
 
2-1) 名称节点是master daemon, 它负责存储HDFS文件系统上所有文件的位置信息。
 
名称节点从不存储实际数据,换句话说,它存储所有的元数据(metadata)。
 
(备注: 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),

主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。)

 
2-2) 名称节点在内存(RAM)中维护所有的元数据,这样客户端可以快速得到请求它的响应。
因此,需要在有较多内存分配的服务器上运行名称节点。(非常重要!!)
HDFS中的文件数量越多,名称节点所消耗的内存也越高。
 

2-3) 由于在内存中存储元数据信息,因此名称节点后台进程也同时在硬盘上存储了一个用来持久化元数据的检查点文件,该文件名叫fsimage。

每当集群中的文件发生 新增/删除/更新 操作的时候,动作信息会被更新到一个叫做edits log的日志文件中。

更新完日志后,内存中的元数据信息也会相应地更新。
需要注意的是: fsimage文件不会针对每次写操作进行更新。
 
有人要问,如果名称节点的后台进程重启了怎么办,信息不都在内存中吗?丢失了呀!
答案是不会,下列操作会发生:
1. 从磁盘上读取fsimage文件的信息并把它加载到内存。
2. 从edits log读取所有的操作信息,并把它还原到内存中。
3. 最后把修改后的内存中的信息再写入磁盘上的fsimage文件。
 
2-4) Hadoop 1.x名称节点的弱点以及Hadoop 2.x的改进
 

a. Hadoop 1.x里的名称节点是单节点的,因此,如果该服务器宕机了的话,整个HDFS文件系统将不可使用了。

为了解决这种情况,以前管理员需要配置下,把fsimage同时写到本地磁盘和网络上的远程磁盘。

那台新备份的机器其实相当于冷备份,在名称节点宕机的时候可以临时启动。

b. Hadoop 2.x支持高可用(High Availability - HA)

部署2台名称节点的服务器, 分别是active和passive, 如果active的那台服务器宕机了, passive的那台服务器会接管

控制权,相当于双机热备份。

3. Secondary namenode(第二名称节点)

 
 

hadoop from rookie to ninja - 1. Basic Architecture(基础架构)的更多相关文章

  1. [Architecture] 系统架构正交分解法

    [Architecture] 系统架构正交分解法 前言 随着企业成长,支持企业业务的软件,也会越来越庞大与复杂.当系统复杂到一定程度,开发人员会发现很多系统架构的设计细节,很难有条理.有组织的用一张大 ...

  2. [Architecture Design] 3-Layer基础架构

    [Architecture Design] 3-Layer基础架构 三层式体系结构 只要是软件从业人员,不管是不是本科系出身的,相信对于三层式体系结构一定都不陌生.在三层式体系结构中,将软件开发所产出 ...

  3. 【原创 Hadoop&Spark 动手实践 12】Spark MLLib 基础、应用与信用卡欺诈检测系统动手实践

    [原创 Hadoop&Spark 动手实践 12]Spark MLLib 基础.应用与信用卡欺诈检测系统动手实践

  4. EDA: Event-Driven Architecture事件驱动架构

    EDA: Event-Driven Architecture事件驱动架构 2009-09-24 17:28 5 赞  异步编程      软件架构      EDA事件驱动        SOA的核心 ...

  5. Hadoop(分布式系统基础架构)---Hive与HBase区别

    对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用.  Hive是什么? Apache Hive是 ...

  6. hadoop之yarn详解(基础架构篇)

    本文主要从yarn的基础架构和yarn的作业执行流程进行阐述 一.yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管 ...

  7. hadoop搭建一:虚拟机网络配置和基础(未完成)

    基于VMware 15+CentOS 7+Hadoop 2.6,hadoop的搭建主要用于个人学习,水平有限. hadoop搭建一:虚拟机网络配置和基础 hadoop搭建二:hadoop全分布搭建 h ...

  8. Hadoop(1): HDFS基础架构

    1. What's HDFS? Hadoop Distributed File System is a block-structured file system where each file is ...

  9. [转] An In-Depth Look at the HBase Architecture - HBase架构深度剖析

    [From] https://mapr.com/blog/in-depth-look-hbase-architecture/ In this blog post, I’ll give you an i ...

随机推荐

  1. hdu5178 尺取

    会爆int /* 给定数轴上一些点对,问有多少点对之间的距离差不超过k 点对排序后尺取法:枚举每个左边界,找到一个右边界使得 */ #include<bits/stdc++.h> #def ...

  2. python+selenium十一:jQuery和js语法、js处理iframe

    selenium 执行jQuery/js语法 driver.execute_script(jQuery/js) 1.jQuery jQuery只支持css语法: jquery = '$(CSS).va ...

  3. python 全栈开发,Day99(作业讲解,DRF版本,DRF分页,DRF序列化进阶)

    昨日内容回顾 1. 为什么要做前后端分离? - 前后端交给不同的人来编写,职责划分明确. - API (IOS,安卓,PC,微信小程序...) - vue.js等框架编写前端时,会比之前写jQuery ...

  4. python 全栈开发,Day50(Javascript简介,第一个JavaScript代码,数据类型,运算符,数据类型转换,流程控制,百度换肤,显示隐藏)

    一.Javascript简介 Web前端有三层: HTML:从语义的角度,描述页面结构 CSS:从审美的角度,描述样式(美化页面) JavaScript:从交互的角度,描述行为(提升用户体验) Jav ...

  5. for循环输出数组中的分数

    示例 var scores = [24, 32, 17]; // A数组 var arrayLength = scores.length;// 数组的长度 //当i<arrayLength时,可 ...

  6. 调用write方法打印语句到浏览器

    1.document.write("我爱学习--喜欢学习");​  //   在浏览器中输出的结果为:我爱学习--喜欢学习 2.首先,声明一个变量. var str="h ...

  7. ruby学习-字符串

    字符串 1.创建字符1:new用来创建新字符,empty?检验字符是否为空 title = String.new #=> "" title.empty? #=>true ...

  8. poj 1789 每个字符串不同的字母数代表两个结点间的权值 (MST)

    题目大意是就是给出n个长度为7的字符串,每个字符串代表一个车,定义车的距离是两个字符串间不同字母的个数,题目要求的数不同的车的距离的最小值,即所求的就是最小生成树 Sample Input 4aaaa ...

  9. 设置Eclipse的类文件和xml文件代码自动补全

    原文:https://blog.csdn.net/erlian1992/article/details/53706736 我们在平常编写代码的时候,不会记住大多数的类和文件的属性,方法等等,这就需要我 ...

  10. Scala入门教程---《chang哥教你一天搞定Scala》

    <chang哥教你一天搞定Scala> /** * <chang哥教你一天搞定Scala> * scala是一门多范式编程语言,集成了面向对象编程和函数式编程等多种特性. * ...