1、Namenode元数据两种映射:
(1)文件名 -> block数据块的映射
(2)block数据块 -> datanode节点地址的映射
细节:(1)是持久化到NN的磁盘的(fsimage<-edits log<-NN内存变化),(2)通过心跳组织起来的(DN->NN)

2、就目前我们的环境(1个master,2个slaves):虽然默认3副本,其实2个副本
3、NN倾向存储大数据原因:太小的话,block多,内存放不下,太大的话,MR任务执行慢
4、如果没有SNN,fsimage多久加载一次?只有重启时加载,如果有了SNN呢?
SNN存在意义?备份,数据恢复
editlog什么时候会合并到fsimage中?(重启、定期-后台服务)
5、为什么1.0只有一个NN?(在zookeeper诞生前)
6、数据完整性校验的目的:检测数据是否损坏
用的什么校验方法?(crc32算法产生的校验和)
存在几种校验逻辑?(①client写校验和,DN检验 ②DatablockScanner后来进程)
7、hdfs可靠性保证有哪些?
(1)心跳:DN-NN
(2)块报告:hdfs fsck /cb_uis.data -files -blocks -locations
(3)数据完整性:crc32
(4)空间回收:.Trash
(5)副本-数据冗余
(6)SNN
(7)块照
8、同步和异步的区别?
9、计算框架和任务调度管理部署同一台机器的好处?本地化,尽量减少数据移动的开销

HDFS2.0:
1、为什么HA?解决单点故障问题,1.0里面有SNN,但不可靠,如何解决?(使用量NN,一个active NN,一个standby NN)
2、既然已经存在DN向两个NN同时发送数据目的是保证数据一致性,那为什么还需要JN呢?(同步的数据不同,文件名-block,block-DN)
3、在2.0中,Zookeeper的目的:故障转移
4、ZKFC在2.0中的作用是对自己负责的NN进行健康检查,前提是ZKFC会在ZK上注册一个临时节点,用于监控,当NN失效,那么临时节点消失,整个流程类似于独占锁申请的流程
5、JN通常要配置成奇数个(2n+1),如果超过n+1个,数据确定下来
6、JN的功能:让Standby NN与Active NN保持数据同步
7、JN通常两种:一种是NFS(需要额外的磁盘空间),另一种QJM(不需要空间)
8、QJM:最低法定人数管理机制,原理:用2n+1太JN机器存储editlog,每次写数据操作属于大多数(>=n+1),返回成功就会认为该次写成功,保证数据高可用
QJM:本质也是一个小集群
QJM的好处?
(1)不需要额外配置共享存储,降低了复杂度、维护成本
(2)没有单点问题
(3)JN不会因为某一个台机器延迟,影响整体的延迟,也不会因为JN的数量增多而影响性能(NN向JN发送的日志是并行的)
(4)系统配置
9、NN和JN通常配置不在同一个台机器
FC和NN是同一台机器
RM和NN配置一台机器
NM和DN配置一台机器
通常工业界,ZK是单独维护的
10、联邦的好处:减轻单一NN压力,将一部分文件转移到其他NN上管理
如果集群里某一个目录比较大,那么用单独的NN维护起来
命名空间精简,横向扩展,真正突破单台NN的限制
性能的提升
资源的隔离

每个NN共享所有DN的数据
联邦的本质:元数据管理和存储进行解耦,但真实数据的存储还是共享的

11、快照:数据备份、灾备、快速恢复
快照的创建时瞬间完成的,高效!!!
快照本质只记录block列表和大小,不涉及数据的复制

12、缓存:访问速度快
集中式缓存:数据缓存在哪个节点?DN->真正缓存的数据,NN->数据path列表
# 创建缓存组
hdfs cacheadmin -addPool cache_badou -mode 0777
# 创建文件
dd if=/dev/zero of=badou.z bs=1M count=20
# 文件上传
hadoop fs -mkdir /badou_cache
hadoop fs -put badou.z /badou_cache
# 生成缓存
hdfs cacheadmin -addDirective -path /badou_cache/badou.z -pool cache_badou -ttl 1d
# 查询
hdfs cacheadmin -listPools -stats cache_badou
13、ACL权限控制——高级权限

Yarn:
1、定位:分布式操作系统
2、RM、AM、NM、Container
3、相当于对jobtracker的绝对权力进行肢解
(1)资源管理:RM
(2)作业调度、监控:AM
4、可插拔式的Scheduler,调度器,不关心应用监控和状态跟踪,不保证应用失败和硬件故障
调度的具体内容是什么?(Container——容器)
5、AM也是一个普通的Container
6、Container是NM启动的还是AM启动的?NM来启动
7、Container资源问题:
hadoop1.0中,资源是slot,mapreduce中,map跑完不会释放slot,只能等全部任务跑完
hadoop2.0中,资源是Container,map阶段跑完可以释放
通常:每两个container使用一块磁盘以及一个cpu核的时候可以使集群资源得到一个较好的利用
每台机器最多有多少个container?
containers=min(2*cores, 1.8*disks, (机器总内存) / 最小容量 )

最小容量=container最小的容量大小,可配置

有两类container:cpu和内存,这两类container会分布在任意节点上,位置通常随机

Yarn里面core的概念等同于真实的cpu的核么?(不一样,yarn里的core是虚拟的)
8、容错:
(1)RM挂了怎么办?
(2)NM挂了怎么办?
(3)AM挂了怎么办?

9、Fair Scheduler

hdfs1.0和2.0复习的更多相关文章

  1. js中 0.1+0.2 !== 0.3

    1. 存储原理: 在计算机中数字无论是定点数还是浮点数都是以多位二进制的方式进行存储的.事实上不仅仅是 Javascript,在很多语言中 0.1 + 0.2 都会得到 0.3000000000000 ...

  2. 创建或打开解决方案时提示"DotNetCore.1.0.1-SDK.1.0.0.Preview2-003131-x86"错误的解决方案

    提示"DotNetCore.1.0.1-SDK.1.0.0.Preview2-003131-x86"错误的解决方案: 1.检查是否有C:\Program Files (x86)\d ...

  3. Android requires compiler compliance level 5.0 or 6.0. Found '1.4' instead的解决办法

    今天在导入工程进Eclipse的时候竟然出错了,控制台输出的是: [2013-02-04 22:17:13 - takepicture] Android requires compiler compl ...

  4. 字符串数组初始化0 与memset 0 效率的分析

    转自:http://www.xuebuyuan.com/1722207.html 结合http://blog.sina.com.cn/s/blog_59d470310100gov8.html来看. 最 ...

  5. bootstrap2.0与3.0的区别

    在阅读这篇bootstrap2.0与3.0的区别的文章之前,大家一定要先了解什么是响应式网站设计?推荐大家看看这篇"教你快速了解响应式网站设计" . 我觉得bootstrap的可视 ...

  6. centos7.2环境elasticsearch-5.0.1+kibana-5.0.1+zookeeper3.4.6+kafka_2.9.2-0.8.2.1部署详解

    centos7.2环境elasticsearch-5.0.1+kibana-5.0.1+zookeeper3.4.6+kafka_2.9.2-0.8.2.1部署详解 环境准备: 操作系统:centos ...

  7. ASP.Net MVC3安全升级导致程序集从3.0.0.0变为3.0.0.1

    开发环境一般引用的是本机 C:\Program Files (x86)\Microsoft ASP.NET\ASP.NET MVC 3\Assemblies下的System.Web.Mvc.dll,当 ...

  8. R语言中的logical(0)和numeric(0)以及赋值问题

    logical(0) 不等于 numeric(0).两者都不等于NULL值,即is.null(logical(0))和is.null(numeric(0))返还值都是FALSE.这很有意思,说明长度为 ...

  9. Android requires compiler compliance level 5.0 or 6.0. Found '1.8' instead. Please use Android Tools>Fix project Properties.

    重装操作系统之后,或者破坏了Android的开发环境之后,需要重新配置好Android的开发环境.但是配置好后,导入原有的项目时,报错: Android requires compiler compl ...

  10. Windows 8(虚拟机环境)安装.NET Framework3.5(includes .NET 2.0 and 3.0)

    按照这篇文章:http://blogs.technet.com/b/aviraj/archive/2012/08/04/windows-8-enable-net-framework-3-5-inclu ...

随机推荐

  1. 【腾讯开源】前端预处理器语言图形编译工具 Koala使用指南

    摘要:Koala是一款预处理器语言图形编译工具,支持Less.Sass.CoffeeScript.Compass框架的即时编译.无需手动输入命令去编译,后台监听文件是否有改变,如有修改会自动进行编译, ...

  2. SpringMVC学习三

    实现有点用处的增删改查,并利用了AJAX(javascript)动态修改,还有json的返回读取,以及文件上传和下载. 配置基础Employee类以及Dao类 package com.springmv ...

  3. L308 New brain cells made throughout life

    People keep making new brain cells throughout their lives (well at least until the age of 97), accor ...

  4. L246‘’

    Should English classes be compulsory at the elementary or primary school level in countries where it ...

  5. idea本地安装 lombok插件

    转:https://blog.csdn.net/weixin_41404773/article/details/80689639 idea本地安装 lombok插件 项目中经常使用bean,entit ...

  6. Centos7虚拟机下配置静态IP

    以下为Centos7在VMware下配置静态IP地址,配置完后内外网都可以访问,主机与虚拟机之间可以通信. 1.在VMware里,菜单栏点击[编辑]-->[虚拟网络编辑器],如下图.选择的是NA ...

  7. HDU 6092 17多校5 Rikka with Subset(dp+思维)

    Problem Description As we know, Rikka is poor at math. Yuta is worrying about this situation, so he ...

  8. Too much thinking! Too much annoying.

    I am now in great demand for an opportunity to yearn for, the ability to express myself, in a maximu ...

  9. Enhancement in SAP abap.

    Recently I have been taught through how to do enhancement for those standard programs. Th reason for ...

  10. table标签总结

    一.table标签:定义一个表格简单表格由table元素以及一个或多个tr(行标签).th(表头单元格标签).td(普通单元格标签) <table border=1><tr>& ...