1. hadoop中HDFS的NameNode原理

1.1. 组成

包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等。

1.2. HDFS架构原理

比如现在要上传一个1T的大文件，提交给HDFS的Active NameNode（用以存放文件目录树，权限设置，副本数设置等），它会在指定目录下创建一个新的文件对象，比如access_20180101.log
至于具体数据，它会将它拆分后进行分布式存储，分散在各个DataNode节点，且默认都会有3个副本，防止其中一台机器宕机使得数据缺失
这里图之所以这么复杂，原因在于大量的请求提交给Active NameNode会不断修改元数据，而元数据是在内存的，为了防止宕机丢失，必须把它存在磁盘，但是频繁的修改磁盘数据，性能是很低的，这是大量的磁盘随机读写，所以有了上述图的方案
每次操作请求Active NameNode会写一条edits log放到磁盘文件，不是直接修改磁盘文件内容，而是顺序追加，这个性能就高多了
同时它会把edits log还会写入JournalNodes集群，通过JournalNodes会把操作日志传到Standby NameNode，这就相当于是个备份服务，确保了Standby NameNode内存中的元数据和Active NameNode是一样的，而Standby NameNode每隔一段时间会把内存里的元数据写一份到磁盘的fsimage文件，这个文件就是全量的元数据了，不是日志记录
再然后会把这个fsimage上传到Active NameNode，替换掉内存中的元数据，再清空掉Active NameNode所在磁盘上的edits log，重新开始记录日志
为什么要这么做？因为为了防止Active NameNode突然宕机后，我们需要进行恢复，它的恢复是基于磁盘上的edits log的，和redis的aof相同的道理，它需要重新运行一遍日志中的所有命令，当时间长了后日志可能会很大，重启时间也就会很长；
引入Standby NameNode的备份机制，就可以在节点重启时，直接从Standby NameNode的fsimage读取元数据备份，这就相当于redis的rdb恢复，速度是比较快的，读取完备份再从磁盘的edits log读取少量的操作日志执行恢复，就完全恢复到宕机前的状态了

1.3. NameNode如何承载每秒上千次的高并发访问

分段加锁机制+内存双缓冲机制（老实说我是没看懂，他的博客我也留言问了两个问题，有能看懂了拜托这里留言或在他博客过眼云烟本尊这个评论者下留言，Thanks♪(･ω･)ﾉ）
我特别不懂的地方就是既要保证顺序性，为什么还能用多线程并发？

参考：
用大白话告诉你小白都能看懂的Hadoop架构原理
 大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

hadoop中HDFS的NameNode原理的更多相关文章

hadoop中HDFS文件系统 nameNode出现的问题 nameNode无法打开
1,修改core-site.xml文件,先改成localhost,将所有进程关闭stop-all.sh(或者是先关闭所有进程,然后再修改文件),然后重启,在修改core-site.xml文件成ip地址 ...
hadoop之hdfs及其工作原理
hadoop之hdfs及其工作原理 (一)hdfs产生的背景随着数据量的不断增大和增长速度的不断加快,一台机器上已经容纳不下,因此就需要放到更多的机器中,但这样做不方便维护和管理,因此需要一种文件系 ...
Hadoop中HDFS工作原理
转自:http://blog.csdn.net/sdlyjzh/article/details/28876385 Hadoop其实并不是一个产品,而是一些独立模块的组合.主要有分布式文件系统HDFS和 ...
Hadoop之HDFS及NameNode单点故障解决方案
Hadoop之HDFS 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 H ...
Hadoop 中HDFS、MapReduce体系结构
在网络环境方面,作为分布式系统,Hadoop基于TCP/IP进行节点间的通信和传输. 在数据传输方面,广泛应用HTTP实现. 在监控.通知方面,Hadoop等分布式大数据软件则广泛使用异步消息队列等机 ...
Hadoop(9)-HDFS的NameNode和SecondaryNameNode详解
1.NN和2NN工作机制首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低.因此,元数据需要存放在内存中.但如果只存在内存中,一旦 ...
【Hadoop】HDFS的运行原理
博文已转移,请借一步说话http://www.weixuehao.com/archives/596 简介 HDFS(Hadoop Distributed File System )Hadoop分布式文 ...
Hadoop中HDFS的管理
本文讲述怎么在Linux Shell中对HDFS进行操作. 三种命令格式: hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统 hadoop dfs只能适用于HDFS文件系 ...
Hadoop中HDFS 的相关进程以及工作流程图（详细流程图）

随机推荐

JMeter【第四篇】参数化
概念参数化的原因,并不是网上说的真实模拟不同用户,真实反应服务器性能,而是: 数据唯一性(比如注册名不能一样) 避免数据库查询缓存如何避免参数化: 去掉唯一性校验的约束关闭数据库的查询缓存,my ...
wordpress如何添加自增变量(第一篇文章显示摘要后面的只显示标题)
有时我们在调用文章列表的时候需要在前面添加序号看起来比较整齐,如何实现呢?要想精确的控制每篇文章,我们先在循环前定义一个变量 $ashu_i=1 来计数,变量名随便,然后每循环一次,$ashu_i加1 ...
vue+Element 表格编辑
先上效果 <template> <div> <el-table :data="tableData" style="width: 100%&q ...
什么是SQL Server2019大数据群集？
从SQL Server 2019(15.x)开始,SQL Server大数据群集允许您部署在Kubernetes上运行的SQL Server,Spark和HDFS容器的可伸缩群集.这些组件并排运行,使 ...
Ubuntu 16.04安装ANSYS 2019 R1
参考:<ANSYS15.0 for Linux下载及安装教程> 参考链接: https://wenku.baidu.com/view/92bdf21b312b3169a451a4b5.ht ...
ping-pong buffer
1 什么是pingpong? pingpong是一种数据缓存的手段,通过pingpong操作可以提高数据传输的效率. 2 什么时候需要pingpong? 在两个模块间交换数据时,上一级处理的结果不能马 ...
centos git编译
1. 下载git源码 https://git-scm.com 2. 根据文档一步步操作 https://git-scm.com/book/en/v2/Getting-Started-Installin ...
【技术博客】利用Python将markdown文档转为html文档
利用Python将markdown文档转为html文档 v1.0 作者:FZK 元素简单的md文件 Python中自带有一个markdown库,你可以直接这样使用 md_file = open(&qu ...
shell脚本监控k8s集群job状态，若出现error通过触发阿里云的进程监控报警
#!/bin/bash while [ 1 ] do job_error_no=`kubectl get pod -n weifeng |grep -i "job"|grep -c ...
spring boot2X整合nacos一使用Feign实现服务调用
服务调用有两种方式: A.使用RestTemplate 进行服务调用查看 B.使用Feign 进行声明式服务调用上一次写了使用RestTemplate的方式,这次使用Feign的方式实现服务注册 ...

hadoop中HDFS的NameNode原理

1. hadoop中HDFS的NameNode原理

1.1. 组成

1.2. HDFS架构原理

1.3. NameNode如何承载每秒上千次的高并发访问

hadoop中HDFS的NameNode原理的更多相关文章

随机推荐

热门专题