SecondaryNameNode 理解】的更多相关文章

NameNode将对文件系统的改动追加保存到本地文件系统上的一个日志文件(edits).当一个NameNode启动时,它首先从一个映像文件(fsimage)中读取HDFS的状态,接着应用日志文件中的edits操作.然后它将新的HDFS状态写入(fsimage)中,并使用一个空的 edits文件开始正常操作.因为NameNode只有在启动阶段才合并fsimage和edits,所以一段时间后日志文件可能会变得非常庞大,特别是对大型的集群.日志文件太大的另一个副作用是下一次NameNode启动会花很长…
学习云计算,必然得了解Hadoop,而Hadoop中的HDFS(分布式文件系统)是一个基础,接下来就写一下我所理解的HDFS. 有一个很有特别的村庄,村庄里面有一个很牛逼的人,叫做“大哥”,村民们都信得过他,于是会把自己家的粮食.农具等等各种各样的东西“打包成一个大的包裹”让“大哥”给存着,等用的时候,再去找大哥要.我们可以姑且简单的认为:“大哥”就是服务器Server,村民们是客户端Client,而村民打包的一个大的包裹就是一个很大的文件. 一开始大家相安无事,后来别的村的人(更多的Clien…
在启动Hadoop时,NameNode节点上会默认启动一个SecondaryNameNode进程,使用JSP命令可以查看到.SecondaryNameNode光从字面上理解,很容易让人认为是NameNode的热备进程.其实不是,SecondaryNameNode是HDFS架构中的一个组成部分.它并不是元数据节点出现问题时的备用节点,它和元数据节点负责不同的事情. 1.SecondaryNameNode节点的用途: 简单的说,SecondaryNameNode节点的主要功能是周期性将元数据节点的命…
一.SecondaryNameNode概念: 光从字面上来理解,很容易让一些初学者先入为主:SecondaryNameNode(snn)就是NameNode(nn)的热备进程.其实不是.ssn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间.对于hadoop进程中,要配置好并正确的使用snn,还是需要做一些工作的.hadoop的默认配置中让snn进程默认…
[转]   1.概述 光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程.X 其 实不是.snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途, 其实它真正的用途,是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间. 对于hadoop进程中 ,要配置好并正确的使用 snn,还是需要做一些工作的. hadoop的默认配置中让snn进程默认运…
深入理解一个技术的工作机制是灵活运用和快速解决问题的根本方法,也是唯一途径.对于HDFS来说除了要明白它的应用场景和用法以及通用分布式架构之外更重要的是理解关键步骤的原理和实现细节.在看这篇博文之前需要对HDFS以及分布式系统有一些了解.请参考这篇博客.本篇博文首先对HDFS的重要特性和使用场景做一个简要说明,之后对HDFS的数据读写.元数据管理以及NameNode.SecondaryNamenode的工作机制进行深入分析.过程中也会对一些配置参数做一个说明. 一.HDFS的重要特性 First…
NameNode和SecondaryNameNode工作原理剖析 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode中的元数据是存储在那里的? 1>.首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低.因此,元数据需要存放在内存中.但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了.因此产生在磁盘中备份元数据的FsImage. 2>.这样又会带来新的问题,当在内存中的元数据更新时…
1.NN和2NN工作机制 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低.因此,元数据需要存放在内存中.但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了.因此产生在磁盘中备份元数据的FsImage. 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失.因此,引入Edits文件(只进行追加操…
1.概念 1.1什么是hadoop? hadoop 是大数据存储和处理的框架,主要组成为文件存储系统hdfs和分布式计算框架mapreduce. 1.2能做什么,擅长做什么,不擅长做什么? 1.2.1能做什么,如何做? hadoop 支持处理TB,PB级别的文件.举个栗子:如100M的文件,过滤出含有helloword的行,写个java pyhton程序就很快完成了,但是1T,1P的文件能做吗?就算能做,需要多长时间,需要多大硬件资源?从传统的设计来讲,在存储和计算上都存在困难.而hdfs文件系…
深入理解hadoop之HDFS 刚刚才写完关于mapreduce的一篇博文,趁热打铁接下来聊聊HDFS.本博文参考资料为HADOOP权威指南第3版完版,博文如有错漏之处,敬请指正. HDFS即Hadoop Distributed FileSystem,是hadoop旗舰机的文件系统.HDFS以流式数据访问模式来存储超大文件.有如下几个特点:超大文件:流式数据访问模式,即一次写入多次读取的访问模式:商用硬件,hadoop不需要运行在昂贵的商用硬件上面,对于庞大的集群来说,节点的故障概率是非常高的,…