hdfs namenode/datanode工作机制

一. namenode工作机制

1. 客户端上传文件时，namenode先检查有没有同名的文件，如果有，则直接返回错误信息。如果没有，则根据要上传文件的大小以及block的大小，算出需要分成几个block，指定每个block存在哪个datanode上，之后把这些元数据写到edits log中并返回给客户端。

2. 客户端拿到元数据后，驱动会把上传的文件分block，并把各个block上传到对应的datanode上，如果上传成功的话，客户端会收到上传成功信息，全部上传成功之后，客户端会把成功信息返回给namenode，namenode就把这次上传操作对应的元数据信息写到内存中。

3. edits log文件达到一定条件时，需要将内容整合到fsimage文件中去(fsimage是最终存储元数据的文件，很大)，这就需要secondarynamenode上场了。

edits log整合到fsimage文件的条件：

① edits log文件大小达到最大值，默认64M，由hdfs-site.xml配置文件的fs.checkpoint.size配置项指定

② 两次checkpoint的时间达到最大时间间隔，默认3600秒，由 hdfs-site.xml配置文件的fs.checkpoint.period配置项指定

当满足以上2个条件的任一个时，namenode会立刻通知secondarynamenode进行checkpoint操作，同时停止往edits log文件写内容，而是写入一个新的edits log文件，比如说叫做edits.new。secondarynamenode会把namenode中的fsimage文件和edits log文件下载过来，然后进行合并操作，合并完之后再把新的fsimage文件上传到namenode中。namenode会把edits.new文件重命名为edits log文件，直到再次写满，再次让secondarynamenode帮助进行合并操作。

元数据在namenode节点主机存放路径:

/home/koushengrui/app/hadoop-2.7.4/data/dfs/name/current，其中/home/koushengrui/app/hadoop-2.7.4/data是在core-site.xml配置文件中hadoop.tmp.dir配置项指定的值。dfs代表hdfs，name代表namenode，与name同级的目录还有data目录、namesecondary目录，其中data目录存放datanode的数据，namesecondary目录存放secondarynamenode的数据。

元数据的格式：

/test/a.log, 3 ,{blk_1,blk_2}, [{blk_1:[h0,h1,h3]},{blk_2:[h0,h2,h4]}]

其中/test/a.log表示上传的文件的虚拟目录，3表示文件有3个副本，blk_1、blk_2分别表示block1、block2，{blk_1:[h0,h1,h3]}表示blk_1三个副本分别在h0、h1、h2主机上，{blk_2:[h0,h2,h4]}表示blk_2的三个副本分别放在h0、h2、h4主机上。

namenode的职责：

1.相应客户端请求

2.维护元数据信息

3.维护hdfs的目录树

二. datanode工作机制

datanode提供文件存储服务，换句话说上传的文件是以分block的方式存储在datanode节点上的。block的最大大小在hdfs-site.xml配置文件由dfs.block.size配置项指定，默认是128M，可以根据实际需求增大或者减小。

文件实际存储路径是/home/koushengrui/app/hadoop-2.7.4/data/dfs/data/current/BP-13819656-192.168.100.100-1502801926683/current/finalized/subdir0/subdir0，即datanode节点的主机的hadoop.tmp.dir目录，dfs/data子目录中(上面介绍namenode时也提到过)。在此目录中可以看到很多以blk_开头的文件，这些文件就是上传的、分块后的文件。其实利用这些block文件可以得到原来的文件，把这些block文件按顺序拼装好之后就与之前上传的文件完全相同。

hdfs namenode/datanode工作机制的更多相关文章

HDFS中DataNode工作机制
1.DataNode工作机制 1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据(包括数据块的长度,块数据的校验和,以及时间戳). 2)DataNod ...
HDFS Namenode&Datanode
HDFS Namenode&Datanode HDFS 机制粗略示意图客户端写入文件流程: NN && DN Namenode(NN)工作机制 NN是整个文件系统的管理节点. ...
DataNode 工作机制
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/qq_35641192/article/d ...
Hadoop（五）—— HDFS NameNode、DataNode工作机制
一.NN与2NN工作机制 NameNode(NN) 1.当HDFS启动时,会加载日志(edits)和镜像文件(fsImage)到内存中. 2-4.当元数据的增删改查请求进来时,NameNode会先将操 ...
Hadoop_10_HDFS 的 DataNode工作机制
1.DataNode的工作机制: 1.DataNode工作职责:存储管理用户的文件块数据定期向namenode汇报自身所持有的block信息(通过心跳信息上报) (这点很重要,因为,当集群中发生某 ...
Hadoop框架：DataNode工作机制详解
本文源码:GitHub·点这里 || GitEE·点这里一.工作机制 1.基础描述 DataNode上数据块以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是数据块元数据包括长度.校验.时 ...
HDFS成员的工作机制
NameNode工作机制 nn负责管理块的元数据信息,元数据信息为fsimage和edits预写日志,通过edits预写日志来更新fsimage中的元数据信息,每次namenode启动时,都会将磁盘中 ...
hdfs的datanode工作原理
datanode的作用: (1)提供真实文件数据的存储服务. (2)文件块(block):最基本的存储单位.对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序 ...
Hadoop的namenode的管理机制，工作机制和datanode的工作原理
HDFS前言: 1) 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: 2)在大数据系统中作用: 为各类分布式运算框架(如:mapr ...

随机推荐

转/keystore和truststore的区别
keytool是java自带的工具用于产生密钥 keystore可以看成一个放key的库,key就是公钥,私钥,数字签名等组成的一个信息. truststore是放信任的证书的一个store. 那他们 ...
Linux下管理员强行踢出用户的命令使用方法
Linux强制踢出用户命令: 一.输入w命令查看已登录用户信息 [root@KW_S01_192.168.1.106_A ~]# w 19:22:31 up 2:11, 3 users, loa ...
Hexo下Next主题配置与优化
使用Next主题在这里Downloads Next主题代码将下载的代码放在myBlog/theme/next目录下设置站点myBlog/_config.yml的theme字段值为next 生成新 ...
正经学C#_循环[do while,while,for]：[c#入门经典]
在c#中循环语句总共三种,do...while ,while,for这三种语句. 循环语句,是为了解决一些繁琐的计算.比如输出0-10这10个数字. 在不循环的情况下你可以能这么写 Console.W ...
duddo在xml里面出现红叉的解决方法
原因是没有加入dubbo.xsd window-Preferences-输入xml-xmltacalog....... 配置离线约束:http://code.alibabatech.com/schem ...
主要介绍JavaEE中Maven Web 项目的结构及其它几个小问题
先说下本篇随笔的目录. 1.介绍windows中环境变量Path与ClassPath的区别. 2.可能导致命令行运行javac编译成功,但 java命令 + 所要执行的类的类名无效的原因. 3.介绍 ...
centOS系统将php升级到5.6 安装扩展
在文章中,我们将展示在centOS系统下如果将php升级到5.6,之前通过yum来安装lamp环境,直接升级的话,提示没有更新包,也就是说默认情况下php5.3.3是最新 1.查看已经安装的php版本 ...
Boost lockfree deque 生产者与消费者多对多线程应用
boost库中有一个boost::lockfree::queue类型的队列,对于一般的需要队列的程序,其效率都算不错的了,下面使用一个用例来说明. 程序是一个典型的生产者与消费者的关系,都可以使用多 ...
socket套接字基本概念
int socket()函数创建的是套接字socket,返回的是socket描述符(套接字描述符),其实就是文件描述符,socket(套接字)其实就是文件 socket()创建了套接字(文件),只是开 ...
Maven入门（二）pom.xml和核心概念
一.pom.xml文件说明 1.pom意思就是project object model. 2.pom.xml包含了项目构建的信息,包括项目的信息.项目的依赖等. 3.pom.xml文件是可以继承的,大 ...

hdfs namenode/datanode工作机制

hdfs namenode/datanode工作机制的更多相关文章

随机推荐

热门专题