一、工作机制

1、基础描述

DataNode上数据块以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是数据块元数据包括长度、校验、时间戳；

DataNode启动后向NameNode服务注册，并周期性的向NameNode上报所有的数据块元数据信息；

DataNode与NameNode之间存在心跳机制，每3秒一次，返回结果带有NameNode给该DataNode的执行命令，例如数据复制删除等，如果超过10分钟没有收到DataNode的心跳，则认为该节点不可用。

2、自定义时长

通过hdfs-site.xml配置文件，修改超时时长和心跳，其中中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。

<property>

    <name>dfs.namenode.heartbeat.recheck-interval</name>

    <value>600000</value>

</property>

<property>

    <name>dfs.heartbeat.interval</name>

    <value>6</value>

</property>

3、新节点上线

当前机器的节点为hop01、hop02、hop03，在此基础上新增节点hop04。

基本步骤

基于当前一个服务节点克隆得到hop04环境；

修改Centos7相关基础配置，并删除data和log文件；

启动DataNode，即可关联到集群；

4、多目录配置

该配置同步集群下服务，格式化启动hdfs及yarn，上传文件测试。

<property>

    <name>dfs.datanode.data.dir</name>

    <value>file:///${hadoop.tmp.dir}/dfs/data01,file:///${hadoop.tmp.dir}/dfs/data02</value>

</property>

二、黑白名单配置

1、白名单设置

配置白名单，该配置分发到集群服务下；

[root@hop01 hadoop]# pwd

/opt/hadoop2.7/etc/hadoop

[root@hop01 hadoop]# vim dfs.hosts

hop01

hop02

hop03

配置hdfs-site.xml，该配置分发到集群服务下；

<property>

    <name>dfs.hosts</name>

    <value>/opt/hadoop2.7/etc/hadoop/dfs.hosts</value>

</property>

刷新NameNode

[root@hop01 hadoop2.7]# hdfs dfsadmin -refreshNodes

刷新ResourceManager

[root@hop01 hadoop2.7]# yarn rmadmin -refreshNodes

2、黑名单设置

配置黑名单，该配置分发到集群服务下；

[root@hop01 hadoop]# pwd

/opt/hadoop2.7/etc/hadoop

[root@hop01 hadoop]# vim dfs.hosts.exclude

hop04

配置hdfs-site.xml，该配置分发到集群服务下；

<property>

    <name>dfs.hosts.exclude</name>

    <value>/opt/hadoop2.7/etc/hadoop/dfs.hosts.exclude</value>

</property>

刷新NameNode

[root@hop01 hadoop2.7]# hdfs dfsadmin -refreshNodes

刷新ResourceManager

[root@hop01 hadoop2.7]# yarn rmadmin -refreshNodes

三、文件存档

1、基础描述

HDFS存储的特点，适合海量数据的大文件，如果每个文件都很小，会产生大量的元数据信息，占用过多的内存，并且在NaemNode和DataNode交互的时候变的缓慢。

HDFS可以对一些小的文件进行归档存储，这里可以理解为压缩存储，即减少NameNode的消耗，也较少交互的负担，同时还允许对归档的小文件访问，提高整体的效率。

2、操作流程

创建两个目录

# 存放小文件

[root@hop01 hadoop2.7]# hadoop fs -mkdir -p /hopdir/harinput

# 存放归档文件

[root@hop01 hadoop2.7]# hadoop fs -mkdir -p /hopdir/haroutput

上传测试文件

[root@hop01 hadoop2.7]# hadoop fs -moveFromLocal LICENSE.txt /hopdir/harinput

[root@hop01 hadoop2.7]# hadoop fs -moveFromLocal README.txt /hopdir/harinput

归档操作

[root@hop01 hadoop2.7]# bin/hadoop archive -archiveName output.har -p /hopdir/harinput /hopdir/haroutput

查看归档文件

[root@hop01 hadoop2.7]# hadoop fs -lsr har:///hopdir/haroutput/output.har

这样就可以把原来的那些小文件块删除即可。

解除归档文件

# 执行解除

[root@hop01 hadoop2.7]# hadoop fs -cp har:///hopdir/haroutput/output.har/* /hopdir/haroutput

# 查看文件

[root@hop01 hadoop2.7]# hadoop fs -ls /hopdir/haroutput

四、回收站机制

1、基础描述

如果开启回收站功能，被删除的文件在指定的时间内，可以执行恢复操作，防止数据被误删除情况。HDFS内部的具体实现就是在NameNode中启动一个后台线程Emptier，这个线程专门管理和监控系统回收站下面的文件，对于放进回收站的文件且超过生命周期，就会自动删除。

2、开启配置

该配置需要同步到集群下的所有服务；

[root@hop01 hadoop]# vim /opt/hadoop2.7/etc/hadoop/core-site.xml

# 添加内容

<property>

   <name>fs.trash.interval</name>

    <value>1</value>

</property>

fs.trash.interval=0，表示禁用回收站机制，=1表示开启。

五、源代码地址

GitHub·地址

https://github.com/cicadasmile/big-data-parent

GitEE·地址

https://gitee.com/cicadasmile/big-data-parent

推荐阅读：编程体系整理

序号	项目名称	GitHub地址	GitEE地址	推荐指数
01	Java描述设计模式,算法,数据结构	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
02	Java基础、并发、面向对象、Web开发	GitHub·点这里	GitEE·点这里	☆☆☆☆
03	SpringCloud微服务基础组件案例详解	GitHub·点这里	GitEE·点这里	☆☆☆
04	SpringCloud微服务架构实战综合案例	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
05	SpringBoot框架基础应用入门到进阶	GitHub·点这里	GitEE·点这里	☆☆☆☆
06	SpringBoot框架整合开发常用中间件	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
07	数据管理、分布式、架构设计基础案例	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
08	大数据系列、存储、组件、计算等框架	GitHub·点这里	GitEE·点这里	☆☆☆☆☆

Hadoop框架：DataNode工作机制详解的更多相关文章

Hadoop框架：NameNode工作机制详解
本文源码:GitHub·点这里 || GitEE·点这里一.存储机制 1.基础描述 NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据 ...
Session的工作机制详解和安全性问题（PHP实例讲解）
我们先简单的了解一些http的知识,从而理解该协议的无状态特性.然后,学习一些关于cookie的基本操作.最后,我会一步步阐述如何使用一些简单,高效的方法来提高你的php应用程序的安全性以及稳定行. ...
JVM结构、GC工作机制详解
JVM结构.内存分配.垃圾回收算法.垃圾收集器.下面我们一一来看. 一.JVM结构根据<java虚拟机规范>规定,JVM的基本结构一般如下图所示: 从左图可知,JVM主要包括四个部分 ...
JVM结构、GC工作机制详解（转）
原文地址:http://blog.csdn.NET/tonytfjing/article/details/44278233 JVM结构.内存分配.垃圾回收算法.垃圾收集器.下面我们一一来看. 一.JV ...
【转载】JVM结构、GC工作机制详解
文章主要分为以下四个部分 JVM结构.内存分配.垃圾回收算法.垃圾收集器.下面我们一一来看. 一.JVM结构根据<java虚拟机规范>规定,JVM的基本结构一般如下图所示: 从左图可知, ...
【系统之音】WindowManager工作机制详解
前言目光所及,皆有Window!Window,顾名思义,窗口,它是应用与用户交互的一个窗口,我们所见到视图,都对应着一个Window.比如屏幕上方的状态栏.下方的导航栏.按音量键调出来音量控制栏.充 ...
NIO组件Selector工作机制详解（下）
转自:http://blog.csdn.net/haoel/article/details/2224069 五. 迷惑不解 : 为什么要自己消耗资源? 令人不解的是为什么我们的Java的New I/ ...
NIO组件Selector工作机制详解（上）
转自:http://blog.csdn.net/haoel/article/details/2224055 一. 前言自从J2SE 1.4版本以来,JDK发布了全新的I/O类库,简称NIO,其不但 ...
JVM、Gc工作机制详解
JVM主要包括四个部分: 类加载器(ClassLoad) 执行引擎内存区: 本地方法接口:类似于jni调本地native方法内存区包括四个部分: 1.方法区:包含了静态变量.常量池.构造函数等 2 ...

随机推荐

Unit5：广播
静态广播 1.定义 public class TestBroadCast extends BroadcastReceiver { @Override public void onReceive(Con ...
被喷了！聊聊我开源的RPC框架那些事
前段时间利用业余时间写了一个简单的 RPC 框架,花费了不少精力.开源出来之后,少部分不太友好的技术人站在上帝视角说了风凉话.就很难受,兄弟,谁还没有一个玻璃心. 简单吐槽一波,给大家聊聊关于 gui ...
C#开发PACS医学影像处理系统(十九)：Dicom影像放大镜
在XAML代码设计器中,添加canvas画布与圆形几何对象,利用VisualBrush笔刷来复制画面内容到指定容器: <Canvas x:Name="CvsGlass" Wi ...
python身体指数BMI
问题需求既要输出国际标准也要输出国内标准
文档驱动 —— 表单组件（五）：基于Ant Design Vue 的表单控件的demo，再也不需要写代码了。
源码 https://github.com/naturefwvue/nf-vue3-ant 特点只需要更改meta,既可以切换表单可以统一修改样式,统一升级,以最小的代价,应对UI的升级.切换,应 ...
我告诉你一个 AtomicInteger 的惊天大秘密
i++ 不是线程安全的操作,因为它不是一个原子性操作. 那么,如果我想要达到类似 i++ 的这种效果,我应该使用哪些集合或者说工具类呢? 在 JDK1.5 之前,为了确保在多线程下对某基本数据类型或者 ...
Spring学习（五）bean装配详解之【XML方式配置】
一.配置Bean的方式及选择配置方式在 XML 文件中显式配置在 Java 的接口和类中实现配置隐式 Bean 的发现机制和自动装配原则方式选择的原则最优先:通过隐式 Bean 的发现机制 ...
C++解析XML的通用库
工作中,经常和XML打交道,最近抽空实现了一个通用解析XML的库,已归档在GitHub,详情点击:ComXmlLib.如果您无法访问GitHub,点击此处下载(链接是初版,无法和GitHub同步,如需 ...
刷题 [网鼎杯 2018]Fakebook
解题思路首先登陆页面发现是这样的: 查看源码源码很正常,也没有什么特别的 web目录扫描我用的是dirmap工具扫描,扫描结果保存在一个txt文件中,结果可知没什么后台. robots.txt ...
在移动硬盘上安装Linux Mint19记录
前要: 有一12年买的手提电脑,打算在其上直接装linux部署分布式爬虫顺便学linux 唔,开机吧--然开机动画没有,只有间断有序的悲鸣,一查,主板逝世卖给收买旧电脑估计不到20-不能忍,想了想不 ...

Hadoop框架：DataNode工作机制详解

一、工作机制

1、基础描述

2、自定义时长

3、新节点上线

4、多目录配置

二、黑白名单配置

1、白名单设置

2、黑名单设置

三、文件存档

1、基础描述

2、操作流程

四、回收站机制

1、基础描述

2、开启配置

五、源代码地址

Hadoop框架：DataNode工作机制详解的更多相关文章

随机推荐

热门专题