HDFS hflush hsync和close的区别

HDFS的hflush,hsync和close有啥区别，分别做了什么

hflush: 语义是保证flush的数据被新的reader读到，但是不保证数据被datanode持久化.
hsync: 与hflush几乎一样，不同的是hsync保证数据被datanode持久化。
close: 关闭文件.除了做到以上2点，还保证文件的所有block处于completed状态，并且将文件置为closed

场景是写一个字节(append或者create)，然后调用hflush.看看hflush做了什么。

涉及到几个线程，一个是调FSDataOutputStream的write的线程，它是应用程序自己的线程,write会将数据以packet的形式一个个的丢入data queue中。
另外两个是HDFS客户端代码中的线程，其中一个是DataStreamer，负责从data queue中取出一个个的packet发出去，过程是为每个block建立一个pipeline，然后发packet，最后关闭pipeline，接着下一个block。另外一个是ResponseProcessor，负责处理下游节点的ack。

实际上，packet是由chunk组成的，每个chunk对应一个checksum，一个packet大概64KB左右，一个chunk通常512字节。通常情况下，每512字节算一个checksum，写入到packet中。但是最后一个chunk通常是不满512字节。hflush实际上，就是将最后不满一个chunk的数据算checksum，然后
写入packet，最后将这个packet放入data queue队列.在我们只写一个字节的场景下，一个字节不够一个chunk，故data queue中始终每个packet，DataStreamer始终等待着没有建立pipeline，调用hflush后，往data queue塞入一个packet，DataStreamer终于从data queue中取到一个packet，然后建立pipeline，接着发送packet。调完hflush的应用程序线程一直在等待最后一个packet的ack被收到，轮到ResponseProcessor上场。他不断的处理从datanode收到的packet ack，不断更新block的长度。接着，执行hflush的应用程序线程终于等到了最后一个packet的ack，然后它告诉namenode最后一个block的长度，namenode更新内存状态，实际
上是根据文件名找到INodeFile，将block长度写入，并且记一条edit log.

下面看看关闭文件close时做了什么.

FSDataOutputStream的close:

一开始也是和hflush一样，将最后一个packet进data queue，不同的是还会生成一个特殊的packet入data queue，lastPacketInBlock标记设为true,意思是告诉datanode这是block的最后一个packet，然后等最后这个包的ack收到。接着关闭DataStreamer和ResponseProcessor线程。然后调用completeFile(),最后结束file lease.

看看completeFile()：

通知namenode，namenode会做一些检查：

根据文件名从目录树中拿出INode，检查文件是否处于under construction状态，如果不是，则complete file失败.
从INode中拿出修改这个文件的lease holder和当前completeFile()这个客户端比较，看是否是同一个client，如果不是，则complete file失败(namenode从目录树中得到当前打开文件的信息，会定期检查打开的文件的lease是否超过hard limit，默认1小时，如果超过了，会强行将文件的lease设置为namenode，这样，client 就不能向namenode commit block了。)
namenode会检查文件的倒数第二个block是否已经是completed状态，如果不是客户端重试，否则，将最后一个block变成completed状态，其实就是修改一下内存中数据结构，写一条edit log。一个block是completed状态的条件是满足最低副本数要求，默认配置1,配置项DFS_NAMENODE_REPLICATION_MIN_KEY.当datanode收到一个block后，会向namenode汇报，只要有一个datanode汇报成功，namenode就将block置为completed.最后namenode将file置为closed状态。

最后看看hsync.

实现上和hflush几乎一样，代码共有，特殊的是最后一个packet标记为syncBlock状态，datanode收到后就会落盘了.

参考资料

hadoop-hdfs-2.4.1.jar

HDFS hflush hsync和close的区别的更多相关文章

HDFS中hsync方法介绍
HDFS中hsync方法介绍原创文章,转载请注明:博客园aprogramer 原文链接:HDFS中hsync方法介绍 1. 背景介绍 HDFS在写数据务必要保证数据的一致性与持久性,从HDFS最初的 ...
[HDFS Manual] CH1 HDFS体系结构
v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VM ...
Hadoop hdfs副本存储和纠删码(Erasure Coding)存储优缺点
body { margin: 0 auto; font: 13px / 1 Helvetica, Arial, sans-serif; color: rgba(68, 68, 68, 1); padd ...
Hadoop学习笔记一（HDFS架构）
介绍 Hadoop分布式文件系统(HDFS)设计的运行环境是商用的硬件系统.他和现存的其他分布式文件系统存在很多相似点.不过HDFS和其他分布式文件系统的区别才是他的最大亮点,HDFS具有高容错的特性 ...
Hadoop生态集群之HDFS
一.HDFS是什么 HDFS是hadoop集群中的一个分布式的我文件存储系统.他将多台集群组建成一个集群,进行海量数据的存储.为超大数据集的应用处理带来了很多便利. 和其他的分布式文件存储系统相比他有 ...
HDFS 和 YARN 的 HA 故障切换【转】
来源:https://blog.csdn.net/u011414200/article/details/50336735 一非 HDFS HA 集群转换成 HA 集群二 HDFS 的 HA 自动切换 ...
hadoop之HDFS学习笔记（一）
主要内容:hdfs的整体运行机制,DATANODE存储文件块的观察,hdfs集群的搭建与配置,hdfs命令行客户端常见命令:业务系统中日志生成机制,HDFS的java客户端api基本使用. 1.什么是 ...
day1--大数据概念，hadoop介绍，hdfs整体运行机制
1.什么是大数据基本概念在互联网技术发展到现今阶段,大量日常.工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用 ...
hdfs运行机制
hdfs:分布式文件系统 hdfs有着文件系统共同的特征: 1.有目录结构,顶层目录是: / 2.系统中存放的就是文件 3.系统可以提供对文件的:创建.删除.修改.查看.移动等功能 hdfs跟普通的 ...

随机推荐

Jquery初体验一
<!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...
[Java初探外篇]__关于时间复杂度与空间复杂度
前言我们在前面的排序算法的学习中了解到了,排序算法的分类,效率的比较所使用到的判断标准,就包括时间复杂度和空间复杂度,当时因为这两个定义还是比较难以理解的,所以决定单独开一篇文章,记录一下学习的过程 ...
玩转mongodb（七）：索引，速度的引领（全文索引、地理空间索引）
本篇博文主要介绍MongoDB中一些常用的特殊索引类型,主要包括: 用于简单字符串搜索的全文本索引: 用于球体空间(2dsphere)和二维平面(2d)的地理空间索引. 一.全文索引 MongoDB有 ...
elasticSearch6源码分析(10)SettingsModule
1.SettingsModule概述 /** * A module that binds the provided settings to the {@link Settings} interface ...
jmeter安装教程与新手入门(附jdk安装教程)
一.前言最近要对网站做性能测试,提到了并发数测试,查了下,还是决定使用jmeter来完成这项测试,这里总结了jmeter完整的安装教程,附上新手使用教程. 二.jmeter安装 1.jdk安装(jm ...
因为错误关闭Selinux导致CentOS7启动失败(进度条卡死，图形界面加载卡死)
我在CentOS7上安装oracle,非常麻烦,搞半天终于安装完毕,当天我没有发现任何问题,第二天上班打开虚拟机CentOS7就进不去了. 我想起来之前关闭了Selinux,把系统名称改成了redha ...
python的Web框架：初识Django
web应用程序本质 socket服务端浏览器本质是一个socket客户端 1. 服务器程序 socket请求接受HTTP请求,发送HTTP响应. 比较底层,繁琐,有专用的服务器软件,如:Apac ...
浅析 JavaScript 链式调用
对$函数你已经很熟悉了.它通常返回一个html元素或一个html元素的集合,如下: function$(){ var elements = []; for(vari=0,len=arguments.l ...
UVA 11054 Wine trading in Gergovia（思维）
题目链接: https://vjudge.net/problem/UVA-11054 /* 问题输入村庄的个数n(2=<n<=100000)和n个村庄的数值,正代表买酒,负代表卖酒,k个 ...
JavaScript学习总结(五)——jQuery插件开发与发布
jQuery插件就是以jQuery库为基础衍生出来的库,jQuery插件的好处是封装功能,提高了代码的复用性,加快了开发速度,现在网络上开源的jQuery插件非常多,随着版本的不停迭代越来越稳定好用, ...

HDFS hflush hsync和close的区别

参考资料

HDFS hflush hsync和close的区别的更多相关文章

随机推荐

热门专题