HDFS APPEND性能测试

hbase在写入数据之前会先写hlog，hlog目前是sequencefile格式，采用append的方式往里追加数据。之前团队的同学测试关闭hlog会一定程序上提升写hbase的稳定性。而在我之前的想象中，hlog的写入速度应该是稳定的。于是写了个append程序专门测试hdfs的append性能。

　　代码如下：

FSDataOutputStream stm = fs.create(path, true,
conf.getInt("io.file.buffer.size", 4096),
(short)3, blocksize);
String a = make(1000);
stm.write(a.getBytes());
stm.sync();

　　可以看到，append的过程分两步：先write，然后执行sync()，如果不执行sync，理论上会存在丢失数据的风险。

　　由于不清楚是sync不稳定，还是write本身不稳定。所以对打开和关闭sync均做了测试。

图1：打开sync功能

图2：关闭sync功能

从图1和图2的结果可以看到打开和关闭sync操作同样不稳定，因此可以判断不稳定因素主要出在write本身上。观察write函数，发现在创建它时需要一个blocksize参数，我的代码中一开始是设置的1MB。于是修改为32MB，绝大部分毛刺消失了。进一步修改为64MB，性能有进一步的提升。如下图

图3：设为32MB

图4：设为64MB

　　这个参数是决定多大的文件在hdfs上可读的。传统的hdfs写文件要满足dfs.block.size大小(默认64MB)才可读。但是在append模式下这个可读的大小是由这里的blocksize决定的。默认值在本地文件系统下由fs.local.block.size决定，在hdfs文件系统下仍由dfs.block.size决定。如果设为1MB，那么hdfs上每append 1MB的大小，就可以读到了。当写入的数据达到这个大小时，会触发namenode执行fsync()操作。而在日志中观察到，每次发生这个操作时，都会造成读响应的变慢。

　　fsync()操作的内容比较多，没有仔细看源码，知道原理的同学联系我吧。

　　从附图中可以看到，append_block_size从1MB提高到32MB，再提高到64MB，都会有一定程序的稳定性改善。再提高就没有用了，因为hlog和dfs.block.size的默认大小都是64MB。不过hbase每1s会强制刷新执行一次fsync，所以会看到hbase在打开日志的情况下每1s会有一次小的响应时间波动

　　结论有两点：

　　1 hdfs的append的确是有一点不稳定的

　　2 修改fs.local.block.size或dfs.block.size可以影响这个不稳定因素。

HDFS APPEND性能测试的更多相关文章

HDFS Append时packet的格式以及DataNode对block/checksum文件的处理
HDFS Append时packet的格式以及DataNode对block/checksum文件的处理 HDFS的Block一般比较大,默认64MB/128MB,客户端给DataNode发数据实际上是 ...
HDFS 与 GFS 的设计差异
后端分布式系列」前面关于 HDFS 的一些文章介绍了它的整体架构和一些关键部件的设计实现要点. 我们知道 HDFS 最早是根据 GFS(Google File System)的论文概念模型来设计实现的 ...
HDFS 异常处理与恢复
在前面的文章 <HDFS DataNode 设计实现解析>中我们对文件操作进行了描述,但并未展开讲述其中涉及的异常错误处理与恢复机制.本文将深入探讨 HDFS 文件操作涉及的错误处理与恢复 ...
windows通过thrift访问hdfs
thirift是一个支持跨种语言的远程调用框架,通过thrift远程调用框架,结合hadoop1.x中的thriftfs,编写了一个针对hadoop2.x的thriftfs,供外部程序调用. 1.准备 ...
基于Httpfs访问HDFS的C++实现
Httpfs是hadoop2.x中hdfs项目的内置应用,基于tomcat和jesery,对外提供完备HDFS操作的RESTful接口,无需安装客户端,可方便实现数据交互,如从windows访问存储在 ...
HDFS原理讲解
简介本文是笔者在学习HDFS的时候的学习笔记整理, 将HDFS的核心功能的原理都整理在这里了. [广告] 如果你喜欢本博客,请点此查看本博客所有文章:http://www.cnblogs.com/x ...
利用JAVA API远程进行HDFS的相关操作
学习HDFS有一段时间了,现在把自己总结的HDFS的相关操作代码展示给大家. 主要有HDFS的增删改查,文件的追加,windows本地文件的上传,hdfs文件的下载,文件重命名,创建目录,文件是否存在 ...
使用kafka connect，将数据批量写到hdfs完整过程
版权声明:本文为博主原创文章,未经博主允许不得转载本文是基于hadoop 2.7.1,以及kafka 0.11.0.0.kafka-connect是以单节点模式运行,即standalone. 首先, ...
后端分布式系列：分布式存储－HDFS 与 GFS 的设计差异
「后端分布式系列」前面关于 HDFS 的一些文章介绍了它的整体架构和一些关键部件的设计实现要点. 我们知道 HDFS 最早是根据 GFS(Google File System)的论文概念模型来设计实现 ...

随机推荐

ORA-28001: the password has expired 详解不用重启项目
大早上正式库提示: Oracle提示错误消息ORA-28001: the password has expired 解决办法: 1.利用SYSDBA权限登陆: 2.查看账户信息:select user ...
Android的资源类型和存储方式简介-android学习之旅（五十二）
android资源的类型 android资源的存储方式
lk中内联调用的dsb()
lk中内联调用的dsb() 比如lk的uart_dm_init()函数就调用了dsb() /* Configure the uart clock */ clock_config_uart_dm(id) ...
(NO.00003)iOS游戏简单的机器人投射游戏成形记(六)
为什么要将手臂移动的代码单独放在一个方法中? 其实这里是多次重构之后的版本.原来的移动代码是放在touchMoved方法里的.后来发现除了触摸手臂移动方式外,还要实现触摸屏幕移动手臂这第二种方式. 所 ...
Chipmunk僵尸物理对象的出现和解决(三)
首先是触摸移动反弹棒的代码: -(void)touchMoved:(CCTouch *)touch withEvent:(CCTouchEvent *)event{ CGPoint location ...
Leetcode_70_Climbing Stairs
本文是在学习中的总结,欢迎转载但请注明出处:http://blog.csdn.net/pistolove/article/details/41851705 You are climbing a sta ...
ViewPager 实现 Galler 效果, 中间大图显示，两边小图展示（优化篇）
上一张效果图: 之前的项目有一个Galley的项目,但是代码结构特别乱,别问我为什么,我也是刚接手这个项目,为了方便以后阅读和维护我对一些模块进行了重构.ViewPager实现Galler效果,但是当 ...
android 的android httpClient详解
AndroidHttpClient结构: public final class AndroidHttpClient extends Object implements HttpClient 前言: 这 ...
python爬虫 - python requests网络请求简洁之道
http://blog.csdn.net/pipisorry/article/details/48086195 requests简介 requests是一个很实用的Python HTTP客户端库,编写 ...
LCS问题（最长公共子序列）-动态规划实现
问题描述: 问题] 求两字符序列的最长公共字符子序列注意: 并不要求子串(字符串一)的字符必须连续出现在字符串二中. 思路分析: 最优子结构和重叠子问题的性质都具有,所以要采取动态规划的算法最长公 ...

HDFS APPEND性能测试

HDFS APPEND性能测试的更多相关文章

随机推荐

热门专题