HBase在单Column和多Column情况下批量Put的性能对比分析
作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息
针对HBase在单column family单column qualifier和单column family多column qualifier两种场景下,分别批量Put写入时的性能对比情况,下面是结合HBase的源码来简单分析解释这一现象。
1. 测试结果
在客户端批量写入时,单列族单列模式和单列族多列模式的TPS和RPC次数相差很大,以客户端10个线程,开启WAL的两种模式下的测试数据为例,
- 单列族单列模式下,TPS能够达到12403.87,实际RPC次数为53次;
- 单列族多列模式下,TPS只有1730.68,实际RPC次数为478次。
二者TPS相差约7倍,RPC次数相差约9倍。详细的测试环境这里不再罗列,我们这里关心的只是在两种条件下的性能差别情况。
2. 粗略分析
下面我们先从HBase存储原理层面“粗略”分析下为什么出现这个现象:
HBase的KeyValue类中自带的字段占用大小约为50~60 bytes左右(参考HBase源码org/apache/hadoop/hbase/KeyValue.java),那么客户端Put一行数据时(53个字段,row key为64 bytes,value为751 bytes):
1) 开WAL,单column family单column qualifier,批量Put:(50~60) + 64 + 751 = 865~875 bytes;
2) 开WAL,单column family多column qualifier,批量Put:((50~60) + 64) * 53 + 751 = 6793~7323 bytes。
因此,总体来看,后者实际传输的数据量是前者的:(6793~7323 bytes) / (865~875 bytes) = 7.85~8.36倍,与测试结果478 / 53 = 9.0倍基本相符(由于客户端write buffer大小一样,实际请求数的比例关系即代表了实际传输的数据量的比例关系)。
3. 源码分析
OK,口说无凭,下面我们通过对HBase的源码分析来进一步验证以上理论估算值:
HBase客户端执行put操作后,会调用put.heapSize()累加当前客户端buffer中的数据,满足以下条件则调用flushCommits()将客户端数据提交到服务端:
1)每次put方法调用时可能传入的是一个List<Put>,此时每隔DOPUT_WB_CHECK条(默认为10条),检查当前缓存数据是否超过writeBufferSize(测试中被设置为5MB),超过则强制执行刷新;
2)autoFlush被设置为true,此次put方法调用后执行一次刷新;
3)autoFlush被设置为false,但当前缓存数据已超过设定的writeBufferSize,则执行刷新。
private void doPut(final List<Put> puts) throws IOException {
int n = 0;
for (Put put : puts) {
validatePut(put);
writeBuffer.add(put);
currentWriteBufferSize += put.heapSize();
// we need to periodically see if the writebuffer is full instead
// of waiting until the end of the List
n++;
if (n % DOPUT_WB_CHECK == 0
&& currentWriteBufferSize > writeBufferSize) {
flushCommits();
}
}
if (autoFlush || currentWriteBufferSize > writeBufferSize) {
flushCommits();
}
}
由上述代码可见,通过put.heapSize()累加客户端的缓存数据,作为判断的依据;那么,我们可以按照测试数据的实际情况,编写代码生成Put对象后就能得到测试过程中的一行数据(由53个字段组成,共计731 bytes)实际占用的客户端缓存大小:
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.util.Bytes; public class PutHeapSize {
/**
* @param args
*/
public static void main(String[] args) {
// single column Put size
byte[] rowKey = new byte[64];
byte[] value = new byte[751];
Put singleColumnPut = new Put(rowKey);
singleColumnPut.add(Bytes.toBytes("t"), Bytes.toBytes("col"), value);
System.out.println("single column Put size: " + singleColumnPut.heapSize()); // multiple columns Put size
value = null;
Put multipleColumnsPut = new Put(rowKey);
for (int i = 0; i < 53; i++) {
multipleColumnsPut.add(Bytes.toBytes("t"), Bytes.toBytes("col" + i), value);
}
System.out.println("multiple columns Put size: " + (multipleColumnsPut.heapSize() + 751));
}
}
程序输出结果如下:
single column Put size: 1208
multiple columns Put size: 10575
由运行结果可得到,9719/1192 = 8.75,与上述理论分析值(7.85~8.36倍)、实际测试结果值(9.0倍)十分接近,基本可以验证测试结果的准确性。
如果你还对put.heapSize()方法感兴趣,可以继续阅读其源码实现,你会发现对于一个put对象来说,其中KeyValue对象的大小最主要决定了整个put对象的heapSize大小,为了进一步通过实例验证,下面的这段代码分别计算单column和多columns两种情况下一行数据的KeyValue对象的heapSize大小:
import org.apache.hadoop.hbase.KeyValue;
public class KeyValueHeapSize {
/**
* @param args
*/
public static void main(String[] args) { // single column KeyValue size
byte[] row = new byte[64]; // test row length
byte[] family = new byte[1]; // test family length
byte[] qualifier = new byte[4]; // test qualifier length
long timestamp = 123456L; // ts
byte[] value = new byte[751]; // test value length
KeyValue singleColumnKv = new KeyValue(row, family, qualifier, timestamp, value);
System.out.println("single column KeyValue size: " + singleColumnKv.heapSize()); // multiple columns KeyValue size
value = null;
KeyValue multipleColumnsWithoutValueKv = new KeyValue(row, family, qualifier, timestamp, value);
System.out.println("multiple columns KeyValue size: " + (multipleColumnsWithoutValueKv.heapSize() * 53 + 751));
} }
程序输出结果如下:
single column KeyValue size: 920
multiple columns KeyValue size: 10079
与前面PutHeapSize程序的输出结果对比发现,KeyValue确实占据了整个Put对象的大部分heapSize空间,同时发现从KeyValue对象级别对比两种情况下的传出数据量情况:10079/920 = 10.9倍,也与实际测试值比较接近。
4. 相关结论
经过以上分析可以得出以下结论:
- 在实际应用场景中,对于单column qualifier和多column qualifier两种情况,如果value长度越长,row key长度越短,字段数(column qualifier数)越少,前者和后者在实际传输数据量上会相差小些;反之则相差较大。
- 如果采用多column qualifier的方式存储,且客户端采取批量写入的方式,则可以根据实际情况,适当增大客户端的write buffer大小,以便能够提高客户端的写入吞吐量。
HBase在单Column和多Column情况下批量Put的性能对比分析的更多相关文章
- C++单继承、多继承情况下的虚函数表分析
C++的三大特性之一的多态是基于虚函数实现的,而大部分编译器是采用虚函数表来实现虚函数,虚函数表(VTAB)存在于可执行文件的只读数据段中,指向VTAB的虚表指针(VPTR)是包含在类的每一个实例当中 ...
- 关于MySQL中查询大数据量的情况下分页limit的性能优化
https://blog.csdn.net/weixin_37848710/article/details/80772725
- 一步步学Mybatis-实现单表情况下的CRUD操作 (3)
今天这一章要紧接上一讲中的东西,本章中创建基于单表操作的CRUD与GetList操作,此示例中以Visitor表为范例,为了创建一点测试数据我们先弄个Add方法吧 继续在上次的IVisitorOper ...
- 使用java操作hbase(单节点)
1.在运行java代码之前,一定要先启动Hbase,很重要!! cd /home/cx/itcast/hbase-1.2.6/bin ./start-hbase.sh 2.新建一个java项 ...
- 单链表在不知头结点的情况下对第i个元素的删除
一.首先,看看单链表中第i个元素的删除: Status ListDelete_L (LinkList &L,int i,ElemType &e){ //在带头结点的单链表L中,删除第i ...
- ng-file-upload(在单文件选择,并且通过点击“上传”按钮上传文件的情况下,如何在真正选择文件之前保留上一文件信息?)
文章前面研究ng-file-upload可能涉及指令: You can use ng-model or ngf-change instead of specifying function for ng ...
- ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN)
背景 老生常谈,为sql当时着迷了,啥都用sql解决.看这个语句,麻烦的. ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN) 简单的说row ...
- ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN DESC)函数的使用
ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN DESC)函数的作用是指定COLUMN(列)进行分区,在分区内指定COLUMN(列)进行排序 ...
- jQuery使用ajaxSubmit()提交表单(在不希望页面跳转的情况下)
原文:http://www.jb51.net/article/48728.htm ajaxSubmit(obj)方法是jQuery的一个插件jquery.form.js里面的方法,所以使用此方法需要先 ...
随机推荐
- 解决VMware“该虚拟机似乎正在使用中”问题
http://jingyan.baidu.com/article/4ae03de3fa2ae93eff9e6bb0.html
- MVC 学习(二)之Linq to Sql 简单Demo
Linq to Entities 已经我的一篇博文中阐述了,这里阐述一下简单的Linq to Sql 的增删改查.Linq to sql 与Linq to Entities虽然同属于DataBase- ...
- -Dmaven.multiModuleProjectDirectory system property is not set. Check $M2_HOME environment variable
在 myEclipse 中 需要配置 解决方法: window --> preferences --> java --> installed JREs 设置 Default VM A ...
- Linux下守护进程初探
守护进程一直后台运行,与终端脱离,一般负责周期性地执行系统任务,服务器应用一般以守护进程进行运行.实现一个守护进程主要分为5部: 1.脱离父进程 2.setsid(可以选择再次fork) 3.umas ...
- Confluence部署攻略 [转]
一.软件介绍 AtlassianConfluence(简称Confluence)是一个专业的wiki程序.它是一个知识管理的工具,通过它可以实现团队成员之间的协作和知识共享.Confluence不是一 ...
- 手机驱动无法正常安装,出现adb interface失败
手机一直无法用usb连接上电脑,试了各种方法,总是提示安装驱动失败,或者找不到文件. 在网上找了各种方法,后来结果证明,是我自己手贱了,... 方法: Win7系统用户已经碰到几次在安装adb驱动时提 ...
- mormot json操作
使用JSon只需要引用一个文件synCommons. procedure TForm1.Button1Click(Sender: TObject);var jo: Variant; i: Int64; ...
- 使用commons-logging和log4j记录日志
一,为什么要使用commons-logging+log4j? commons-logging和log4j都是Apache下的开源项目.commons-logging的目的是为“所有的Java日志实现” ...
- 【Android测试】【随笔】性能采集工具——小松鼠诞生记
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/4945066.html 起因 去年刚加入TX的时候,我便接手 ...
- 专题:Channel Bonding/bonding
EtherChannel最初是由cisco提出,通过聚合多条物理链路为单条逻辑链路,从而实现高可用及提高吞吐量等目的.AgP(Port Aggregation Protocol,Cisco专有协议). ...