大数据应用之HBase数据插入性能优化实测教程

引言：

　　大家在使用HBase的过程中，总是面临性能优化的问题，本文从HBase客户端参数设置的角度，研究HBase客户端数据批量插入性能优化的问题。事实胜于雄辩，数据比理论更有说服力，基于此，作者设计了这么一个HBase数据插入性能优化实测实验，希望大家用自己的服务器跑出的结果，给自己一个值得信服的结论。

一、客户单优化参数

　　1.Put List Size
　　HBase的Put支持单条插入，也支持批量插入。

　　2. AutoFlush　　
　　AutoFlush指的是在每次调用HBase的Put操作，是否提交到HBase Server。默认是true,每次会提交。如果此时是单条插入，就会有更多的IO,从而降低性能

　　3.Write Buffer Size
　　Write Buffer Size在AutoFlush为false的时候起作用，默认是2MB,也就是当插入数据超过2MB,就会自动提交到Server

　　4.WAL
　　WAL是Write Ahead Log的缩写，指的是HBase在插入操作前是否写Log。默认是打开，关掉会提高性能，但是如果系统出现故障(负责插入的Region Server　　挂掉)，数据可能会丢失。

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

/* Style Definitions */
table.MsoNormalTable
{mso-style-name:普通表格;
mso-tstyle-rowband-size:0;
mso-tstyle-colband-size:0;
mso-style-noshow:yes;
mso-style-priority:99;
mso-style-qformat:yes;
mso-style-parent:"";
mso-padding-alt:0cm 5.4pt 0cm 5.4pt;
mso-para-margin:0cm;
mso-para-margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:10.5pt;
mso-bidi-font-size:11.0pt;
font-family:"Calibri","sans-serif";
mso-ascii-font-family:Calibri;
mso-ascii-theme-font:minor-latin;
mso-fareast-font-family:宋体;
mso-fareast-theme-font:minor-fareast;
mso-hansi-font-family:Calibri;
mso-hansi-theme-font:minor-latin;
mso-bidi-font-family:"Times New Roman";
mso-bidi-theme-font:minor-bidi;
mso-font-kerning:1.0pt;}

参数	默认值	说明
JVM Heap Size		平台不同值不同自行设置
AutoFlush	True	默认逐条提交
Put List Size	1	支持逐条和批量
Write Buffer Size	2M	与autoflush配合使用
Write Ahead Log	True	默认开启，需要手动关闭
…
…

二、源码程序

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.Random;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.HColumnDescriptor;

 import org.apache.hadoop.hbase.HTableDescriptor;

 import org.apache.hadoop.hbase.KeyValue;

 import org.apache.hadoop.hbase.MasterNotRunningException;

 import org.apache.hadoop.hbase.ZooKeeperConnectionException;

 import org.apache.hadoop.hbase.client.Delete;

 import org.apache.hadoop.hbase.client.Get;

 import org.apache.hadoop.hbase.client.HBaseAdmin;

 import org.apache.hadoop.hbase.client.HTable;

 import org.apache.hadoop.hbase.client.Result;

 import org.apache.hadoop.hbase.client.ResultScanner;

 import org.apache.hadoop.hbase.client.Scan;

 import org.apache.hadoop.hbase.client.Put;

 import org.apache.hadoop.hbase.util.Bytes;

 /*

  * -------优化案例说明------------

  * 1.优化参数1：Autoflush                默认关闭，需要手动开启

  * 2.优化参数2：put list size            支持单条与批量

  * 3.优化参数3：JVM heap size             默认值是平台而不同，需要手动设置

  * 4.优化参数4：Write Buffer Size        默认值2M

  * 5.优化参数5：Write Ahead Log             默认开启，需要手动关闭

  * */

 public class TestInsert {

     static Configuration hbaseConfig = null;

     public static void main(String[] args) throws Exception {

         Configuration HBASE_CONFIG = new Configuration();

         HBASE_CONFIG.set("hbase.master", "192.168.230.133:60000");

         HBASE_CONFIG.set("hbase.zookeeper.quorum", "192.168.230.133");

         HBASE_CONFIG.set("hbase.zookeeper.property.clientPort", "2181");

         hbaseConfig = HBaseConfiguration.create(HBASE_CONFIG);

         //关闭wal,autoflush,writebuffer = 24M

         insert(false,false,1024*1024*24);

         //开启AutoFlush，writebuffer = 0

         insert(false,true,0);

         //默认值，全部开启

         insert(true,true,0);

     }

     private static void insert(boolean wal,boolean autoFlush,long writeBuffer)

             throws IOException {

         String tableName="etltest";

         HBaseAdmin hAdmin = new HBaseAdmin(hbaseConfig);

         if (hAdmin.tableExists(tableName)) {

             hAdmin.disableTable(tableName);

             hAdmin.deleteTable(tableName);

         }

         HTableDescriptor t = new HTableDescriptor(tableName);

         t.addFamily(new HColumnDescriptor("f1"));

         t.addFamily(new HColumnDescriptor("f2"));

         t.addFamily(new HColumnDescriptor("f3"));

         t.addFamily(new HColumnDescriptor("f4"));

         hAdmin.createTable(t);

         System.out.println("table created");

         HTable table = new HTable(hbaseConfig, tableName);

         table.setAutoFlush(autoFlush);

         if(writeBuffer!=0){

             table.setWriteBufferSize(writeBuffer);

         }

         List<Put> lp = new ArrayList<Put>();

         long all = System.currentTimeMillis();

         System.out.println("start time = "+all);

         int count = 20000;

         byte[] buffer = new byte[128];

         Random r = new Random();

         for (int i = 1; i <= count; ++i) {

             Put p = new Put(String.format("row d",i).getBytes());

             r.nextBytes(buffer);

             p.add("f1".getBytes(), null, buffer);

             p.add("f2".getBytes(), null, buffer);

             p.add("f3".getBytes(), null, buffer);

             p.add("f4".getBytes(), null, buffer);

             p.setWriteToWAL(wal);

             lp.add(p);

             if(i%1000 == 0){

                 table.put(lp);

                 lp.clear();

             }

         }

         System.out.println("WAL="+wal+",autoFlush="+autoFlush+",buffer="+writeBuffer+",count="+count);

         long end = System.currentTimeMillis();

         System.out.println("total need time = "+ (end - all)*1.0/1000+"s");

         System.out.println("insert complete"+",costs:"+(System.currentTimeMillis()-all)*1.0/1000+"ms");

     }

 }

三、集群配置

3.1 服务器硬件配置清单

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

序号	节点名称	CUP	内存	硬盘	带宽
1	HMaster
2	HregionServer1
3	HregionServer2
4	…
5
6
7

3.2 客户端硬件配置清单

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

设备	节点名称
Cpu
内存
硬盘
带宽

四、测试报告

Normal
0

7.8 磅
0
2

false
false
false

EN-US
ZH-CN
X-NONE

MicrosoftInternetExplorer4

数据量	JVM	AutoFlush	Put List Size	WriteBufferSize	WAL	耗时
1000	512m	false	1000	1024102424	false
2000
5000
10000
20000
50000
100000
200000
500000
100000

备注：该技术专题讨论正在群Hadoop高级交流群：293503507同步直播中，敬请关注。

大数据应用之HBase数据插入性能优化实测教程的更多相关文章

TODOList 多线程交互、RCP、事物控制、数据倾斜、HBase数据同步性
TODOList 多线程交互.RCP.事物控制.数据倾斜.HBase数据同步性 TODO List thread.join()如何互相之间通知? 线程池何时最后运行完成? MemCache性能要优于R ...
【转载】HBase 数据库检索性能优化策略
转自:http://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html 高性能 HBase 数据库本文首先介绍了 HBase 数据库基本 ...
HBase 数据库检索性能优化策略--转
https://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的 ...
HBase 数据库检索性能优化策略
HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的.主要用于非结构化数据存储用途的开源数据库.其设计思路来源于 Google 的非开源数据库"BigTable" ...
MySQL插入性能优化
目录 MySQL插入性能优化代码优化 values 多个一个事务插入字段尽量少,尽量用默认值关闭 unique_checks bulk_insert_buffer_size 配置优化 inno ...
《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
大数据应用之HBase数据插入性能优化之多线程并行插入测试案例
一.引言: 上篇文章提起关于HBase插入性能优化设计到的五个参数,从参数配置的角度给大家提供了一个性能测试环境的实验代码.根据网友的反馈,基于单线程的模式实现的数据插入毕竟有限.通过个人实测,在我的 ...

随机推荐

operator diag-up setting
bzoj1677
题解: 背包每一个1<<i都是无限量代码: #include<bits/stdc++.h> using namespace std; ,M=1e9; int n,dp[N] ...
zoj2112&&bzoj1901
题解: 可修改的主席树一开始,我就按照最暴力的方法,空间nlognlogn 然后zju上面过不了,bzoj没有权限号然后,参考了往上的论文,发现可以把初始的主席树先建好然后,每次只需要维护修改的 ...
C# 自动发送邮件被系统当做垃圾邮件退回的处理方法
前两天做了一个发送邮件的定时任务.其功能为在每天的某一时刻,系统自动从银行查询前一天的交易明细到本地服务器,解析后生成为各自不同Excel文件,并打包成zip压缩文件,然后抄送附件给财务对账.其中,邮 ...
手把手教你搭建一个Elasticsearch集群
一.为何要搭建 Elasticsearch 集群凡事都要讲究个为什么.在搭建集群之前,我们首先先问一句,为什么我们需要搭建集群?它有什么优势呢? (1)高可用性 Elasticsearch 作为一个 ...
eclipse中使用Maven新建Servlet2.5的Web项目
前言我们用Eclipse创建Maven结构的web项目的时候选择了Artifact Id为maven-artchetype-webapp,由于这个catalog比较老,用的servlet还是2.3的 ...
GitLab项目迁移到Gerrit
1.在Gerrit上新建项目: 2.Gerrit项目配置权限(此处非代码): Reference:refs/* Push Annotated Tag Push Signed Tag Forge Com ...
MAC中安卓开发环境的下载
今天终于为我的Macbook Pro Retina搭建好了Android开发环境,几经折磨,差点放弃了: 总结如下:1.最好选择ADT Bundle,这里面已经集成好了Eclipse.ADT.Andr ...
SVM的新理解
svm导出的原始问题然后利用KKT条件,为何还需要对偶空间? 一方面,实际上KKT条件怎么得到的?KKT条件的推导是:svm原始问题->极大极小问题(先算极小这步,但极小这步中α是有约束的,不好 ...
OK335xS-Android mkmmc-android-ubifs.sh hacking
#/******************************************************************************* # * OK335xS-Androi ...

大数据应用之HBase数据插入性能优化实测教程

大数据应用之HBase数据插入性能优化实测教程的更多相关文章

随机推荐

热门专题