大数据应用之HBase数据插入性能优化之多线程并行插入测试案例

一、引言：

　　上篇文章提起关于HBase插入性能优化设计到的五个参数，从参数配置的角度给大家提供了一个性能测试环境的实验代码。根据网友的反馈，基于单线程的模式实现的数据插入毕竟有限。通过个人实测，在我的虚拟机环境下，单线程插入数据的值约为4w/s。集群指标是：CPU双核1.83，虚拟机512M内存，集群部署单点模式。本文给出了基于多线程并发模式的，测试代码案例和实测结果，希望能给大家一些启示：

二、源程序：

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import java.io.BufferedReader;

 import java.io.File;

 import java.io.FileNotFoundException;

 import java.io.FileReader;

 import java.io.IOException;

 import java.util.ArrayList;

 import java.util.List;

 import java.util.Random;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.client.HBaseAdmin;

 import org.apache.hadoop.hbase.client.HTable;

 import org.apache.hadoop.hbase.client.HTableInterface;

 import org.apache.hadoop.hbase.client.HTablePool;

 import org.apache.hadoop.hbase.client.Put;

 public class HBaseImportEx {

     static Configuration hbaseConfig = null;

     public static HTablePool pool = null;

     public static String tableName = "T_TEST_1";

     static{

          //conf = HBaseConfiguration.create();

          Configuration HBASE_CONFIG = new Configuration();

          HBASE_CONFIG.set("hbase.master", "192.168.230.133:60000");

          HBASE_CONFIG.set("hbase.zookeeper.quorum", "192.168.230.133");

          HBASE_CONFIG.set("hbase.zookeeper.property.clientPort", "2181");

          hbaseConfig = HBaseConfiguration.create(HBASE_CONFIG);

          pool = new HTablePool(hbaseConfig, 1000);

     }

     /*

      * Insert Test single thread

      * */

     public static void SingleThreadInsert()throws IOException

     {

         System.out.println("---------开始SingleThreadInsert测试----------");

         long start = System.currentTimeMillis();

         //HTableInterface table = null;

         HTable table = null;

         table = (HTable)pool.getTable(tableName);

         table.setAutoFlush(false);

         table.setWriteBufferSize(24*1024*1024);

         //构造测试数据

         List<Put> list = new ArrayList<Put>();

         int count = 10000;

         byte[] buffer = new byte[350];

         Random rand = new Random();

         for(int i=0;i<count;i++)

         {

             Put put = new Put(String.format("row %d",i).getBytes());

             rand.nextBytes(buffer);

             put.add("f1".getBytes(), null, buffer);

             //wal=false

             put.setWriteToWAL(false);

             list.add(put);

             if(i%10000 == 0)

             {

                 table.put(list);

                 list.clear();

                 table.flushCommits();

             }

         }

         long stop = System.currentTimeMillis();

         //System.out.println("WAL="+wal+",autoFlush="+autoFlush+",buffer="+writeBuffer+",count="+count);

         System.out.println("插入数据："+count+"共耗时："+ (stop - start)*1.0/1000+"s");

         System.out.println("---------结束SingleThreadInsert测试----------");

     }

     /*

      * 多线程环境下线程插入函数

      *

      * */

     public static void InsertProcess()throws IOException

     {

         long start = System.currentTimeMillis();

         //HTableInterface table = null;

         HTable table = null;

         table = (HTable)pool.getTable(tableName);

         table.setAutoFlush(false);

         table.setWriteBufferSize(24*1024*1024);

         //构造测试数据

         List<Put> list = new ArrayList<Put>();

         int count = 10000;

         byte[] buffer = new byte[256];

         Random rand = new Random();

         for(int i=0;i<count;i++)

         {

             Put put = new Put(String.format("row %d",i).getBytes());

             rand.nextBytes(buffer);

             put.add("f1".getBytes(), null, buffer);

             //wal=false

             put.setWriteToWAL(false);

             list.add(put);

             if(i%10000 == 0)

             {

                 table.put(list);

                 list.clear();

                 table.flushCommits();

             }

         }

         long stop = System.currentTimeMillis();

         //System.out.println("WAL="+wal+",autoFlush="+autoFlush+",buffer="+writeBuffer+",count="+count);

         System.out.println("线程:"+Thread.currentThread().getId()+"插入数据："+count+"共耗时："+ (stop - start)*1.0/1000+"s");

     }

     /*

      * Mutil thread insert test

      * */

     public static void MultThreadInsert() throws InterruptedException

     {

         System.out.println("---------开始MultThreadInsert测试----------");

         long start = System.currentTimeMillis();

         int threadNumber = 10;

         Thread[] threads=new Thread[threadNumber];

         for(int i=0;i<threads.length;i++)

         {

             threads[i]= new ImportThread();

             threads[i].start();

         }

         for(int j=0;j< threads.length;j++)

         {

              (threads[j]).join();

         }

         long stop = System.currentTimeMillis();

         System.out.println("MultThreadInsert："+threadNumber*10000+"共耗时："+ (stop - start)*1.0/1000+"s");

         System.out.println("---------结束MultThreadInsert测试----------");

     }    

     /**

      * @param args

      */

     public static void main(String[] args)  throws Exception{

         // TODO Auto-generated method stub

         //SingleThreadInsert();

         MultThreadInsert();

     }

     public static class ImportThread extends Thread{

         public void HandleThread()

         {

             //this.TableName = "T_TEST_1";

         }

         //

         public void run(){

             try{

                 InsertProcess();

             }

             catch(IOException e){

                 e.printStackTrace();

             }finally{

                 System.gc();

                 }

             }

         }

 }

三、说明

1.线程数设置需要根据本集群硬件参数，实际测试得出。否则线程过多的情况下，总耗时反而是下降的。

2.单笔提交数对性能的影响非常明显，需要在自己的环境下，找到最理想的数值，这个需要与单条记录的字节数相关。

四、测试结果

---------开始MultThreadInsert测试----------

线程:8插入数据：10000共耗时：1.328s
线程:16插入数据：10000共耗时：1.562s
线程:11插入数据：10000共耗时：1.562s
线程:10插入数据：10000共耗时：1.812s
线程:13插入数据：10000共耗时：2.0s
线程:17插入数据：10000共耗时：2.14s
线程:14插入数据：10000共耗时：2.265s
线程:9插入数据：10000共耗时：2.468s
线程:15插入数据：10000共耗时：2.562s
线程:12插入数据：10000共耗时：2.671s
MultThreadInsert：100000共耗时：2.703s
---------结束MultThreadInsert测试----------

备注：该技术专题讨论正在群Hadoop高级交流群：293503507同步直播中，敬请关注。

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例的更多相关文章

大数据应用之HBase数据插入性能优化实测教程
引言: 大家在使用HBase的过程中,总是面临性能优化的问题,本文从HBase客户端参数设置的角度,研究HBase客户端数据批量插入性能优化的问题.事实胜于雄辩,数据比理论更有说服力,基于此,作者设计 ...
TODOList 多线程交互、RCP、事物控制、数据倾斜、HBase数据同步性
TODOList 多线程交互.RCP.事物控制.数据倾斜.HBase数据同步性 TODO List thread.join()如何互相之间通知? 线程池何时最后运行完成? MemCache性能要优于R ...
【转载】HBase 数据库检索性能优化策略
转自:http://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html 高性能 HBase 数据库本文首先介绍了 HBase 数据库基本 ...
HBase 数据库检索性能优化策略--转
https://www.ibm.com/developerworks/cn/java/j-lo-HBase/index.html HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的 ...
HBase 数据库检索性能优化策略
HBase 数据表介绍 HBase 数据库是一个基于分布式的.面向列的.主要用于非结构化数据存储用途的开源数据库.其设计思路来源于 Google 的非开源数据库"BigTable" ...
MySQL插入性能优化
目录 MySQL插入性能优化代码优化 values 多个一个事务插入字段尽量少,尽量用默认值关闭 unique_checks bulk_insert_buffer_size 配置优化 inno ...
《Spark大数据处理：技术、应用与性能优化》
基本信息作者: 高彦杰丛书名:大数据技术丛书出版社:机械工业出版社 ISBN:9787111483861 上架时间:2014-11-5 出版日期:2014 年11月开本:16开页码:255 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】下载
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...
《Spark大数据处理：技术、应用与性能优化》【PDF】
内容简介 <Spark大数据处理:技术.应用与性能优化>根据最新技术版本,系统.全面.详细讲解Spark的各项功能使用.原理机制.技术细节.应用方法.性能优化,以及BDAS生态系统的相关技 ...

随机推荐

cf935E
题解: 树形dp 要记录一个最小的,一个最大的然后转移代码: #include<bits/stdc++.h> using namespace std; ; ][],f[N*][],T[ ...
Criteria 使用指南
转自:http://www.blogjava.net/jerry-zhaoj/archive/2009/03/03/257546.html Restrictions的几个常用限定查询方法如下表所示: ...
JAXP/DOM demo
body, table{font-family: 微软雅黑; font-size: 10pt} table{border-collapse: collapse; border: solid gray; ...
ThinkPad 复刻计划 ThinkPad Time Machine
在快节奏的高科技市场中,针对性的进化 ThinkPad 的设计几乎是闻所未闻的.在汽车行业,保时捷无疑干的不错,但我不认为有任何其他的电脑公司可以顶住压力,坚持自己的初心这么久.没有任何一个竞争对手可 ...
Java IO流经典练习题
一．练习的题目 (一) 在电脑D盘下创建一个文件为HelloWorld.txt文件,判断他是文件还是目录,在创建一个目录IOTest,之后将HelloWorld.txt移动到IOTest目录下去:之后 ...
第十六篇 make中的路径搜索
在实际的工程项目中,源文件和头文件都会组织成一定的目录结构,这样也便于项目的管理,前述我们分析的makefile,源文件和头文件大都在当前目录,没有路径搜索的问题,下面我们引入今天的演示程序的目录结 ...
Android利用反射机制为实体类属性赋值
在做android项目时,有时会遇到从网络上获取json类型数据,赋值给实体类,实体类属性少可以一个一个的赋值,如果实体类有很多属性,赋值可能就要耗很长的功夫了,幸好Java给我们提供了反射机制.下面 ...
Qt QML referenceexamples attached Demo hacking
/********************************************************************************************* * Qt ...
Laravel学习之旅（三）
视图一.怎么新建视图: 1.视图默认存放路径:resources/views: 2.laravel模板支持原生的PHP,直接可以在resources/views新建一个PHP文件,例如: index ...
VS2013、VS2015中，新建项目没有看到解决方案的问题（已解决）
问题描述:装好VS2013 专业版 for Update5不知怎么弄的,突然新建项目没有了解决方案,于是各种折腾,最后终于解决了! ================================== ...

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例

大数据应用之HBase数据插入性能优化之多线程并行插入测试案例的更多相关文章

随机推荐

热门专题