实时同步到Hbase的优化-1

最近没有管测试环境的，上去看了下，好家伙，kafka羁留了上百万数据，于是打算把数据同步到测试的Hbase库中，在这期间发现了插入性能问题

def putMapData(tableName: String , columnFamily:String, key:String  , mapData:Map[String , String]) = {

  val startTime = System.currentTimeMillis()

  val table: Table = Init(tableName , columnFamily)
  val endTime = System.currentTimeMillis()
  Logger.getLogger("处理事务").info(s"插入的时间：${(endTime - startTime)}")
  try{
    //TODO rowKeyWithMD5Prefix

    val rowkey = HbaseTools.rowKeyByMD5(key)

    val put: Put = new Put(rowkey)
    if(mapData.size > 0){
      for((k , v) <- mapData){
        put.addColumn(Bytes.toBytes(columnFamily) ,Bytes.toBytes(k.toString) , Bytes.toBytes(v.toString))
      }
    }
    table.put(put)

  }catch{
    case e:Exception => e.printStackTrace()
  }finally {
    table.close()
  }

}

 /**

    * @return 构建表的连接

    * */

  def Init(tableName: String , columnFamily:String):Table = {

    val hTableDescriptor = new HTableDescriptor(TableName.valueOf(tableName))

    val hColumnDescriptor = new HColumnDescriptor(columnFamily)

    hTableDescriptor.addFamily(hColumnDescriptor)

    if(!admin.tableExists(TableName.valueOf(tableName))){

//      admin.createTable(hTableDescriptor)

      createHTable(conn , tableName ,  , Array(columnFamily))

    }

    conn.getTable(TableName.valueOf(tableName))

  }

发现一条数据过来，会进行一次init，就是判断这个表是不是存在的，如果不存在那么创建表，但是这个过程要50~70ms时间，海量数据下来，处理是非常慢的

也就是说：这块儿代码及其耗费时间

val hTableDescriptor = new HTableDescriptor(TableName.valueOf(tableName))

    val hColumnDescriptor = new HColumnDescriptor(columnFamily)

    hTableDescriptor.addFamily(hColumnDescriptor)

    if(!admin.tableExists(TableName.valueOf(tableName))){

      createHTable(conn , tableName ,  , Array(columnFamily))

    }

所以，尽量在实时处理时候，不要走这些从程序；

因此，将上面的代码提升带object的成员变量处：

private val config: Configuration = HBaseConfiguration.create()

  config.set("hbase.zookeeper.quorum" , GlobalConfigUtils.hbaseQuorem)

  config.set("hbase.master" , GlobalConfigUtils.hbaseMaster)

  config.set("hbase.zookeeper.property.clientPort" , GlobalConfigUtils.clientPort)

  config.set("hbase.rpc.timeout" , GlobalConfigUtils.rpcTimeout)

  config.set("hbase.client.operator.timeout" , GlobalConfigUtils.operatorTimeout)

  config.set("hbase.client.scanner.timeout.period" , GlobalConfigUtils.scannTimeout)

  private val conn: Connection = ConnectionFactory.createConnection(config)

  private val admin: Admin = conn.getAdmin

  val atomic = new AtomicInteger(0)

  var resultAtomic = 0

  val hTableDescriptor = new HTableDescriptor(TableName.valueOf(GlobalConfigUtils.tableOrderInfo))

  val hColumnDescriptor = new HColumnDescriptor(GlobalConfigUtils.tableColumnFamily)

  hTableDescriptor.addFamily(hColumnDescriptor)

  if(!admin.tableExists(TableName.valueOf(GlobalConfigUtils.tableOrderInfo))){

    createHTable(conn , GlobalConfigUtils.tableOrderInfo , 10 , Array(GlobalConfigUtils.tableColumnFamily))

  }private val config: Configuration = HBaseConfiguration.create()

  config.set("hbase.zookeeper.quorum" , GlobalConfigUtils.hbaseQuorem)

  config.set("hbase.master" , GlobalConfigUtils.hbaseMaster)

  config.set("hbase.zookeeper.property.clientPort" , GlobalConfigUtils.clientPort)

  config.set("hbase.rpc.timeout" , GlobalConfigUtils.rpcTimeout)

  config.set("hbase.client.operator.timeout" , GlobalConfigUtils.operatorTimeout)

  config.set("hbase.client.scanner.timeout.period" , GlobalConfigUtils.scannTimeout)

  private val conn: Connection = ConnectionFactory.createConnection(config)

  private val admin: Admin = conn.getAdmin

  val atomic = new AtomicInteger(0)

  var resultAtomic = 0

  val hTableDescriptor = new HTableDescriptor(TableName.valueOf(GlobalConfigUtils.tableOrderInfo))

  val hColumnDescriptor = new HColumnDescriptor(GlobalConfigUtils.tableColumnFamily)

  hTableDescriptor.addFamily(hColumnDescriptor)

  if(!admin.tableExists(TableName.valueOf(GlobalConfigUtils.tableOrderInfo))){

    createHTable(conn , GlobalConfigUtils.tableOrderInfo , 10 , Array(GlobalConfigUtils.tableColumnFamily))

  }

然后我在提交代码。发现：

以前的2000条数据插入时间大概需要140000ms的时间

现在处理的时间：

速度提升了大概140000 /10 倍

实时同步到Hbase的优化-1的更多相关文章

Mysql 到 Hbase 数据如何实时同步，强大的 Streamsets 告诉你
很多情况大数据集群需要获取业务数据,用于分析.通常有两种方式: 业务直接或间接写入的方式业务的关系型数据库同步到大数据集群的方式第一种可以是在业务中编写代码,将觉得需要发送的数据发送到消息队列,最 ...
Mysql数据实时同步
企业运维的数据库最常见的是 mysql;但是 mysql 有个缺陷:当数据量达到千万条的时候,mysql 的相关操作会变的非常迟缓; 如果这个时候有需求需要实时展示数据;对于 mysql 来说是一种灾 ...
HBase性能优化方法总结(转)
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客. 1. 表的设计 1.1 Pr ...
HBase性能优化方法总结（转）
原文链接:HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. ...
Hbase性能优化
HBase性能优化方法总结 1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户 ...
基于Canal和Kafka实现MySQL的Binlog近实时同步
前提近段时间,业务系统架构基本完备,数据层面的建设比较薄弱,因为笔者目前工作重心在于搭建一个小型的数据平台.优先级比较高的一个任务就是需要近实时同步业务系统的数据(包括保存.更新或者软删除)到一个另 ...
hbase读写优化
一.hbase读优化客户端优化 1.scan缓存是否设置合理? 优化原理:一次scan请求,实际并不会一次就将所有数据加载到本地,而是多次RPC请求进行加载.默认100条数据大小. 优化建议:大sc ...
inotify+rsync实现实时同步部署
1.1.架构规划 1.1.1架构规划准备服务器系统角色 IP Centos6.7 x86_64 NFS服务器端(NFS-server-inotify-tools) 192.168.1.14 Cen ...
lsyncd 实时同步
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案,原先使用的是inotify + rsync,但随着文件数量的增大到100W+,目录下的 ...

随机推荐

django上传图片简单验证以及自动修改图片名称
django实现文件(图片)上传之后自动修改名称以及页面上传图片时的各种提醒: 1.先在你项目中添加一个文件夹如:system 在文件夹下添加__init__.py 和storage.py文件,并在s ...
Django 中的static文件的设置
STATIC_URL = '/static/' STATICFILES_DIRS = [ os.path.join(BASE_DIR, 'static'), ('article',os.path.jo ...
可变字符串类 StringBuilder
string类创建的字符串是不可变的(同一内存中),每更改一次,就会新开辟内存,不利于高效频繁操作. 当频繁操作同一字符串变量时,建议使用StringBuilder. 可变字符串类StringBuil ...
20175209 实验二《Java面向对象程序设计》实验报告
20175209 实验二<Java面向对象程序设计>实验报告一.实验前期准备了解三种代码伪代码产品代码测试代码我们先写伪代码,伪代码从意图层面来解决问题: 有了伪代码我们用 ...
Linux系统下DHCP服务安装部署和使用详解
一.概述 DHCP :动态主机设置协议(英语:Dynamic Host Configuration Protocol,DHCP)是一个局域网的网络协议,使用UDP协议工作,主要有两个用途:用于内部网或 ...
python2 配置环境变量
复习 '''重点:1.进制转换:二进制与十六进制2.内存分布:栈区与堆区 # 124810101001110111 => 2a77abf1 => 1010101111110001 ...
maven仓库有jar包还是报错怎么办？
出现这种情况通常是jar不能自动下载一.下载jar包外的其他文件,并放到仓库对应路径下: 点击View All,下载其他文件并放到仓库二.这样仓库这个对应jar包的文件就齐全了.如果还是报错,请检 ...
ajax跨域例子
例子 https://github.com/ruanyf/react-demos/blob/master/demo12/index.html 此网页代码运行在本地, 是可以访问 github 数据的. ...
WordPress Plugin Form Maker [CSRF → LFI] vulnerable 2019-03-17
# Title: Form Maker by WD [CSRF → LFI]# Date: 2019-03-17# Exploit Author: Panagiotis Vagenas# Vendor ...
Git分支实战入门详细图解
现在我们模拟一个简单的分支和合并案例,其中工作流可供真实项目借鉴. (1)在master开展工作 (2)为新的需求创建分支 (3)在新的分支上展开工作这时,你接到一个电话,说项目有一个严重的问题需要 ...

实时同步到Hbase的优化-1

实时同步到Hbase的优化-1的更多相关文章

随机推荐

热门专题