hbase大规模数据写入的优化历程

代码王子 2024-10-19 01:55:04 原文

业务背景：由于需要将ngix日志过滤出来的1亿+条用户行为记录存入Hbase数据库，以此根据一定的条件来提供近实时查询，比如根据用户id及一定的时间段等条件来过滤符合要求的若干行为记录，满足这一场景的技术包括：Solr，Elasticsearch，hbase等，在此选用了Hbase来实践。

step 1 :

直接hbase建表，然后读取记录文件逐条写入Hbase。由于hbase实际的写入速度远远小于我的提交速度，在写入了1700条记录后，hbase出现了宕机，提交后无响应。查看hbase日志，出现 out of memory异常。

step 2：

考虑在建表的时候没有进行预分区，因此写入的时候会存在热点写的问题，同时数据持续增长，需要不断的对region进行split，实际上这一步相当消耗资源。因此对要写入的Hbase表重新预分区。好在上一步骤中写入的数据不多，因此直接删除表和数据后重新建表并预分区：

create 'user_actions', {NAME => 'info', VERSIONS=> 3},{SPLITS => ['130','140','160','170','180']}

设计预分区的时候需要有个预判，rowkey的范围及在各个区间的可能分布情况，由于我这里的rowkey是组合用户的注册电话/时间及其他字段，因此上述的预分区，可以将记录较好的散列在各个region上，对热点写有一定的减缓作用。

同时，针对out of memory异常，修改hbase配置文件/conf/hbase-site.xml，将hbase的堆内存增加到3GB(条件有限，如果硬件条件好的话，可以增加到4-8GB)。

继续写入，但是写入速度很慢，维持在数百条/秒的样子，同时写入了20几万条后响应速度越来越慢。

STEP　３：

上述问题的根源在于高频提交小数据，导致Hbase疲于创建线程并进行资源的回收，最终甚至会出现宕机。

之后，将单条put到Hbase改为一次put多条记录到hbase，即批量提交，同时限制一秒内提交的频次。最后顺利写入。由于hbase集群只有三台机器(一台master,2台slave)，进过上述优化后，写入速度基本维持在1w-2w条/秒的水平，基本满足需要了。

总结：在hbase涉及一次性写入大量数据时，有几个地方可以考虑进行优化：(1)建表的同时进行预分区 (2)修改Hbase本身的配置(能够优化写入和读取的配置项远不止修改堆内存这一项，在此不表了) (3)尽量使用批量写入的方法，同样的道理，读取的时候，使用批量读的方法 (4)网络IO/磁盘IO

本文博客地址：hbase大规模数据写入的优化历程

hbase大规模数据写入的优化历程的更多相关文章

hbase大规模数据写入的优化历程，ZZ
http://blog.csdn.net/zbc1090549839/article/details/51582817
用Elasticsearch做大规模数据的多字段、多类型索引检索
本文同时发布在我的个人博客之前尝试了用mysql做大规模数据的检索优化,可以看到单字段检索的情况下,是可以通过各种手段做到各种类型索引快速检索的,那是一种相对简单的场景. 但是实际应用往往会复杂一些 ...
HBase原理、设计与优化实践
转自:http://www.open-open.com/lib/view/open1449891885004.html 1.HBase 简介 HBase —— Hadoop Database的简称,G ...
一种HBase表数据迁移方法的优化
1.背景调研: 目前存在的hbase数据迁移主要分如下几类: 根据上图,可以看出: 其实主要分为两种方式:(1)hadoop层:因为hbase底层是基于hdfs存储的,所以可以通过把hdfs上的数据拷 ...
HBase - 数据写入流程解析
本文由网易云发布. 作者:范欣欣本篇文章仅限内部分享,如需转载,请联系网易获取授权. 众所周知,HBase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松 ...
亿级用户下的新浪微博平台架构前端机（提供 API 接口服务），队列机（处理上行业务逻辑，主要是数据写入），存储（mc、mysql、mcq、redis 、HBase等）
https://mp.weixin.qq.com/s/f319mm6QsetwxntvSXpKxg 亿级用户下的新浪微博平台架构炼数成金前沿推荐 2014-12-04 序言新浪微博在2014年3月 ...
使用bulkload向hbase中批量写入数据
1.数据样式写入之前,需要整理以下数据的格式,之后将数据保存到hdfs中,本例使用的样式如下(用tab分开): row1 N row2 M row3 B row4 V row5 N row6 M r ...
简单通过java的socket&serversocket以及多线程技术实现多客户端的数据的传输，并将数据写入hbase中
业务需求说明,由于公司数据中心处于刚开始部署的阶段,这需要涉及其它部分将数据全部汇总到数据中心,这实现的方式是同上传json文件,通过采用socket&serversocket实现传输. 其中 ...
HBase BulkLoad批量写入数据实战
1.概述在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据.使用Sqoop工具批量导数到HBase集群.使用MapReduce批量导入等.这些方式, ...

随机推荐

ACE工具概述
一:ACE简介 ADAPTIVE 通信环境(ACE,ADAPTIVE Communication Enviroment)是一种广泛的主机基础设施中间件,ACE可以免费获得,可以在http://ace. ...
requests之一：HTTP请求状态码
1.请求方法主要有如下几种: Verb 描述 HEAD 只获取某个资源的头部信息,元数据.比如只想了解某个文件的大小,某个资源的修改日期等 GET 获取资源,一个或者多个 POST 创建资源 PATC ...
IO流大总结
- - - - - - - - - - - - - - - 写在前面 - - - - - - - - - - - - - - - 1.概念 IO流用来处理设备之间的数据传输 Java对数据的操作是通过 ...
获取Avrix上Computer Vision and Pattern Recognition的论文，进一步进行统计分析。
此文主要记录我在18年寒假期间,收集Avrix论文的总结寒假生活题外在寒假期间,爸妈每天让我每天跟着他们6点起床,一起吃早点收拾,每天7点也就都收拾差不多. 早晨的时光是人最清醒的时刻,而 ...
[HAOI2016]找相同字符
题目描述给定两个字符串,求出在两个字符串中各取出一个子串使得这两个子串相同的方案数.两个方案不同当且仅当这两个子串中有一个位置不同. 输入输出格式输入格式: 两行,两个字符串s1,s2,长度分别为 ...
[AH/HNOI2017]影魔
题目背景影魔,奈文摩尔,据说有着一个诗人的灵魂. 事实上,他吞噬的诗人灵魂早已成千上万. 千百年来,他收集了各式各样的灵魂,包括诗人. 牧师. 帝王. 乞丐. 奴隶. 罪人,当然,还有英雄. 题目描 ...
BZOJ4870: [Shoi2017]组合数问题
4870: [Shoi2017]组合数问题 Description Input 第一行有四个整数 n, p, k, r,所有整数含义见问题描述. 1 ≤ n ≤ 10^9, 0 ≤ r < k ...
inline使用
二八法则: 1.将inline限定在最小的,最频繁调用的函数上面.这会使你的调试,二进制升级变得容易,并能将潜在的代码膨胀问题最小化,提高程序运行速度可能性最大化. 2.不要仅仅因为函数模板出现在头文 ...
（概念）多个CPU和多核CPU以及超线程（Hyper-Threading）
引言在这篇文章中我会主要介绍CPU相关的一些重要概念和技术.如果你想更好地了解操作系统,那就从本文开始吧. 中央处理器(Central processing unit) 在我们了解其它概念之前,我们 ...
Java 中 json字符串转换为类
使用到alibaba.fastjson包具体实现 JSONObject jsonObject = JSONObject.parseObject(msg); SmsSenderStatus smsSe ...