Log表新的RowKey设计，预Split

1 目前Rawlog表的问题

region数量庞大，空region 率大
- 共有12791个region
- 11409空region, 比例为89.19%
- 剩余的region大小也是极度不均衡，最大的region 287G, <1m的region有129个
读写不均衡
- 现有的rowkey设计，简单来说是appid+date的顺序序列
- 简单来说对于每个appid都有一个写热点，这不仅没有利用到分布式的优点，还会极大的降低整个hbase集群的服务能力
- 读存在同样的问题，一次读基本上会集中在一个region上，这对于scan是好的，但目前我们所有的log查询都是基于mutiget的，还不如分散来的性能好。

2 解决方案

现有的log查询方案：

从logindex表获取log的rowkey
根据rowkey使用mutiget获取具体的log

所以不在需要顺序的rowkey设计。

解决region数量庞大的问题
- 使用预分的region
- 根据实际数据量，预分出足够的region, 后续保证尽量少的出现split
解决空region率，大小不均衡，及读写不均衡
- 这些问题可以一起解决
- 写的时候足够散列的（平均）写到这些region上
- 理想状态下各region大小会完全一致
- 读写理想状态下也会完成一致
- 可以减少split的次数，理想状态下不会再出现，同样减少了该表region的blance出现的次数，理想状态下不会出现。

现在进行改造的优势是，我们有生产数据进行支持，金桥是一个全新的集群，这是一个机会，可以不考虑老数据的迁移（到时福泉与金桥应用并行运行，避免迁移数据）

2.1 预分region的数量

目前生产rawlog表的大小为2938.5G，也就是3T，保存了7天的数据
考虑到以后的数据增量，以10T为存储目标，一个region2G，可以预分5000个region

2.2 如何实现足够散列写（或对region平均写）

理论上可以对region依次写入一条log, 轮循一遍后，再次从头轮循，这样可以达到绝对平均
实际解决方案, 可以设计一种rowkey结构

hashcode	unique-id
1 ~ 100000	appid + hostip + timestamp + logid

从通用角度，rowkey 分为两部分
1. hashcode: 散列值，用于将数据散列到各region上
2. unique-id: 这条数据的一个唯一id, 这个基本上和业务相关
对于rowlog表
1. hashcode: 可以是一个1 ~ 100000的int值
2. unique-id: 可以是一个由appid + hostip + timestamp + logid 组成的唯一id, 也是现有的rowkey设计
如果预分5000个region, 每个region将占有20个散列值(startKey-endKey)：1-20, 21-40, .... 99981-100000

2.3 工作量

只要修改writer端rowlog的rowkey生成策略
对于其他地方完全透明
编码的话只要两个小时就足够了，后续就是支持工作了。
如何获取一条log的hashcode, 有几种方案:
1. writer每收一条log可以递增，到达100000，归1
2. 也可以每次取1-100000的随机值，效率最低
3. 为了去除1-20的连续写，可以
  1. 可以分配一个int[100000],里面存放shuffle后的1-100000的值
  2. 每来一条log从数组里取一个值int[i++]
  3. 到达数组结尾后可以直接从头再取，或shuffle后再从头取
  4. 或着一开始就预先shuffle好几个数组，待用。

Log表新的RowKey设计，预Split的更多相关文章

HBase的Rowkey设计（mark）
在HBase中细节上的设计,最最最重要的就是我该选取什么做Rowkey,Rowkey的选择,最直接的影响就是对你之后分析数据的影响了. Rowkey是不可分割的字节数,按照字典排序由低到高存储在表中. ...
HBase之六：HBase的RowKey设计
数据模型我们可以将一个表想象成一个大的映射关系,通过行健.行健+时间戳或行键+列(列族:列修饰符),就可以定位特定数据,Hbase是稀疏存储数据的,因此某些列可以是空白的, Row Key Time ...
Hbase Rowkey设计
转自:http://www.bcmeng.com/hbase-rowkey/ 建立Schema Hbase 模式建立或更新可以通过 Hbase shell 工具或者使用Hbase Java API 中 ...
HBase高级特性、rowkey设计以及热点问题处理
在阐述HBase高级特性和热点问题处理前,首先回顾一下HBase的特点:分布式.列存储.支持实时读写.存储的数据类型都是字节数组byte[],主要用来处理结构化和半结构化数据,底层数据存储基于hdfs ...
大数据性能调优之HBase的RowKey设计
1 概述 HBase是一个分布式的.面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式. 既然HBase是采用KeyValue ...
hbase rowkey 设计
HBase中的rowkey是按字典顺序排序的,通过rowkey查询可以对千万级的数据实现毫秒级响应.然而,如果rowkey设计不合理的话经常会出现一个很普遍的问题----热点.当大量client的请求 ...
hbase实践之rowkey设计
rowkey设计的重要性 rowkeys是HBase表设计中唯一重要的一点. rowkey设计要求唯一性存储特性按照字典顺序排序存储查询特性由于其存储特性导致查询特性: 查询单个记录: 查定 ...
Hbase Rowkey设计原则
Hbase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这三个维度可以对HBase中的数据进行快速定位 ...
HBase学习（四）二级索引 rowkey设计
HBase学习(四) 一.HBase的读写流程画出架构 1.1 HBase读流程 Hbase读取数据的流程:1)是由客户端发起读取数据的请求,首先会与zookeeper建立连接2)从zookeepe ...

随机推荐

git 分支的创建、合并、删除
基本概念与命令分支(branch):每次提交,Git都把提交的内容串成一条时间线,这条时间线就是一个分支 . git 分支的创建 git branch branchName git ...
PHPCMS v9在后台文章管理列表添加类别
进入PHPCMS v9后台—内容,进入PHPCMS的文章管理列表,要实现在文章标题前显示文章类别,就是可以直接在文章列表里看到类别,不需要点击进入编辑页面才可以看到,如下图: PHPCMS v9在后台 ...
java jdk-awt.font在centos上中文乱码的问题, 安装中文字体
有需求生成一个二维码,并且有一段文本说明,但是使用awt.font来生成中文时,一直存在乱码的问题.网上的解决办法有几种,但是在centos上亲测有用的就是如下的方法. Java代码如下:new ja ...
angular学习（十五）——Provider
转载请写明来源地址:http://blog.csdn.net/lastsweetop/article/details/60966263 Provider简单介绍每一个web应用都是由多个对象协作完毕 ...
Javascript中的感叹号和函数function
js函数前加分号和感叹号是什么意思?有什么用?:http://www.cnblogs.com/mq0036/p/4605255.html function与感叹号:https://swordair.c ...
len()
len() 用于统计序列的长度,字符串 .元组 .列表都属于序列 In [1]: str = "hello world" In [2]: len(str) Out[2]: 11
iteritems()
iteritems() 是列表的一个方法,用法如下: In [1]: dict1 = {"name": "Jeny", "age": 18, ...
HTML和CSS的精华
今天又是周一喽,我们开始啦又一周的学习啦,想一想,在这里学习已经一个月啦,不知什么时间已经习惯啦这种生活,我应该是一个很难适应环境的人啊,但是现在在这里感觉还可以哦,可能是来到这里有自己的目标吧,所以 ...
c++11 处理时间和日期
c++11提供了日期时间相关的库 chrono,通过chrono库可以很方便的处理日期和时间. 1. 记录时间长度的duration template<class Rep, class Peri ...
poj_1204 Trie图
题目大意给出一个RxC的字符组成的puzzle,中间可以从左向右,从右到左,从上到下,从下到上,从左上到右下,从右下到左上,从左下到右上,从右上到左下,八个方向进行查找字符串. 给出M个字符 ...

Log表新的RowKey设计，预Split

1 目前Rawlog表的问题

2 解决方案

2.1 预分region的数量

2.2 如何实现足够散列写（或对region平均写）

2.3 工作量

Log表新的RowKey设计，预Split的更多相关文章

随机推荐

热门专题