优化方法

原文地址：Phoenix基本优化方法

1. SALT_BUCKETS

HBASE建表之初默认一个region，当写入数据超过region分裂阈值时才会触发region分裂。我们可以通过SALT_BUCKETS方法加盐，在表构建之初就对表进行预分区。SALT_BUCKETS值的范围是1~256（2的8次方），一般将预分区的数量设置为0.5～1 倍核心数。

加盐的原理是在原始的rowkey前加上一个byte，并填充由rowkey计算得出的hash值，使得原本连续的rowkeys被均匀打散到多个region中，有效地解决了读写热点问题。较多的region同时也增加了表读写并行度，从而提升了HBase表的读写效率。

#表指定分区数

CREATE TABLE test_salt

 (

  hrid         varchar not null primary key,

  parentid     bigint,

  departmentid varchar

 )SALT_BUCKETS=40;

#索引指定分区数

(索引不指定预分区数时，其默认分区数与表保持一致)

CREATE INDEX idx_test_salt_departmentid ON TESTN(departmentid) SALT_BUCKETS=20;

加盐原理图解

RowKey SALT_BUCKETS 分区

CREATE TABLE SALT_TABLES (a_key VARCHAR PRIMARY KEY, a_col VARCHAR) SALT_BUCKETS = 20;

2. Pre-split

除了使用加盐直接指定分区数外，我们也可以使用split on手动设置分区。这种方法同样是在构建之初就对表进行预分区，较多的region能够增加hbase的并行度，从而提升读取、写入效率。由于对rowkey不引入额外的byte，因此不会改变rowkey的原始顺序。

#对表指定五个分区

CREATE TABLE test_split

 (

  hrid         varchar,

  parentid     bigint,

  departmentid varchar

CONSTRAINT my_pk PRIMARY KEY (departmentid, hrid))

SPLIT ON ('market','device','develop','sale');

RowKey分区

   Pre-split 这个就是HBase的预分区了，在建phoenix表时，可以精确的指定要根据什么值来做预分区 示例：

   CREATE TABLE YUHUIREG (HOST VARCHAR NOT NULL PRIMARY KEY, DESCRIPTION VARCHAR) SPLIT ON ('CS','EU','NA');

3. 分列族

由于HBase表的不同列族是分开存储，因此把相关性大的列放在同一个列族，能够减少数据检索时扫描的数据量，从而提升读的效率。

#对列指定a、b两个列族

CREATE TABLE test_cf

 (

  a.hrid         varchar not null primary key,

  a.parentid     bigint,

  b.departmentid varchar

 );

4. 使用压缩

在数据量大的表上可以使用压缩算法来减少存储占用空间，从而提高性能。常用的压缩方法有GZ，lzo等。

#对表实施GZ压缩

CREATE TABLE test_compress

 (

  hrid         varchar not null primary key,

  parentid     bigint,

  departmentid varchar

 )COMPRESSION='GZ'

5. 二级索引

以Phoenix的全局索引为例，对departmentid建立全局索引，实际上是建立了一张索引表，索引表的rowkey由departmentid与原表rowkey拼接而来。由于departmentid是索引表rowkey的主维度，因此能够快速被查找并获取到对应的原表rowkey，再通过原表rowkey可以从原表中快速获取数据。

#建表

CREATE TABLE test_index

 (

  hrid         varchar not null primary key,

  parentid     bigint,

  departmentid varchar

 );

#对departmentid建立全局索引

CREATE INDEX idx_test_index_departmentid ON test_index(departmentid);

6.参数优化

根据集群配置情况设置合理参数有助于优化HBase性能，可以在hbase-site.xml里配置以下参数

1. index.builder.threads.max （Default: 10）

   为主表更新操作建立索引的最大线程数

2. index.writer.threads.max（Default: 10）

   将索引写入索引表的最大线程数

3. hbase.htable.threads.max（Default: 2,147,483,647）

   索引表写入数据的最大线程数

4. index.tablefactory.cache.size（Default: 10）

   缓存10个往索引表写数据的线程

5. index.builder.threads.keepalivetime（Default: 60）

   为主表更新操作建立索引的线程的超时时间

6. index.writer.threads.keepalivetime（Default: 60）

   将索引写入索引表的线程的超时时间

7. hbase.htable.threads.keepalivetime（Default: 60）

   索引表写入数据的线程的超时时间

Phoenix表和索引分区优化方法的更多相关文章

第十三章——表和索引分区（1）——使用Range Left进行表分区
原文:第十三章--表和索引分区(1)--使用Range Left进行表分区前言: 如果数据表的数据持续增长,并且表中的数据量已经达到数十亿甚至更多,数据的查询和操作将非常困难,面对非常庞大的表,几时 ...
Phoenix表和索引分区数对插入和查询性能的影响
1. 概述 1.1 HBase概述 HBase由master节点和region server节点组成.在100-105集群上,100和101是master节点,102-105是region serve ...
MySQL 回表查询 & 索引覆盖优化
回表查询先通过普通索引的值定位聚簇索引值,再通过聚簇索引的值定位行记录数据建表示例 mysql> create table user( -> id int(10) auto_incre ...
MYSQL 查看表上索引的 1 方法
前期准备: create table T9(A int ,B text,C text,fulltext index fix_test_for_T8_B(B));#在定义表的时候加索引 create u ...
mysql索引sql优化方法、步骤和经验
MySQL索引原理及慢查询优化 http://blog.jobbole.com/86594/ 细说mysql索引 https://www.cnblogs.com/chenshishuo/p/50300 ...
HBase性能优化方法总结（二）：写表操作
转自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section2.html 本文主要是 ...
HBase性能优化方法总结（三）：读表操作
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. 下面是本文总结的第三部分内容:读表操作相关的优化方法 ...
HBase性能优化方法总结（三）：读表操作（转）
转自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section3.html 本文主要是 ...
HBase性能优化方法总结（转）
原文链接:HBase性能优化方法总结(一):表的设计本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法.有关HBase系统配置级别的优化,可参考:淘宝Ken Wu同学的博客. ...

随机推荐

Python 爬虫系列
爬虫简介网络爬虫爬虫指在使用程序模拟浏览器向服务端发出网络请求,以便获取服务端返回的内容. 但这些内容可能涉及到一些机密信息,所以爬虫领域目前来讲是属于灰色领域,切勿违法犯罪. 爬虫本身作为一门技 ...
JVM 分代GC策略分析
JVM 分代GC策略分析我们以Sun HotSpot VM来进行分析,首先应该知道,如果我们没有指定任何GC策略的时候,JVM默认使用的GC策略.Java虚拟机是按照分代的方式来回收垃圾空间,我 ...
dp的冗余（选数类）
我们先来看一个例题: 在一个长度为n的序列中选出任意个数的数,要求每m个数中至少一个被选,要求选的数之和最小化. 我们很容易想出用f[i][j]来表示前i个数选的最后一个数是j,也就有 for(int ...
PHPer 面试
A:怎么保证促销商品不会超卖? 答:这个问题是我们当时开发时遇到的一个难点,超卖的原因主要是下的订单的数目和我们要促销的商品的数目不一致导致的,每次总是订单的数比我们的促销商品的数目要多,当时我们的小 ...
Beta冲刺——第七天
这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzzcxy/2018SE1 这个作业要求在哪里 https://edu.cnblogs.com/campus/fz ...
IndexedDB详解
目录简介 IndexedDB简介 IndexedDB的使用 IndexedDB的浏览器支持创建IndexedDB indexdb中的CURD 使用游标cursor 简介 IndexedDB是一种在 ...
flask为多个接口添加同一个拦截器的方法
前言最近又抽掉出来写一个 Python 项目, 框架使用 Flask , 又有些新心得, 比如本篇所说, 想要将某个蓝图加上统一的权限控制, 比如 admin 蓝图全部有一个统一的拦截器判断是否有权 ...
号称能将STW干掉1ms的Java垃圾收集器ZGC到底是个什么东西？
ZGC介绍 ZGC(The Z Garbage Collector)是JDK 11中推出的一款追求极致低延迟的实验性质的垃圾收集器,它曾经设计目标包括: 停顿时间不超过10ms: 停顿时间不会随着堆的 ...
Linux 防火墙基于 CentOS7 的防火墙操作命令
防火墙服务操作命令重启防火墙 systemctl restart firewalld 查看防火墙状态 systemctl status firewalld 开启.关闭.重启防火墙 # 开启 serv ...
PHP MySQLi extension is not loaded
PHP MySQLi extension is not loaded 如何解决呢? yum -y install mysqli.so huozhe yum -y install php-mysql

Phoenix表和索引分区优化方法

Phoenix表和索引分区，基本优化方法