1. 压缩算法的比较

算法	压缩比	压缩	解压
GZIP	13.4%	21MB/s	118MB/s
LZO	20.5%	135MB/s	410MB/s
Snappy/Zippy	22.2%	172MB/s	409MB/s

总结：

1）GZIP的压缩率最高，但它是CPU密集型的，对CPU的消耗较多，压缩和解压速度也慢；

2）LZO的压缩率居中，比GZIP要低一些，但是压缩和解压速度明显要比GZIP快很多，其中解压速度快的更多；

3）Zippy/Snappy的压缩率最低，而压缩和解压速度要稍微比LZO要快一些

所以，一般情况下，推荐使用Snappy和Zippy压缩算法。

2. hbase表启用压缩的步骤

这里分为两种情况：一是在创建表时指定压缩算法；二是在创建表后指定压缩算法或者修改压缩算法。

2.1 创建表时指定压缩算法

create 'test', {NAME => 'info', VERSIONS => 1, COMPRESSION => 'snappy'}

# 表创建之后，使用describe命令查看表信息

describe 'test'

2.2 创建表后指定或修改压缩算法

disable需要修改的表

disable 'test'

注意，如果表较大，disable需要一些时间，请耐心等待

2) 使用alter命令进行更改

alter 'test', NAME => 'info', COMPRESSION => 'snappy'

NAME即column family，列族。HBase修改压缩格式，需要一个列族一个列族的修改，注意大小写，不要弄错了。如果修改错了，将会创建一个新的列族，且压缩格式为snappy。当然，假如你还是不小心创建了一个新列族的话，可以通过以下方式删除：

alter 'test', {NAME=>'info', METHOD=>'delete'}

重新enable表

enable 'test'

对表进行major_compact操作，使压缩生效

major_compact  'test'

注意，如果表的数据较多，该操作需要较长时间，所以尽量选择一个不忙的时间，避免对服务造成影响。

修改完成后，可使用describe命令查看表信息

HBase启用压缩的更多相关文章

HBase修改压缩格式及Snappy压缩实测分享
一.要点有关Snappy的相关介绍可参看Hadoop压缩-SNAPPY算法,如果想安装Snappy,可以参看Hadoop HBase 配置安装 Snappy 终极教程. 1. HBase修改Tab ...
Oracle 数据库备份启用压缩以及remap
1. Oracle数据库进行备份恢复客户测试环境, 有时候需要从现场copy到公司, 压缩虽然能够减少部分空间大小,但是copy到虚拟机里面也时浪费很大量的磁盘,所以能够在备份恢复的过程中执行压缩最 ...
tomcat启用压缩的方式
<Connector port="7070" protocol="HTTP/1.1"connectionTimeout="20000" ...
使sqoop能够启用压缩的一些配置
在使用sqoop 将数据库表中数据导入至hdfs时配置启用压缩 hadoop 的命令检查本地库支持哪些 bin/hadoop checknative 需要配置native 要编译版本 ...
CM记录-Hbase启用安全认证控制
1.cm-cluster2-HBase-2-HBase 安全授权(hbase.security.authorization)-simple改为true 2.添加配置 1)超级用户-加入root.hba ...
HBase使用压缩存储（snappy）
在将mysql数据导入到hbase数据的过程中,发现hbase的数据容量增加很快, 原本在mysql存储30G容量的数据导入到hbase一直增加到快150G(还未完全导入,手动结束), 而采用默认3个 ...
什么是HBASE（三） HBase的压缩和编码
在存储层面节省空间的处理上,Hbase提供了两种方案,一个是基于key的编码,一个是基于数据块(data block)的压缩.前者用于将key重复部分进行简单处理达到节约空间的目的,后者则是对数据块进 ...
hive启用压缩
<property> <name>hive.exec.compress.intermediate</name> <value>true</valu ...
WebSocket 启用压缩
m_client.Compression = CompressionMethod.Deflate;

随机推荐

LeetCode 到底怎么刷？GitHub 上多位大厂程序员亲测的高效刷题方式
作者:HelloGitHub-小鱼干在众多的诸如阿里.腾讯等大厂之中,最看中面试者刷题技能的大概要数有"链表厂"之称的字节跳动了.作为一个新晋大厂,字节跳动以高薪.技术大佬云集吸 ...
笔记：HTTP协议基础
一.HTTP协议特点: 简单快速,请求方式有get.post.head 等8种无连接无状态支持模式有 B/S(浏览器) C/S(通过websocket去通信) URL,统一资源定位符,在网络中用来 ...
直播报名 | 8.29 Kylin Meetup – 来聊聊云原生
云原生的巨浪正在席卷全球的软件产业,包括开源和商业软件.Apache Kylin 正在为此而积极准备着:基于新的计算和存储引擎,即将发布的 Kylin 4.0 将实现真正的计算和存储分离,减小运维难度 ...
Jmeter 常用函数（1）- 详解 __Random
如果你想查看更多 Jmeter 常用函数可以在这篇文章找找哦 https://www.cnblogs.com/poloyy/p/13291704.html 作用产生一个随机数语法格式 ${__Ra ...
python基础 Day13
python Day13 匿名函数(一句话函数,比较简单的函数) func=lambda a,b:a+b print(func(1,2)) ###结果:3 func=lambda a:(a[0],a[ ...
大数据理论篇HDFS的基石——Google File System
Google File System 但凡是要开始讲大数据的,都绕不开最初的Google三驾马车:Google File System(GFS), MapReduce,BigTable. 为这一切的基 ...
Mybatis进阶使用-一级缓存与二级缓存
简介缓存是一般的ORM 框架都会提供的功能,目的就是提升查询的效率和减少数据库的压力.跟Hibernate 一样,MyBatis 也有一级缓存和二级缓存,并且预留了集成第三方缓存的接口. 一级缓存 ...
java程序CPU 100%调试
前置 PID为进程id,NID为线程ID 步骤一.找到最耗CPU的进程 top 然后键入P,按CPU占用率排序(M是按内存排序) 步骤二.找到进程中最耗CPU的线程 top -Hp PID 步骤三.将 ...
selenium定位方法（一）
selenium定位方法-(一) 1.定位页面元素的方式(By类的方法) 1)id定位:通过页面元素的id属性值来定位一个页面元素注意事项:如果每次刷新网页之后元素的id属性值都不同,说 ...
Alpha阶段项目复审（小菜鸡联盟）
Alpha项目复审小队:小菜鸡联盟团队名称项目名称评价排名『S.L.N』 OnTime 优点:团队分工合理明确,每个成员有一定的开发经验,能用到自己较为熟悉的技术进行开发:在开发初期制定了 ...