业务上可能会遇到这种情况,在最初创建hbase表时候,未指定压缩方式,当数据导入之后,由rowkey带来的数据膨胀导致hdfs上的数据大小远远大于原始数据大小.所以这时候可能就不得不考虑使用压缩,但是如果将表删除,再创建一张指定压缩的表,再重新导入数据未免太浪费时间.当然也完全不用这样,可以直接修改hbase表的压缩方式,然后在执行major_compact即可 disable 'testcompression' //首先将表下线 alter 'testcompression', NAME =>…
在业务空闲的时候修改压缩格式 先测试 ---测试表create 'test', { NAME => 'c',VERSIONS => 1}desc 'test'disable 'test'alter 'test', NAME => 'c',COMPRESSION => 'snappy'enable 'test'major_compact 'test'   ---耗时过长 disable 'contactlist_event_data'alter 'contactlist_event_…
update xhj_mon_job_log a set person_id = (select id from xhj_mon_job_manage b where a.task_id = b.id)…
一.要点 有关Snappy的相关介绍可参看Hadoop压缩-SNAPPY算法,如果想安装Snappy,可以参看Hadoop HBase 配置 安装 Snappy 终极教程. 1. HBase修改Table压缩格式步骤 2. 实测结果分享 二.HBase修改Table压缩格式步骤 修改HBase压缩算法很简单,只需要如下几步: 1. hbase shell命令下,disable相关表: ? 1 disable 'test' 实际产品环境中,’test’表可能很大,例如上几十T的数据,disable…
操作步骤 查找出数据大的hbase表 root@990fb5560f64:/opt/hbase/hbase-# ls CHANGES.txt LICENSE.txt README.txt conf hbase-webapps logs LEGAL NOTICE.txt bin docs lib root@990fb5560f64:/opt/hbase/hbase-# cd bin/ root@990fb5560f64:/opt/hbase/hbase-/bin# ls draining_serv…
先做个记录,监控数据量过大时可以设置表的数据过期时间来清理数据. 1. 查找本地数据表大小 [root@ZWZF-CWY-LZY-12 ~]# cd /home/pinpoint/hbase/data/default/ [root@ZWZF-CWY-LZY-12 default]# du -sh * 16K AgentEvent 64K AgentInfo 16K AgentLifeCycle 72K AgentStat 632K AgentStatV2 40K ApiMetaData 16K…
1.建表高级属性 建表过程中常用的shell命令 1.1 BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用HColumnDescriptor.setBloomFilterType(NONE|ROW|ROWCOL)对列族单独启用布隆 - Default = ROW 对行进行布隆过滤 - 对 ROW,行键的哈希在每次插入行时将被添加到布隆 - 对 ROWCOL,行键 + 列族 + 列族修饰的哈希将在每次插入行时添加到布隆 使用方法: crea…
建表高级属性 下面几个 shell 命令在 hbase 操作中可以起到很大的作用,且主要体现在建表的过程中,看 下面几个 create 属性 1. BLOOMFILTER 默认是 NONE 是否使用布隆过虑及使用何种方式,布隆过滤可以每列族单独启用 使用 HColumnDescriptor.setBloomFilterType(NONE | ROW | ROWCOL) 对列族单独启用布隆 Default = ROW 对行进行布隆过滤 对 ROW,行键的哈希在每次插入行时将被添加到布隆 对 ROW…
一 命名空间 1 命名空间的结构 1) Table:表,所有的表都是命名空间的成员,即表必属于某个命名空间,如果没有指定, 则在 default 默认的命名空间中. 2) RegionServer group:一个命名空间包含了默认的 RegionServer Group. 3) Permission:权限,命名空间能够让我们来定义访问控制列表 ACL(Access Control List).例如,创建表,读取表,删除,更新等等操作. 4) Quota:限额,可以强制一个命名空间可包含的 re…
hbase列式存储给我们画了一个很美好的大饼,好像有了它,很多问题都可以轻易解决.但在实际的使用过程当中,你会发现没有那么简单,至少一些通用的准则要遵守,还需要根据业务的实际特点进行集群的参数调整,不是一个一蹴而就的过程. 以下主要从写入方面进行一些总结,为自己以后的使用打好基础. 1.rowkey 作为hbase的天然唯一索引,很多时候我们从查询的角度进行设计,使其更满足我们查询的需要.但查的前提是数据要已经在库里,如果是离线导入,可能还好,对于实时写入hbase表来说,如果rowkey设计的…