hbase记录-修改压缩格式

【hbase记录-修改压缩格式】的更多相关文章

hbase记录-修改压缩格式

在业务空闲的时候修改压缩格式先测试 ---测试表create 'test', { NAME => 'c',VERSIONS => 1}desc 'test'disable 'test'alter 'test', NAME => 'c',COMPRESSION => 'snappy'enable 'test'major_compact 'test' ---耗时过长 disable 'contactlist_event_data'alter 'contactlist_event_…

HBase修改压缩格式及Snappy压缩实测分享

一.要点有关Snappy的相关介绍可参看Hadoop压缩-SNAPPY算法,如果想安装Snappy,可以参看Hadoop HBase 配置安装 Snappy 终极教程. 1. HBase修改Table压缩格式步骤 2. 实测结果分享二.HBase修改Table压缩格式步骤修改HBase压缩算法很简单,只需要如下几步: 1. hbase shell命令下,disable相关表: ? 1 disable 'test' 实际产品环境中,’test’表可能很大,例如上几十T的数据,disable…

对已经存在的hbase表修改压缩方式

业务上可能会遇到这种情况,在最初创建hbase表时候,未指定压缩方式,当数据导入之后,由rowkey带来的数据膨胀导致hdfs上的数据大小远远大于原始数据大小.所以这时候可能就不得不考虑使用压缩,但是如果将表删除,再创建一张指定压缩的表,再重新导入数据未免太浪费时间.当然也完全不用这样,可以直接修改hbase表的压缩方式,然后在执行major_compact即可 disable 'testcompression' //首先将表下线 alter 'testcompression', NAME =>…

Hbase记录-HBase性能优化指南

垃圾回收优化当region服务器处理大量的写入负载时,繁重的任务会迫使JRE默认的内存分配策略无法保证程序的稳定性所以我们可能需要对region服务器的垃圾回收机制进行一些参数调整(因为master并不处理实际任务,所以没有优化的必要) 首先来了解JAVA内存中的几个概念在HBase构架中我们可以知道数据会被写入到memstore内存中直到达到一个阈值之后刷写持久化到磁盘但是由于数据是客户端在不同时间写入的,这些数据占据的JAVA内存中的堆空间很可能是不连续的,所以JAVA虚拟机的内存会…

HBase记录

本次记录是用于:SparkStreaming对接Kafka.HBase记录一.基本概念 1.HBase以表的形式存储数据.表有行和列族组成.列族划分为若干个列.其结构如下 2.Row Key:行键 ①hbase本质上也是一种Key-Value存储系统.Key相当于RowKey,Value相当于列族数据的集合 ②与nosql数据库们一样,row key是用来检索记录的主键 ③访问hbase table中的行,只有三种方式: 1)通过单个row key访问 2)通过row key的range 3)…

hadoop中MapReduce中压缩的使用及4种压缩格式的特征的比较

在比较四中压缩方法之前,先来点干的,说一下在MapReduce的job中怎么使用压缩. MapReduce的压缩分为map端输出内容的压缩和reduce端输出的压缩,配置很简单,只要在作业的conf中配置即可 //配置压缩 conf.setBoolean("mapred.out.compress", true);//配置map输出的压缩 conf.setBoolean("mapred.output.compress", true); //配置reduce输出的压缩…

Linux XZ压缩格式学习

XZ的介绍今天升级Python的时候,下载的Python-2.7.8.tar.xz安装包为xz格式,好吧,我又孤陋寡闻了,居然第一次遇见xz格式的压缩文件.搜索了一下资料,下面是xz的一些介绍: xz是一个使用 LZMA压缩算法的无损数据压缩文件格式.和gzip与bzip2一样,同样支持多文件压缩,但是约定不能将多于一个的目标文件压缩进同一个档案文件.相反,xz通常作为一种归档文件自身的压缩格式,例如使用tar或cpioUnix程序创建的归档.xz 在GNU coreutils(版本 7.…

解读：hadoop压缩格式

Hadoop中用得比较多的4种压缩格式:lzo,gzip,snappy,bzip2.它们的优缺点和应用场景如下: 1). gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快:hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样:有hadoop native库:大部分linux系统都自带gzip命令,使用方便. 缺点:不支持split. 应用场景:当每个文件压缩之后在130M以内的(1个Block大小内),都可以考虑用gzip压缩格式.譬如说一天或者一个小时的日志压缩…

Hive压缩格式

TextFile Hive数据表的默认格式,存储方式:行存储. 可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split 但在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍. --创建数据表:create table if not exists textfile_table( site string, url string, pv bigint, label string) row format delimited fi…

Python解压ZIP、RAR等常用压缩格式的方法

解压大杀器首先祭出可以应对多种压缩包格式的python库:patool.如果平时只用基本的解压.打包等操作,也不想详细了解各种压缩格式对应的python库,patool应该是个不错的选择. patool库支持的格式包括: 7z (.7z, .cb7), ACE (.ace, .cba), ADF (.adf), ALZIP (.alz), APE (.ape), AR (.a), ARC (.arc), ARJ (.arj), BZIP2 (.bz2), CAB (.cab), COMPRES…