hbase数据模型以及编码压缩（转）

原文链接：hbase源码系列（四）数据模型-表定义和列族定义的具体含义

hbase是一个KeyValue型的数据库，在《hbase实战》描述它的逻辑模型【行键，列族，列限定符，时间版本】，物理模型是基于列族的。但实际情况是啥？还是上点代码吧。

　　　　 HTableDescriptor tableDesc = new HTableDescriptor("test");

        //日志flush的时候是同步写，还是异步写

        tableDesc.setDurability(Durability.SYNC_WAL);

        //MemStore大小

        tableDesc.setMemStoreFlushSize(256*1024*1024);

        HColumnDescriptor colDesc = new HColumnDescriptor("f");

        //块缓存，保存着每个HFile数据块的startKey

        colDesc.setBlockCacheEnabled(true);

        //块的大小，默认值是65536

        //加载到内存当中的数据块越小，随机查找性能更好,越大，连续读性能更好

        colDesc.setBlocksize(64*1024);

        //bloom过滤器，有ROW和ROWCOL，ROWCOL除了过滤ROW还要过滤列族

        colDesc.setBloomFilterType(BloomType.ROW);

        //写的时候缓存bloom

        colDesc.setCacheBloomsOnWrite(true);

        //写的时候缓存索引

        colDesc.setCacheIndexesOnWrite(true);
　　　　　//存储的时候使用压缩算法
  　　　 colDesc.setCompressionType(Algorithm.SNAPPY);

        //进行compaction的时候使用压缩算法

        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);

        //压缩内存和存储的数据，区别于Snappy

        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);

        //写入硬盘的时候是否进行编码

        colDesc.setEncodeOnDisk(true);

        //关闭的时候，是否剔除缓存的块

        colDesc.setEvictBlocksOnClose(true);

        //是否保存那些已经删除掉的kv

        colDesc.setKeepDeletedCells(false);

        //让数据块缓存在LRU缓存里面有更高的优先级

        colDesc.setInMemory(true);

        //最大最小版本

        colDesc.setMaxVersions(3);

        colDesc.setMinVersions(1);

        //集群间复制的时候，如果被设置成REPLICATION_SCOPE_LOCAL就不能被复制了

        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);

        //生存时间

        colDesc.setTimeToLive(18000);

        tableDesc.addFamily(colDesc);

　　在上面列出来表定义和列族定义的所有参数，含义也标上去了，我们经常需要设置的可能就是下面的这些。

　　　　 //bloom过滤器，过滤加速
        colDesc.setBloomFilterType(BloomType.ROW);

        //压缩内存和存储中的数据，内存紧张的时候设置

        colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX);
　　　　 //让数据块缓存在LRU缓存里面有更高的优先级

        colDesc.setInMemory(true);

        //最大版本，没必要的话，就设置成1个

        colDesc.setMaxVersions(1);

        //集群间复制的时候，如果被设置成REPLICATION_SCOPE_LOCAL就不能被复制了

        colDesc.setScope(HConstants.REPLICATION_SCOPE_GLOBAL);
　　　　　//存储的时候使用压缩算法，这个基本是必备的，hbase的存储大得惊人
  　　　 colDesc.setCompressionType(Algorithm.SNAPPY);
        //进行compaction的时候使用压缩算法
        colDesc.setCompactionCompressionType(Algorithm.SNAPPY);

　　hbase的表在hdfs上面的是这么存储的，/hbase-root/tableName/regionName/familyName /HFile, 在tableName这一级目录会有一个名.tabledesc的文件，在region这一级目录有一个名为.regioninfo的文件，都是明文的。

　　了解完表和列族的定义之后，我们看看KeyValue是怎么存储的吧，引用一下代码，可能大家一看就都懂了。

　　@Override

    public void write(Cell cell) throws IOException {

      checkFlushed();

      // Row rowkey，起始位置，长度

      write(cell.getRowArray(), cell.getRowOffset(), cell.getRowLength());

      // Column family 列族，起始位置，长度

      write(cell.getFamilyArray(), cell.getFamilyOffset(), cell.getFamilyLength());

      // Qualifier 列名，起始位置，长度

      write(cell.getQualifierArray(), cell.getQualifierOffset(), cell.getQualifierLength());

      // Version 时间戳

      this.out.write(Bytes.toBytes(cell.getTimestamp()));

      // Type Put或者Delete

      this.out.write(cell.getTypeByte());

      // Value 值，起始位置，长度

      write(cell.getValueArray(), cell.getValueOffset(), cell.getValueLength());

    }

　　好吧，列存储的话存储的时候每个列都会重复前面的rowkey、列族这些信息，在列很多的情况下，rowkey和列族越长，消耗的内存和列族都会很大，所以它们都要尽量的短。

　　可以考虑用colDesc.setDataBlockEncoding(DataBlockEncoding.PREFIX_TREE)来压缩一下内存中的大小，这个后面后面会讲到。

hbase数据模型以及编码压缩（转）的更多相关文章

HBase 数据模型（Data Model）
HBase Data Model--HBase 数据模型(翻译) 在HBase中,数据是存储在有行有列的表格中.这是与关系型数据库重复的术语,并不是有用的类比.相反,HBase可以被认为是一个多维度的 ...
HBase 数据模型
在HBase中,数据是存储在有行有列的表格中.这是与关系型数据库重复的术语,并不是有用的类比.相反,HBase可以被认为是一个多维度的映射. HBase数据模型术语 Table(表格) 一个HBase ...
HBase数据压缩算法编码探索
摘要: 本文主要介绍了hbase对数据压缩,编码的支持,以及云hbase在社区基础上对数据压缩率和访问速度上了进行的改进. 前言你可曾遇到这种需求,只有几百qps的冷数据缓存,却因为存储水位要浪费几 ...
Hbase总结（一）-hbase命令,hbase安装,与Hive的区别,与传统数据库的区别,Hbase数据模型
Hbase总结(一)-hbase命令下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令表达式创建表 create '表名称', ...
HBase数据模型
上次我们讲过了<HBase简介>,点击阅读有助于更好地理解本文.本文讲述的是HBase数据模型. 1.ROW KEY 决定一行数据按照字典顺序排序的.Row key只能存储64k的字节数据 ...
HBase数据模型(2)
HBase数据模型(1) HBase数据模型(2) 1.0 HBase的版本version,是一个用长整型表示的.由Rowkey.Column(列族和列).Version组合在一起称为HBase中的一 ...
HBase数据模型(1)
HBase数据模型(1) HBase数据模型(2) 1.0 HBase的特性 Table HBase以表(Table)的方式组织数据,数据存储在表中. Row/Column 行(Row)和列(Colu ...
3.Hbase数据模型
3.1.Hbase数据模型: 概念视图: 物理视图 Hbase数据在存储系统中是以列族来体现的[Column Family],任何时候可以随意的添加一列到已经存在的列族中空的单元格在表中不做存储也不 ...
从零自学Hadoop(20)：HBase数据模型相关操作上
阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 ...

随机推荐

Thymeleaf（Java模板引擎）
一.概念 1.Thymeleaf是Web和独立环境的开源的Java模板引擎,能够处理HTML,XML,JavaScript,CSS甚至纯文本:2.Thymeleaf可以在Web(基于Servlet)和 ...
[CodeChef - STREETTA] The Street 李超线段树
大致题意: 给出两个序列A,B,A初始为负无穷,B初始为0,有三种操作 1.在A上区间[u,v]上加一个等差数列,取与原本A序列的最大值. 2.在B上区间[u,v]上加一个等差数列. 3.给出一个点X ...
超实用 Git 使用方式介绍
都说程序员若是不知道 GitHub 就不是一个合格的程序员,其实这话说的过分了,不知道就学嘛,今天我们就来说说 Git 和 GitHub 到底是什么. 我们在开发软件的时候,常常是需要多人协作完成,这 ...
JAVAEE——宜立方商城03：商品类目选择、Nginx端口或域名区分虚拟机、Nginx反向代理、负载均衡、keepalived实现高可用
1. 学习计划第三天: 1.商品类目选择(EasyUI的tree实现) 2.图片上传 a) 图片服务器FastDFS(Nainx部分) 2. 商品类目选择 2.1. 原型 2.2. 功能分析展示商 ...
[漏洞复现] CVE-2017-11882 通杀所有Office版本
此漏洞是由Office软件里面的 [公式编辑器] 造成的,由于编辑器进程没有对名称长度进行校验,导致缓冲区溢出,攻击者通过构造特殊的字符,可以实现任意代码执行. 举个例子,如果黑客利用这个漏洞,构造带 ...
【基础知识】C#数据库中主键类型的选择
主键在数据库中占有很大的地位,对于表的关联性,和数据的唯一识别性有重要的作用: 1,在C#开发中,Int自增字段和Guid(数据库中是uniqueidentifier类型)可设置为主键: 1>G ...
Oracle win32_11gR2_client.zip
先将下载下来的ZIP文件解压,并运行setup.exe文件. 第一步:选择管理员(0MB)(A),然后点击下一步第二步:选择语言,点击下一步第三步:选择安装的路径,然后点击下一步第四步:执行到第 ...
【HDU】2866：Special Prime【数论】
Special Prime Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Tot ...
nodejs环境使用jshint
一.概述jshint是检测JavaScript语法问题的工具,可以根据自己的需要配置检测规则. 二.安装npm install jshint -g一般全局安装就可以了,可以在任何目录下使用jshint ...
ClassifyHandler 分类处理结构
public class ClassifyHandler { public object vTrue { get; set; } public object vFalse { get; set; ...

hbase数据模型以及编码压缩（转）

原文链接：hbase源码系列（四）数据模型-表定义和列族定义的具体含义

hbase数据模型以及编码压缩（转）的更多相关文章

随机推荐

热门专题