第一章  简介

背景:

  GFS:集群存储海量数据,数据在节点间冗余复制,即使一台存储服务器发生故障,也不会影响可用性。

  GFS的缺点:适合存储少许非常大的文件,而不适合存储大量小文件,因为文件的元数据信息存储在主节点的内存中,文件越多主节点压力越大。

  BigTable:RDBMS在大规模处理中有缺点,可以摒弃关系型的特点,采用简单API进行CRUD,再加一个扫描函数。

表,列,单元格:

  基本单位是column

  多column组成row

  若干列组成列族(column family)

  一个row有唯一rowkey

  每个column有多个版本,每一个单元格可以保留若干版本的数据

  行序是按照字典顺序进行排序的,row-10要小于row-2

列族的作用:

  • 构建数据的语义边界或者局部边界
  • 有助于设置压缩或者指示他们存储在内存中
  • 一个列族的所有列存储在同一个底层存储文件里面,这个文件叫做HFile

列族使用注意点:

  • 列族不能修改的太频繁,数量也不能太多,在当前的实现中如果列族大于几十个会出现bug,实际情况可能还小的多
  • 引用列的格式为 family:qualifier , family 就是列族名, qualifier就是列名,比如 log:time 是获取 log这个列族中的time列,列是无限的可以达到几百万

列的时间戳:

每个列的时间戳有以下特性
  • 默认由系统指定,也可以手动指定
  • 可以通过不同的时间戳区分版本

单元格的版本:

  • 用户可以指定每个值所能存储的最大版本数
  • 支持谓词删除(predicate deletion):比如只允许用户存储过去一周的值,不过这些值是未解释的字节数组

Hbase的一种应用场景:

  webtable: 存储从互联网上抓取的网页。行键是反转的url比如org.hbase.www ,有一个用于存储HTML的列叫 contents,还有其他列族,比如 anchor,用户存储外向链接和入站链接,还有用于存储元数据的列列族language。
 content列族用多版本来存储html,可以查询到旧的html。例如帮助分析页面变化频率就可以把时间戳设置成抓取页面的次数
 

自动分区:

Hbase中扩展和负载均衡的基本单元成为region
  • region是行键连续排列的存储区间
  • 如果region太大就会动态拆分
  • 如果region太小就会合并以节省空间
  • region相当于传统数据库的分区表
  • 每台服务器上的region最好是10-1000个

region是怎么分区的:

  • 一开始是有一个region,当这个region大到一定的值的时候就会从中间键(middle key,region中间的那个行键)处将这个region拆分为大致相等的两个子region。
  • 一个region服务器可以有多个region。
  • Hbase不支持在线的region合并,但是可以离线合并
  • region的拆分非常快,接近于瞬间,因为并没有改变存储的位置
  • 如果一个region server的负载过大会触发region迁移,它会将region迁移到别的region server上

存储API:

  系统支持单行事务,进一步实现单行键下存储的数据的 读-修改-写(read-modify-write)序列
  单元格的值可以当计数器用,并且支持原子更新,意味着这个计数器可以在一个操作中实现读写,客户端可以基于此实现一个全局强一致的计数器

  协处理器(coprocessor): 可以在服务器的地址空间执行来自客户端的代码。用于实现轻量级的批处理作业,或者使用表达式分析或者汇总数据

  通过包装器可以将表转换成MapReduce的输入输出目标

实现:

数据存储在 存储文件(store file)中,称为HFile:
  • HFile中的键值是经过排序的
  • 文件内部是连续的块,块的索引信息存储在尾部
  • HFile被加载到内存中时,索引会优先加载到内存中
  • 每个块默认是64KB
  • 存储文件通常保存在HDFS中

每次更新数据的时候发生了什么:

  1. 数据记录到提交日志(commit log),在HBase中称之为 预写日志(write-ahead log, WAL)(存储在HDFS系统上)
  2. 数据写入内存中的 memstore
  3. 写入的数据超过阀值,系统将这部分数据移出内存,作为HFile写入磁盘中
  4. 数据移出memstore,丢弃提交日志。采用滚动memstore可以实现不阻塞系统读写,即用空的新memstore获取更新数据,将旧的满的memstore转换成一个文件,由于memstore中的数据本来就排序好了,所以存储的时候不用再次排序
  当记录被固化到HFile上之后,删除键值对并不是直接删除,而是做个删除标记delete marker。
  查询结果是memstore+HFile的数据。
  查询的时候用不到WAL,只有服务器内存中的数据在服务器崩溃前没有写入磁盘,而后进行恢复数据时才会用到WAL。

管家机制:

  HFile过多的时候有管家机制来处理,合并有两种类型:
  minor合并:多个小文件合并成一个大文件,由于是多路归并所以速度快
  major压缩合并:将region中一个列族的若干个HFile重写为一个新HFile。合并扫描所有键值对,顺序重写所有数据,重写数据的过程中会略过做了删除标记的数据。断言删除此时生效。
  master 负责负载均衡,将繁忙服务器中的region移到负载轻的服务器中
 

ZooKeeper:

  ZooKeeper是一个可靠的,高可用的,持久化的分布式协调系统。
  主服务器主要负责用ZooKeeper为region服务器分配region。
  每台region服务器在Zookeeper中注册一个自己的临时节点,主服务器可以利用这些节点来跟踪机器故障和网络分区。
  HBase还可以利用ZooKeeper确保只有一个主服务器在运行。
  主服务器提供负载均衡和集群管理,将繁忙的服务器中的region移到负载较轻的服务器中。
  主服务器不为region服务器或者客户端提供任何的数据服务,是个轻量级服务器。
 

HBase特点:

  容量大:HBase可以存储海量数据:数十亿行 X 数百万列 X 数千个版本 = PB级存储
  稀疏性:在传统关系型数据库中,null值是要占存储空间的。而在HBase中,允许表在存储时不存储null值,所以不会占存储空间。

《HBase权威指南》学习笔记的更多相关文章

  1. js学习笔记:webpack基础入门(一)

    之前听说过webpack,今天想正式的接触一下,先跟着webpack的官方用户指南走: 在这里有: 如何安装webpack 如何使用webpack 如何使用loader 如何使用webpack的开发者 ...

  2. PHP-自定义模板-学习笔记

    1.  开始 这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2.  整体架构图 ...

  3. PHP-会员登录与注册例子解析-学习笔记

    1.开始 最近开始学习李炎恢老师的<PHP第二季度视频>中的“章节5:使用OOP注册会员”,做一个学习笔记,通过绘制基本页面流程和UML类图,来对加深理解. 2.基本页面流程 3.通过UM ...

  4. 2014年暑假c#学习笔记目录

    2014年暑假c#学习笔记 一.C#编程基础 1. c#编程基础之枚举 2. c#编程基础之函数可变参数 3. c#编程基础之字符串基础 4. c#编程基础之字符串函数 5.c#编程基础之ref.ou ...

  5. JAVA GUI编程学习笔记目录

    2014年暑假JAVA GUI编程学习笔记目录 1.JAVA之GUI编程概述 2.JAVA之GUI编程布局 3.JAVA之GUI编程Frame窗口 4.JAVA之GUI编程事件监听机制 5.JAVA之 ...

  6. seaJs学习笔记2 – seaJs组建库的使用

    原文地址:seaJs学习笔记2 – seaJs组建库的使用 我觉得学习新东西并不是会使用它就够了的,会使用仅仅代表你看懂了,理解了,二不代表你深入了,彻悟了它的精髓. 所以不断的学习将是源源不断. 最 ...

  7. CSS学习笔记

    CSS学习笔记 2016年12月15日整理 CSS基础 Chapter1 在console输入escape("宋体") ENTER 就会出现unicode编码 显示"%u ...

  8. HTML学习笔记

    HTML学习笔记 2016年12月15日整理 Chapter1 URL(scheme://host.domain:port/path/filename) scheme: 定义因特网服务的类型,常见的为 ...

  9. DirectX Graphics Infrastructure(DXGI):最佳范例 学习笔记

    今天要学习的这篇文章写的算是比较早的了,大概在DX11时代就写好了,当时龙书11版看得很潦草,并没有注意这篇文章,现在看12,觉得是跳不过去的一篇文章,地址如下: https://msdn.micro ...

  10. ucos实时操作系统学习笔记——任务间通信(消息)

    ucos另一种任务间通信的机制是消息(mbox),个人感觉是它是queue中只有一个信息的特殊情况,从代码中可以很清楚的看到,因为之前有关于queue的学习笔记,所以一并讲一下mbox.为什么有了qu ...

随机推荐

  1. python基础----文件处理

    一.文件处理流程 打开文件,得到文件句柄并赋值给一个变量 通过句柄对文件进行操作 关闭文件 正趣果上果 Interesting fruit fruit 词:郭婞 曲:陈粒 编曲/混音/和声:燕池 萧: ...

  2. Mysql千万级大表优化策略

    1.优化sql以及索引 1.1优化sql 1.有索引但未被用到的情况(不建议) (1)避免like的参数以通配符开头时 尽量避免Like的参数以通配符开头,否则数据库引擎会放弃使用索引而进行全表扫描. ...

  3. CSUST 四月选拔赛个人题解

    这场比赛演的逼真,感谢队友不杀之恩 总结:卡题了赶紧换,手上捏着的题尽快上机解决 http://csustacm.com:4803/ 1113~1122 1113:六学家 题意:找出满足ai+aj=a ...

  4. WPF系列之一:基于并行任务和MVVM创建响应灵敏和数据驱动的UI

    在利用WPF创建桌面应用程序的界面时,经常使用MVVM的设计模式,以减少UI层与逻辑层的代码耦合度. 在MVVM的设计中,最主要的方法和技术是UI中的控件利用Binding来和逻辑层(ViewMode ...

  5. mysql5.7 安装常见问题

    mysql 5.7安装要执行以下三个命令: 1.mysql install2.mysqld --initialize3.net start mysql 第一个命令可能会出现Install/Remove ...

  6. Kubernetes - Deploy Containers Using YAML

    In this scenario, you'll learn how to use Kubectl to create and launch Deployments, Replication Cont ...

  7. C11线程管理:条件变量

    1.简介 C11提供另外一种用于等待的同步机制,它可以阻塞一个或者多个线程,直到收到另外一个线程发出的通知或者超时,才会唤醒当前阻塞的线程.条件变量要和互斥量配合起来使用. condition_var ...

  8. linux的MySQL设为开机启动

    linux开启启动的程序一般放在/etc/rc.d/init.d/里面,/etc/init.d/是其软连接 mysql设为linux服务cp /usr/local/mysql5/share/mysql ...

  9. js和jquery中的遍历对象和数组(forEach,map,each)

    arr[].forEach(function(value,index,array){ //do something }) 参数:value数组中的当前项,index当前项的索引,array原始数组: ...

  10. 【IIS】IIS中同时满足集成模式和经典模式

    手里有一个项目--系统设置(主要功能是对系统一些字典表的设置.权限管理等功能).在VS上运行没有任何问题.可是发布到IIS上之后,报黄页. 发布后程序运行环境为: windows 7 32位 IIS为 ...