Hbase是数据库

特点:

  1.面向列:Hbase是面向列的存储和权限控制,并支持独立索引。列式存储,其数据在表中是按照某列存储的,这样在查询只需要少数几个字段时,能大大减少读取的数据量。

  2.多版本:Hbase每一个列的存储有多个Version(这个版本是针对列簇来说的)。

  3.稀疏性:为空的列不占用存储空间,表可以设计得非常稀疏。

  4.扩展性:底层依赖HDFS。

  5.高可靠性:WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失,Replication机制保证了在集群出现严重的问题时,数据不会发生丢失或损坏。而且Hbase底层使用HDFS,HDFS本身也有备份。

  6.高性能:底层的LSM数据结构和Rowkey有序排列等架构上的独特设计,使得Hbase具有非常高的写入性能。region切分,主键索引和缓存机制使得Hbase在海量数据下具备一定的随机读取性能,该性能真对Rowkey的查询能到达到毫秒级别。

数据量

  十亿级别的行

  百万级别的列

速度快的原因

  充分利用内存

  使用了LSM结构

  缓存机制

  文件是顺序读的

数据模型

  rowkey

    相当于MySql中的主键,唯一标识一行记录

    rowkey是字典顺序

    rowkey的长度最长是64k,但是一般推荐10-100字节

  colunm family

    一组列的集合

    列簇必须作为表的schema定义给出

    列簇是权限,存储的最小单元

  qulifier

    列

    可以动态的,随机的插入

    表定义之后没有限制列,随着值得插入也把列插入

    列必须归属某一个列簇

  timestamp

    时间戳,64位,精度是毫秒

    起版本号的作用,一个cell中可以存多个版本的数据

    时间戳可以自己当以,但是一般不推荐!!

  cell

    存储数据的最小单元(逻辑概念,实际存储中并没有这个)

    存储的是K-V格式的数据

      K:  rowkey + colunm family + qulifier + timestamp

      V:  value

    hbase的cell存储数据的时候没有类型的区分,存放的都是字节数组

架构

  hbase是主从架构

  角色

    client

      操作hbase的入口,命令行,API,并维护客户端缓存

    zookeeper

      保证任何时刻集群中有且仅有一台active的hmaster

      存储所有region的寻址入口,所有regoin元数据存储在哪一台regionserver

      监控regonserver的上线和下线信息,并实时通知Hmaster

      存储相关表的schema数据

    Hmaster

      分配region

      保证整个集群中的所有regionserver的负载均衡

      当发现某一台regoinserver宕机之后,重新分配上面的region

      当region变大的时候,Hmaster去分配region到哪一台regionserver

    HRegionServer

      负责接受客户端的读写请求,处理对于region的IO

      当某一个region变大之后,负责等分两个region

    region

      相当于表的概念,一张表至少对应一个region

      当表的数据过大的时候,region会发生裂变

    store

      相当于列簇

      角色:

        memstore

          位于内存

          每一个store有一个memstore

        storefile

          磁盘的存储空间,将数据持久化的存储位置

          每一个region有一个或者多个storefile

          storefile可以进行合并操作

      存储结构:使用了LSM的数据模型

    WAL:

      write ahead log (预写日志)

      防止数据丢失

      先写内存,再向HDFS上溢写,但是是异步的方式

        先写到memstore,然后memstore达到一个阈值,memstore到一个消息队列中,原来的regon会生成一个新的memstore,再通过这个消息队列,向storefile中写数据,异步的方式。

读写流程

  读流程

    1、客户端向zookeeper中发送请求

    2、从ZK中拿到metadata的存储节点

    3、去存储metadata的节点获取对应的region的所在位置

    4、访问对应得regon获取数据

    5、先去memstore中查询数据,如果有,直接返回

    6、如果没有查询到结果,去blockcache查找数据,如果找到,直接返回

    7、如果没有找到,就去storefile中查找数据,并将查询到得结果缓存到blockcache中,方便下一次查询

    8、将结果返回给客户端

    注意:blockchache是缓存,有大小限制,会有淘汰机制,默认将最早得数据淘汰

  写流程

    1、client向ZK发送请求

    2、从ZK中拿到metadata得存储节点

    3、去存储metadata的节点获取对应的region所在的位置

    4、访问对应的region进行写数据

    5、首先会向WAL中写数据,写成功之后才会存储到memstore

    6、当memstore中的数据量达到阈值之后,进行溢写,溢写成storefile

    7、store file是一个个的小文件,会进行合并(minor(部分合并)   ,  major(一个regon下面的都进行合并))

    8、store file 是对Hfile的封装,Hfile是实际存储在HDFS上的数据文件

大数据之路Week10_day01 (Hbase总结 II)的更多相关文章

  1. 大数据之路week03--day05(线程 II)

    今天,咱们就把线程给完完全全的结束掉,但是不是说,就已经覆盖了全部的知识点,可以说是线程的常见的问题及所含知识基本都包含. 1.多线程(理解) (1)JDK5以后的针对线程的锁定操作和释放操作 Loc ...

  2. 大数据学习系列之—HBASE

    hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换 数据到关系型数据库转换 大数据学习群119 ...

  3. 大数据核心知识点:Hbase、Spark、Hive、MapReduce概念理解,特点及机制

    今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...

  4. 大数据-05-Spark之读写HBase数据

    本文主要来自于 http://dblab.xmu.edu.cn/blog/1316-2/ 谢谢原作者 准备工作一:创建一个HBase表 这里依然是以student表为例进行演示.这里假设你已经成功安装 ...

  5. 胖子哥的大数据之路(7)- 传统企业切入核心or外围

    一.引言 昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问 ...

  6. 胖子哥的大数据之路(6)- NoSQL生态圈全景介绍

    引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文:  The NoSQL Ecosystem 目录 The NoSQL Eco ...

  7. 胖子哥的大数据之路(四)- VisualHBase功能需求框架

    一.引言 大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了Vi ...

  8. 大数据时代数据库-云HBase架构&生态&实践

    业务的挑战 存储量量/并发计算增大 现如今大量的中小型公司并没有大规模的数据,如果一家公司的数据量超过100T,且能通过数据产生新的价值,基本可以说是大数据公司了 .起初,一个创业公司的基本思路就是首 ...

  9. 大数据之路week06--day07(Hadoop生态圈的介绍)

    Hadoop 基本概念 一.Hadoop出现的前提环境 随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...

  10. 大数据之路week04--day06(I/O流阶段一 之异常)

    从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房 ...

随机推荐

  1. Electron 窗体 BrowserWindow

    http://jsrun.net/t/KfkKp https://www.wenjiangs.com/doc/tlsizw1dst https://www.w3cschool.cn/electronm ...

  2. 【Python】【Flask】【字符串索引】计算人民币与美元的相互计算

    目录 简介 Python Code 导包 设置首页 计算的接口 问题0:设置请求方式 问题1:关于接收数据可能存在的问题 问题2:返回结果 启动 完整代码 HTML Code 问题分析 分析:获取下拉 ...

  3. postgres

    10.67 su - app  docker pull postgres:12.15  docker run -d --name pgsql12 -p 5432:5432 -e "POSTG ...

  4. Zstd-数据压缩组件

    Zstandard 简称Zstd,是一款快速实时的开源数据压缩程序,由Facebook开发,源码是用C语言编写的.相比业内其他压缩算法(如Gzip.Snappy.Zlib)它的特点是:当需要时,它可以 ...

  5. Qt开源作品22-运行时间记录类

    一.前言 在早期开发的软件中,尤其是初学者入门者写的软件,软件运行久了,难免遇到意外崩溃的时候,可是大部分的运行设备可能在现场客户那,需要记住每一次从软件启动后到软件意外关闭前的运行时间,需要记录的信 ...

  6. FFmpeg中的色彩空间与像素格式2-RGB/YUV色彩空间

    cnblogs 网站将文本J:a:b渲染成了J️b.是否可通过设置博客后台解决此问题?有知道的同学请留言指点一下,谢谢. FFmpeg 中的色彩与像素系列文章如下: [1]. FFmpeg中的色彩空间 ...

  7. 即时通讯技术文集(第28期):IM开发技术合集(Part1) [共18篇]

    为了更好地分类阅读 52im.net 总计1000多篇精编文章,我将在每周三推送新的一期技术文集,本次是第28 期. [- 1 -] 新手入门一篇就够:从零开发移动端IM [链接] http://ww ...

  8. IM开发者的零基础通信技术入门(十二):上网卡顿?网络掉线?一文即懂!

    [来源申明]本文引用了微信公众号"鲜枣课堂"的<上网慢?经常掉线?这篇文章告诉你该怎么办!>文章内容.为了更好的内容呈现,即时通讯网在引用和收录时内容有改动,转载时请注 ...

  9. Pytorch的主要组成模块

    Pytorch的主要组成模块 一.基本配置 对于一个PyTorch项目,我们需要导入一些Python常用的包来帮助我们快速实现功能.常见的包有os.numpy等,此外还需要调用PyTorch自身一些模 ...

  10. PHP 安装启用imagick(解决 word press可选的模组imagick未被安装或已被禁用)

    本教程仅适用Windows Servier IIS网站服务器. 我的博客使用IIS搭建,相比Linux,相关的教程格外少.因此让以后的小伙伴也能马上解决问题,分享此方法. 首先需要下载php对应版本的 ...