在hbase里面有几个通俗的名称会经常出现

1)Hregion = region

2)Hregionserver = regionserver

3)Hmaster = master

4)Hmamstore = memstore

5)Hfile = storeFile

1、什么是hbase?

1)它是基于稀疏的、分布式的、持久化的、多维有序映射,它基于行健、列簇、时间戳建立索引

2)构建在hdfs之上的分布式列式键值存储系统,hbase内部管理的文件存储在hdfs中。

2、有什么特点?

1)不介意数据类型,允许动态的、灵活的数据模型,并不限制存储数据的种类。因此他可以自如的存储结构化和半结构化的数据。

2)它不要sql语音,不强调数据之间的关系

3)它不允许跨行的事物,可以在一行的某一列存储一个整数,而在另一行的同一列存储一个字符串

4)它被设计在一个服务器集群上运行,而不是单台服务器。这就意味着是一种强大的、可扩展的数据使用方式。

3、列式存储

列式存储的基础:对于特定的查询,不是所有的值都是必须的。

1)以列为单位聚合数据,然后将列值顺序的存入磁盘

2)数据类型一致,数据特征相似,更利于压缩

3)大量降低系统I/O

4、HBASE特性

1)容量巨大:单表可以有百亿行,百万列

2)面向列

3)稀疏性:空值不占用存储空间

4)扩展性:由hdfs决定,热扩展

5)高可用性:WAL和Replication机制;hdfs;zookeeper

6)共性能:LSM数据结构;Rowkey有序排列

7)无模式

8)数据多版本

9)数据类型单一

10)TTL

5、client

1)包含访问hbase的接口,并维护cache来加快对hbase的访问

2)通过rpc机制和master,region server通信

6、zookeeper

1)保证任何时候,集群中只有一个master

2)存储所有region的寻址入口

3)实时监控region server的上下线信息。并通知给master

4)存储hbase元数据信息

5)hbase中可以启动多个Hmaster,通过zookeeper的master election机制保证总有一个master运行

7、HMaster主要负责:table、region管理工作

1)管理用户对table的增删改查

2)管理regionserver的负载均衡,跳转region分布

3)在region分裂后,负责新region的分配

4)在regionserver死机后,负责失效regionserver上的region迁移

(由于master只维护表和region的元数据,而不参与表数据IO的过程,master下线仅导致所有元数据的修改被冻结(无法创建删除表,无法修改表的schema,无法进行region的负载均衡,无法处理region上下线,无法进行region的合并,唯一例外的是region的split可以正常进行,因为只有region server参与),表的数据读写还可以正常进行。

因此master下线短时间内对整个hbase集群没有影响。)

8、regionserver:主要负责响应用户I/O请求,向hdfs文件系统中读写数据

1)管理了一系列Hregion对象,每个Hregion对应了table中的region

2)Hregion由多个Hstore组成,每个Hstore对应了table中的一个column Family的存储

每个column Family其实就是一个集中的存储单位,简称Hstore

3)regionserver维护region,处理对这些region的IO请求

4)regionserver负责切分在运行过程中变得过大的region

5)regionserver提供行级锁

注:

1)Hregionserver:Hregion:Hstore = Column Family

2)Hstore:

- memStore:用户首先先写入MemStore。(flush操作)

- StoreFile:Hfile(compact合并,split操作)

3)hbase只有增加数据,所有更新和删除都是在compact过程中进行的。

4)用户写操作只要写入内存就可以立即返回,保证I/O高性能

5)同一台rs上的所有region共享相同的Hlog Files

6)每个update(或者说edit)都会被写到log,当通知客户端成功后,rs把数据再加载到内存中。

9、region是什么?

1)region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分两个新的region,只会就会越来越多。

2)本质上是以行键排序的连续存储的区间

3)region最佳大小:1GB~2GB

4)regionserver:10~1000个region

5)不同的region分布到不同regionserver上

6)每个Hregion保存某段连续的数据,从开始主键(startRow)到结束主键(endRow),通过Hregion从Hadoop的分布式文件系统上数据

region虽然是分布存储的最小单位,但并不是存储的最小单位

1)一个region由一个或者多个store组成,每个store保存一个 columns family

2)每个store又由一个memstore和0个至多个storeFile组成

3)memstore存储在内存中,storeFile存储在hdfs上

10、Hstore是什么?

Hstore:Hstore存储是Hbase存储的核心,由memstore和storeFile组成。

1)Hmemcache:内存中的缓存,保存着最近更新的数据,如果Hmemcache没有数据,将从hstores获取磁盘上的数据,每个列簇会有一个hstore集合,每个集合包含多个Hstorefiles文件(b+数结构)

2)Hregion定期调用flushcache()缓存里的内容写入到文件中,每次调用产生一个新的文件Hstorefile文件,从一个hstore或数据会访问所有的Hstotefile,很耗时,hstore.compact可以完成小文件到达文件的合并

11、Hlog是什么?

磁盘上的操作记录文件,记录这所有的更新操作,数据写入Hlog后,commit()调用才会返回给客户端。

数据的更新操作最先被记录在Hmemcache和Hlog中

12、Row key

行键,table的主键,Table中的记录按照Row key排序。类型为Byte array

1)不宜过长

2)分布均匀

13、Column Family

列族,table水平方向有一个或者多个Column Family组成,一个Column Family中可以由任意多个Column组成

14、Cloumn

列 格式为:familyName:columnName

列名称是编码在cell中的

不同的cell可以拥有不同的列

15、Version Number

版本号。默认值是时间戳。类型为long

16、Value(Cell)

具体的值。类型为Byte array

hbase 概念的更多相关文章

  1. HBase概念及表格设计

    HBase概念及表格设计 1. 概述(扯淡~) HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后,犹如醍醐灌顶,进而“山寨”出来的一套系统. 由此可见: 1. 几乎所有 ...

  2. HBASE概念补充

    HBASE概念补充 HBase的工作方式: hbase中的表在行的方向上分隔为多个HRegion,分散在不同的RegionServer中 这样做的目的是在查询时可以将工作量分布到多个RegionSer ...

  3. hbase概念

    1. 概述(扯淡~) HBase是一帮家伙看了Google发布的一片名为“BigTable”的论文以后,犹如醍醐灌顶,进而“山寨”出来的一套系统. 由此可见: 1. 几乎所有的HBase中的理念,都可 ...

  4. Hbase概念原理扫盲

    一.Hbase简介 1.什么是Hbase Hbase的原型是google的BigTable论文,收到了该论文思想的启发,目前作为hadoop的子项目来开发维护,用于支持结构化的数据存储. Hbase是 ...

  5. HBase概念入门

    HBase简介 HBase基于Google的BigTable论文而来,是一个分布式海量列式非关系型数据库系统,可以提供大规模数据集的实时随机读写. 下面通过一个小场景认识HBase存储.同样的一个数据 ...

  6. hbase概念解析

    hbase是一种nosql数据库.是一个高可靠,高性能,面向列,可伸缩,实时读取的分布式数据库. hbase一般由行键,时间戳,列族,列,表格单元,行组成. 行一般由一个行键和一个或多个具有关联关系值 ...

  7. HBase 概念视图

  8. HBASE学习笔记-初步印象

    HBASE概念: HBASE是一个分布式架构的数据库,通过对数据进行多层的分块打散储存.从而改写传统数据库的储存能力和读取速度. HBASE的集群服务器: HBASE的集群主要分为Zookeeper集 ...

  9. 分布式数据库 HBase

    原文地址:http://www.oschina.net/p/hbase/ HBase 概念 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用 ...

随机推荐

  1. 详解ASP.NET Core API 的Get和Post请求使用方式

    上一篇文章帮助大家解决问题不彻底导致博友使用的时候还是遇到一些问题,欢迎一起讨论.所以下面重点详细讲解我们常用的Get和Post请求( 以.net core2.2的Http[Verb]为方向 ,推荐该 ...

  2. eclipse 下修改Dynamic Web Modulle 的问题

    上图右侧圈中位置  有提示对应jdk版本. 若在eclipse修改Dynamic Web Modulle 为3.0失败,可以去项目工作空间文件中的.seting文件下修改: 上图对应的 <ins ...

  3. 使用sphinx制作接口文档并托管到readthedocs

    此sphinx可不是彼sphinx,此篇是指生成文档的工具,是python下最流行的文档生成工具,python官方文档即是它生成,官方网站是http://www.sphinx-doc.org,这里是一 ...

  4. JS 基本类型和引用类型---JS 学习笔记(一)

    本文参考了focusxxxxy的博客,感谢他的知识分享. 一 基本类型和引用类型的值 ECMAScript 变量包含两种不同数据类型的值:基本类型和引用类型. 也有其他的叫法,比如原始类型和对象类型, ...

  5. kafka consumer 配置详解

    1.Consumer Group 与 topic 订阅 每个Consumer 进程都会划归到一个逻辑的Consumer Group中,逻辑的订阅者是Consumer Group.所以一条message ...

  6. loadrunner场景之集合点设置技巧

    在loadrunner的虚拟用户中,术语concurrent(并发)和simultaneous(同时)存在一些区别,concurrent 是指虚拟场景中参于运行的虚拟用户. 而simultaneous ...

  7. ACM-ICPC2018南京赛区 Mediocre String Problem

    Mediocre String Problem 题解: 很容易想到将第一个串反过来,然后对于s串的每个位置可以求出t的前缀和它匹配了多少个(EXKMP 或者 二分+hash). 然后剩下的就是要处理以 ...

  8. JS-NaN的数据类型

    NaN 的数据类型:not a number .是数字类型但是不是数字 例: var x = Number('abcd'); //结果是NaN alert( typeof (x) ); //结果是nu ...

  9. SKU : Stock Keeping Unit

    Stock Keeping Unit  is a number assigned to a product by a retail store to identify the price, produ ...

  10. C语言函数声明什么时候可以省略,什么时候不能省?

    在学习C语言函数的时候,老师总会告诉我们函数要写声明,然后再定义.这是个稳健的做法.等我自己学习了其他高级语言以后,回头再来写C,突然就觉得函数要写声明有点麻烦.无意间发现有一次函数没写声明居然编译( ...