Pig，可以使用Pig Latin流式编程语言来操作HBase中的数据

Hive，可以使用类似SQL语言来访问HBase，最终本质是编译成MapReduce Job来处理HBase表数据，适合做数据统计。

1.什么是HBase

HBase是一个在Hadoop上开发的面向列（同类软件还有Cassandra和HyperTable）的分布式数据库。

利用HDFS作为其文件存储系统

利用MapReduce来处理HBase中的海量数据

利用Zookeeper作为协同服务，主要用于实时随机读/写超大规模数据集

HBase并不是关系型数据库，它不支持SQL，但它能够做RDBMS不能做的事；

2.HBase的特点

面向列：列的动态、无限扩展 —— 内容评论的扩展，同类数据集中存储便于压缩

稀疏表：有数据时这个单元格才存在 —— 节省空间

3.HBase表格示意图

Ø Row Key: 行键，Table的主键，Table中的记录按照Row Key排序

Ø Timestamp: 时间戳，每次数据操作对应的时间戳，可以看作是数据的version number

Ø Column Family：列簇，Table在水平方向有一个或者多个Column Family组成，一个Column Family中可以由任意多个Column组成，即Column Family支持动态扩展，无需预先定义Column的数量以及类型，所有Column均以二进制格式存储，用户需要自行进行类型转换。

4.HBase的组件构成

HMaster （HA），负责Table和Region的管理工作

1、建表、删表、查看表格属性；

2、管理RegionServer负载均衡，调整Region分布；

3、Region Split后，负责新Region的分配；

4、在RegionServer失效后，负责失效节点上的Regions迁移；

RegionServer（x N），主要负责响应用户I/O请求，向HDFS文件系统中读写数据

5.HBase中表格的存储

一张表存储在[1-N)个HRegion中，每个HRegion保存某张表RowKey连续的一段记录。

建表时可以预划分HRegion——提高并行度，进而提升读写速度

否则初始表存在单一HRegion中，随着数据增大HRegion会分裂为多个HRegion

HBase中有两张特殊的Table，-ROOT-和.META.

Ø .META.：记录了用户表的Region信息，.META.可以有多个regoin

Ø -ROOT-：记录了.META.表的Region信息，-ROOT-只有一个region

Ø Zookeeper中记录了-ROOT-表的location

首先 HBase Client端会连接Zookeeper Qurom

通过 Zookeeper组件Client 能获知哪个 RegionServer管理-ROOT- Region 。

那么Client就去访问管理 -ROOT-的HRegionServer ，在META中记录了 HBase中所有表信息，(你可以使用 scan '.META.' 命令列出你创建的所有表的详细信息 )，从而获取Region 分布的信息。一旦 Client获取了这一行的位置信息，比如这一行属于哪个 Region，Client 将会缓存这个信息并直接访问 HRegionServer。

久而久之Client 缓存的信息渐渐增多，即使不访问 .META.表也能知道去访问哪个 HRegionServer。

6.HBase读数据

HBase读取数据优先读取HMemcache中的内容，如果未取到再去读取Hstore中的数据，提高数据读取的性能。

7.HBase写数据

HBase写入数据会写到HMemcache和Hlog中，HMemcache建立缓存，Hlog同步Hmemcache和Hstore的事务日志，发起Flush Cache时，数据持久化到Hstore中，并清空HMemecache。

下图展示了MapReduce的数据处理流程，其中一个Map-Reduce step的输出将作为下一个典型Hadoop job的输入结果。

在整个过程中，中间结果会借助磁盘传递，因此对比计算，大量的Map-Reduced作业都受限于IO。然而对于ETL、数据整合和清理这样的用例来说，IO约束并不会产生很大的影响，因为这些场景对数据处理时间往往不会有较高的需求。然而，在现实世界中，同样存在许多对延时要求较为苛刻的用例

HBase结构的更多相关文章

Hbase结构简单、作法
Hbase架构简单介绍.实践版权声明:本文博主原创文章,博客,未经同意不得转载.
Phoenix(sql on hbase)简单介绍
Phoenix(sql on hbase)简单介绍介绍: Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC d ...
kylin-cube存储结构
前言本篇文章通过图文的方式分析不同维度组合下的cube在hbase中的存储结构需要声明的是,kylin不存原始数据,存储cube 全维度构建假设一张表有3个字段name,age,sex,那么当通 ...
RDBMS关系型数据库与HBase的对比
关系型数据库结构: * 数据库以表的形式存在 * 支持FAT.NTFS.EXT.文件系统 * 使用Commit log存储日志 * 参考系统是坐标系统 * 使用主键(PK) * 支持分区 * 使用行 ...
大数据篇：Hbase
大数据篇:Hbase Hbase是什么 Hbase是一个分布式.可扩展.支持海量数据存储的NoSQL数据库,物理结构存储结构(K-V). 如果没有Hbase 如何在大数据场景中,做到上亿数据秒级返回. ...
深度预警：深入理解HBase的系统架构
HBase的构成物理上来说,HBase是由三种类型的服务器以主从模式构成的.这三种服务器分别是:Region server,HBase HMaster,ZooKeeper. 其中Region ser ...
hbase_2
====HBase API========================================================= ** 配置maven依赖(pom.xml),不需要hado ...
HBase 的表结构
HBase 的表结构 2016-10-13 杜亦舒 HBase 是一个NoSQL数据库,用于处理海量数据,可以支持10亿行百万列的大表,下面就了解一下数据是如何存放在HBase表中的关系型数据库的表 ...
Hbase之修改表结构
import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impo ...

随机推荐

Vue页面内公共的多类型附件图片上传区域并适用折叠面板
在前端项目中,附件上传是很常用的功能,几乎所有的app相关项目中都会使用到,一般在选择使用某个前端UI框架时,可以查找其内封装好的图片上传组件,但某些情况下可能并不适用于自身的项目需求,本文中实现的附 ...
Json解析案例-teachers数据集
背景: 通过平台执行接口时,接口往往返回的JSON串,所以平台要能提供方便快捷的JSON解析函数. 一.Json字符串: 1 { 2 "lemon": { 3 "teac ...
Linux（Centos）设置显示vim行号
1.修改vimrc文件 vim /etc/vimrc 2.在最后添加 set nu 如下图片所示然后wq! 保存退出
【LeetCode】862. Shortest Subarray with Sum at Least K 解题报告（C++）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法队列日期题目地址:https://leetcod ...
1254 - Prison Break
1254 - Prison Break PDF (English) Statistics Forum Time Limit: 2 second(s) Memory Limit: 32 MB Mic ...
倍福CX5120嵌入式控制器使用教程
1.新建工程新建TwinCAT XAE Project 2.连接设备点击SYSTEM,再点击"Change Target..." 在弹出的"choose Targt ...
面试官：this和super有什么区别？this能调用到父类吗？
本文已收录<Java常见面试题>:https://gitee.com/mydb/interview this 和 super 都是 Java 中常见的关键字,虽然二者在很多情况下都可以被省 ...
Regularizing Deep Networks with Semantic Data Augmentation
目录概主要内容代码 Wang Y., Huang G., Song S., Pan X., Xia Y. and Wu C. Regularizing Deep Networks with Se ...
从零开始学springboot-2.配置项目
### 配置项目 #### 将application.properties改名为application.yml #### 在resources文件夹中(和上面那个配置文件同一路径下)新建一个文件app ...
ATA考试
一.确定机房作为ATA考试机器的数量. (1)确定本次ATA考试本校每个机房上报了多少台机器. ATA考试机的使用总数量不包含ATA管理机器.在上报机房机器数量的时候,在机房的总数量上减去 ...

HBase结构