入门大数据---Hbase是什么?

一、Hbase是什么？

Hbase属于NoSql的一种。 NoSql数据库分为如下几类：

Key-Value类型数据库

这类数据库主要会使用到一个哈希表，这个表有一个特定的键和一个指针指向特定的数据。key/value模型对IT系统来说简单、易部署。但是对DBA只对部分值进行查询和更新的时候，key/value就显得效率低下了。举例如：Tokyo Cabinet，Redis，Voldemort,Oracle BDB。
面向列的数据库

这部分数据库用来应对分布式存储的海量数据。键仍然存在，但是它们的特点是指向多个列。这些列由列家族来安排。如： Cassandra ，HBase，Riak。
文档型数据库

文档型数据库来自于Lotus Notes办公软件的，而且它同第一种键值存储类似。该类型的数据是版本化的文档，半结构化的文档以及特定的格式存储，比如JSON。文档数据库可以看作是键值对数据库的升级版，允许之间嵌套值。而且文档型数据库比键值数据库的查询效率更高。如：CouchDB，MongoDb.国内也有文档型数据库 SequoiaDB ，已经开源。
图形数据库

图形结构的数据库同其它行列以及结构化的SQL数据库不同，它是使用灵活的图形模型，并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要定制数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如：Neo4J， InfoGrid， Infinite Graph。

二、为什么会产生HBase?

要想明白为什么产生 HBase，就需要先了解一下 Hadoop 存在的限制？Hadoop 可以通过 HDFS 来存储结构化、半结构甚至非结构化的数据，它是传统数据库的补充，是海量数据存储的最佳方法，它针对大文件的存储，批量访问和流式访问都做了优化，同时也通过多副本解决了容灾问题。

但是 Hadoop 的缺陷在于它只能执行批处理，并且只能以顺序方式访问数据，这意味着即使是最简单的工作，也必须搜索整个数据集，无法实现对数据的随机访问。实现数据的随机访问是传统的关系型数据库所擅长的，但它们却不能用于海量数据的存储。在这种情况下，必须有一种新的方案来解决海量数据存储和随机访问的问题，HBase 就是其中之一 (HBase，Cassandra，couchDB，Dynamo 和 MongoDB 都能存储海量数据并支持随机访问)。

三、Hbase架构

Hbase依赖于Zookeeper和HDFS，如下图所示：

从图中可以看到一个Region由多个Store组成，一个Store对应着一个列族（Column Family）。一个store包括位于磁盘的storefile和位于内存的memstore。写入数据的时候会先写入memstore，当超过一定阈值后，会写入storefile，当storefile达到一定数量后，会进行一次版本删除和合并工作，形成更大的storefile。当region中所有的storefile超过一定阈值后，region会分割成两个，由HRegionMaster分配到相应的region server服务器，实现负载均衡。

找数据的时候会先在memstore找，找不到再找filestore。

HRegion是实现负载均衡的最小单元，不同的HRegion可以分到不同的HRegion Server上。

StoreFile以HFile的格式保存在HDFS上。

HBase最重要的设计是RowKey，RowKey是一个列的唯一标识。

插入列的时候要指定列族和表名，列名不重要，它是伴随着数据插进去的。

timestamp用于标识我们的版本。

zookeeper负责高可用，存储region的API。

四、Phoenix

Phoenix 是 HBase 的开源 SQL 中间层，它允许你使用标准 JDBC 的方式来操作 HBase 上的数据。在 Phoenix 之前，如果你要访问 HBase，只能调用它的 Java API，但相比于使用一行 SQL 就能实现数据查询，HBase 的 API 还是过于复杂。Phoenix 的理念是 we put sql SQL back in NOSQL，即你可以使用标准的 SQL 就能完成对 HBase 上数据的操作。同时这也意味着你可以通过集成 Spring Data JPA 或 Mybatis 等常用的持久层框架来操作 HBase。

其次 Phoenix 的性能表现也非常优异，Phoenix 查询引擎会将 SQL 查询转换为一个或多个 HBase Scan，通过并行执行来生成标准的 JDBC 结果集。它通过直接使用 HBase API 以及协处理器和自定义过滤器，可以为小型数据查询提供毫秒级的性能，为千万行数据的查询提供秒级的性能。同时 Phoenix 还拥有二级索引等 HBase 不具备的特性，因为以上的优点，所以 Phoenix 成为了 HBase 最优秀的 SQL 中间层。

参考资料

HBase官网

系列传送门