一、Hbase的概念

HBase是Hadoop的生态系统，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容错能力。如果你需要进行实时读写或者随机访问大规模的数据集的时候，请考虑使用HBase！

HBase作为Google Bigtable的开源实现，Google Bigtable利用GFS作为其文件存储系统类似，则HBase利用Hadoop HDFS作为其文件存储系统；Google通过运行MapReduce来处理Bigtable中的海量数据，同样，HBase利用Hadoop MapReduce来处理HBase中的海量数据；Google Bigtable利用Chubby作为协同服务，HBase利用Zookeeper作为对应。

HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库，主要用来存储非结构化和半结构化的松散数据，设计它的目的就是用于处理非常庞大的表——通过水平扩展的方式，用计算机集群就可以处理由超过 10 亿行数据和数百万列元素所组成的数据表。

二、HBase的特征

1、海量存储

HBase 作为一个开源的分布式 Key-Value 数据库，其主要作用是面向 PB 级别数据的实时入库和快速随机访问。这主要源于上述易扩展的特点，使得 HBase 通过扩展来存储海量的数据。

2、列式存储

Hbase 是根据列族来存储数据的。列族下面可以有非常多的列。列式存储的最大好处就是，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段时，能大大减少读取的数据量。

3、自动分片

HBase 中的表通过 Region 分布在集群上，而且 Region 会随着数据的增长自动拆分和重新分布。

4、并行处理

HBase 支持通过 MapReduce 进行大规模并行处理，将 HBase 用作源和接收器。

5、高可靠性

WAL 机制保证了数据写入时不会因集群异常而导致写入数据丢失，Replication 机制保证了在集群出现严重的问题时，数据不会发生丢失或损坏。而且 Hbase 底层使用 HDFS，HDFS 本身也有备份。

6、多种语言的API

HBase 支持使用 Java 的 API 来编程进行数据的存取，还支持使用 Thrift 语言和 REST 语言的 API 来编程进行数据的存取。

三、HBase的优缺点

1、HBase的优点

（1）在传统的关系数据库中，如果数据结构发生了变化，就需要停机维护，而且需要修改表结构，而在 HBase 中数据表内的列可以做到动态增加，并且列为空的时候不存储数据，从而节省存储空间。
（2）HBase 适合存储 PB 数量级的海量数据，PB 级的数据在只采用廉价 PC 来存储的情况下，也可以在几十到一百毫秒内返回数据。这与 HBase 的极易扩展息息相关，正因如此，HBase 为海量数据的存储提供了便利。
（3）传统的通用关系数据库无法应对在数据规模剧增时导致的系统扩展性问题和性能问题。HBase 可以做到自动切分数据，并且会随着数据的增长自动地拆分和重新分布。
（4）HBase 可以提供高并发的读写操作，而且可以利用廉价的计算机来处理超过 10 亿行的表数据。
（5）HBase 具有可伸缩性，如果当前集群的处理能力明显下降，可以增加集群的服务器数量来维持甚至提高处理能力。

2、HBase的缺点

（1）不能支持条件查询，只支持按照 RowKey（行键）来查询，也就是只能按照主键来查询。这样在设计 RowKey 时，就需要完美的方案以设计出符合业务的查询。
（2）HBase 不能支持 Master（主）服务器的故障切换，当 Master 宕机后，整个存储系统就会挂掉，不能提供正常的服务。
（3）查询 HBase 时不支持通过 SQL 语句进行查询。

四、HBase的应用场景

1、数据量超千万，可以选择使用HBase

一般而言，如果单表的数据量只有百万的数量级或者更少，则不建议使用 HBase，而应该考虑关系数据库是否能够满足应用的需求。

2、实时根据主键查询，可以选择使用HBase

HBase 是一个 Key-Value 数据库，默认对 RowKey 做了索引优化，所以即使数据量非常庞大，根据 RowKey 查询的效率也会很高。但是，如果还需要根据其他条件进行查询，则不建议使用 HBase。

3、多表连接查询，不建议使用HBase

HBase 是 NoSQL 产品中的一种，它也具有 NoSQL 的缺点，就是不能进行连表查询等操作，也就是说，如果业务场景是需要事务支持、复杂的关联查询，则不建议使用 HBase。

4、数据分析需求不多，可以选择使用HBase

虽然说 HBase 是一个面向列的数据库，但是它与真正的列式存储系统（比如 Parquet、Kudu等）又有所区别，再加上自身存储架构的设计，使得 HBase 并不擅长做数据分析。所以如果业务需求是为了做数据分析，比如做报表，那么不建议使用 HBase。

HBase-HBase的特征、优缺点、应用场景的更多相关文章

《HBase在滴滴出行的应用场景和最佳实践》
HBase在滴滴出行的应用场景和最佳实践背景对接业务类型 HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时 ...
HBase指定大量列集合的场景下并发拉取数据时卡住的问题排查
最近遇到一例,HBase 指定大量列集合的场景下,并发拉取数据,应用卡住不响应的情形.记录一下. 问题背景退款导出中,为了获取商品规格编码,需要从 HBase 表 T 里拉取对应的数据. T 对商品 ...
HBase篇(1)-特性与应用场景
[每日五分钟搞定大数据]系列,HBase第一篇结束了Zookeeper篇, 接下来我们来说下Google三驾马车之一BigTable的开源实现:HBase,要讲的内容暂定如下: 这是第一篇我们先不聊 ...
HBase在滴滴出行的应用场景和最佳实践
摘要: 主要介绍了HBase和Phoenix在滴滴内部的一些典型案例.文章已在CSDN极客头条和<程序员>杂志发表,应朋友邀请,分享到云栖社区,希望给大家带来启发和帮助. 背景对接业务类 ...
Hbase总结（五）-hbase常识及habse适合什么场景
当我们对于数据结构字段不够确定或杂乱无章非常难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,假设我们使用的传统数据库,肯定留有多余的字段.10个不行,20个,可是这个严重影响了质量. 而 ...
hbase常识及habse适合什么场景
当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量.并且如 ...
一条数据的HBase之旅，简明HBase入门教程3：适用场景
[摘要] 这篇文章继HBase数据模型之后,介绍HBase的适用场景,以及与一些关键场景有关的周边技术生态,最后给出了本文的示例数据华为云上的NoSQL数据库服务CloudTable,基于Apach ...
[Hbase]Hbase章３　Hbase单点故障
很长一段时间以来,一个region同一时间只能在一台RS(Region Server)中打开.如果一个region同时在多个RS上打开,就是multi-assign问题,会导致数据不一致甚至丢数据的情 ...
[Hbase]Hbase知识大全
HBase简介是一个构建在HDFS上的分布式列存储系统:HBase是基于Google BigTable模型开发的,典型的key/value系统:HBase是Apache Hadoop生态系统中的重要 ...
[Hbase]Hbase技术方案
HBase架构简介 HBase在完全分布式环境下,由Master进程负责管理RegionServers集群的负载均衡以及资源分配,ZooKeeper负责集群元数据的维护并且监控集群的状态以防止单点故障 ...

随机推荐

基于 SpringBoot + Vue3.2 + Element Plus 的后台管理系统
简介 TANSCI 基于 SpringBoot + Vue3.2 + Element Plus 的后台管理系统. 包含基础模块:菜单管理.角色管理.组织管理.用户管理.字典管理.日志管理(操作日志.异 ...
kafka 在 zookeeper 中保存的数据内容
转载请注明出处: 1. 服务器上下载 kafka : wget https://archive.apache.org/dist/kafka/2.4.0/kafka_2.12-3.2.0.tgz 2. ...
基于java+springboot的旅游信息网站、旅游景区门票管理系统
该系统是基于java+springboot开发的旅游景区门票管理系统.是给师弟开发的大四实习作品.学习过程中,遇到问题可以咨询github作者. 演示地址前台地址: http://travel.gi ...
arm-none-eabi-objcopy 使用说明
译文 NAME objcopy - copy and translate object files 概要 objcopy [-F bfdname|--target=bfdname] [-I bfdna ...
Linux-远程连接-ssh
VMware虚拟机部署Linux Ubuntu系统的方法
本文介绍基于VMware Workstation Pro虚拟机软件,配置Linux Ubuntu操作系统环境的方法. 首先,我们需要进行VMware Workstation Pro虚拟机软件的 ...
[转帖]Nginx Rewrite重写功能
目录一.rewrite的概述 1.1.概述 1.2 跳转场景 1.3 跳转实现 1.4 Rewrite实际场景二.常用的nginx正则表达式三.rewrite命令 3.1 rewrite的语法格 ...
[转帖][译]tcpdump 示例教程
https://colobu.com/2019/07/16/a-tcpdump-tutorial-with-examples/ 目录 [−] 基于IP查找流量根据来源和目标进行筛选根据网段进行查找 ...
[转帖]fio工具中的iodepth参数与numjobs参数-对测试结果的影响
测试环境 3台服务器:ceph配置内外网分离,外网使用万兆线,内网使用千兆线,osd共21个. 1台客户端:安装fio工具.内核客户端,使用万兆线. 测试目的针对fio工具中的iodepth(队列深 ...
时间片线程切换指令周期流水线 TPS的初步了解
时间片线程切换指令周期流水线 TPS的初步了解情况说明 Redis 单线程提供服务, 可以支撑十万级别的TPS 通过以个非常简单的测试 redis-benchmark -c 50 -n 500 ...

HBase-HBase的特征、优缺点、应用场景