Hbase ——Not only SQL
HBase —— NoSQL_Not Only SQL
NoSQL数据库:
- 不遵循传统的RDBMS模型
- 解决数据库的可伸缩性和可用性(多机器)
- 数据是非关系的(可切分),不使用sql语句
- 不针对原子性或一致性(定时同步数据)问题
——————————————————————————————
传统关系型数据库存在瓶颈
- 高并发读写,每秒上万次读写请求
- 高存储量,分库分表难以维护
- 高扩展性,无法简单地通过增加硬件提升性能
- 高可用性,不能保证服务长时间运行时的稳定性
NoSQL的优势
- 优异的海量数据读写性能
- 灵活的数据模型
- 数据间无关系,易于切割、扩展
SQL与NOSQL对比
| 对比 | NoSQL | 关系型数据库 |
|---|---|---|
| 常用数据库 | HBase、MongoDB、Redis | Oracle、DB2、MySQL |
| 存储格式 | 文档、键值对、图结构 | 表格式,行和列 |
| 存储规范 | 鼓励冗余 | 规范性,避免重复 |
| 存储扩展 | 横向扩展,分布式 | 纵向扩展(横向扩展有限) |
| 查询方式 | 非结构化查询 | 结构化查询语言SQL |
| 事务 | 不支持事务一致性 | 支持事务 |
| 性能 | 读写性能高 | 读写性能差 |
| 成本 | 简单易部署,开源,成本低 | 成本高 |
NoSQL的特点
- 最终一致性,数据并非实时一致,但最终会一致
- 应用程序可以增加一致性
- 鼓励冗余数据存储
NoSQL 不等于 大数据
- nosql是为了帮助解决大数据的数据存储问题
- 但大数据不仅仅包含数据的存储问题(存储、分析)
NoSQL基本概念
一、三大基石
1、CAP理论
分布式系统最多支持3个中的两个(AC、AP、CP)
- Consistency 一致性
- Availability 可用性
- Partition Tolerance 分区容错性
NoSQL 不保证ACID,提供最终一致性(HBase是强一致性的,支持CP,因为其基于HDFS的,分区多副本)
2、BASE
Basically Availble 基本可用
- 允许部分失效, 但保证核心可用
Soft-state 软状态
- 状态可以有一段时间不同步
Eventual Consistency 最终一致性
- 系统经过一定时间后,数据最终能达到一致的状态
3、最终一致性
- 最终一致性是弱一致性的特列,系统会保证在一定时间内,能达到一个数据一致的状态,而不是时时一致
- Hbase是强一致性数据库,不是最终一致性。因为HBase基于HDFS存储系统的,而HDFS是实时备份的,备份完成后才返回操作结果,因此Hbase是强一致性的。
二、索引和查询
1、Indexing(索引)
大多数NoSQL是按key进行索引
部分NoSQL允许二级索引
HBase使用HDFS,append-only(读写很快)
- 批处理写入Logged
- 重新创建并排序文件
2、Query(查询)
- 没有专门的查询语言,通常使用脚本语言查询
- 有些开始支持SQL查询
- 有些可以使用MapReduce代码查询
三、MapReduce、Sharding
1、MapReduce 概念相关,map预处理映射,reduce分析/聚合(并非hadoop的mr)
2、sharding 分片 ,一种分区模式,可以复制分片
NoSQL分类
| 分类 | 举例 | 典型应用场景 |
|---|---|---|
| 键值存储数据库 (key-value) | Redis, MemcacheDB, Voldemort | 内容缓存等(减少检索数据库的次数) |
| 列存储数据库 (WIDE COLUMN STORE) | Cassandra, HBase | 应对分布式存储的海量数据 |
| 文档型数据库 (DOCUMENT STORE) | CouchDB, MongoDB | Web应用(可看做键值数据库的升级版) |
| 图数据库 (GRAPH DB) | Neo4J, InfoGrid, Infinite Graph | 社交网络,推荐系统等,专注于构建关系图谱 |
- 通常大数据场景采用列存储数据库
HBase概述
1)hbase是一个分布式的,基于列式存储的数据库,基于hadoop的hdfs存储,zookeeper进行管理。
2)hbase 适合存储半结构化或非结构化的数据,对于数据结构字段不够确定或者杂乱无章很难按照一个概念去抽取的数据。
HBase是一个领先的NoSQL数据库
- 是一个面向列存储的数据库
- 是一个分布式hash map
- 基于Google Big Table论文
- 使用HDFS作为存储并利用其可靠性
HBase特点
- 数据访问速度快,响应时间约2-20毫秒
- 支持随机读写(实质是切片再append),每个节点20k~100k+ ops/s
- 可扩展性,可扩展到20,000+节点
HBase物理架构
1、HBase采用Master/Slaves架构
- HMaster
- RegionServer (salve,部署在datanode上)
- Zookeeper (监管集群)
- HBase Client(java、shell、rest thrift)
- Region (分区)

2、HMaster的作用
- 维护Table和Region的原数据信息
- 管理Region和为 RegionServer 分配Region
- 负责RegionServer的负载均衡
- 发现失效的RegionServer并重新分配其上的Region
- 处理 Schema 更新请求(表的创建,删除,修改,列簇的增加等等)
- 是HBase集群的主节点,可以配置多个,用来实现high available 高可用
3、RegionServer负责管理维护Region
一个RegionServer包含一个WAL(数据操作日志)、一个BlockCache (读缓存)和多个Region
一个Region包含多个Store存储区,每个存储区对应一个列族
一个存储区由多个StoreFile和MemStore(写缓存,128M,一个Block)组成
一个StoreFile对应于一个HFile和一个列族
负责 Split 在运行过程中变得过大的 Region,负责 Compact 操作
WAL(write ahead log),在数据写入之前将操作写入日志,在灾难后可以最大程度恢复数据
HFile和WAL作为序列文件保存在HDFS上
Client与RegionServer交互


- 流程:clinet -> zookeeper . get meta 的region server->meta .get 要查询的rowkey对应region所在的regionserver地址 ->链接region server,查询
4、Region和Table
- 单表大小最大256M,之后会单个Table(表)被分区成大小大致相同的新Region
- Region是HBase集群分布数据的最小单位,但不是最小的数据存储单元,其下还有Store和HFile,HBase的数据存储是以HFile组织的
- Region由集群中的RegionServer维护,一个RS通常维护多个Region
- 但一个Region只能分配给一个RegionServer
5、Clinet 客户端
- 缓存机制,每次读写会记录地址信息
- 缓存地址信息错误多次后会重新访问ZK服务获取新的地址
HBase逻辑架构--ROW
- Rowkey(行键)是唯一的并按字典排序
- 每个Row都可以定义自己的列,即使其他Row不使用,一定范围具有联系的列的总和为列族
- 使用唯一时间戳维护多个Row版本
- 在不同版本中值类型可以不同
- HBase数据全部以字节存储
- 行键、列族、列键、时间戳、ceil值
- HBase只需要定义列族

HBase 架构特点
强一致性
自动扩展
当Region变大会自动分割
使用HDFS扩展数据并管理空间
写恢复
- 使用WAL(Write Ahead Log)
与Hadoop集成
Hbase ——Not only SQL的更多相关文章
- Phoenix——实现向HBase发送标准SQL语句
写在前面一: 本文总结基于HBase的SQL查询系统--Salesforce phoenix 写在前面二: 环境说明: 一.什么是Phoenix 摘自官网: Phoenix是一个提供hbase的sql ...
- 在HBase之上构建SQL引擎
- Phoenix(sql on hbase)简单介绍
Phoenix(sql on hbase)简单介绍 介绍: Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC d ...
- 使用Phoenix将SQL代码移植至HBase
1.前言 HBase是云计算环境下最重要的NOSQL数据库,提供了基于Hadoop的数据存储.索引.查询,其最大的优点就是可以通过硬件的扩展从而几乎无限的扩展其存储和检索能力.但是HBase与传统的基 ...
- Phoenix(SQL On HBase)安装和使用报告
一.为什么使用Phoenix二.安装Phoenix2.1 兼容问题?2.2 编译CDH版本的Phoenix2.3 安装Phoenix到CDH环境中三.Phoenix的使用3.1 phoenix的4种调 ...
- HBase 学习之路(十)—— HBase的SQL中间层 Phoenix
一.Phoenix简介 Phoenix是HBase的开源SQL中间层,它允许你使用标准JDBC的方式来操作HBase上的数据.在Phoenix之前,如果你要访问HBase,只能调用它的Java API ...
- HBase 系列(十)—— HBase 的 SQL 中间层 Phoenix
一.Phoenix简介 Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据.在 Phoenix 之前,如果你要访问 HBase,只能 ...
- 入门大数据---Hbase的SQL中间层_Phoenix
一.Phoenix简介 Phoenix 是 HBase 的开源 SQL 中间层,它允许你使用标准 JDBC 的方式来操作 HBase 上的数据.在 Phoenix 之前,如果你要访问 HBase,只能 ...
- 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟
使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 Sqoop 大数据 Hive HBase ETL 使用Sqoop从MySQL导入数据到Hive和HBase 及近期感悟 基础环境 ...
随机推荐
- CVE-2018-4407(IOS缓冲区溢出漏洞)exp
CVE-2018-4407为ios缓冲区溢出漏洞 exp: import scapyfrom scapy.all import * send(IP(dst="同一局域网内目标Ip" ...
- liux 常用操作命令
tail -f /home/jyapp/apache-tomcat-7.0.59/logs/catalina.out //查看实施日志 //删除临时目录并且启动服务器 rm -rf /home/jy ...
- Java复习整理 day01
练习代码: 1 //这条语句说明这个Java文件在demo的包下 2 package demo1; 3 /** 4 * 5 * @author 王兴平 6 * 这个是第一个hello world 案例 ...
- 从微信小程序到鸿蒙js开发【04】——list组件
目录: 1.可滚动区域 2.list + list-item 3.list + list-item-group + list-item 1.可滚动区域 在许多场景中,页面会有一块区域是可滚动的,比如这 ...
- Snapshots常用命令
HBase Snapshots允许你对一个表进行快照(即可用副本),它不会对Region Servers产生很大的影响,它进行复制和 恢复操作的时候不包括数据拷贝.导出快照到另外的集群也不会对Regi ...
- poj2411 Mondriaan's Dream (用1*2的矩形铺)
Description Squares and rectangles fascinated the famous Dutch painter Piet Mondriaan. One night, af ...
- httpclient几种请求方式
一.httpclient 模拟get请求,并获取cookie信息 public class MyCookiesForGet { private String url; //用来读取.propertie ...
- Python 是什么语言
Python 是 解释型语言,强类型定义语言,动态类型定义语言 编译型语言 & 解释型语言 编译型语言:代码在执行前,需要编译(成机器语言文件,如 .exe 文件):以后再运行时,直接使用编译 ...
- Kubernets二进制安装(10)之部署主控节点部署调度器服务kube-scheduler
Kubernetes Scheduler是一个策略丰富.拓扑感知.工作负载特定的功能,调度器显著影响可用性.性能和容量.调度器需要考虑个人和集体的资源要求.服务质量要求.硬件/软件/政策约束.亲和力和 ...
- Java RMI 实现一个简单的GFS(谷歌文件系统)——背景与设计篇
目录 背景 系统设计 1. 系统功能 2. Master组件 2.1 命名空间 2.2 心跳机制 2.3 故障恢复和容错机制 3. ChunkServer组件 3.1 本地存储 3.2 内存命中机制 ...