【HBase】学习笔记

HBASE

1 简介

1.1 官网

1.1.1 http://hbase.apache.org/

1.1.2 Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ when you need random, realtime read/write access to your Big Data

1.2 应用场景

1.2.1 https://www.zhihu.com/question/21677041

1.2.2 http://www.cnblogs.com/ggjucheng/p/3379459.html

1.2.3 http://blog.csdn.net/lifuxiangcaohui/article/details/39894265

1.2.4 http://www.aboutyun.com/thread-8701-1-1.html

1.2.5 http://blog.csdn.net/defonds/article/details/48471087

1.3 基于HDFS的分布式数据库，提供对大数据实时、随机、读写操作

1.3.1 MySQL关系型、偏事务

1.3.2 HBASE没有关联的操作，适合简单的处理

1.4 特点

1.4.1 传统SQL数据库字段添加比较麻烦，表设计比较固定死板

1.4.2 HBASE字段可以随意扩充

1.4.2.1 建表不需要指定特定字段，只需要指定列族CF

1.4.2.2 插入数据时，列族中可以存储任意多个列CK

1.4.3 不需要SQL数据库范式，不需要拆表，全部放在一张大表中，当然也就不需要JOIN了

1.4.4 HBASE数据更新保留原始数据，历史版本一直存在，KV中的Value带有版本号，通常是时间戳

1.4.5 通过表名--行健--列族--列名--版本定位一个字段

1.5 存储

1.5.1 分布式存储，需要把大表切开存储，HBASE是按照region切分存储管理的

1.5.2 按照列族进行切分，某一列组的若干行切分为一个region，数据量达到一定大小就切分

1.5.3 region的基本信息存储在regionServer上面存储，regionServer的数据存放在HDFS上面，叫HFile

1.5.4 HFile肯定不是纯文本的格式，纯文本检索可能会比较慢，HFile按照HBase自定义的格式存储

1.5.5 所以regionServe最好也和DataNode、NodeManager一样在物理上面部署在一起，直接访问本地数据，加快HBase速度

1.5.6 HMaster不存储具体的Region数据，Hamster负责管理RegionServer的状态，负责RegionServer的负载均衡，可以理解为相当于HBase定制的一个NameServer

1.5.7 HMaster可以通过ZK实现HA

1.6 查询机制

1.6.1 HBase的Meta表存储了TBLName_RKStart_RKEnd；HostNameList

1.6.2 该表为Habse的系统表，由Hbase自己维护

1.6.3 每个region都在Meta表有一条记录

1.6.4 Meta表也可能是一个大表，所以Meta也和Region的信息一样存储在HDFS上面

1.6.5 同理，上面的信息可能也很大，也会产生同样的问题，Meta的Meta的数据仍然需要分布式存储，所以HBase建立了二级索引，有两个Meta的索引表

1.6.6 理论上二级Meta索引已经可以容纳十亿级别的数据量了

1.6.7 二级索引的表存储在一台机器即可，这个表叫ROOT表，root表的节点信息存储在zookeeper上面

1.6.8 寻址过程：ZK中获取ROOT节点--ROOT节点获取Meta信息表的region对应的节点--Meta表中获取数据具体存储在哪个节点上面--再去获取数据

1.6.9 regionServer的内存缓存着最近查询的热数据，所以regionServer最好内存稍微大一点

2 HBase Shell

2.1 略，参考笔记

3 HBase API

3.1 略，参考笔记

4 最佳实践

4.1 HBASE可以与ES结合起来，将需要查询的字段存到ES中，ES搜索得到相关的RowKey之后再从HBase中快速查询出来，即将计算放到ES中进行，这是一个比较好的思路

4.2 行健的设计可以帮助更好的使用HBase，更快更方便的进行过滤查询，比如时序数据库的设计就是这个思路

【HBase】学习笔记的更多相关文章

HBase学习笔记之HBase的安装和配置
HBase学习笔记之HBase的安装和配置我是为了调研和验证hbase的bulkload功能,才安装hbase,学习hbase的.为了快速的验证bulkload功能,我安装了一个节点的hadoop集 ...
HBASE学习笔记(四)
这两天把要前几天的知识点回顾一下,接下来我会用自己对知识点的理解来写一些东西一.知识点回顾 1.hbase集群启动:$>start-hbase.sh ===>hbase-daemon.s ...
HBase学习笔记之BulkLoad
HBase学习之BulkLoad bulkload的学习以后再写文章. 参考资料: 1.https://blog.csdn.net/shixiaoguo90/article/details/78038 ...
HBase学习笔记之HBase原理和Shell使用
HBase学习指南之HBase原理和Shell使用参考资料: 1.https://www.cnblogs.com/nexiyi/p/hbase_shell.html,hbase shell
HBase学习笔记（四）—— 架构模型
在逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列. 但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional m ...
Hbase学习笔记01
最近做项目接触到了HDFS.mapreduce以及Hbase,有了实战机会,今天打算将这些知识好好总结下,以备不时之需.首先从Hbase开始吧. Hbase是建立在HDFS上的分布式数据库,下图是Hb ...
HBase学习笔记-高级（一）
HBase1. hbase.id记录了集群的唯一标识:hbase.version记录了文件格式的版本号2. split和.corrupt目录在日志分裂过程中使用,以便保存一些中间结果和损坏的日志在表目 ...
HBASE学习笔记--API
HBaseConfiguration HBaseConfiguration是每一个hbase client都会使用到的对象,它代表的是HBase配置信息.它有两种构造方式: public HBaseC ...
Hbase—学习笔记（一）
此文的目的: 1.重点理解Hbase的整体工作机制 2.熟悉编程api,能够用来写程序 1. 什么是HBASE 1.1. 概念特性 HBASE是一个数据库----可以提供数据的实时随机读写 HB ...
HBase学习笔记一
HBase简介 HBase概念 HBase的原型是谷歌的Bigtable论文 HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC上搭建起大规模结构化存储集 ...

随机推荐

opencv 加载修改保存图像
#include <opencv2/opencv.hpp> #include <iostream> using namespace cv; /* 1 加载图像 cv::imre ...
Javascript:window.close()不起作用？
一般的窗口关闭的JS如下写法: window.close() 但是呢,chrome,firefox等中有时候会不起作用. 改为下面的写法: window.open("about:blank& ...
android 定时，延时任务
韩梦飞沙韩亚飞 313134555@qq.com yue31313 han_meng_fei_sha 倒计时类用倒计时定时器CountDownTimer 延迟类 CountDownT ...
CF696B Puzzles 期望
显然可以树形$dp$ 令$f[i]$表示$i$号节点的期望时间戳不妨设$fa$有$k$个子节点,对于$i$的子节点$u$,它是第$j(1 \leqslant j \leqslant k)$个被访问的 ...
某谷 P5153 简单的函数
题面在这里个人感觉这个题可以被打表随便艹过,当然我不是这么做的... 虽然n可达10^18,但随便分析一下就可以发现f(n)是极小的,因为f(n)一步就可以跳到f(前100),不信你算一下前100个 ...
汇编代码中db，dw，dd的区别
db定义字节类型变量,一个字节数据占1个字节单元,读完一个,偏移量加1 dw定义字类型变量,一个字数据占2个字节单元,读完一个,偏移量加2 dd定义双字类型变量,一个双字数据占4个字节单元,读完一个, ...
opencv第三课 Canny边缘检测
#include<stdio.h> #include<iostream> #include<opencv2\opencv.hpp> using namespace ...
bestcoder#23 1001 Sequence
Sequence Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Su ...
Github好用的Python库使用学习日记
开源好用的Python库 Overview 所有内容基本源于下面的两个网站 awesome-python python3官方文档 you-get(命令行操作的媒体下载工具) you-get的git项目 ...
Python知识(7)--最小二乘求解
这里展示利用python实现的最小二乘的直接求解方法.其求解原理,请参考:最小二乘法拟合非线性函数及其Matlab/Excel 实现 1.一般曲线拟合代码如下: # -*- coding:utf-8 ...

【HBase】学习笔记

【HBase】学习笔记的更多相关文章

随机推荐

热门专题