大数据之路Week10_day01 (Hbase总结 II）

Hbase是数据库

特点：

　　1.面向列：Hbase是面向列的存储和权限控制，并支持独立索引。列式存储，其数据在表中是按照某列存储的，这样在查询只需要少数几个字段时，能大大减少读取的数据量。

　　2.多版本：Hbase每一个列的存储有多个Version（这个版本是针对列簇来说的）。

　　3.稀疏性：为空的列不占用存储空间，表可以设计得非常稀疏。

　　4.扩展性：底层依赖HDFS。

　　5.高可靠性：WAL机制保证了数据写入时不会因集群异常而导致写入数据丢失，Replication机制保证了在集群出现严重的问题时，数据不会发生丢失或损坏。而且Hbase底层使用HDFS，HDFS本身也有备份。

　　6.高性能：底层的LSM数据结构和Rowkey有序排列等架构上的独特设计，使得Hbase具有非常高的写入性能。region切分，主键索引和缓存机制使得Hbase在海量数据下具备一定的随机读取性能，该性能真对Rowkey的查询能到达到毫秒级别。

数据量

　　十亿级别的行

　　百万级别的列

速度快的原因

　　充分利用内存

　　使用了LSM结构

　　缓存机制

　　文件是顺序读的

数据模型

　　rowkey

　　　　相当于MySql中的主键，唯一标识一行记录

　　　　rowkey是字典顺序

　　　　rowkey的长度最长是64k，但是一般推荐10-100字节

　　colunm family

　　　　一组列的集合

　　　　列簇必须作为表的schema定义给出

　　　　列簇是权限，存储的最小单元

　　qulifier

　　　　列

　　　　可以动态的，随机的插入

　　　　表定义之后没有限制列，随着值得插入也把列插入

　　　　列必须归属某一个列簇

　　timestamp

　　　　时间戳，64位，精度是毫秒

　　　　起版本号的作用，一个cell中可以存多个版本的数据

　　　　时间戳可以自己当以，但是一般不推荐！！

　　cell

　　　　存储数据的最小单元（逻辑概念，实际存储中并没有这个）

　　　　存储的是K-V格式的数据

　　　　　　K: rowkey + colunm family + qulifier + timestamp

　　　　　　V: value

　　　　hbase的cell存储数据的时候没有类型的区分，存放的都是字节数组

架构

　　hbase是主从架构

　　角色

　　　　client

　　　　　　操作hbase的入口，命令行，API,并维护客户端缓存

　　　　zookeeper

　　　　　　保证任何时刻集群中有且仅有一台active的hmaster

　　　　　　存储所有region的寻址入口，所有regoin元数据存储在哪一台regionserver

　　　　　　监控regonserver的上线和下线信息，并实时通知Hmaster

　　　　　　存储相关表的schema数据

　　　　Hmaster

　　　　　　分配region

　　　　　　保证整个集群中的所有regionserver的负载均衡

　　　　　　当发现某一台regoinserver宕机之后，重新分配上面的region

　　　　　　当region变大的时候，Hmaster去分配region到哪一台regionserver

　　　　HRegionServer

　　　　　　负责接受客户端的读写请求，处理对于region的IO

　　　　　　当某一个region变大之后，负责等分两个region

　　　　region

　　　　　　相当于表的概念，一张表至少对应一个region

　　　　　　当表的数据过大的时候，region会发生裂变

　　　　store

　　　　　　相当于列簇

　　　　　　角色：

　　　　　　　　memstore

　　　　　　　　　　位于内存

　　　　　　　　　　每一个store有一个memstore

　　　　　　　　storefile

　　　　　　　　　　磁盘的存储空间，将数据持久化的存储位置

　　　　　　　　　　每一个region有一个或者多个storefile

　　　　　　　　　　storefile可以进行合并操作

　　　　　　存储结构：使用了LSM的数据模型

　　　　WAL：

　　　　　　write ahead log (预写日志)

　　　　　　防止数据丢失

　　　　　　先写内存，再向HDFS上溢写，但是是异步的方式

　　　　　　　　先写到memstore，然后memstore达到一个阈值，memstore到一个消息队列中，原来的regon会生成一个新的memstore，再通过这个消息队列，向storefile中写数据，异步的方式。

读写流程

　　读流程

　　　　1、客户端向zookeeper中发送请求

　　　　2、从ZK中拿到metadata的存储节点

　　　　3、去存储metadata的节点获取对应的region的所在位置

　　　　4、访问对应得regon获取数据

　　　　5、先去memstore中查询数据，如果有，直接返回

　　　　6、如果没有查询到结果，去blockcache查找数据，如果找到，直接返回

　　　　7、如果没有找到，就去storefile中查找数据，并将查询到得结果缓存到blockcache中，方便下一次查询

　　　　8、将结果返回给客户端

　　　　注意：blockchache是缓存，有大小限制，会有淘汰机制，默认将最早得数据淘汰

　　写流程

　　　　1、client向ZK发送请求

　　　　2、从ZK中拿到metadata得存储节点

　　　　3、去存储metadata的节点获取对应的region所在的位置

　　　　4、访问对应的region进行写数据

　　　　5、首先会向WAL中写数据，写成功之后才会存储到memstore

　　　　6、当memstore中的数据量达到阈值之后，进行溢写，溢写成storefile

　　　　7、store file是一个个的小文件，会进行合并（minor（部分合并） , major（一个regon下面的都进行合并））

　　　　8、store file 是对Hfile的封装，Hfile是实际存储在HDFS上的数据文件

大数据之路Week10_day01 (Hbase总结 II）的更多相关文章

大数据之路week03--day05（线程 II）
今天,咱们就把线程给完完全全的结束掉,但是不是说,就已经覆盖了全部的知识点,可以说是线程的常见的问题及所含知识基本都包含. 1.多线程(理解) (1)JDK5以后的针对线程的锁定操作和释放操作 Loc ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...
大数据-05-Spark之读写HBase数据
本文主要来自于 http://dblab.xmu.edu.cn/blog/1316-2/ 谢谢原作者准备工作一:创建一个HBase表这里依然是以student表为例进行演示.这里假设你已经成功安装 ...
胖子哥的大数据之路（7）- 传统企业切入核心or外围
一.引言昨天和一个做互联网大数据(零售行业)的朋友交流,关于大数据传统企业实施的切入点产生了争执,主要围绕两个问题进行了深入的探讨: 问题1:对于一个传统企业而言什么是核心业务,什么是外围业务? 问 ...
胖子哥的大数据之路（6）- NoSQL生态圈全景介绍
引言: NoSQL高级培训课程的基础理论篇的部分课件,是从一本英文原著中做的摘选,中文部分参考自互联网.给大家分享. 正文: The NoSQL Ecosystem 目录 The NoSQL Eco ...
胖子哥的大数据之路（四）- VisualHBase功能需求框架
一.引言大数据在结构化数据存储方面的应用需求越来越明确,但是大数据环境下辅助开发工具的不完善,给数据库管理人员和开发人员带来的不变难以言表,基于此创建了开源项目VisualHBase,同时创建了Vi ...
大数据时代数据库-云HBase架构&生态&实践
业务的挑战存储量量/并发计算增大现如今大量的中小型公司并没有大规模的数据,如果一家公司的数据量超过100T,且能通过数据产生新的价值,基本可以说是大数据公司了 .起初,一个创业公司的基本思路就是首 ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
大数据之路week04--day06（I/O流阶段一之异常）
从这节开始,进入对I/O流的系统学习,I/O流在往后大数据的学习道路上尤为重要!!!极为重要,必须要提起重视,它与集合,多线程,网络编程,可以说在往后学习或者是工作上,起到一个基石的作用,没了地基,房 ...

随机推荐

.NET Threadpool 饥渴，以及队列是如何使它更糟的
.NET Threadpool 饥渴,以及队列是如何使它更糟的 .NET Threadpool starvation, and how queuing makes it worse - Criteo ...
架构发展趋势以及 d2js 的未来
目前架构有几个热点方向:微服务, dubbo, Faas,还有 TiDB. 现在开发模式是前后端分离基本成为行规. 应该说以大部分企业业务量级.人员规模来说,要去和淘宝等大厂去对标是非常傻的.对大部分 ...
使用hub部署PaddleOCR
使用hub部署PaddleOCR 概述目前有一些处理证件照片.资质照片的业务需求,已经尝试过 llava-llama3 与 llama3.2-vision,表现都不佳,要么不能正确 ocr 出文 ...
startup
要提取startup/后面的字符,可以使用cut命令或awk命令.以下是两种方法: 使用cut命令: bash #!/bin/bash # 给定的字符串 STR1="startup/valu ...
如何判断平台是x86还是arm
case $(uname -m) in x86_64) echo x86;; aarch64) echo arm;; esac ref 上面的代码片改自这里 https://stackoverflow ...
微服务之调用链（Feign+SpringCloud）
终于到了我们的重点,微服务了. 与使用OkHttp3来实现的客户端类似,Feign接口本来也就是一个Http调用,依然可以使用Http头传值的方式,将 Trace 往下传. 本文更多的是关于 Spri ...
2021年最新js手机号正则验证最全全部号段
手机号验证正则 /^1[3-9]\d{9}$/ js的例子 isphone.html <html> <body> <input id="Tel" ty ...
快速解决MySQL：Table xxx is marked as crashed and should be repaired五个办法
查看MySQL错误日志看到 Table xxx is marked as crashed and should be repaired 解决办法如下第一种: 1.首先进入mysql命令台: mys ...
Qt编写的项目作品34-雷达模拟仿真工具(雨田哥作品)
一.功能特点支持音频频谱显示. 支持任意随机添加模拟点. 支持自定义添加模拟点. 支持方位.航向角.距离.速度.目标体真实图自定制. 支持危险区域范围显示. 支持激光发射模拟. 支持雷达图放大缩小显 ...
综述😋Security and Privacy Challenges of ✌Large Language Models A Survey

大数据之路Week10_day01 (Hbase总结 II）

大数据之路Week10_day01 (Hbase总结 II）的更多相关文章

随机推荐

热门专题