Hbase随笔2

Hbase是建立在HDFS上的分布式数据库，下图是Hbase表的模型：

Hbase这个数据库其实和传统关系数据库还是有很多类似之处，而不是像mongodb，memcached以及redis完全脱离了表的概念，只不过hbase是以列为中心的数据库，而传统关系数据库则是以行为中心的数据库。不过hbase这个列并非我们传统意义的列，而是列族。列族是hbase最小的存储单位，换句话说hbase底层数据都是以列族来进行组织的。

学习hbase我最大的收获我个人觉得是对数据库的一种新的认识，数据库作用还是快速的检索出我们想要数据，也就是数据库的主要作用还是为了实时查询，如果一个存储数据的系统检索数据的速度很慢，那么这个系统应该称之为数据仓库，hbase是一种数据库，是一种用来弥补传统关系数据库在海量数据中快速检索数据的能力不足。不过受制于持久存储系统的检索数据的速度以及海量数据存储是分散到各个服务器上，因此解决海量数据实时检索的方式只有根据实际的业务场景重新组织数据存储的模型，并且加上合理的索引来解决的。那么hbase是如何解决这个问题的呢？

Hbase首先打破关系数据库里的避免数据冗余的机制，将经常需要一起查询的记录聚集在一起存储，例如商户的订单信息，这里我们用order代表订单信息，orderId为订单号，spId为商品订单号，spNm为商品名字，num为数量其他字段就略去，在hbase里我们可以把order定义为一个列族，orderId这些字段就是列的名字，在底层存储系统里我们将order这个列族下所有的列数据聚集在一起存储，那么当我们查询订单信息就可以直接找到这些聚集在一起的存储订单信息，那么就可以快速查询出订单信息。这一点相比关系数据库，关系数据库很难将一些经常查询出来的信息聚集在一起存储，这也就是hbase对于关系数据库的一大优势。这也就是为什么hbase是围绕列族的数据库，因为列族就是将一些经常会被一起查询出来的数据的逻辑抽象，所以底层物理存储机制都是围绕列族进行，这也就是hbase里的hfile了，hfile是hbase物理存储的最小单位，而hfile都是按照列族聚集在一起的。

前面我说道想要在海量数据下做到实时查询数据，一个要解决的问题就是如何将经常查询的数据聚集在一起存储，另一个就是建立索引了，下面我就要讲讲hbase的索引是如何设计。Hbase的索引是靠rowkey完成，也就是行主键，还是以商户订单为例，我们通过设计列族将这些数据聚集在一起存储，但是实际查询里我们经常会根据不同商户，或者不同商品查询订单信息，那么我们就得要有手段能快速从聚集的订单信息里查询出所需要查询的订单信息，那么这时候就靠rowkey的作用了，在hbase物理存储里最小存储单位是hfile，hfile之上则是region，每个region里聚集很多hfile（当然实际hbase底层存储比这个复杂，还有memstore，这是根据LSM存储原理设计，不过本文就以hfile代表整个列族存储），而region则是根据rowkey来进行构建和拆分的，换个说法就是region的名字或者代号就是rowkey，现在我们回到订单的例子，我们可以在rowkey的设计时候加入商户号，当用户查询时候可以根据商户号快速定位到region，然后再在region里进一步查找具体的列族信息，这样就完成了一个快速检索数据的目的。

最近学习hbase一直有个问题困惑我，那就是为何hbase的rowkey要按照字典顺序设计，而不是按顺序设计，这个疑惑的源头是很多hbase资料里说hbase是一个有利于顺序查询的数据库，那么rowkey设计为顺序格式不是更好吗？

对于这个问题我其实还没完全理解清楚，不过字典顺序也是一种顺序，在字典顺序之上还是可以很好设计出按照数字顺序的rowkey，不过hbase的rowkey是有别于关系数据库的主键，关系数据库下，一个行的主键只能查询出一条数据，而hbase一个rowkey能查询出许多数据，因此对于实时查询而言rowkey的数字顺序相比关系数据库的行意义小的多。这两个原因有点不痛不痒了，下面原因是个很重要的原因了，hbase里的region是hbase对客户端提供相关操作的单位，而rowkey是按照数字顺序排序，那么region则会根据顺序进行拆分，如果这个rowkey包含了时间因素，那么当大量客户端只做最近时间查询，就会导致时间最近那个region负载压力很大，为了达到负载均衡能力，我们最好将客户端的查询分布在各个不同的region上，那么我们最好让不同的region存储的数据应对查询是分布均衡的，而这个就是要靠rowkey设计实现的。不管怎么说hbase的使用里hbase的作用很关键。

Hbase随笔2的更多相关文章

Hbase随笔
大数据时代的数据量是超大规模的,传统的关系数据库已经很难存储和管理这些数据了,为了存储海量数据,我们有了HDFS,它可以把成千上万台服务器上的硬盘聚集成一块超级大的硬盘,为了让这些数据产生价值,我们有 ...
安装配置和使用HBASE Cluster（基于发行版CDH5.0.2）——系列随笔
本系列文章只是记录了笔者本人在学习实验安装和使用基于CDH5.0.2的HBASE集群过程中的一些经验教训和心得,绝不是详细的安装过程,因本人不过一初学者,很多方面不甚了了,如果能让不幸读到的人有所得则 ...
HBase中批量修改
先随便写写..做个随笔记录使用Rest连接操作Hbase.. 是微软提供的 Microsoft.Hbase.Client 类库.. 版本是0.4.1.0 一直知道 client.StoreCe ...
相同版本的CDH集群间迁移hdfs以及hbase
前言由于项目数据安全的需要,这段时间看了下hadoop的distcp的命令使用,不断的纠结的问度娘,度娘告诉我的结果也让我很纠结,都是抄来抄去, 还好在牺牲大量的时间的基础上还终于搞出来了,顺便写这 ...
Hbase笔记——RowKey设计
一).什么情况下使用Hbase 1)传统数据库无法承载高速插入.大量读取. 2)Hbase适合海量,但同时也是简单的操作. 3)成熟的数据分析主题,查询模式确立不轻易改变. 二).现实场景 1.电商浏 ...
RDMA调研报告&一点随笔
计算所科研实践随笔被淹没在论文海里的两个星期. 早上7:10分起床,草草洗漱,7:30出发,开始漫长的1小时通勤.从地铁站的安检口起,队便排的极长,让人看得头皮发麻.下到了轨道旁稍好,但每趟呼啸而来 ...
HBASE 优化之REGIONSERVER
HBASE 优化之REGIONSERVER 一,概述本人在使用优化regionserver的过程有些心得,借此随笔的机会,向大家介绍我的心得,有些是网上拿来的有些是自己在使用过程自己的经验,希望对大 ...
大数据入门第十五天——HBase整合：云笔记项目
一.功能简述 1.笔记本管理(增删改) 2.笔记管理 3.共享笔记查询功能 4.回收站效果预览: 二.库表设计 1.设计理念将云笔记信息分别存储在redis和hbase中. redis(缓存):存 ...
大数据入门第十四天——Hbase详解（一）入门与安装配置
一.概述 1.什么是Hbase 根据官网:https://hbase.apache.org/ Apache HBase™ is the Hadoop database, a distributed, ...

随机推荐

Java C# C语言中的占位符
一般拼接一段字符串在编程中是很常见的事,下面简单做个总结: 什么是占位符?占位符就是先占住一个固定的位置,等着你再往里面添加内容的符号. 1.Java中处理方法: package com.amos; ...
关于Servlet手动配置web.xml部分代码
<servlet>  <servlet-name>deleteServlet</servlet-name> <!-- 文件 ...
ajax跨域往php程序post数据时，php程序总是执行两次的解决方法
php程序是部署在IIS7上面,ajax提交数据时,遇到了两个问题,一个就是跨域,一个php程序总会被执行两次. 第一个问题的解决方法,是百度出来的,添加下面几行代码就可以了: header('Acc ...
Android开发工具全面转向Android Studio(2)——AS project/module的CRUD
本文有些地方可能需要衔接Android开发工具全面转向Android Studio(1)——准备开发环境,读起来效果会更好. 这个世界很奇妙,所有的东西离不开CRUD,即增删改查.即使人本身也遵循这个 ...
git资料图
geoserver使用curl发布 imagemosaic
1.//create workspace curl -v -u admin:geoserver -XPOST -H "Content-type: text/xml" -d ...
AngularJs自定义指令详解（10） - 执行次序
代码: <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8 ...
Centos7 密码重置
1.在grub启动页面,按e编辑启动选项 2.找到Linux 16的那一行,将ro改为rw init=/sysroot/bin/sh 3.按下 Control+x ,使用修改后的设置启动,出现命令行 ...
centos7引导项修复
每次装了双系统,都会发现原来的windows引导项不见了,这让我这个windows重度依赖者情何以堪,所以,必须要把我挚爱的windows给找回来. 翻看了一些网上的教程,看来这并不是一个困难的问题. ...
survey on Time Series Analysis Lib
(1)I spent my 4th year Computing project on implementing time series forecasting for Java heap usage ...

Hbase随笔2

Hbase随笔2的更多相关文章

随机推荐

热门专题