HBASE解析

Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在一组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。总的来说，Hbase能够让你在大量的数据中查询记录，也可以从中获得综合分析报告。

谷歌曾经面对过一个挑战的问题：如何能在整个互联网上提供实时的搜索结果？答案是它本质上需要将互联网缓存，并重新定义在这样庞大的缓存上快速查找的新方法。为了达到这个目的，定义如下技术：

谷歌文件系统GFS：可扩展分布式文件系统，用于大型的、分布式的、数据密集型的应用程序。
BigTable：分布式存储系统，用于管理被设计成规模很大的结构化数据：来自数以千计商用服务器的PB级别的数据。
MapReduce：一个程序模型，用于处理和生成大数据集的相关实现。

在谷歌发布这些技术的文档之后, 不久以后我们就看到了它们的开源实现版本，就在2007年，Mike Cafarella发布了BigTable开源实现的代码，他称其为HBase，自此，HBase成为Apache的顶级项目，并运行在Facebook，Twitter，Adobe……仅举几个例子。

HBase不是一个关系型数据库，它需要不同的方法定义你的数据模型，HBase实际上定义了一个四维数据模型，下面就是每一维度的定义：

行键：每行都有唯一的行键，行键没有数据类型，它内部被认为是一个字节数组。
列簇：数据在行中被组织成列簇，每行有相同的列簇，但是在行之间，相同的列簇不需要有相同的列修饰符。在引擎中，HBase将列簇存储在它自己的数据文件中，所以，它们需要事先被定义，此外，改变列簇并不容易。
列修饰符：列簇定义真实的列，被称之为列修饰符，你可以认为列修饰符就是列本身。
版本：每列都可以有一个可配置的版本数量，你可以通过列修饰符的制定版本获取数据。

1. HBase Four-Dimensional Data Model

如图1中所示，通过行键获取一个指定的行，它由一个或多个列簇构成，每个列簇有一个或多个列修饰符（图1中称为列），每列又可以有一个或多个版本。为了获取指定数据，你需要知道它的行键、列簇、列修饰符以及版本。当设计HBase数据模型时，对考虑数据是如何被获取是十分有帮助的。你可以通过以下两种方式获得HBase数据：

通过他们的行键，或者一系列行键的表扫描。
使用map-reduce进行批操作

这种双重获取数据的方法使得HBase变得十分强大，典型地，在Hadoop中存储数据意味着它对离线或批处理方式分析是有益的（尤其是批处理分析），但是，对实时获取是不必要的。HBase通过key/value存储来支持实时分析，以及通过map-reduce支持批处理分析。让我们首先来看实时数据获取，作为key/value存储，key是行键，value是列簇的集合，如图2所示。

2. HBase as a Key/Value Store

如你在图2中看到的，key是我们所提到过的行键，value是列簇的集合。你可以通过key检索到value，或者换句话说，你可以通过行键“得到”行，或者你能通过给定起始和终止行键检索一系列行，这就是前面提到的表扫描。你不能实时的查询一个列的值，这就引出了一个重要的话题：行键的设计。

有两个原因令行键的设计十分重要：

表扫描是对行键的操作，所以，行键的设计控制着你能够通过HBase执行的实时/直接获取量。
当在生产环境中运行HBase时，它在HDFS上部运行，数据基于行键通过HDFS，如果你所有的行键都是以user-开头，那么很有可能你大部分数据都被分配一个节点上（违背了分布式数据的初衷），因此，你的行键应该是有足够的差异性以便分布式地通过整个部署。

你定义行键的方式取决于你想怎样存取那些行。如果你想以用户为基础存储数据，那么一个策略是利用字节队列在HBase中存储行键，所以我们可以创建一个用户ID的哈希（例如MD5或SHA-1），然后在哈希后面附上时间（long类型）。使用哈希有两个重点：（1）是它能够将value分散开，数据能够分布式地通过簇，（2）是它确保key的长度是一致的，以更加容易在表扫描中使用。

讲了足够多的理论，下面部分向你展示如何搭建HBase环境，并如何通过命令行使用。

你可以从Apache网站下载HBase，在写本文时，最新的版本是0.98.5，HBase团队推荐你在UNIX/Linux环境下安装HBase，如果你想在Windows下运行，你需要先安装Cygwin，并在这上运行HBase。当你下载完这些文件，解压到硬盘上。此外，你还需要安装Java环境，如果你还没有，从Oracle网站下载Java环境。在环境配置中添加名为HBASE_HOME的变量，值为你解压HBase文件的根目录，随后，执行bin文件夹下的start-hbase.sh脚本，它会在下面目录输出日志文件：

$HBASE_HOME/logs/

你可以在浏览器中输入下面URL测试是否安装正确：

http://localhost:60010

如果安装正确，你应该看到下面界面。

转自：http://blog.jobbole.com/83614/

HBASE解析的更多相关文章

HBASE架构解析(一)
http://www.blogjava.net/DLevin/archive/2015/08/22/426877.html 前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官 ...
HBase架构深度解析
原文出处: DLevin(@雪地脚印_) 前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase A ...
深入HBase架构解析（二）【转】
转自:http://www.blogjava.net/DLevin/archive/2015/08/22/426950.html 前言这是<深入HBase架构解析(一)>的续,不多废话, ...
深入HBase架构解析（一）[转]
前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然 ...
【转】HBase架构解析
转载地址:http://www.blogjava.net/DLevin/archive/2015/08/22/426877.html HBase架构组成 HBase采用Master/Slave架构搭建 ...
HBase – 存储文件HFile结构解析
本文由网易云发布. 作者:范欣欣本篇文章仅限内部分享,如需转载,请联系网易获取授权. HFile是HBase存储数据的文件组织形式,参考BigTable的SSTable和Hadoop的TFile ...
HBase - 数据写入流程解析
本文由网易云发布. 作者:范欣欣本篇文章仅限内部分享,如需转载,请联系网易获取授权. 众所周知,HBase默认适用于写多读少的应用,正是依赖于它相当出色的写入性能:一个100台RS的集群可以轻松 ...
深入HBase架构解析（一）
前记公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然 ...
HBase之HFile解析
Sumary: Protobuf BinarySearch 本篇主要讲HFileV2的相关内容,包括HFile的构成.解析及怎么样从HFile中快速找到相关的KeyValue.基于Hbase 0.98 ...

随机推荐

UVa 1593代码对齐
原题链接:https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem ...
课堂所讲整理：HTML--8Window.document对象
1.Window.document对象一.找到元素: docunment.getElementById("id"):根据id找,最多找一个: var a =docunmen ...
JS数组随机排序
var arr=[1,2,3,4,5]; arr.sort(function(a,b){ var v=Math.random()>0.5?1:-1; console.log(a,b,v); re ...
【P1203】买花
我先在已经弱到连高精乘单精都能写错的地步了QAQ 原题: 求一个小于等于N的数M,使得phi(M)/M最小,其中phi(M)是与M互质且比M小的数的个数.例如phi(4)=2,因为1,3和4互质. N ...
java多线程：java队列详解
队列是一种特殊的线性表,它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作.进行插入操作的端称为队尾,进行删除操作的端称为队头.队列中没有元素时,称为空队列. 在队列这 ...
输入的不是有效的 Base-64 字符串，因为它包含非 Base-64 字符、两个以上的填充字符，或者填充字符间包含非法字符
正常URL: http://localhost:16990/GoodsOrder/OrderRevoke.aspx??6G5lFi6xuoiLDhfOOOIkBYwy8RGpkfuza2gLlJrlT ...
SmartAdmin 打开速度慢的原因
最近在使用SmartAdmin做个小东西,发布在公网上,我的机器打开飞快,但是到了其它人的机器上变得极慢了.而且在我的手机上也打开变慢. 查找原因,原来如此. <link re ...
九度OJ题目1387斐波那契数列
/*斐波那契数列,又称黄金分割数列,指的是这样一个数列: 0.1.1.2.3.5.8.13.21.…… 在数学上,斐波纳契数列被定义如下: F0=0,F1=1, Fn=F(n-1)+F(n-2)(n& ...
修改mysql root 密码
C:\Program Files\MySQL\MySQL Server 5.6\bin mysqld --skip-grant-tables 开启一新窗口:然后输入mysql -uroot -p up ...
网站首页title 里显示ico图标
有两种实现方式图片尺寸大小第一种:直接做一个favicon.ico 图标放在项目的根目录里就行第二种:在网页HEAD标记中添加如下代码:<HEAD> <LINK REL=”SH ...

HBASE解析

HBASE解析的更多相关文章

随机推荐

热门专题