概述

Hbase –Haddop Database 是一个高性能,高可靠性、面向列、可伸缩的分布式存储系统。

Hbase利用HDFS作为文件存储系统,利用MapReduce来处理Hbase的海量数据,利用Zookeeper作为协调工具。

是NoSQL的一种。

数据模型

表(table),是用来存储管理数据的,是在schema声明的时候定义

行健(row key),类似于MySQL中的主键,与MySQL不同的是Hbase表天然自带的。

可以是字符串、整数、二进制串、串行化的结构。

按照字典顺序由低到高存储在表中的。

列族(column family,列的集合,在Hbase中列族需要在定义表时指定的,列是在插入记录时动态添加的。Hbase表中的数据,每个列族单独一个文件。

Cells ,A{row,column,version}元组就是一个Hbase中的一个cell。内容是不可分割的字节数组。

时间戳(timestamp,列(也称作标签、修饰符)的一个属性。行键和列确定的单元格,可以存储多个数据,每个数据含有时间戳属性,数据具有版本特性。如果不指定时间戳或者版本,默认取最新的数据。

Version,用一个长整型表示,是当前时间和1970-01-01的时间差,单位毫秒。

存储的数据都是字节数组。

存储顺序,表中的数据是按照行健的顺序物理存储的,关系型数据库是按照插入顺序存储的。

逻辑数据模型

数据模型的一行:

表按照行键的“逐字节排序”顺序对行进行有序化处理。

表内数据非常‘稀疏’,不同的行的列的数完全目可以大不相同。

可以只对一行上”锁“。

对行的写操作始终是”原子“的。

数据模型一列

列比较用‘族’famliy来定义。

任意一列形式:”族:标签”,其中,族和标签都可为任意形式的串。

物理上将同“族”数据存储在一起。

数据可以用通过时间戳区分版本。

物理数据模型


物理模型

Hbase是适合海量数据(PB)的秒级简单查询的数据库。

Hbase中的记录,按照行键进行拆分,拆分成一个个的region。

region存储在region server(单独的物理机器)中的,这样对表的操作转化为对多台region server中。

region的大小设置参数:hbase.hregion.max.filesize

体系架构

Hbase是主从式结构,Hmaster、HregionServer。

Client包含访问hbase的接口,client维护着一些cache来加快对hbase的访问,比如region的位置信息。

Zookeeper

保证任何时候,急群众只有一个运行的Master

存储所有Reion的寻址入口。

实时监控Region Server的状态,将Region Server的上下线信息实时通知给Master

存储Hbase的schema,包括有哪些table,每个table有哪些column family。

Master Server

可以启动多个Hmaster,通过Zookeeper的MasterElection机制保证总有一个Master运行。

负责Region Server分配region。

负责region server的负载均衡。

发现失效的region server并重新分配其上的region。

Region Server

负责Master分配给它的region,处理对这些region的IO请求。

负责切分在运行过程中变得过大的region。

总结:client访问hbase上数据的过程并不需要master参与,寻址访问zookeeper和region server数据读写访问region server。HregionServer主要负责响应用户I/O请求,向HDFS文件系统读写数据,是Hbase中最核心的模块。

Hbase初始化表

Hbase中有两张特殊的Table,-ROOT-和.META.

.META. 记录了用户表中的Region信息,.META.可以用多个region。

-ROOT-记录了.META.表中的Region信息,-ROOT-只有一个region。

Zookeeper中记录了-ROOT-表中的location。

Client访问用户数据之前首先访问Zookeeper,然后访问-ROOT-表,接着访问.META.表,最后才能找到用户数据的位置去访问。


Hbase伪分布安装

1、解压、更改目录名

tar –zxvf hbase-xxx.tar.gz –C /usr/src

cp –r hbase-xxx/ /usr/local/hbase

2、配置环境变量,执行立即生效

vi /etc/profile

export HBASE_HOME=/usr/local/hbase

PATH中添加:$HBASE_HOME/bin

source /etc/profile 立即生效

3、修改配置文件

hbase-env.sh

export /usr/local/jdk

export HBASE_MANAGES_ZK=true

hbase-site.xml

<property>

<name>hbase.rootdir</name>

<value>hdfs://h1:9000/hbase</value>

</property>

<property>

<name>hbase.cluster.distributed</name>

<value>true</value>

</property>

<property>

<name>hbase.zookeeper.quorum</name>

<value>h1</value>

</property>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

注意:hbase.rootdir设置的主机名和端口必须与hadoop的dfs.default.name的主机名端口设置一致。

冗余master时:需要在conf中创建back-masters文件中添加master主机名。

4、文件regionservers(可选)

内容为主机名,如 h1

5、启动

启动hbase之前,确保hadoop是运行正常的。

start-hbase.sh

6、jps检验

4749 HMaster

4914 HRegionServer

4681 HquorumPeer

Hbase学习记录(1)|伪分布式安装的更多相关文章

  1. HBase基础和伪分布式安装配置

    一.HBase(NoSQL)的数据模型 1.1 表(table),是存储管理数据的. 1.2 行键(row key),类似于MySQL中的主键,行键是HBase表天然自带的,创建表时不需要指定 1.3 ...

  2. HBase伪分布式安装(HDFS)+ZooKeeper安装+HBase数据操作+HBase架构体系

    HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,H ...

  3. hbase伪分布式安装(单节点安装)

    hbase伪分布式安装(单节点安装) http://hbase.apache.org/book.html#quickstart   1.    前提配置好java,环境java变量     上传jdk ...

  4. Hbase伪分布式安装

    前面的文章已经讲过hadoop伪分布式安装,这里直接介绍hbase伪分布式安装. 1. 下载hbase 版本hbase 1.2.6 2. 解压hbase 3. 修改hbase-env.sh 新增如下内 ...

  5. Hadoop生态圈-hbase介绍-伪分布式安装

    Hadoop生态圈-hbase介绍-伪分布式安装 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...

  6. 第二章 伪分布式安装hadoop hbase

    安装单机模式的hadoop无须配置,在这种方式下,hadoop被认为是一个单独的java进程,这种方式经常用来调试.所以我们讲下伪分布式安装hadoop. 我们继续上一章继续讲解,安装完先试试SSH装 ...

  7. 指导手册02:伪分布式安装Hadoop(ubuntuLinux)

    指导手册02:伪分布式安装Hadoop(ubuntuLinux)   Part 1:安装及配置虚拟机 1.安装Linux. 1.安装Ubuntu1604 64位系统 2.设置语言,能输入中文 3.创建 ...

  8. 一.Kylin的伪分布式安装

    一.伪分布式安装kylin 2018年4月15日 15:06 安装需要的环境 1. hadoop集群环境:由于安装的是CDH5.14.0的版本,所以相关组件都是跟5.14.0相关 2. spark采用 ...

  9. Hadoop大数据初入门----haddop伪分布式安装

    一.hadoop解决了什么问题 hdfs 解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量mapreduce 解决了海量数据的分析处理,通用性强,易开发,健壮性 yarn 解决了资源管理调度 二. ...

  10. Hadoop开发第3期---Hadoop的伪分布式安装

    一.准备工作 1. 远程连接工具的安装 PieTTY 是在PuTTY 基础上开发的,改进了Putty 的用户界面,提供了多语种支持.Putty 作为远程连接linux 的工具,支持SSH 和telne ...

随机推荐

  1. mvp(1)简介及它与mvc区别

    注意:它们是软件架构,不是设计模式 左边mvc    右边mvp MVC和MVP的区别? MVP 是从经典的MVC架构演变而来,它们的基本思想有相通的地方:Controller/Presenter负责 ...

  2. [CCF2015.09]题解

    201509-1 数列分段 水,记下前一个数,看看跟当前是否一样,不一样就ans+1 #include <algorithm> #include <iostream> #inc ...

  3. Hadoop集群(第8期)_HDFS初探之旅

    1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开 ...

  4. STL头文件

    #include <iostream>标准输入输出cin cout等 #include <algorithm> 算法库 如sort find等 #include <vec ...

  5. 最全的PHP常用函数大全

    PHP的一些常用函数 quotemeta() 函数在字符串中某些预定义的字符前添加反斜杠. quoted_printable_decode() 函数对经过 quoted-printable 编码后的字 ...

  6. Qt之QProgressIndicator(等待提示框)

    简述 很早以前在网上看到一个纯代码实现的旋转动画感觉效果很不错,分享给大家.不得不说,条条大道通罗马,我们需要更多地创造... 详见:QProgressIndicator 简述 效果 源码 使用 更多 ...

  7. js如何判断一个对象是不是Array

    typeof 操作符 对于Function, String, Number ,Undefined 等几种类型的对象来说,他完全可以胜任,但是为Array时 var arr=new Array(&quo ...

  8. HDU 1494 跑跑卡丁车

    很无爱的一道题. 题解都看得一知半解的. acm之家的题解,留着以后慢慢体会: 把这题转化为背包模型,每个%20能量算一个单位,最多有15个,如果大于5个有一个加速卡,如果大于10个有2个加速卡,如果 ...

  9. win32窗口机制之CreateWindow

    CreateWindow     函数功能:该函数创建一个重叠式窗口.弹出式窗口或子窗口.它指定窗口类,窗口标题,窗口   风格,以及窗口的初始位置及大小(可选的).该函数也指定该窗口的父窗口或所属窗 ...

  10. 30条MySQL优化总结

    1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...