HBase-再看HBase

为什么HBase主要应用于在线应用系统？（还没搞懂）

www.github.com/HBaseinaction

google 三大论文 Google File System MapReduce BigTable

HBase shell 是一个封装了Java api 的JRuby软件

一个表可以有多个列簇，至少一个列簇

HBase==无模式数据库

HBase两种方式读取数据：get和scan

HBase每个数据单元可以有多个时间版本，版本数有默认值，也可以自定义，取出时默认是最新版本

scan命令在不指定情况下返回所有行

什么事HBase的逻辑数据模型、物理数据模型和模式设计

HBase运行和操作需要配置信息，有两种方式来定义或者获得配置信息，一种是从配置文件中获取比如hbase-site.xml，另一种是手动输入。shell一般用的是配置文件，Java api一般用的是手动，如果不指定，则使用默认的，比如zookeeper.quorum是localhost，如果你在客户端非集群上，显然不行，则要手动配置

由于操作hbase需要获得链接，消耗网络开销，所以有了链接池，链接从链接池里分配，工作关闭后链接返回到链接池

hbase中所有数据都是按字节数组的形式存储的

hbase使用坐标来定位数据。行健、列簇、列、时间版本。rowkey column family column qualifier version

hbase中数据作为值value存在单元里

hbase中修改数据使用的方式跟存储新数据使用的方式一样

执行写入的时会写到两个地方：预写式日志（WAL）和memstore。只有这两个地方的变换信息确认后才认为写操作完成

memstore，内存里的写入缓冲区。当memstore填满后刷新到硬盘，生成一个HFile。

HFile对应列族，一个列族可以有多个HFile，但一个HFile不能存多个列族的数据。在集群每个节点上，每个列族有一个memstore

如果HBase宕机，没有从memstore刷写数据到HFile，可以通过回访WAL来恢复。不用手工操作，HBase内部机制中有恢复流程部分来处理

每台服务器有一个WAL，这台服务器上所有表共享这个WAL

blockcache读优化。最近最少使用算法

删除是给要删除的内容打上墓碑标记，用来标志删除的内容不能被get和scan读取。
因为HFile不能改变，所以直到一次大合并，这些墓碑记录才会被处理

合并分为大合并和小合并。小合并把多个小的HFile合并成一个大的HFile。大合并将处理给定region的一个列族的所有HFile。大合并相当耗费资源。大合并是清理删除记录的唯一机会

如果一个单元的版本超出了最大数量，多出的记录会在下一次大合并的时候扔掉

关系型数据库是二维坐标系统，HBase是四维坐标系统

如果使用get检索数据的时候如果不指定时间版本，返回数据中会是多个时间版本的映射集合，按照坐标的降序排列

什么是半结构化数据

HBase没有事务

HFile本身是二进制文件

在HBase中query的替代品是scan加filter

Filter在服务器端过滤，不是在客户端。过滤器可以组合

HBase的在线操作（online）和离线操作（offline）

一张总的大HBase表切分成小一点的数据单位分配到堕胎服务器上，这些小一点的数据单位叫做region，托管region的服务器叫做regionserver。一个regionserver托管多个region

为什么工作负载主要是随机读写就不需要MR框架？

单个region大小可以自定义，如果超过则切分成两个

ROOT和META表用来查找region位置在哪儿。META表如果大到一定程度可以切分，ROOT表不会切分

zookeeper提供HBase的入口点，即ROOT表

在HBase中使用mapreduce计算和多线程计算有同样的效率，但是吞吐量却高很多的原因：数据的并行放置，让任务本地化了

（counters是hadoop作业里收集监控指标的一个简单方法）

宽表和窄表

get（）API内部实现是一次扫描单行的scan（）运算

get（）的使用必须需要行健，scan没有限制，如果有起始和终止则可以限定范围

对于HBase集群，最消耗计算资源的操作发生在使用服务器过滤器扫描结果的时候

协处理器从0.92.0版本引入

OpenTSDB，基于HBase，一种数据可视化工具

scan ‘-ROOT-’

scan ‘.META.’

这些都是在HBase实战中看的，这本书不错

http://pan.baidu.com/s/1i3uwuZN

HBase-再看HBase的更多相关文章

HBase-初看HBase
0.95版本hbase 单机模式下所有的服务都运行在一个JVM上,包括HBase和zookeeper.使用的是本地文件系统日志默认放在目录下logs文件夹中基本命令: create 'table' ...
MapReduce-从HBase读取数据处理后再写入HBase
MapReduce-从HBase读取处理后再写入HBase 代码如下 package com.hbase.mapreduce; import java.io.IOException; import o ...
HBase学习笔记-HBase性能研究(1)
使用Java API与HBase集群交互时,需要构建HTable对象,使用该对象提供的方法来进行插入/删除/查询等操作.要创建HTable对象,首先要创建一个带有HBase集群信息的配置对象Confi ...
HBase案例：HBase 在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用.人工智能的主要场景又包括图像能力.语音能力.自然语言处理能力和用户画像能力等等.这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储 ...
【转帖】HBase之五：hbase的region分区
HBase之五:hbase的region分区 https://www.cnblogs.com/duanxz/p/3154487.html 一.Region 概念 Region是表获取和分布的基本元素, ...
spark shc hbase 超时问题 hbase.client.scanner.timeout.period 配置
异常信息 20/02/27 19:36:21 INFO TaskSetManager: Starting task 17.1 in stage 3.0 (TID 56, 725.slave.adh, ...
mysql索引设计的注意事项(大量示例,收藏再看)
mysql索引设计的注意事项(大量示例,收藏再看) 目录一.索引的重要性二.执行计划上的重要关注点 (1).全表扫描,检索行数 (2).key,using index(覆盖索引) (3).通过ke ...
4 hbase表结构 + hbase集群架构及表存储机制
本博文的主要内容有 .hbase读取数据过程 .HBase表结构 .附带PPT http://hbase.apache.org/ 读写的时候,就需要用hbase了,换句话说,就是读写的时候. ...
HBase 2、HBase安装与初试牛刀
官方帮助文档:http://hbase.apache.org/book.html PDF:http://hbase.apache.org/apache_hbase_reference_guide.p ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...

随机推荐

Python 变量对象引用
1.变量变量第一次赋值时被创建,变量在使用前必须赋值变量本身没有类型,变量类型为它引用的对象类型: 变量在使用时被替换成它引用的对象 2.对象对象本身具有计数和类型,变量引用对象,当对象的引用变 ...
[LeetCode] Add Digits (a New question added)
Given a non-negative integer num, repeatedly add all its digits until the result has only one digit. ...
bzoj 2751 [HAOI2012]容易题(easy)（数学）
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=2751 [题意] m个位置,已知每个位置的可能取值,问所有可能情况的每个位置的乘积的和. ...
Spark中的编程模型
1. Spark中的基本概念 Application:基于Spark的用户程序,包含了一个driver program和集群中多个executor. Driver Program:运行Applicat ...
java 中正则正则表达式匹配 url
不多说 [http|https]+[://]+[0-9A-Za-z:/[-]_#[?][=][.][&]]* 这个就是匹配网络上的网址又称 url . 最起码绝大部分的taobao ur ...
Python xlsx 读取
代码示例 #!/usr/bin/env python import xlrd, sys, re, os workbook = xlrd.open_workbook( sys.argv[1] )for ...
Zookeeper实现分布式选举算法
分布式系统中经常采用Master/Slave架构.(截止到目前为止我还没有碰到过其他架构...)这种架构中如果Master发生故障就会导致整个集群停止服务,为了提高系统的高可用性通常采用选举算法来选出 ...
转】Maven学习总结(三)——使用Maven构建项目
原博文出自于: http://www.cnblogs.com/xdp-gacl/p/4240930.html 感谢! maven作为一个高度自动化构建工具,本身提供了构建项目的功能,下面就来体验一下使 ...
fx-experience-tools
http://fxexperience.com/2012/03/announcing-fx-experience-tools/ I have some cool new stuff for you t ...
How to include cascading style sheets (CSS) in JSF
In JSF 2.0, you can use <h:outputStylesheet /> output a css file. For example, <h:outputSty ...

HBase-再看HBase

HBase-再看HBase的更多相关文章

随机推荐

热门专题