The HRegionServer opens the region and creates a corresponding HRegion object. When the HRegion is opened it sets up a Store instance for each HColumnFamily for every table as defined by the user beforehand. Each Store instance can, in turn, have one…
转自:http://zhb-mccoy.iteye.com/blog/1543492 The HRegionServer opens the region and creates a corresponding HRegion object. When the HRegion is opened it sets up a Store instance for each HColumnFamily for every table as defined by the user beforehand.…
先来一张大图. Hbase上Regionserver的内存分为两个部分,一部分作为Memstore,主要用来写:另外一部分作为BlockCache,主要用于读数据:这里主要介绍写数据的部分,即Memstore.当RegionServer(RS)收到写请求的时候(writerequest),RS会将请求转至相应的Region.每一个Region都存储着一些列(a set of rows).根据其列族的不同,将这些列数据存储在相应的列族中(Column Family,简写CF).不同的CF中的数据存…
HBase学习笔记之HBase的安装和配置 我是为了调研和验证hbase的bulkload功能,才安装hbase,学习hbase的.为了快速的验证bulkload功能,我安装了一个节点的hadoop集群和一个节点的hbase.安装过程如下. 1.简介 2.安装环境准备 3.具体安装过程 1.简介 ========= hbase是hadoop生态系统中的一个软件,是基于hadoop的数据库软件. 2.安装环境准备 =============== hbase安装之前必须安装hadoop,所以在安装h…
HBase学习指南之HBase原理和Shell使用 参考资料: 1.https://www.cnblogs.com/nexiyi/p/hbase_shell.html,hbase shell…
转载请标注原链接:http://www.cnblogs.com/xczyd/p/6639397.html 扫表的时候限定行数 scan } 即为扫表的时候,限定只输出五条数据 ============================================== 删表 删表需要执行两个步骤,即disable和drop,具体如下: disable 'TABLE_NAME' drop 'TABLE_NAME' 当然disable后的表还可以重新enable起来,命令为: enable 'TAB…
这两天把要前几天的知识点回顾一下,接下来我会用自己对知识点的理解来写一些东西 一.知识点回顾 1.hbase集群启动:$>start-hbase.sh ===>hbase-daemon.sh start hmaster   +  hbase-daemon.sh start regionserver    hbase集群关闭:$>stop-hbase.sh   ===>hbase-daemon.sh staop hmaster +hbase-daemon.sh stop region…
1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作 一个cell的值,取决于Row,Column family,Column Qualifier和Timestamp Hbase表结构 2.往Hbase中写入数据,写入的时候,需要写family和column build.sbt libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "…
Hadoop学习笔记之HBase Shell语法练习 作者:hugengyong 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count  '表名称' 删除记录 delete  '表名' ,'行名称' ,…
HBase简介 HBase概念 HBase的原型是谷歌的Bigtable论文 HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC上搭建起大规模结构化存储集群 HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据 HBase特点 海量存储 HBase适合存储PB级的海量数据,在PB级别的数据以及采用廉价机器存储的情况下,能在几十到百毫秒内返回数据 列式存储 此处的列式存储指的是列族存储…
在逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列. 但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map. 1.HBase的数据模型 1.1 HBase 逻辑结构 先从一个逻辑结构模型图开始看起: 之前介绍了一些HBase的数据模型的概念,现在来系统的梳理一下: Table(表):一个表由一个或者多个列族构成.数据的属性.比如:name.age.TTL(超时时间)等等都在列族里边定义.定义完列族的…
HBASE概念: HBASE是一个分布式架构的数据库,通过对数据进行多层的分块打散储存.从而改写传统数据库的储存能力和读取速度. HBASE的集群服务器: HBASE的集群主要分为Zookeeper集群,Master集群,RegionSever集群. Zookeeper集群:储存Table的Region地址,管理Master和RegionSever服务器间的操作. Master集群:进行建表,删表工作和分配Region(管理负载均衡,Split时,重新分配Region) RegionSever集…
HBase版本:0.97 1.Get Gets实在Scan的基础上实现的. 2.联合查询(Join) HBase是否支持联合是一个网上常问问题.简单来说 : 不支持.至少不像传统RDBMS那样支持. 但并不表示等价联合不能在应用程序中支持,只是必须自己做. 两种方法,要么指示要写到HBase的数据,要么查询表并在应用或MapReduce代码中做联合. 3.列族 一个表存在多列族,注意基数(如, 行数). 如果列族A有100万行,列族B有10亿行,列族A可能被分散到很多很多区(及区服务器).这导致…
hbase的配置信息,在hbase-site.xml里面有详细说明. 可以按照需要查询相关的配置. <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- /** * Copyright 2009 The Apache Software Foundation * * Licensed to the A…
定义: HBase是一个分布式的.面向列的开源数据库,HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务.  逻辑视图: 用户对hbase中的数据在逻辑上通过rowkey,column family, cell ,timestamp进行管理 Row Key 与nosql数据库们一样,row key是用来检索记录的主键.访问hbase table中…
一.HBASE内部原理 1.hbase系统架构 上图组件介绍; 1):Client 包含访问 hbase 的接口, client 维护着一些 cache 来加快对 hbase 的访问,比如 region 的位置信息. 2):Zookeeper 1 保证任何时候,集群中只有一个 master 2 存贮所有 Region 的寻址入口----root 表在哪台服务器上. 3 实时监控 Region Server 的状态,将 Region server 的上线和下线信息实时通知给 Master 4 存储…
最近做项目接触到了HDFS.mapreduce以及Hbase,有了实战机会,今天打算将这些知识好好总结下,以备不时之需.首先从Hbase开始吧. Hbase是建立在HDFS上的分布式数据库,下图是Hbase表的模型: Hbase这个数据库其实和传统关系数据库还是有很多类似之处,而不是像mongodb,memcached以及redis完全脱离了表的概念,只不过hbase是以列为中心的数据库,而传统关系数据库则是以行为中心的数据库.不过hbase这个列并非我们传统意义的列,而是列族.列族是hbase…
HBase1. hbase.id记录了集群的唯一标识:hbase.version记录了文件格式的版本号2. split和.corrupt目录在日志分裂过程中使用,以便保存一些中间结果和损坏的日志在表目录下,为该表的每一个region单独创建一个目录,目录的名字为region name的MD5哈希值3. 二级索引方案:a.Coprocessor b.由客户端发起对于主表和索引表的Put.Delete操作的双重操作 Split和Conpact优化 快速写入 1.写入前 预分Region 2.数据写入…
      Hbase 是一个分布式的.面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统.     Hbase不同于一般的关系型数据库(RDBMS).是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库.      下面的内容基于我们已经安装好hadoop.hbase.     一.hbase shell 介绍      hbase shell是用户和hbase 交互的接口之一,当然还可以通过其它方式比如java a…
      说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差,但有利于后期根据关键词查找.       Apache HBase 是Hadoop database的简称,hbase 是一个分布式,可扩展的,面向大数据存储的数据库.      HBase 基本概念…
HBaseConfiguration HBaseConfiguration是每一个hbase client都会使用到的对象,它代表的是HBase配置信息.它有两种构造方式: public HBaseConfiguration() public HBaseConfiguration(final Configuration c) 默认的构造方式会尝试从hbase-default.xml和hbase-site.xml中读取配置.如果classpath没有这两个文件,就需要你自己设置配置. Config…
此文的目的: 1.重点理解Hbase的整体工作机制 2.熟悉编程api,能够用来写程序 1.  什么是HBASE 1.1.   概念特性 HBASE是一个数据库----可以提供数据的实时随机读写 HBASE与mysql.oralce.db2.sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库) * Hbase的表模型与关系型数据库的表模型不同: * Hbase的表没有固定的字段定义: * Hbase的表中每行存储的都是一些key-value对 * Hbase的表中有列…
一,基本命令: 建表:create 'table','t1','t2'       也可以建表时加coulmn的属性如:create 'table',{NAME => 't1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'LZO', TTL => '30000', IN_MEMORY => 'false', BLOCKCACHE =>…
说在前面,本文部分内容来源于社区官网经过适度翻译,部分根据经验总结,部分是抄袭网络博文,(不一一列举引用,在此致歉)一并列在一起,本文的目的,希望能总结出一些有用的,应该注意到的东西,基本思路是先提出一个话题,在此话题内,把相关联的东西加进去,而不是单独分出章节单独介绍,虽然条理性欠差, 但有利于后期根据关键词查找. HBase 基本概念 1.region region 是部分数据,所以是所有数据的一个自己,但region包括完整的行,所以region 是行为单位 表的一个子集. 每个regio…
Hbase 是一个分布式的.面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统.     Hbase不同于一般的关系型数据库(RDBMS).是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库.      下面的内容基于我们已经安装好hadoop.hbase.     一.hbase shell 介绍      hbase shell是用户和hbase 交互的接口之一,当然还可以通过其它方式比如java api等  …
HBase是Apache Hadoop的数据库,能够对大型数据提供随机.实时的读写访问.HBase的目标是存储并处理大型的数据.HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据. 一.HBase:BigTable的开源实现 1.1 HBase出现的背景 (1)随着数据规模越来越大,大量业务场景开始考虑数据存储水平扩展,使得存储服务可以增加/删除,而目前的关系型数据库更专注于一台机器. (2)海量数据量存储成为瓶颈,单台机器无法负载大量数据. (3)单台机器IO读…
HBase安装和部署 使用的HBase版本是1.2.4 1.安装步骤(默认hdfs已安装好) # 下载并解压安装包 cd tools/ tar -zxf hbase-1.2.4-bin.tar.gz   # 重命名为hbase mv hbase-1.2.4 hbase # 将hadoop目录下的hdfs-site.xml 和 core-stie.xml拷贝到 hbase下的conf 目录中 cd /home/work/tools/hbase/conf cp /home/work/tools/ha…
需要分别从Oracle和文本文件往HBase中导入数据,这里介绍几种数据导入方案. 1.使用importTSV导入HBase importTSV支持增量导入.新数据插入,已存在数据则修改. 1.1.首先将待导入文本test_import.txt放到hdfs集群 文本格式如下(从网上找的虚拟话单数据).逗号分隔,共13个字段,其中第1个字段作为rowkey. 1,12026546272,2013/10/19,20:52,33分18秒,被叫,13727310234,北京市,省际,0,32.28,0.…
HBase学习之BulkLoad bulkload的学习以后再写文章. 参考资料: 1.https://blog.csdn.net/shixiaoguo90/article/details/78038462,使用hbase自带的importtsv实现bulkload,重点参考,hbase自带的bulkload只有在hbase1.0版本中有,2.0版本中没有,参考这篇文章已经成功实现了bulkload了. 2.https://blog.csdn.net/embracejava/article/de…
一.数据库OLAP和OLTP简单的介绍比较 1.OLTP:on-line transaction processing在线事务处理,应用在传统关系型数据库比较多,执行日常基本的事务处理,比如数据库记录的增删改查,如银行的一笔交易记录,就是一个典型的事务处理,强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作:OLTP有以这几个特点:实时性要求高:数据量不是很大:交易一般是确定的:高并发:满足ACID 对于OLTP来说一般都是高可用的在线系统,以小的事务以及小的查询为主,评估…