Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。     Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。

     下面的内容基于我们已经安装好hadoop、hbase。
    一、hbase shell 介绍
     hbase shell是用户和hbase 交互的接口之一,当然还可以通过其它方式比如java api等
     下表列出了 hbase 基本命令操作:
      
操作 命令表达式 注意
创建表 create 'table_name, 'family1','family2','familyN'
添加记录       put 'table_name', 'rowkey', 'family:column', 'value'
查看记录 get 'table_name', 'rowkey'    查询单条记录,也是hbase 最常用的命令
查看表中的记录总数 count  'table_name' 这个命令并不快,且目前没有找到更快的方式统计行数
删除记录 delete 'table_name' ,'rowkey','family_name:column'
deleteall 'table_name','rowkey'
第一种方式删除一条记录单列的数据
第二种方式删除整条记录
删除一张表 1、disable 'table_name' 
2、drop 'table_name'
查看所有记录 scan "table_name" ,{LIMIT=>10} LIMIT=>10 只返回10条记录,否则将全部展示
 
      利用上面基础命令可以完成基本的hbase 操作,下面几个shell 命令在后续的hbase 操作中可以起到很到的作用,且主要体现在建表的过程中,看下面几个create 属性
1、BLOOMFILTER  默认是NONE 是否使用布隆过虑 使用何种方式
        布隆过滤可以每列族单独启用。使用HColumnDescriptor.setBloomFilterType(NONE | ROW |
ROWCOL) 对列族单独启用布隆。 Default=NONE没有布隆过滤。对ROW,行键的哈希在每次插入行时将被添加到布隆。对ROWCOL,行键
+ 列族 + 列族修饰的哈希将在每次插入行时添加到布隆
   使用方法: create 'table',{BLOOMFILTER =>'ROW'} 
   启用布隆过滤可以节省必须读磁盘过程,可以有助于改进读取延迟 
 
2、VERSIONS 默认是3 这个参数的意思是数据保留三个 版本,如果我们认为我们的数据没有这么大的必要保留这么多,随时都在更新,而老版本的数据对我们毫无价值,那将此参数设为1 能节约2/3的空间
     使用方法: create 'table',{VERSIONS=>'2'}
 
3、COMPRESSION 默认值是NONE 即不使用压缩
     这个参数意思是该列族是否采用压缩,采用什么压缩算法
     使用方法: create 'table',{NAME=>'info',COMPRESSION=>'SNAPPY'} 
     我建议采用SNAPPY压缩算法,个压缩算法的比较网上比较多,我从网上摘抄一个表格作为参考,具体的snappy 的安装后续会以单独章节进行描述。
     这个表是Google几年前发布的一组测试数据,实际测试Snappy 和下表所列相差无几。
    HBase中,在Snappy发布之前(Google
2011年对外发布Snappy),采用的LZO算法,目标是达到尽可能快的压缩和解压速度,同时减少对CPU的消耗;
    在Snappy发布之后,建议采用Snappy算法(参考《HBase:
The Definitive Guide》),具体可以根据实际情况对LZO和Snappy做过更详细的对比测试后再做选择。
          
Algorithm % remaining Encoding Decoding
GZIP 13.4% 21 MB/s 118 MB/s
LZO 20.5% 135 MB/s 410 MB/s
Zippy/Snappy 22.2% 172 MB/s 409 MB/s
  
 
     如果建表之初没有 压缩,后来想要加入压缩算法,怎么办 hbase 有另外的一个命令alter
 
 
4、alter 
     使用方法:
     如 修改压缩算法      
      disable 'table'
      alter 'table',{NAME=>'info',COMPRESSION=>'snappy'} 
      enable 'table'
     删除列族
     disable 'table'
     alter 'table',{NAME=>'info',METHOD=>'delete'}
     enable 'table'
     但是这样修改之后发现表数据还是那么大,并没有发生多大变化。怎么办
     major_compact 'table' 命令之后 才会做实际的操作。
5、TTL 默认是 2147483647 即:Integer.MAX_VALUE 值 大概是68年吧
     这个参数是说明该列族数据的 存活时间 也就是数据的生命周期 单位是s 默写文章写的单位是ms 是错误的。
     这个参数可以根据 具体的需求 对数据设定 存活时间,超过存过时间的数据将在表中不在显示,待下次major compact的时候再彻底删除数据
     为什么在下次major compact的时候删除数据,后面会具体介绍到。
     注意的是TTL设定之后 MIN_VERSIONS=>'0' 这样设置之后,TTL时间戳过期后,将全部彻底删除该family 下所有的数据,如果MIN_VERSIONS 不等于0 那将保留最新的MIN_VERSIONS个版本的数据,其它的全部删除,比如MIN_VERSIONS=>'1' 届时将保留一个最新版本的数据,其它版本的数据将不再保存。
6、describe 'table' 这个命令查看了create table 的各项参数 或者是默认值。
7、disable_all  'toplist.*'    disable_all 支持正则表达式,并列出当前匹配的表的如下:
 
     toplist_a_total_1001                                                
                                                                       
                            
     
      toplist_a_total_1002                                                                                                                                                
   
  toplist_a_total_1008                                                                                                                                                
   
  toplist_a_total_1009                                                                                                                                                
   
  toplist_a_total_1019                                                                                                                                                
      toplist_a_total_1035
     ...
     Disable the above 25 tables (y/n)? 并给出确认提示
8、drop_all 这个命令和disable_all的使用方式是一样的
9、hbase 表预分区 也就是手动分区

     默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个
region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照
region分区情况,在集群内做数据的负载均衡。
     使用方法:create 't1', 'f1', {NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}
     也可以使用 api的方式 
     hbase org.apache.hadoop.hbase.util.RegionSplitter test_table HexStringSplit -c 10 -f info  
     参数很容易看懂 test_table  是表名 HexStringSplit 是split 方式 -c 是分10个region -f 是family
     这样就可以将表预先分为10个区,减少数据达到storefile
大小的时候自动分区的时间消耗,并且还有以一个优势,就是合理设计rowkey 能让各个region 的并发请求 平均分配(趋于均匀) 使IO
效率达到最高,但是预分区需要将filesize 设置一个较大的值,设置哪个参数呢 hbase.hregion.max.filesize
这个值默认是10G 也就是说单个region 默认大小是10G
     这个值发生从0.90 到0.92到0.94.3 从 256M--1G--10G 这个根据自己的需求将这个值修改。
     但是如果MapReduce
Input类型为TableInputFormat 使用hbase作为输入的时候,就要注意了,每个region一个map,如果数据小于10G
那只会启用一个map 造成很大的资源浪费,这时候可以考虑适当调小 该参数的值,或者采用预分配region
的方式,并将hbase.hregion.max.filesize
设为一个相对比较大的值,不容易达到的值比如1000G,检测如果达到这个值,再手动分配region。
      前面说到了 compact 为什么设置了TTL 超过存活时间的数据 就消失了、

Hbase 学习笔记1----shell的更多相关文章

  1. hbase 学习笔记二----shell

          Hbase 是一个分布式的.面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统.     Hbase不同于一般的关系型数据库 ...

  2. HBase学习笔记之HBase的安装和配置

    HBase学习笔记之HBase的安装和配置 我是为了调研和验证hbase的bulkload功能,才安装hbase,学习hbase的.为了快速的验证bulkload功能,我安装了一个节点的hadoop集 ...

  3. HBASE学习笔记(四)

    这两天把要前几天的知识点回顾一下,接下来我会用自己对知识点的理解来写一些东西 一.知识点回顾 1.hbase集群启动:$>start-hbase.sh ===>hbase-daemon.s ...

  4. HBase学习笔记之HBase原理和Shell使用

    HBase学习指南之HBase原理和Shell使用 参考资料: 1.https://www.cnblogs.com/nexiyi/p/hbase_shell.html,hbase shell

  5. 学习笔记之Shell脚本学习指南 & sed与awk & 正则表达式

    正则表达式_百度百科 http://baike.baidu.com/link?url=ybgDrN2WQQKN64_gu-diCqdeDqL8LQ-jiQ-ftzzPaNUa9CmgBRDNnyx50 ...

  6. 学习笔记之shell命令

    linux shell命令学习笔记:~这里只是对自己一些常用但是不熟悉的的命令进行记录 -------------------------------------------------------- ...

  7. HBase学习笔记之BulkLoad

    HBase学习之BulkLoad bulkload的学习以后再写文章. 参考资料: 1.https://blog.csdn.net/shixiaoguo90/article/details/78038 ...

  8. HBASE学习笔记--shell

    Hbase shell 启动 下载安装hbase client包,填写相关配置后进入,配置相关说明可以参见配置篇 指令:./bin/hbase shell 状态及配置信息查询 查询服务器状态 stat ...

  9. HBase学习笔记2 - HBase shell常用命令

    转载请标注原链接:http://www.cnblogs.com/xczyd/p/6639397.html 扫表的时候限定行数 scan } 即为扫表的时候,限定只输出五条数据 ============ ...

  10. HBase学习笔记——配置及Shell操作

    1.HBase的配置 还是以前配置的集群,见:http://www.cnblogs.com/DarrenChan/p/6493373.html 我们约定:weekend03和weekend04放HMa ...

随机推荐

  1. springmvc-servlet.xml

    <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.sp ...

  2. 猫猫学iOS 之微博项目实战(5)微博自己定义搜索框searchBar

    猫猫分享.必须精品 原创文章.欢迎转载. 转载请注明:翟乃玉的博客 地址:http://blog.csdn.net/u013357243 一:效果 用UITextField简单定义一个搜索框 二:调用 ...

  3. SlidingMenu.jar 抽屉使用,避免了使用libaray的不兼容的尴尬

         尽管说这个东西出来了一段时间了,可是好东西还是要分享一下的. 之前我们使用的都是libaray.各种出错.团队开发也不好操作.不知道 哪个好心人干脆把这个工具封装成一个jar,真心为你点赞. ...

  4. impala+kudu

    [impala建表]kudu的表必须有主键,作为分区的字段需排在其他字段前面. [range分区](不推荐)CREATE TABLE KUDU_WATER_HISTORY ( id STRING, y ...

  5. Java 使用 HttpClient调用https 最新源码 JDK7+ apache4.3+

    在项目使用https方式调用别人服务的时候,以前要写很多的代码,现在框架封装了很多,所以不用再写那么多了. 网上看了一下,都是很老的版本,用过时的DefaultHttpClient. 以spring为 ...

  6. 第一百六十二节,jQuery入门介绍

    jQuery入门 学习要点: 1.什么是  jQuery 2.学习 jQuery的条件 3.jQuery的版本 4.jQuery的功能和优势 5.其他 JavaScript库 6.是否兼容低版本  I ...

  7. The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Cha

    The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Cha ...

  8. 简单的TableView

    背景知识 每个表都是UITableView的实例,表中的每一行都是UITableViewCell的实例. TableView的种类 Grouped table Plain table without ...

  9. PhoneGap 获得设备属性Demo

    <!DOCTYPE html> <html> <head> <title>设备属性Demo</title> <script type= ...

  10. iOS 断当前时间是否在一天的某个时间段内。

    应用中设置一般会存在这样的设置,如夜间勿扰模式,从8:00-23:00,此时如何判断当前时间是否在该时间段内.难点主要在于如何用NSDate生成一个8:00的时间和23:00的时间,然后用当前的时间跟 ...