HBase shell scan 模糊查询

0.进入hbase shell

./hbase shell
help
help “get” #查看单独的某个命令的帮助

1. 一般命令

status 查看状态
version 查看版本

2.DDL（数据定义语言Data Definition Language）命令

1. 创建表

create ‘表名称’,’列名称1’，’列名称2’，’列名称3’
如：

create 'member','member_id','address','info'
1

2.列出所有的表

list

list ‘abc.*’ #显示abc开头的表

3.获得表的描述

describe ‘table_name’

Table play_error_file is ENABLED

play_error_file

column families description

{

NAME => 'cf',

BLOOMFILTER => 'ROW',#根据应用来定，看需要精确到rowkey还是column。bloom filter的作用是对一个region下查找记录所在的hfile有用。一个region下hfile数量越多，bloom filter的作用越明显。适合那种compaction（压缩）赶不上flush速度的应用。

VERSIONS => '1',# 通常是3，对于更新比较频繁的应用可以设置为1

IN_MEMORY => 'false',

KEEP_DELETED_CELLS => 'FALSE',

DATA_BLOCK_ENCODING => 'NONE',

TTL => 'FOREVER',

COMPRESSION => 'NONE',

MIN_VERSIONS => '0',

BLOCKCACHE =>'true',

BLOCKSIZE => '65536',

REPLICATION_SCOPE => '0'

}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

4.删除一个列族 alter,disable, enable

disable 'member'  #删除列族时必须先将表给disable

alter 'member',{NAME=>'member_id',METHOD=>'delete'}

#删除后继续enable 'member'

enable 'member'
1
2
3
4

5.删除表

disable 'table_name'drop 'table_name'
1
2

6.查询表是否存在

exists 'table_name'
1

7.判断表是否enabled

is_enabled 'table_name'
1

8.更改表名

//快照 这样试试，先建立个表自己测试下，可以的话在执行。

需要开启快照功能，在hbase-site.xml文件中添加如下配置项：

<property>

<name>hbase.snapshot.enabled</name>

<value>true</value>

</property>

//命令

hbase shell> disable 'tableName'

hbase shell> snapshot 'tableName', 'tableSnapshot'

hbase shell> clone_snapshot 'tableSnapshot', 'newTableName'

hbase shell> delete_snapshot 'tableSnapshot'

hbase shell> drop 'tableName'
1
2
3
4
5
6
7
8
9
10
11
12
13
14

3.DML（data manipulation language）操作

1.插入

在ns1:t1或者t1表里的r1行，c1列中插入值，ts1是时间

put 'ns1:t1', 'r1','c1','value'or

put 't1','r1','c1','value'or

put 't1','r1','c1','value',ts1

or

put 't1','r1','c1','value',{ATTRIBUTES=>{'mykey'=>'myvalue'}}

put 't1','r1','c1','value',ts1,{ATTRIBUTES=>{'mykey'=>'myvalue'}}

put 't1','r1','c1','value',ts1,{VISIBILITY=>'PRIVATE|SECRET}

# t是table 't1'表的引用

t.put 'r1','c1','value',ts1,{ATTRIBUTES=>{'mykey'=>'myvalue'}}

put 'table_name','row_index','info:age','24'

put 'table_name','row_index','info:birthday','1987-06-17'

put 'table_name','row_index','info:company','tencent'

put 'table_name','row_index','address:contry','china'

put 'table_name','row_index','address:province','china'

put 'table_name','row_index','address:city','shenzhen'


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

2.获取一条数据

# 获取一个id的所有数据get 'table_name','row_index'# 获取一个id,一个列族的所有数据get 'table_name','row_index','info'# 获取一个id,一个列族中一个列的所有数据get 'table_name','row_index','info:age'
1
2
3
4
5
6
7
8

3.更新一条记录

将qy的单位改为qq
put ‘table_name’,’qy’,’info:company’,’qq’

4.通过timestrap来获取两个版本的数据

# 得到company为tencent的记录

get 'table_name','qy',{COLUMN=>'info:company',TIMESTRAP=>1321586238965}

# 得到company为qq的数据

get 'table_name','qy',{COLUMN=>'info:company',TIMESTRAP=>1321586271843}
1
2
3
4

5.全表扫描

scanner规范：
TIMERANGE，
FILTER，
LIMIT，
STARTROW（start row），
STOPROW（stop row），
ROWPREFIXFILTER（row prefix filter,行前缀）
TIMESTAMP，
MAXLENGTH，
or COLUMNS，
CACHE，
or RAW，
VERSIONS

scan 'hbase:meta'

scan 'hbase:meta',{COLUMNS => 'info:regioninfo'}

scan 'ns1:t1',{COLUMNS=>['c1','c2'],LIMIT=>10,STARTROW=>'xyz'}

scan 't1',{COLUMNS=>'c1',TIMERANGE=>[1303668804,1303668904]}

scan 't1',{REVERSED=>true}

scan 't1',{

    ROWPREFIXFILTER=>'row2',

    FILTER=>"(QualifierFilter(>=,'binary:xyz'))

    AND (TimestampsFilter(123,456))"}

scan 't1',{FILTER => org.apache.hadoop.hbase.filter.ColumnPaginationFilter.new(1,0)}

scan 't1',{CONSISTENCY=>'TIMELINE'}

设置操作属性：

scan 't1',{COLUMNS => ['c1','c2'],ATTRIBUTES=>{'mykey'=>'myvalue'}}

scan 't1',{COLUMNS=>['c1','c2'],AUTHORIZATIONS=>['PRIVATE','SECRET']}

有个额外的选项：CACHE_BLOCKS,默认为true

还有个选项：RAW，返回所有cells（包括删除的markers和uncollected deleted cells，不能用来选择特定的columns，默认为default）

如：scan 't1',{RAW=>true,VERSIONS=>10}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

全表扫描一般不会用，数据量大的时候会死人的。。

6.删除记录

# 删除id为temp的记录的'info:age'字段

delete 'member','temp','info:age'# 删除整行

deleteall 'member','temp'
1
2
3
4
5

7.查询表中有多少行

count 'table_name',INTERVAL=>1000,CACHE => 1000or

有对表t1的引用t

t.count

INTERVAL: 每隔多少行显示一次count，默认是1000

CACHE:每次去取的缓存区大小，默认是10，调整该参数可提高查询速度
1
2
3
4
5
6

8.清空表

truncate 'table_name'

HBase是先将表disable，再drop the table，最后creating table。
1
2

5.scan查询

1.限制条件

scan ‘qy’,{COLUMNS=>’name’}

scan ‘qy’,{COLUMNS=>’name:gender’}

scan ‘qy’,{COLUMNS=>[‘name’,’foo’]}

限制查找条数：

scan ‘qy’,{COLUMNS=>[‘name’,’foo’],LIMIT=>1}
scan ‘qy’,{COLUMNS=>[‘name’,’foo’],LIMIT=>2}

限制时间范围：

scan ‘qy’,{TIMERANGE=>[1448045892646,1448045892647]}

2.filter 过滤部分

PrefixFilter:rowKey前缀过滤

scan ‘qy’,{FILTER=>”PrefixFilter(‘001’)”}

scan ‘qy’,{FILTER=>PrefixFilter(‘t’)}

QualifierFilter:列过滤器

QualifierFilter对列的名称进行过滤，而不是列的值。

scan ‘qy’,{FILTER=>”PrefixFilter(‘t’) AND QualifierFilter(>=,’binary:b’)”}

TimestampsFilter:时间戳过滤器

scan ‘qy’,{FILTER=>”TimestampsFilter(1448069941270,1548069941230)” }

scan ‘qy’,{FILTER=>”（QualifierFilter(>=,’binary:b’)） AND （TimestampsFilter(1348069941270,1548069941270)）” }

ColumnPaginationFilter

scan ‘qy’,{FILTER=>org.apache.hbase.filter.ColumnPaginationFilter.new(2,0)}

cannot load Java class org.apache.hbase.filter.ColumnPaginationFilter

hbase shell应用filter
1.导入需要的类

import org.apache.hadoop.hbase.filter.CompareFilter

import org.apache.hadoop.hbase.filter.SingleColumnValueFilter

import org.apache.hadoop.hbase.filter.SubstringComparator

import org.apache.hadoop.hbase.util.Bytes
1
2
3
4

2.执行命令

scan 'tablename',STARTROW=>'start',COLUMNS=>['family:qualifier'],FILTER=>SingleColumnValueFilter.new(Bytes.toBytes('family'),Bytes.toBytes('qualifier'))
1

查看原文>>

来源： http://lib.csdn.net/article/hbase/62344

HBase shell scan 模糊查询的更多相关文章

HBase shell scan 过滤器用法总结
比较器: 前面例子中的regexstring:2014-11-08.*.binary:\x00\x00\x00\x05,这都是比较器.HBase的filter有四种比较器: (1)二进制比较器:如’b ...
Redis命令：scan实现模糊查询
转: Redis命令:scan实现模糊查询 2017年12月31日 16:54:33 琦彦阅读数:22893 标签: redis数据库Redis命令scan模糊查询更多个人分类: Redis 所 ...
hbase shell插入根据条件查询数据
hbase shell插入根据条件查询数据创建并插入数据: hbase(main):179:0> create 'scores','grade','course' hbase(main):18 ...
【转】HBase shell命令与 scan 过滤器
Hbase 常用shell命令 https://www.cnblogs.com/i80386/p/4105423.html HBase基础之常用过滤器hbase shell操作 https://www ...
hbase RowFilter如何根据rowkey查询以及实例实现代码 habase模糊查询【转】
RowFilter用于过滤row key Operator Description LESS 小于 LESS_OR_EQUAL 小于等于 [EQUAL 等于 NOT_EQUAL 不等于 GREATER ...
HBase Shell操作
Hbase 是一个分布式的.面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统. Hbase不同于一般的关系型数据库(RDBMS ...
HBase Shell 常用命令及例子
下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N ...
hbase shell command
进入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成 ...
hbase shell基础和常用命令详解(转)
HBase shell的基本用法 hbase提供了一个shell的终端给用户交互.使用命令hbase shell进入命令界面.通过执行 help可以看到命令的帮助信息. 以网上的一个学生成绩表的例子来 ...

随机推荐

前端插件之Datatables使用--下篇
工欲善其事,必先利其器本系列文章介绍我在运维系统开发过程中用到的那些顺手的前端插件,上一篇文章介绍了Datatables插件的基本使用,这一篇文章作为上一篇的延续,会介绍Databases的一些高级 ...
Spring入门(八)：自动装配的歧义性
1. 什么是自动装配的歧义性? 在Spring中,装配bean有以下3种方式: 自动装配 Java配置 xml配置在这3种方式中,自动装配为我们带来了很大的便利,大大的降低了我们需要手动装配bean ...
ArrayList用法整理
System.Collections.ArrayList类是一个特殊的数组.通过添加和删除元素,就可以动态改变数组的长度. 一．优点 1.支持自动改变大小的功能 2.可以灵活的插入元素 3.可以灵活的 ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
.NET中使用WebService，以及和一般处理程序、类库的区别
首先我们来看一下如何创建Web Service 首先在解决方案中新建项,选择ASP.NETWeb应用程序然后选择一个空的项目就可以,单击确定项目建完之后,在项目上右键-->添加-->新 ...
常用加密解密算法【RSA、AES、DES、MD5】介绍和使用
内容不转载了,加上链接https://blog.csdn.net/u013565368/article/details/53081195?_t=t
小白学习day2------比较运算
1 算术运算加+ 2+3=5 减 - 3-2=1 乘 * 2*3=6 除 / 6/2=3 取膜 % 余数幂 ** 2**3=8 整除 // 9//4=2 2 比较运算 == 判断是否等于 != , ...
unity_实用小技巧（相机跟随两个主角移动）
在两人对战的游戏中,有时候我们希望能看清楚两玩家的状态,这时我们需要让相机跟随玩家,可是我们不能让相机只跟随一个玩家移动,这时我们可以取两玩家的中点作为相机的位置.方法如下: public Trans ...
单页面应用的History路由模式express后端中间件配合
这篇文章主要分享一下通过HTML5的history API的时候,使用NodeJS后端应该如何配置,来避免产生404的问题,这里是使用的express的框架,主要是通过connect-history- ...
vmware设置centos静态ip
之前有过设置ubuntu静态ip的经验,这次安装设置centos感觉很顺利很简单.参考https://www.linuxidc.com/Linux/2017-10/147449.htm,照做就可以了. ...