过滤器

  过滤器是GET或者SCAN时过滤结果用的,相当于SQL的where语句

  HBase中的过滤器创建后会被序列化,然后分发到各个region server中,region server会还原过滤器并使用,这样scan中,不满足条件的结果不会返回客户端

  

  

值过滤器: (针对所有列)

  创建valueFilter实例:    Filter filter=new ValueFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("xxxx"));

      CompareFileter包含一个枚举类,CompareOp,包含以下值:

      

      

      SubstringComparator是一个比较器,可以判断目标字符串是否包含所指定的字符串

单列值过滤器:

    相当于mycnf:name like "%wang%"

    new SingleColumnValueFilter(Bytes.toBytes("my.cnf"),Bytes.toBytes("name"),CompareFilter.CompareOp.EQUAL,new SubstringComparator("wang"))

    指定了列族 mycnf  列 name

    注意:

      遍历结果集时需要判断结果是否包含需要的列,没有则丢弃  或   使用过滤器列表,将列族过滤器,列过滤器和值过滤器放入过滤器列表,同时进行过滤

字符串完全匹配:

    相当于mycnf:name=wang

    new SingleColumnValueFilter(Bytes.toBytes("my.cnf"),Bytes.toBytes("name"),CompareFilter.CompareOp.EQUAL,newBinaryComparator("wang"))

比较数字:

    相当于mycnf:age > 10

    new SingleColumnValueFilter(Bytes.toBytes("my.cnf"),Bytes.toBytes("name"),CompareFilter.CompareOp.GREATER,new BinaryComparator(Bytes.toBytes(10)));

比较器:

  正则表达式比较器  RegexStringComparator  

  空值比较器 Null Comparator

  数字比较器 LongComparator

  比特位比较器 BitComparator

  字节数组前缀比较器 BinaryPrefixComparator

分页过滤器:

  构造函数: PageFilter(long pagesize)       pagesize就是每页的记录数

过滤器列表:

  构造函数1: FileterList(List<Filter> rowFilters)  多个过滤器组成的列表

  注意:过滤器列表添加的顺序不同,执行的结果也可能不同,原因在于执行顺序的不同,分页过滤器一定要放到最后

  构造函数2:FilterList(Operator operator,List<Filter> rowFilters)

    Operator可选值  MUST_PASS_ALL   相当于所有条件之间用AND连接

            MUST_PASS_ONE   相当于所有条件之间用OR连接

  构造函数3:FilterList(Operator operator)  默认内部存在一个List,可以使用一个addFilter方法来实现添加过滤器 FilterList.addFilter(Filter filter)

行键过滤器:

 行过滤器:

  相当于rowkey > row3

  new RowFilter(CompareFilter.CompareOp.GREATER,new BinaryComparator(Bytes.toBytes("row3")))

 多行范围过滤器:

  构造函数: MultiRowRangeFilter(List<RowRange> list)

  

 行键前缀过滤器:

  

模糊行键过滤器:

  构造函数:  public FuzzyRowFilter(List<Pair<byte[],byte[]>> fuzzyKeysData)

     fuzzyKeysData是模糊匹配的表达式,包括行键  &  行键掩码

      行键 就是匹配的行键关键字

      行键掩码: 行键掩码长度必须与行键长度一致,需要模糊匹配的字符处标记为1,其他位置为0

    

  包含结尾过滤器:

    

  随机行过滤器:(对数据随机采样)

    

    遍历一行随机的数字小于0.5则保留

列过滤器:

  列族过滤器:

    

  列过滤器:

    

  列前缀过滤器

    

  多列前缀过滤器:

    

  列键过滤器: 只获取列名

    构造函数: KeyOnlyFilter()

  首次列键过滤器

    构造函数:FirstKeyOnlyFilter()

  列名范围过滤器:

  

  

单元格过滤器:

  时间戳过滤器:

    

装饰过滤器

  跳转过滤器

    行中由一个列要跳过则整行跳过

    

  全匹配过滤器:

    若果一个过滤器filterKeyvalue()方法返回false,整体Scan会终止,即发现不符合结果时,终止,后面不查询

    

如何在HBAse中使用过滤器:

    scan '表名',{FILETR => '过滤器'}

    例: scan 'table',{FILTER => "(PrefixFilter('row1'))"}

  

  

 

      

HBase笔记6 过滤器的更多相关文章

  1. HBase笔记--自定义filter

    自定义filter需要继承的类:FilterBase 类里面的方法调用顺序   方法名 作用 1 boolean filterRowKey(Cell cell) 根据row key过滤row.如果需要 ...

  2. HBase笔记--filter的使用

    HBASE过滤器介绍: 所有的过滤器都在服务端生效,叫做谓语下推(predicate push down),这样可以保证被过滤掉的数据不会被传送到客户端. 注意:        基于字符串的比较器,如 ...

  3. HBase笔记5(诊断)

    阻塞急救: RegionServer内存设置太小: 解决方案: 设置Region Server的内存要在conf/hbase-env.sh中添加export HBASE_REGIONSERVER_OP ...

  4. HBase 笔记2

    Hadoop 服务启动顺序: zookeeper ->journalnode->namenode -> zkfc -> datanode HBase Master WEB控制台 ...

  5. HBase学习之路 (十一)HBase的协过滤器

    协处理器—Coprocessor 1. 起源 Hbase 作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执 行求和.计数.排序等操作.比如,在旧版本的(<0.92)Hba ...

  6. HBase笔记:对HBase原理的简单理解

    早些时候学习hadoop的技术,我一直对里面两项技术倍感困惑,一个是zookeeper,一个就是Hbase了.现在有机会专职做大数据相关的项目,终于看到了HBase实战的项目,也因此有机会搞懂Hbas ...

  7. [Java] JSP笔记 - Filter 过滤器

    一.什么是Web过滤器 Servlet API 很久以前就已成为企业应用开发的基石,而 Servlet 过滤器则是对 J2EE 家族的相对较新的补充. Servlet 过滤器是可插入的 Web 组件, ...

  8. Hbase笔记——RowKey设计

    一).什么情况下使用Hbase 1)传统数据库无法承载高速插入.大量读取. 2)Hbase适合海量,但同时也是简单的操作. 3)成熟的数据分析主题,查询模式确立不轻易改变. 二).现实场景 1.电商浏 ...

  9. 学习笔记_过滤器应用_1(分ip统计网站的访问次数)

    分ip统计网站的访问次数 ip count 192.168.1.111 2 192.168.1.112 59 统计工作需要在所有资源之前都执行,那么就可以放到Filter中了. 我们这个过滤器不打算做 ...

随机推荐

  1. NO.2 安装配置

    检测当前系统下的jdk安装情况: [root@Centos 桌面]# rpm -qa | grep java tzdata-java-2012j-1.el6.noarch java-1.7.0-ope ...

  2. PowerDesigner数据库设计PDM基于Excel的导入导出总结

    经常用到pdm来管理代码,一两张表,手写一下还凑合,一旦表多了,就慌了.于是,开始学习用vbs进行Excel的来快速导入导出操作PDM就变得很紧急了,搜罗了网络上的很多vbs脚本,各有各的优点,但对于 ...

  3. C++ 智能指针七

    /* 智能指针weak_ptr */ #include <iostream> #include <string> #include <memory> /* weak ...

  4. 消息中间件系列二:RabbitMQ入门(基本概念、RabbitMQ的安装和运行)

    一.基本概念 1. AMQP AMQP,即Advanced Message Queuing Protocol,一个提供统一消息服务的应用层标准高级消息队列协议.支持不同语言和不同的产品 2. 生产者 ...

  5. mysql 表分区技术

    表分区,是指根据一定规则,将数据库中的一张表分解成多个更小的,容易管理的部分.从逻辑上看,只有一张表,但是底层却是由多个物理分区组成. 表分区有什么好处: a.分区表的数据可以分布在不同的物理设备上, ...

  6. xxl-job安装教程

    xxl-job是一个开源的分布式调度框架,其他类似的框架还有airflow,oozie等等,需要进行对比 https://github.com/xuxueli/xxl-job 1.首先git clon ...

  7. Ubuntu下安装sbt

    参考  ubuntu14 手动安装sbt 1.下载sbt通用平台压缩包:sbt-0.13.5.tgz http://www.scala-sbt.org/download.html 2.建立目录,解压文 ...

  8. JS精准倒计时(支持自定义模板)

    /** * 倒计时 Create By TuJia @2017.10.17 * 使用方法: * leftTimer.run(container[,theme][,callback]); * * 支持 ...

  9. 写在开始前---ajax中的会话过期与重新登录

    一般情况下,点击<a>链接或浏览器输入url时,请求到后端,服务器判断会话是否过期.过期,重定向到登录页,或返回登录页的页面.在ajax中,返回重定向无效,这个时候就需要自己在ajax的逻 ...

  10. C++学习 —— 灵活的继承特性

    0.继承与算法开发 在之前的笔记中,我展示了来自继承的威力.继承这种机制能够大幅度减小编码量,子类可以继承父类所有的变量,方法.利用这种机制,我们可以在其他人工作的基础上,完成有自己特色的部分.比如我 ...