大数据笔记（十四）——HBase的过滤器与Mapreduce

一. HBase过滤器

1、列值过滤器

2、列名前缀过滤器

3、多个列名前缀过滤器

4、行键过滤器
5、组合过滤器

package demo;

import javax.swing.RowFilter;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.ResultScanner;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.filter.ColumnPrefixFilter;

import org.apache.hadoop.hbase.filter.CompareFilter.CompareOp;

import org.apache.hadoop.hbase.filter.FilterList;

import org.apache.hadoop.hbase.filter.FilterList.Operator;

import org.apache.hadoop.hbase.filter.MultipleColumnPrefixFilter;

import org.apache.hadoop.hbase.filter.RegexStringComparator;

import org.apache.hadoop.hbase.filter.SingleColumnValueFilter;

import org.apache.hadoop.hbase.util.Bytes;

import org.junit.Test;

import net.spy.memcached.ops.OperationErrorType;

public class TestHBaseFilter {

    /**

     * 列值过滤器：SingleColumnValueFilter

     */

    @Test

    public void testSingleColumnValueFilter() throws Exception{

        //查询工资等于3000的员工

        //select * from emp where sal=3000

        //配置ZK的地址信息

        Configuration conf = new Configuration();

        conf.set("hbase.zookeeper.quorum", "192.168.153.11");

        //得到HTable客户端

        HTable client  = new HTable(conf, "emp");

        //定义一个列值过滤器

        SingleColumnValueFilter filter = new SingleColumnValueFilter(Bytes.toBytes("empinfo"),//列族

                Bytes.toBytes("sal"), //工资

                CompareOp.EQUAL,       // =

                Bytes.toBytes("3000"));//ֵ

        //定义一个扫描器

        Scan scan = new Scan();

        scan.setFilter(filter);

        //通过过滤器查询数据

        ResultScanner rs = client.getScanner(scan);

        for (Result result : rs) {

            String name = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("ename")));

            System.out.println(name);

        }

        client.close();

    }

    /**

     * 列名前缀过滤器：ColumnPrefixFilter

     */

    @Test

    public void testColumnPrefixFilter() throws Exception{

        //列名前缀过滤器

        //select ename from emp

        //配置ZK的地址信息

        Configuration conf = new Configuration();

        conf.set("hbase.zookeeper.quorum", "192.168.153.11");

        //得到HTable客户端

        HTable client  = new HTable(conf, "emp");

        //定义一个列名前缀过滤器

        ColumnPrefixFilter filter = new ColumnPrefixFilter(Bytes.toBytes("ename"));

        //定义一个扫描器

        Scan scan = new Scan();

        scan.setFilter(filter);

        //通过过滤器查询数据

        ResultScanner rs = client.getScanner(scan);

        for (Result result : rs) {

            String name = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("ename")));

            System.out.println(name);

        }

        client.close();

    }

    /**

     * 多个列名前缀过滤器：MultipleColumnPrefixFilter

     */

    @Test

    public void testMultipleColumnPrefixFilter() throws Exception{

        Configuration conf = new Configuration();

        conf.set("hbase.zookeeper.quorum", "192.168.153.11");

        HTable client  = new HTable(conf, "emp");

        //员工姓名 薪资

        byte[][] names = {Bytes.toBytes("ename"),Bytes.toBytes("sal")};

        MultipleColumnPrefixFilter filter = new MultipleColumnPrefixFilter(names);

        Scan scan = new Scan();

        scan.setFilter(filter);

        ResultScanner rs = client.getScanner(scan);

        for (Result result : rs) {

            String name = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("ename")));

            String sal = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("sal")));

            System.out.println(name+"\t"+sal);

        }

        client.close();

    }

    /**

     * 行键过滤器：RowFilter

     */

    @Test

    public void testRowFilter() throws Exception{

        Configuration conf = new Configuration();

        conf.set("hbase.zookeeper.quorum", "192.168.153.11");

        HTable client  = new HTable(conf, "emp");

        //定义一个行键过滤器

        org.apache.hadoop.hbase.filter.RowFilter filter = new org.apache.hadoop.hbase.filter.RowFilter(

                CompareOp.EQUAL, //=

                new RegexStringComparator("7839"));

        //定义一个扫描器

        Scan scan = new Scan();

        scan.setFilter(filter);

        //通过过滤器查询数据

        ResultScanner rs = client.getScanner(scan);

        for (Result result : rs) {

            String name = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("ename")));

            String sal = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("sal")));

            System.out.println(name+"\t"+sal);

        }

        client.close();

    }

    /**

     * 组合过滤器

     */

    @Test

    public void testFilter() throws Exception{

        Configuration conf = new Configuration();

        conf.set("hbase.zookeeper.quorum", "192.168.153.11");

        HTable client  = new HTable(conf, "emp");

        //工资=3000

        SingleColumnValueFilter filter1 = new SingleColumnValueFilter(Bytes.toBytes("empinfo"),

                Bytes.toBytes("sal"), CompareOp.EQUAL, Bytes.toBytes("3000"));

        //名字

        ColumnPrefixFilter filter2 = new ColumnPrefixFilter(Bytes.toBytes("ename"));

        FilterList filterList = new FilterList(Operator.MUST_PASS_ALL);

        filterList.addFilter(filter1);

        filterList.addFilter(filter2);

        Scan scan = new Scan();

        scan.setFilter(filterList);

        ResultScanner rs = client.getScanner(scan);

        for (Result result : rs) {

            String name = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("ename")));

            String sal = Bytes.toString(result.getValue(Bytes.toBytes("empinfo"), Bytes.toBytes("sal")));

            System.out.println(name+"\t"+sal);

        }

        client.close();

    }

}

二. HDFS上的mapreduce

建立表

create 'word','content'

put 'word','1','content:info','I love Beijing'

put 'word','2','content:info','I love China'

put 'word','3','content:info','Beijing is the capital of China'

create 'stat','content'

注意：export HADOOP_CLASSPATH=$HBASE_HOME/lib/*:$CLASSPATH

WordCountMapper.java

package wc;

import java.io.IOException;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableMapper;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

//K2 V2

//没有k1和v1,因为输入的就是表中一条记录

public class WordCountMapper extends TableMapper<Text, IntWritable>{

    @Override

    protected void map(ImmutableBytesWritable key, Result value,

            Context context)throws IOException, InterruptedException {

        //key和value代表从表中输入的一条记录

        //key:行键 value:数据

        String data = Bytes.toString(value.getValue(Bytes.toBytes("content"), Bytes.toBytes("info")));

        //分词

        String[] words = data.split(" ");

        for (String w : words) {

            context.write(new Text(w), new IntWritable(1));

        }

    }

}

WordCountReducer.java

package wc;

import java.io.IOException;

import org.apache.hadoop.hbase.client.Mutation;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

import org.apache.hadoop.hbase.mapreduce.TableReducer;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

//k3 v3 代表输出一条记录

public class WordCountReducer extends TableReducer<Text, IntWritable, ImmutableBytesWritable>{

    @Override

    protected void reduce(Text k3, Iterable<IntWritable> v3,Context context)

            throws IOException, InterruptedException {

        // 求和

        int total = 0;

        for (IntWritable v : v3) {

            total = total + v.get();

        }

        //构造一个put对象

        Put put = new Put(Bytes.toBytes(k3.toString()));

        put.add(Bytes.toBytes("content"),//列族

                Bytes.toBytes("result"),//列

                Bytes.toBytes(String.valueOf(total)));

        //输出

        context.write(new ImmutableBytesWritable(Bytes.toBytes(k3.toString())), //把这个单词作为key，就是输出的行键

                put);//表中的一条记录

    }

}

WordCountMain.java

package wc;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;

import org.apache.hadoop.hbase.util.Bytes;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

public class WordCountMain {

    public static void main(String[] args) throws Exception {

        //获取ZK的地址

        //指定的配置信息：Zookeeper

        Configuration conf = new Configuration();

        conf.set("hbase.zookeeper.quorum", "192.168.153.11");

        //创建一个任务

        Job job = Job.getInstance(conf);

        job.setJarByClass(WordCountMain.class);

        //定义一个扫描器读取：content:info

        Scan scan = new Scan();

        //可以使用filter

        scan.addColumn(Bytes.toBytes("content"), Bytes.toBytes("info"));

        //使用工具类设置Mapper

        TableMapReduceUtil.initTableMapperJob(

                Bytes.toBytes("word"), //输入的表

                scan, //扫描器，只读取需要处理的数据

                WordCountMapper.class,

                Text.class, //key

                IntWritable.class,//value

                job);

        //使用工具类Reducer

        TableMapReduceUtil.initTableReducerJob("stat", WordCountReducer.class, job);

        job.waitForCompletion(true);

    }

}

结果：

大数据笔记（十四）——HBase的过滤器与Mapreduce的更多相关文章

大数据笔记（四）——操作HDFS
一.Web Console:端口50070 二.HDFS的命令行操作 (一)普通操作命令 HDFS 操作命令帮助信息: hdfs dfs + Enter键常见命令 1. -mkdir 在HDFS上 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
《C++游戏开发》笔记十四平滑过渡的战争迷雾(二) 实现：真正的迷雾来了
本系列文章由七十一雾央编写,转载请注明出处. http://blog.csdn.net/u011371356/article/details/9712321 作者:七十一雾央新浪微博:http:/ ...
跟上节奏大数据时代十大必备IT技能
跟上节奏大数据时代十大必备IT技能新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT ...
CentOS6安装各种大数据软件第四章：Hadoop分布式集群配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...
大数据笔记（十三）——常见的NoSQL数据库之HBase数据库（A）
一.HBase的表结构和体系结构 1.HBase的表结构把所有的数据存到一张表中.通过牺牲表空间,换取良好的性能. HBase的列以列族的形式存在.每一个列族包括若干列 2.HBase的体系结构主 ...
跟上节奏大数据时代十大必备IT技能（转）
新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最 ...
大数据时代数据库-云HBase架构&生态&实践
业务的挑战存储量量/并发计算增大现如今大量的中小型公司并没有大规模的数据,如果一家公司的数据量超过100T,且能通过数据产生新的价值,基本可以说是大数据公司了 .起初,一个创业公司的基本思路就是首 ...
大数据核心知识点：Hbase、Spark、Hive、MapReduce概念理解，特点及机制
今天,上海尚学堂大数据培训班毕业的一位学生去参加易普软件公司面试,应聘的职位是大数据开发.面试官问了他10个问题,主要集中在Hbase.Spark.Hive和MapReduce上,基础概念.特点.应用 ...

随机推荐

netstat -anop|more 查看网络队列
nux下netstat --timers / -o详解及keepalive相关第一列,一般有一下几种状态: keepalive - #表示是keepalive的时间计时 on - #表示是重发(re ...
ajax异步加载分页评论带点赞功能
<script type="text/javascript" src="__ROOT__/Index/Tpl/Public/js/jquery.js"&g ...
3.golang 的注释
package main import ( "fmt" "math" ) func main() { fmt.Println(pi(5000)) } // pi ...
go & nssm
参考用go写windows系统服务
linux的管道 |和grep命令以及一些其他命令（diff,echo,cat,date,time,wc,which,whereis,gzip,zcat,unzip,sort）
linux提供管道符号“|”,作用是命令1的输出内容作为命令2的输入内容.通常与grep命令一起使用. 格式:命令1 |命令2 grep命令:全称为global regular expression ...
JS 的 Array 和String 常混淆方法
知识一: 1.slice() 提取字符串 slice[ start, end) 如果参数为负数,表示从尾部开始算起. 2.subString() 提取字符串 3.subStr() 提取字符串 subS ...
理解PHP面向对象三大特性
一.封装性目的:保护类里面的数据,让类更安全, protected和private只能在类中或子类访问,通过public提供有限的接口供外部访问,封装是控制访问,而不是拒绝访问封装关键字:publ ...
SpringMVC+Spring4+Mybatis3
http://blog.csdn.net/jiuqiyuliang/article/details/45286191 http://blog.csdn.net/jiuqiyuliang/article ...
百度网盘SVIP不限速Mac破解版（亲测可用）
百度网盘SVIP不限速Mac破解版(亲测可用),按照教程一步一步来就可以了,链接如下: https://mac.orsoon.com/Mac/166358.html?id=ODY0MDA2Jl8mMT ...
ES6中class的实现原理
一.在ES6以前实现类和继承实现类的代码如下: function Person(name, age) { this.name = name; this.age = age; } Person.pro ...

大数据笔记（十四）——HBase的过滤器与Mapreduce

大数据笔记（十四）——HBase的过滤器与Mapreduce的更多相关文章

随机推荐

热门专题