就用单词计数这个例子,需要统计的单词存在HBase中的word表,MapReduce执行的时候从word表读取数据,统计结束后将结果写入到HBase的stat表中。

  1、在eclipse中建立一个hadoop项目,然后从hbase的发布包中引入如下jar

hbase-0.94.13.jar
zookeeper-3.4.5.jar
protobuf-java-2.4.0a.jar
guava-11.0.2.jar

  2、在HBase中建立相关的表和初始化测试数据                                         

package cn.luxh.app;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List; import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Put; /**
*
* @author Luxh
*
*/
public class InitData { public static void main(String[] args) throws IOException {
//创建一个word表,只有一个列族content
HBaseUtil.createTable("word","content"); //获取word表
HTable htable = HBaseUtil.getHTable("word");
htable.setAutoFlush(false); //创建测试数据
List<Put> puts = new ArrayList<Put>(); Put put1 = HBaseUtil.getPut("1","content",null,"The Apache Hadoop software library is a framework");
Put put2 = HBaseUtil.getPut("2","content",null,"The common utilities that support the other Hadoop modules");
Put put3 = HBaseUtil.getPut("3","content",null,"Hadoop by reading the documentation");
Put put4 = HBaseUtil.getPut("4","content",null,"Hadoop from the release page");
Put put5 = HBaseUtil.getPut("5","content",null,"Hadoop on the mailing list"); puts.add(put1);
puts.add(put2);
puts.add(put3);
puts.add(put4);
puts.add(put5); //提交测试数据
htable.put(puts);
htable.flushCommits();
htable.close();
//创建stat表,只有一个列祖result
HBaseUtil.createTable("stat","result");
}
}

  1)代码中的HBaseUtil工具类参考:http://www.cnblogs.com/luxh/archive/2013/04/16/3025172.html

  2)执行上面的程序后,查看HBase中是否已创建成功

hbase(main):012:0> list
TABLE
stat
word
2 row(s) in 0.4730 seconds

  3)查看word中的测试数据

hbase(main):005:0> scan 'word'
ROW COLUMN+CELL
1 column=content:, timestamp=1385447676510, value=The Apache Hadoo
p software library is a framework
2 column=content:, timestamp=1385447676510, value=The common utili
ties that support the other Hadoop modules
3 column=content:, timestamp=1385447676510, value=Hadoop by readin
g the documentation
4 column=content:, timestamp=1385447676510, value=Hadoop from the
release page
5 column=content:, timestamp=1385447676510, value=Hadoop on the ma
iling list
5 row(s) in 5.7810 seconds

  3、MapReduce程序                                                                          

package cn.luxh.app;

import java.io.IOException;
import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Scan;
import org.apache.hadoop.hbase.io.ImmutableBytesWritable;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableMapper;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job; /**
* @author Luxh
*
*/
public class WordStat { /**
* TableMapper<Text,IntWritable> Text:输出的key类型,IntWritable:输出的value类型
*/
public static class MyMapper extends TableMapper<Text,IntWritable>{ private static IntWritable one = new IntWritable(1);
private static Text word = new Text(); @Override
protected void map(ImmutableBytesWritable key, Result value,
Context context)
throws IOException, InterruptedException {
//表里面只有一个列族,所以我就直接获取每一行的值
String words = Bytes.toString(value.list().get(0).getValue());
StringTokenizer st = new StringTokenizer(words);
while (st.hasMoreTokens()) {
String s = st.nextToken();
word.set(s);
context.write(word, one);
}
}
} /**
* TableReducer<Text,IntWritable> Text:输入的key类型,IntWritable:输入的value类型,ImmutableBytesWritable:输出类型
*/
public static class MyReducer extends TableReducer<Text,IntWritable,ImmutableBytesWritable>{ @Override
protected void reduce(Text key, Iterable<IntWritable> values,
Context context)
throws IOException, InterruptedException { int sum = 0;
for(IntWritable val:values) {
sum+=val.get();
}
//添加一行记录,每一个单词作为行键
Put put = new Put(Bytes.toBytes(key.toString()));
//在列族result中添加一个标识符num,赋值为每个单词出现的次数
//String.valueOf(sum)先将数字转化为字符串,否则存到数据库后会变成\x00\x00\x00\x这种形式
//然后再转二进制存到hbase。
put.add(Bytes.toBytes("result"), Bytes.toBytes("num"), Bytes.toBytes(String.valueOf(sum)));
context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())),put);
}
} public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException { Configuration conf = HBaseConfiguration.create();
Job job = new Job(conf,"wordstat");
job.setJarByClass(Blog.class); Scan scan = new Scan();
//指定要查询的列族
scan.addColumn(Bytes.toBytes("content"),null);
//指定Mapper读取的表为word
TableMapReduceUtil.initTableMapperJob("word", scan, MyMapper.class, Text.class, IntWritable.class, job);
     //指定Reducer写入的表为stat
TableMapReduceUtil.initTableReducerJob("stat", MyReducer.class, job);
System.exit(job.waitForCompletion(true)?0:1);
}
}

  等待程序执行结束,查看统计表stat

hbase(main):014:0> scan 'stat'
ROW COLUMN+CELL
Apache column=result:num, timestamp=1385449492309, value=1
Hadoop column=result:num, timestamp=1385449492309, value=5
The column=result:num, timestamp=1385449492309, value=2
a column=result:num, timestamp=1385449492309, value=1
by column=result:num, timestamp=1385449492309, value=1
common column=result:num, timestamp=1385449492309, value=1
documentation column=result:num, timestamp=1385449492309, value=1
framework column=result:num, timestamp=1385449492309, value=1
from column=result:num, timestamp=1385449492309, value=1
is column=result:num, timestamp=1385449492309, value=1
library column=result:num, timestamp=1385449492309, value=1
list column=result:num, timestamp=1385449492309, value=1
mailing column=result:num, timestamp=1385449492309, value=1
modules column=result:num, timestamp=1385449492309, value=1
on column=result:num, timestamp=1385449492309, value=1
other column=result:num, timestamp=1385449492309, value=1
page column=result:num, timestamp=1385449492309, value=1
reading column=result:num, timestamp=1385449492309, value=1
release column=result:num, timestamp=1385449492309, value=1
software column=result:num, timestamp=1385449492309, value=1
support column=result:num, timestamp=1385449492309, value=1
that column=result:num, timestamp=1385449492309, value=1
the column=result:num, timestamp=1385449492309, value=4
utilities column=result:num, timestamp=1385449492309, value=1
24 row(s) in 0.7970 seconds

MapReduce从HBase读写数据简单示例的更多相关文章

  1. IO流读写数据简单示例

    常用的字节输入流有:InputStream ,FileInputStream,BufferedInputStream 常用的字节输出流有:OutputStream,FileOutputStream,B ...

  2. HBase读写数据的详细流程及ROOT表/META表介绍

    一.HBase读数据流程 1.Client访问Zookeeper,从ZK获取-ROOT-表的位置信息,通过访问-ROOT-表获取.META.表的位置,然后确定数据所在的HRegion位置: 2.Cli ...

  3. HtmlAgilityPack抓取搜房网数据简单示例

    HtmlAgilityPack是一个开源的解析HTML元素的类库,最大的特点是可以通过XPath来解析HMTL,如果您以前用C#操作过XML,那么使用起HtmlAgilityPack也会得心应手.目前 ...

  4. django admin 导出数据简单示例

    借鉴博客:https://www.lijinlong.cc/django/djxs/2101.html 具体代码实现: class TipReport(admin.ModelAdmin): actio ...

  5. js抽奖概率随机取出数据(简单示例)

    在平常活动开发当中,经常会碰到抽奖等类似的js功能,那么下面我们随机取数组中的一条来展示出来. ( 一 ) 无概率问题 var gift_ = ['apple pro一台','iphoneX一台',' ...

  6. HBase读写的几种方式(二)spark篇

    1. HBase读写的方式概况 主要分为: 纯Java API读写HBase的方式: Spark读写HBase的方式: Flink读写HBase的方式: HBase通过Phoenix读写的方式: 第一 ...

  7. 【转帖】HBase读写的几种方式(二)spark篇

    HBase读写的几种方式(二)spark篇 https://www.cnblogs.com/swordfall/p/10517177.html 分类: HBase undefined 1. HBase ...

  8. HBase学习之路 (五)MapReduce操作Hbase

    MapReduce从HDFS读取数据存储到HBase中 现有HDFS中有一个student.txt文件,格式如下 95002,刘晨,女,19,IS 95017,王风娟,女,18,IS 95018,王一 ...

  9. HBase Java简单示例

    Hbase采用Java实现,原生客户端也是Java实现,其他语言需要通过thritf接口服务间接访问Hbase的数据. Hbase作为大数据存储数据库,其写能力非常强,加上Hbase本身就脱胎于Had ...

随机推荐

  1. 解决:错误 14274: 无法添加、更新或删除 SQL 服务器上的作业的问题一例

      今天在修改 SQL服务器上 以前的作业任务,打算把作业的执行时间修改成新的时间,结果修改好点确定, 结果出现了以下错误! --------------------------- Microsoft ...

  2. eclipse svn subclipse下载地址

    http://subclipse.tigris.org/servlets/ProjectDocumentList?folderID=2240 Eclipse 3.x Subclipse release ...

  3. SQL Server 2008维护计划 出错 无法实现自动备份

    ,MaintenancePlan.Subplan_1,错误,0,HBZGQ\TESTSQLSERVER,MaintenancePlan.Subplan_1,(作业结果),,该作业失败. 用户 sa 调 ...

  4. [转]使用 Minidumps 和 Visual Studio .NET 进行崩溃后调试

    本文关键字:Minidumps, Windows, SEH, VisualC, .NET 摘要 本文讲述了 minidumps 是怎样工作的.当你的程序崩溃的时候应该如何生成它们.以及如何在 Visu ...

  5. 【NCDC数据】获取 hadoop权威指南3中的NCDC数据

    vi getNcdcBigData.sh 内容如下: #!/bin/bash for i in {1901..2014} do cd /home/xxxx/hapood/ncdc wget --exe ...

  6. 【Spring学习笔记-6】关于@Autowired与@Scope(BeanDefination.SCOPE_PROTOTYPE)

    当类被@Scope(BeanDefination.SCOPE_PROTOTYPE)修饰时,说明每次依赖注入时,都会产生新的对象,具体可参见文章:http://blog.csdn.net/gst6062 ...

  7. CSS3字体图标

    网址:http://icomoon.io/http://iconfont.cn/  阿里巴巴字体库 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1 ...

  8. final specifier (since C++11)

    Specifies that a virtual function cannot be overridden in a derived class or that a class cannot be  ...

  9. $.getJSON 返回值、AJAX异步调用步骤

    //首先要判断用户录入的手机号是不是中国移动的,不是直接给出提示,并终止登录 if($("#cmUsername1").val().isMobile())//手机号码 { jQue ...

  10. 真假云主机,VPS资料集合

    资料来源: http://www.west263.com/services/CloudHost/pk.asp?ads=baidu912 用"云里雾里"形容中小企业用户对云计算的理解 ...