hbase和mapreduce开发 WordCount

代码：

/**

* hello world by world  测试数据

* @author a

*

*/

public class DefinedMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

      @Override

　　　　protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)

　throws IOException, InterruptedException {

　　　　　　long num=1L;

　　　　　　if(null!=value){

　　　　　　　　String strValue=value.toString();

　　　　　　　　String arrValue[]=strValue.split(" ");

　　　　　　if(arrValue.length==4){

　　　　　　　　for(int i=0;i<arrValue.length;i++){

　　　　　　　　　　context.write(new Text(arrValue[i].toString()), new LongWritable(num));

　　　　　　　　　}

　　　　　　}

　　　　}

}

}

public class DefinedReduce extends TableReducer{

　　　　@Override

　　　　protected void reduce(Object arg0, Iterable values, Context arg2) throws IOException, InterruptedException {

　　　　　　if(null!=values){

　　　　　　　　long num=0l;

　　　　　　　　Iterator<LongWritable> it=values.iterator();

　　　　　　　　while(it.hasNext()){

　　　　　　　　　　LongWritable count=it.next();

　　　　　　　　　　num+=Long.valueOf(count.toString());

　　　　　　　　}

　　　　　　　　Put put=new Put(String.valueOf(arg0).getBytes());//设置行键

　　　　　　　　put.add("context".getBytes(), "count".getBytes(), String.valueOf(num).getBytes());

　　　　　　　　arg2.write(arg0, put);

　　　　　　}

　　　　}

}

package com.zhang.hbaseandmapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.HColumnDescriptor;

import org.apache.hadoop.hbase.HTableDescriptor;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

public class HBaseAndMapReduce {

    public static void createTable(String tableName){

        Configuration conf=HBaseConfiguration.create();

        HTableDescriptor htable=new HTableDescriptor(tableName);

        HColumnDescriptor hcol=new HColumnDescriptor("context");

        try {

            HBaseAdmin admin=new HBaseAdmin(conf);

            if(admin.tableExists(tableName)){

                System.out.println(tableName+" 已经存在");

                return;

            }

            htable.addFamily(hcol);

            admin.createTable(htable);

            System.out.println(tableName+" 创建成功");

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) {

        String tableName="workCount";

        Configuration conf=new Configuration();

        conf.set(TableOutputFormat.OUTPUT_TABLE, tableName);

        conf.set("hbase.zookeeper.quorum", "192.168.177.124:2181");

        createTable(tableName);

        try {

            Job job=new Job(conf);

            job.setJobName("hbaseAndMapReduce");

            job.setJarByClass(HBaseAndMapReduce.class);//jar的运行主类

            job.setOutputKeyClass(Text.class);//mapper key的输出类型

            job.setOutputValueClass(LongWritable.class);//mapper value的输出类型

            job.setMapperClass(DefinedMapper.class);

            job.setReducerClass(DefinedReduce.class);

            job.setInputFormatClass(org.apache.hadoop.mapreduce.lib.input.TextInputFormat.class);

            job.setOutputFormatClass(TableOutputFormat.class);

            FileInputFormat.addInputPath(job, new Path("/tmp/dataTest/data.text"));

            System.exit(job.waitForCompletion(true) ? 0:1);

            } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

打成jar包，放到linux主机服务器上

执行下面命令

[root@node4 Desktop]# hadoop jar hbaseAndMapR.jar com.zhang.hbaseandmapreduce.HBaseAndMapReduce

遇到问题：

注意：

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(LongWritable.class);

这两行代码设置的key,value类型，是设置mapper的输出key和value.

---------------------------------------------------------------------

》1：出现了三种异常

这个是在hadoop-root-namenode-node4.out出现的异常

（1）2017-01-07 06:53:33,493 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl: Memory usage of ProcessTree 14615 for container-id container_1483797859000_0001_01_000001: 80.9 MB of 2 GB physical memory used; 1.7 GB of 4.2 GB virtual memory used

（2）Detected pause in JVM or host machine (eg GC): pause of approximately 3999ms

（3）AttemptID:attempt_1462439785370_0055_m_000001_0 Timed out after 600 secs

同时hbase的日志中也出现异常

MB of 1 GB physical memory used; 812.3 MB of 2.1 GB virtual memory used

从日志上这些日志都是在说内存的问题，在看了hadoop的异常日志发现内存挺正常的，所以觉得应该不是hadoop的内存不够才导致出现这种异常，但是发现hadoop有超时的异常，所以我修改了mapper的超时时间;既然不是hadoop的内存问题那就应该是hbase的内存问题了，所以我修改了hbase的配置

<property>

    <name>mapred.task.timeout</name>

    <value>180000</value>

</property>

在habse--env.sh 修改了以下内容

# The maximum amount of heap to use. Default is left to JVM default.

export HBASE_HEAPSIZE=2G

# Uncomment below if you intend to use off heap cache. For example, to allocate 8G of

# offheap, set the value to "8G".

export HBASE_OFFHEAPSIZE=2G

再次运行成功

hbase和mapreduce开发 WordCount的更多相关文章

HBase概念学习（七）HBase与Mapreduce集成
这篇文章是看了HBase权威指南之后,依据上面的解说搬下来的样例,可是略微有些不一样. HBase与mapreduce的集成无非就是mapreduce作业以HBase表作为输入,或者作为输出,也或者作 ...
基于 Eclipse 的 MapReduce 开发环境搭建
文 / vincentzh 原文连接:http://www.cnblogs.com/vincentzh/p/6055850.html 上周末本来要写这篇的,结果没想到上周末自己环境都没有搭起来,运行起 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
【Hadoop学习之八】MapReduce开发
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 伪分布式:HDFS和YARN 伪分 ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...
[转] Hadoop MapReduce开发最佳实践（上篇）
前言本文是Hadoop最佳实践系列第二篇,上一篇为<Hadoop管理员的十个最佳实践>. MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop ...
hadoop程序MapReduce之WordCount
需求:统计一个文件中所有单词出现的个数. 样板:word.log文件中有hadoop hive hbase hadoop hive 输出:hadoop 2 hive 2 hbase 1 MapRedu ...
HBase设计与开发
HBase设计与开发 @(HBase) 适合HBase应用的场景成熟的数据分析主题,查询模式已经确定且不会轻易改变. 传统数据库无法承受负载. 简单的查询模式. 基本概念行健:是hbase表自带的 ...
MaxCompute Studio提升UDF和MapReduce开发体验
原文链接:http://click.aliyun.com/m/13990/ UDF全称User Defined Function,即用户自定义函数.MaxCompute提供了很多内建函数来满足用户的计 ...

随机推荐

CF985A Chess Placing【思维】
[链接]:CF985A [题意]:给你n和n/2个数ai,每个ai和奇数.偶数比较距离(注意选了奇数,偶数的距离就不要算了,反之同理),求最小的答案. [代码]: #include <iostr ...
Wannafly挑战赛22 A-计数器（gcd，裴蜀定理）
原题地址题目描述有一个计数器,计数器的初始值为0,每次操作你可以把计数器的值加上a1,a2,...,an中的任意一个整数,操作次数不限(可以为0次),问计数器的值对m取模后有几种可能. 输入描述: ...
洛谷——P1866 编号
P1866 编号题目描述太郎有N只兔子,现在为了方便识别它们,太郎要给他们编号.兔子们向太郎表达了它们对号码的喜好,每个兔子i想要一个整数,介于1和Maxnumber[i]之间(包括1和Maxnu ...
每天一个Linux命令（10）cp命令
cp命令用来将一个或多个源文件或者目录复制到指定的目的文件或目录.它可以将单个源文件复制成一个指定文件名的具体的文件或一个已经存在的目录下.cp命令还支持同时复制多个文件,当一次复制多个文件时,目标文 ...
HashMap和Hashtable 线程安全性
HashMap和Hashtable的比较是Java面试中的常见问题,用来考验程序员是否能够正确使用集合类以及是否可以随机应变使用多种思路解决问题.HashMap的工作原理.ArrayList与Vect ...
【bzoj1977】【严格次小生成树】倍增维护链上最大次大值
(上不了p站我要死了,侵权度娘背锅) Description 小 C 最近学了很多最小生成树的算法,Prim 算法.Kurskal 算法.消圈算法等等. 正当小 C 洋洋得意之时,小 P 又来泼小 C ...
Stage3D 中的PerspectiveMatrix3D
PerspectiveMatrix3D继承自Matrix3D.表示投影矩阵的功能类. 公式:用4X4矩阵向z=d的平面投影 public function perspectiveFieldOfView ...
UVa 816 (BFS求最短路)
/*816 - Abbott's Revenge ---代码完全参考刘汝佳算法入门经典 ---strchr() 用来查找某字符在字符串中首次出现的位置,其原型为:char * strchr (cons ...
docer中运行crontab
1 安装 sudo apt-get install cron 2 启动 start cron 3 列出所有本机启动crontab任务 ls -l /etc/init.d 列出所有自建cron任务 ...
自助采样法 bootstrap 与 0.632

hbase和mapreduce开发 WordCount

hbase和mapreduce开发 WordCount的更多相关文章

随机推荐

热门专题