Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现

流量汇总程序需求

统计每一个用户（手机号）锁耗费的总上行流量、下行流量、总流量。

流程剖析

阶段：map

读取一行数据，切分字段，

抽取手机号，上行流量，下行流量

context.write(手机号，bean)

阶段：reduce

汇总遍历每个bean，将其中的上行流量，下行流量分别累加，得到一个新的bean

context.write(手机号，新bean)；

代码实现

1.定义一个phonebean：

package com.Rz_Lee.hadoop.mr.flowsum;

import org.apache.hadoop.io.Writable;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

/**

 * Created by Rz_Lee on 2017/8/15.

 */

public class FlowBean implements Writable{

    private long upFlow;

    private long dFlow;

    private long sumFlow;

    //反序列化时，需要反射调用空参构造函数，所以要显示定义一个

    public FlowBean() {

    }

    public FlowBean(long upFlow, long dFlow) {

        this.upFlow = upFlow;

        this.dFlow = dFlow;

        this.sumFlow = dFlow+upFlow;

    }

    public long getUpFlow() {

        return upFlow;

    }

    public void setUpFlow(long upFlow) {

        this.upFlow = upFlow;

    }

    public long getdFlow() {

        return dFlow;

    }

    public void setdFlow(long dFlow) {

        this.dFlow = dFlow;

    }

    public long getSumFlow() {

        return sumFlow;

    }

    @Override

    public String toString() {

        return upFlow+"\t"+dFlow+"\t"+sumFlow;

    }

    /**

     * 序列化方法

     * @param dataOutput

     * @throws IOException

     */

    public void write(DataOutput dataOutput) throws IOException {

        dataOutput.writeLong(upFlow);

        dataOutput.writeLong(dFlow);

        dataOutput.writeLong(sumFlow);

    }

    /**

     * 反序列化方法

     * 注意：反序列化的顺序和序列化的顺序一致

     * @param dataInput

     * @throws IOException

     */

    public void readFields(DataInput dataInput) throws IOException {

        upFlow = dataInput.readLong();

        dFlow = dataInput.readLong();

        sumFlow = dataInput.readLong();

    }

}

2.实现类：

package com.Rz_Lee.hadoop.mr.flowsum;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

 * Created by Rz_Lee on 2017/8/15.

 */

public class FlowCount {

    static class FlowCountMapper extends Mapper<LongWritable,Text,Text,FlowBean>{

        @Override

        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            //将一行内容转为String

            String line = value.toString();

            //切分字段

            String[] fields = line.split("\t");

            //取出手机号

            String phoneNbr = fields[1];

            //取出上行和下行流量

            Long upFlow =Long.parseLong(fields[fields.length-3]);

            Long dFlow =Long.parseLong(fields[fields.length-2]);

            context.write(new Text(phoneNbr),new FlowBean(upFlow,dFlow));

        }

    }

    static class FlowCountReducer extends Reducer<Text,FlowBean,Text,FlowBean>

    {

        //<135,bean1><135,bean2><135,bean3>

        @Override

        protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {

            long sum_upFlow = 0;

            long sum_dFlow = 0;

            //遍历所有Bean，将其中的上行流量，下行流量分别累加

            for(FlowBean bean:values){

                sum_upFlow+=bean.getUpFlow();

                sum_dFlow+=bean.getdFlow();

            }

            FlowBean resultBean = new FlowBean(sum_upFlow, sum_dFlow);

            context.write(key,resultBean);

        }

    }

    public static void main(String[] args) throws Exception{

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        /*conf.set("mapreduce.framework.name","yarn");

        conf.set("yarn.resourcemanager.hostname","srv01");*/

        /*job.setJar("/usr/hadoop/wc.jar");*/

        //指定本程序的jar包所在的本地路径

        job.setJarByClass(FlowCount.class);

        //指定本业务job使用的mapper/reducer业务类

        job.setMapperClass(FlowCountMapper.class);

        job.setReducerClass(FlowCountReducer.class);

        //指定mapper输出数据的KV类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(FlowBean.class);

        //指定最终输出的数据的KV类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(FlowBean.class);

        //指定job的输入原始文件所在目录

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        //指定job的输出结果所在目录

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //将job中配置的相关参数，以及job所用的java类所在的jar包，提交给yarn去运行

        /*job.submit();*/

        boolean res = job.waitForCompletion(true);

        System.exit(res?0:1);

    }

}

3.数据来源phone.txt：

1363157985123	13726232222	50-FD-07-A4-72-B8:CMCC	120.196.100.82　　i.cnblogs.com		24  27	2586	24681	200

1363157995456	13826547777	5C-0E-88-C7-F2-E0:CMCC	10.197.40.4			4	0	364	0	200

1363157991789	13926438888	20-10-7A-28-CC-0A:CMCC	120.197.100.99			2	4	232	2151	200

1363154400101	13926259999	CC-0E-8B-8B-B1-50:CMCC	120.196.40.4			4	0	440	0	200

1363157993121	18211575555	94-17-AC-CD-E6-18:CMCC-EASY	120.196.100.99	www.bilibili.com	视频网站	20	15	8585	2106	200

4.把Flowcount项目导成jar包，连同数据来源一起上传到HDFS，运行 hadoop jar wordcount.jar 包.类名 /源文件路径 /输出数据文件夹

打开浏览器输入：yarn节点的IP:8088 ，在网页上可以看见整个Job的运行情况。

Hadoop- 流量汇总程序之如何实现hadoop的序列化接口及代码实现的更多相关文章

Hadoop案例（九）流量汇总案例
流量汇总程序案例 1.自定义输出统计手机号耗费的总上行流量.下行流量.总流量(序列化) 1)需求: 统计每一个手机号耗费的总上行流量.下行流量.总流量 2)数据准备 phone_date.txt - ...
hadoop记录-Hadoop参数汇总
Hadoop参数汇总 linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 ...
[转]Hadoop参数汇总
出自:https://segmentfault.com/a/1190000000709725 Hadoop参数大全主要配置文件: core hdfs yarn mapred 重要性表示如下: 重要 ...
Hadoop参数汇总
linux参数以下参数最好优化一下: 文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区设置合理的预读取缓冲区 Linux的内核的IO ...
hadoop开发MapReduce程序
准备工作: 1.设置HADOOP_HOME,指向hadoop安装目录 2.在window下,需要把hadoop/bin那个目录替换下,在网上搜一个对应版本的 3.如果还报org.apache.hado ...
如何在Hadoop的MapReduce程序中处理JSON文件
简介: 最近在写MapReduce程序处理日志时,需要解析JSON配置文件,简化Java程序和处理逻辑.但是Hadoop本身似乎没有内置对JSON文件的解析功能,我们不得不求助于第三方JSON工具包. ...
MapReduce扩展：应用程序如何运行于Hadoop Yarn之上
1. 背景 “应用程序运行于Hadoop Yarn之上”的需求来源于微博运维数据平台中的调度系统,即调度系统中的任务需要运行于Hadoop Yarn之上.这里的应用程序可以简单理解为一个普通的进程 ...
用PHP编写Hadoop的MapReduce程序
用PHP编写Hadoop的MapReduce程序 Hadoop流虽然Hadoop是用Java写的,但是Hadoop提供了Hadoop流,Hadoop流提供一个API, 允许用户使用任何语言编 ...
Hadoop之MapReduce程序应用三
摘要:MapReduce程序进行数据去重. 关键词:MapReduce 数据去重数据源:人工构造日志数据集log-file1.txt和log-file2.txt. log-file1.txt内容 ...

随机推荐

[javase学习笔记]-8.5 statickeyword的使用场景
这一节我们来看一下在我们开发的过程中,在什么时候我们要用到statickeyword进行静态修饰. 我们这里所说的静态.无非就是两种.一种是静态变量,一种是静态函数,我们分这两种情况进行说明stati ...
Android 基于Retrofit+Rxjava搭建的简单易用的网络架构
装逼開始之前,为大家推荐两篇文章,用来更好的学习Retrofit和Rxjava. 在这里我们要感谢互联网装逼行业勇于献身,甘于奉献的的大婶们. 我仅代表个人,给您们跪舔了. Retrofit:Retr ...
学写jQuery插件开发方法
jQuery如此流行,各式各样的jQuery插件也是满天飞.你有没有想过把自己的一些常用的JS功能也写成jQuery插件呢?如果你的答案是肯定的,那么来吧!和我一起学写jQuery插件吧! 很多公 ...
（九）jQuery中的动画(载)
原文链接:http://blog.csdn.net/zfy865628361/article/details/50358367 首先,用jQuery做动画效果要求在标准模式下,否则可能会引起动画抖动. ...
关于PM的认识
1 我眼中的PM 1.1 人云“一个管理,半个专家”,我说“一个管理,两个专家” 如今,我发现我们不得不面对这样一个现实——角色兼职.我习惯上把项目分为三类:性命攸关的项目(涉及到人身安全的项目,如铁 ...
cartographer Ubuntu16.04 ros环境配置
首先要正确安装 ROS ,然后第12步应注意,proto的版本是个关键容易出错. 1.添加ROS源http:/packages.ros.org/ros/ubuntu xenial main ( ...
php图片本身有错无法显示的解决办法
1.取消所有错误提示 2.如果没有报错,在header前(即设置输出格式前)使用ob_clean();
python sax解析xml
#books.xml<catalog> <book isbn="0-596-00128-2"> <title>Python & XML& ...
ubuntu apt 主要命令及参数
1. apt-cache search package 搜索安装包 2. apt-cache search all 搜索所有安装包 3. apt-cache show package 显示安装包信息 ...
jquery实现重置
$('#reset').click(function(){ $('#info_frm')[0].reset(); });