需求

统计每一个手机号耗费的总上行流量、下行流量、总流量。

输入数据：

1    13736230513    192.196.100.1    www.atguigu.com    2481    24681    200

2    13846544121    192.196.100.2            264    0    200

3     13956435636    192.196.100.3            132    1512    200

4     13966251146    192.168.100.1            240    0    404

5     18271575951    192.168.100.2    www.atguigu.com    1527    2106    200

6     84188413    192.168.100.3    www.atguigu.com    4116    1432    200

7     13590439668    192.168.100.4            1116    954    200

8     15910133277    192.168.100.5    www.hao123.com    3156    2936    200

9     13729199489    192.168.100.6            240    0    200

10     13630577991    192.168.100.7    www.shouhu.com    6960    690    200

11     15043685818    192.168.100.8    www.baidu.com    3659    3538    200

12     15959002129    192.168.100.9    www.atguigu.com    1938    180    500

13     13560439638    192.168.100.10            918    4938    200

14     13470253144    192.168.100.11            180    180    200

15     13682846555    192.168.100.12    www.qq.com    1938    2910    200

16     13992314666    192.168.100.13    www.gaga.com    3008    3720    200

17     13509468723    192.168.100.14    www.qinghua.com    7335    110349    404

18     18390173782    192.168.100.15    www.sogou.com    9531    2412    200

19     13975057813    192.168.100.16    www.baidu.com    11058    48243    200

20     13768778790    192.168.100.17            120    120    200

21     13568436656    192.168.100.18    www.alibaba.com    2481    24681    200

22     13568436656    192.168.100.19            1116    954    200

输入数据格式：

期望输出数据格式：

需求分析

编写MapReduce程序

流量统计的Bean对象：

package com.mcq;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.Writable;

// 1 实现writable接口

public class FlowBean implements Writable {

	private long upFlow;

	private long downFlow;

	private long sumFlow;

	// 2 反序列化时，需要反射调用空参构造函数，所以必须有

	public FlowBean() {

		super();

	}

	public FlowBean(long upFlow, long downFlow) {

		super();

		this.upFlow = upFlow;

		this.downFlow = downFlow;

		this.sumFlow = upFlow + downFlow;

	}

	// 3 写序列化方法

	@Override

	public void write(DataOutput out) throws IOException {

		out.writeLong(upFlow);

		out.writeLong(downFlow);

		out.writeLong(sumFlow);

	}

	// 4 反序列化方法

	// 5 反序列化方法读顺序必须和写序列化方法的写顺序必须一致

	@Override

	public void readFields(DataInput in) throws IOException {

		this.upFlow = in.readLong();

		this.downFlow = in.readLong();

		this.sumFlow = in.readLong();

	}

	// 6 编写toString方法，方便后续打印到文本

	@Override

	public String toString() {

		return upFlow + "\t" + downFlow + "\t" + sumFlow;

	}

	public long getUpFlow() {

		return upFlow;

	}

	public void setUpFlow(long upFlow) {

		this.upFlow = upFlow;

	}

	public long getDownFlow() {

		return downFlow;

	}

	public void setDownFlow(long downFlow) {

		this.downFlow = downFlow;

	}

	public long getSumFlow() {

		return sumFlow;

	}

	public void setSumFlow(long sumFlow) {

		this.sumFlow = sumFlow;

	}

}

Mapper类：

package com.mcq;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import com.sun.jersey.spi.StringReader.ValidateDefaultValue;

public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean> {

	Text k = new Text();

	FlowBean v = new FlowBean();

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context)

			throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		// 1 获取一行

		String line = value.toString();

		// 2 切割字段

		String[] fields = line.split("\t");

		// 3 封装对象

		// 取出手机号码

		String phoneNum = fields[1];

		// 取出上行流量和下行流量

		long upFlow = Long.parseLong(fields[fields.length - 3]);

		long downFlow = Long.parseLong(fields[fields.length - 2]);

		k.set(phoneNum);

		v.setUpFlow(upFlow);

		v.setDownFlow(downFlow);

		// 4 写出

		context.write(k, v);

	}

}

Reducer类：

package com.mcq;

import java.io.IOException;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class FlowCountReducer extends Reducer<Text, FlowBean, Text, FlowBean> {

	@Override

	protected void reduce(Text key, Iterable<FlowBean> values, Reducer<Text, FlowBean, Text, FlowBean>.Context context)

			throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		long sum_upFlow = 0;

		long sum_downFlow = 0;

		// 1 遍历所用bean，将其中的上行流量，下行流量分别累加

		for (FlowBean flowBean : values) {

			sum_upFlow += flowBean.getUpFlow();

			sum_downFlow += flowBean.getDownFlow();

		}

		// 2 封装对象

		FlowBean resultBean = new FlowBean(sum_upFlow, sum_downFlow);

		// 3 写出

		context.write(key, resultBean);

	}

}

驱动类：

package com.mcq;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowsumDriver {

	public static void main(String[] args) throws IllegalArgumentException, IOException, ClassNotFoundException, InterruptedException {

		// 输入输出路径需要根据自己电脑上实际的输入输出路径设置

		args = new String[] { "e:/mrtest/phone_data.txt", "e:/mrtest/output" };

		// 1 获取配置信息，或者job对象实例

		Configuration configuration = new Configuration();

		Job job = Job.getInstance(configuration);

		// 6 指定本程序的jar包所在的本地路径

		job.setJarByClass(FlowsumDriver.class);

		// 2 指定本业务job要使用的mapper/Reducer业务类

		job.setMapperClass(FlowCountMapper.class);

		job.setReducerClass(FlowCountReducer.class);

		// 3 指定mapper输出数据的kv类型

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(FlowBean.class);

		// 4 指定最终输出的数据的kv类型

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(FlowBean.class);

		// 5 指定job的输入原始文件所在目录

		FileInputFormat.setInputPaths(job, new Path(args[0]));

		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		// 7 将job中配置的相关参数，以及job所用的java类所在的jar包， 提交给yarn去运行

		boolean result = job.waitForCompletion(true);

		System.exit(result ? 0 : 1);

	}

}

Hadoop序列化案例实操的更多相关文章

号外号外：9月13号《Speed-BI云平台案例实操--十分钟做报表》开讲了
引言:如何快速分析纷繁复杂的数据?如何快速做出老板满意的报表?如何快速将Speed-BI云平台运用到实际场景中? 本课程将通过各行各业案例背景,将Speed-BI云平台运用到实际场景中 ...
新硬盘挂载-fdisk+mount案例实操
新硬盘挂载-fdisk+mount案例实操作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 现在很多服务器都支持热插拔了,当有新的硬盘插入到服务器上我们需要将其分区,格式化,然后挂载 ...
Kafka集群优化篇-调整broker的堆内存(heap)案例实操
Kafka集群优化篇-调整broker的堆内存(heap)案例实操作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.查看kafka集群的broker的堆内存使用情况 1>. ...
Python相关分析—一个金融场景的案例实操
哲学告诉我们:世界是一个普遍联系的有机整体,现象之间客观上存在着某种有机联系,一种现象的发展变化,必然受与之关联的其他现象发展变化的制约与影响,在统计学中,这种依存关系可以分为相关关系和回归函数关系两 ...
Hive中的数据类型以及案例实操
@ 目录基本数据类型集合数据类型案例实操基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它 ...
kafka拦截器原理|案例实操
拦截器原理 Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑. 对于producer而言,interceptor使得用 ...
Azkaban(二)【WorkFlow案例实操】
目录 1.使用步骤 2.案例: 1.hello word 2.作业依赖[dependsOn配置作业的依赖关系] 3.内嵌工作流 4.全局配置 [在开头通过config进行配置,后续可以通过${属性名} ...
在CentOS7.6上安装自动化运维工具Ansible以及playbook案例实操
前言 Ansible是一款优秀的自动化IT运维工具,具有远程安装.远程部署应用.远程管理能力,支持Windows.Linux.Unix.macOS和大型机等多种操作系统. 下面就以CentOS 7.6 ...
C#多线程同步案例实操
好久没有写博客了,为了养成学习的习惯,培养积极年轻的心态,又回到了博客园这个平台继续撸起时隔多年未光顾的空间. 项目需求: 实现一个简单的获取始发目的耗时.距离,将结果输出表格. 方案思路: 通过多线 ...

随机推荐

Mongodb介绍（非原创）
文章大纲一.什么是nosql二.mongodb与mysql比较三.参考文章一.什么是nosql 1. 简介这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据. ...
如何判断Linux系统安装在VMware上?
如何判断当前Linux系统是否安装在VMware上面呢? 因为公司大部分服务器位于VMware上,也有小部分系统部署在物理机上面.今天老大要求统计一下VMware和物理机上服务器的数量,个人简单测试. ...
linux里如何配置本地yum源和外网yum源
一:本地和外网源配置方法二:外网YUM源的地址一: ① 本地源配置方法:以光盘里rpm举例(这里使用虚拟机演示) 1.挂载一个iso的镜像把光盘挂载到一个目录里,然后进入/etc/yum.rep ...
Linux Ctrl + Alt + Fx | (x = 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12)
VMware Ubuntu中,按下 Ctrl + Alt + Fx | (x = 1...12),会出现不同的效果. 1. Ctrl + Alt + F1 ~ F6 Ctrl + Alt + F1 ~ ...
JS运动---运动基础（缓冲运动）
(1)手风琴效果分析: (2)基础缓冲运动接下来取整原因: px为计算机识别的最小单位,1px无法再往下拆分.所以css如果取值200.5px,解析时计算机会自动将其改为200px注意:这里的数 ...
Paper | Non-local Neural Networks
目录 1. 动机 2. 相关工作 3. Non-local神经网络 3.1 Formulation 3.2 具体实现形式 3.3 Non-local块 4. 视频分类模型 4.1 2D ConvNet ...
ReactNative: ReactNative初始项目的结构
一.介绍初学RN,一切皆新.在上篇中成功地创建并运行了一个React-Native项目,这个demo的基本结构都是系统已经创建好的,开发者在此结构下完成自己的开发即可.分别用Xcode和WebSto ...
用 Python 批量下载百度图片
为了做一个图像分类的小项目,需要制作自己的数据集.要想制作数据集,就得从网上下载大量的图片,再统一处理. 这时,一张张的保存下载,就显得很繁琐.那么,有没有一种方法可以把搜索到的图片直接下载到本地 ...
【VM配置】配置主机名称、网卡和yum源配置
一,.配置主机名为了对主机能进行分区,除了要有ip地址外还需要主机名,主机之间可以通过这个类似域名的名称来相互访问.linux系统中主机名配置文件一般在/etc/hostname文件中.另外我们也可 ...
keras EfficientNet介绍，在ImageNet任务上涨点明显 | keras efficientnet introduction
本文首发于个人博客https://kezunlin.me/post/88fbc049/,欢迎阅读最新内容! keras efficientnet introduction Guide About Ef ...

Hadoop序列化案例实操

需求

需求分析

编写MapReduce程序

Hadoop序列化案例实操的更多相关文章

随机推荐

热门专题