一、背景

1.1 流程

　　实现排序，分组拍上一篇通过Partitioner实现了。

　　实现接口，自动产生接口方法，写属性，产生getter和setter，序列化和反序列化属性，写比较方法，重写toString，为了方便复制写够着方法，不过重写够着方法map里需要不停地new，发现LongWritable有set方法，text也有，可以用，产生默认够着方法。

	public void set(String account,double income,double expense,double surplus) {

		this.account = account;

		this.income = income;

		this.expense = expense;

		this.surplus = income-expense;

	}

1.2 数据集

为了和上一篇保在知识上持递进，数据及换了，名字没变。

　　下面是输出结果，其实mr也会自动排序，不过string按字典序排序了。

二、理论知识

　　字符串拼接，记得以前自己写过，现在拿出来看看，http://www.cnblogs.com/hxsyl/archive/2012/10/18/2729112.html

　　简单总结扩展如下：String是final的，不能改变也不能继承，因此在每次对 String 类型进行改变的时候其实都等同于生成了一个新的 String 对象，然后将指针指向新的 String 对象，所以经常改变内容的字符串最好不要用 String ，因为每次生成对象都会对系统性能产生影响，特别当内存中无引用对象多了以后， JVM 的 GC 就会开始工作，那速度是一定会相当慢的。

　　如果for循环1w次，这句 string += "hello";的过程相当于将原有的string变量指向的对象内容取出与"hello"作字符串相加操作再存进另一个新的String对象当中，再让string变量指向新生成的对象。反编译出的字节码文件可以很清楚地看出，每次循环会new出一个StringBuilder对象，然后进行append操作，最后通过toString方法返回String对象。也就是说这个循环执行完毕new出了10000个对象，试想一下，如果这些对象没有被回收，内存浪费不说，有可能重复使用赵成系统卡死。从上面还可以看出：string+="hello"的操作事实上会自动被JVM优化成：

　　StringBuilder str = new StringBuilder(string);

　　str.append("hello");

　　str.toString();

　　如果直接for循环里StringBuilder 的话会只是new一次。效率高。

　　而StringBuffer是线程安全的，多了synchronized关键字，也就是在多线程下会顺序读取换冲刺。

　参考了这个http://blog.csdn.net/loveyaozu/article/details/47037957

三、实体类

　　收入相同的话按消费从低到高，否则收入从高到低。

package cn.app.hadoop.mr.sort;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.math.BigDecimal;

import org.apache.hadoop.io.WritableComparable;

import org.apache.jasper.tagplugins.jstl.core.Out;

//Writable是序列化接口

//泛型是InfoBean，就像比较学生信息一样，成绩，性别等 ，封装在了一个bean里

//不过发现WritableComparable  有了序列化和反序列化

public class InfoBean implements WritableComparable<InfoBean>{

	private String account;

	//金钱类都需要BigDecimal，double顺势精度,不过不知道下边序列化咋写类型，所以先用double，估计writeUTF可以

	private double income;

	private double expense;

	private double surplus;

	public String getAccount() {

		return account;

	}

	public void setAccount(String account) {

		this.account = account;

	}

	public double getIncome() {

		return income;

	}

	public void setIncome(double income) {

		this.income = income;

	}

	public double getExpense() {

		return expense;

	}

	public void setExpense(double expense) {

		this.expense = expense;

	}

	public double getSurplus() {

		return surplus;

	}

	public void setSurplus(double surplus) {

		this.surplus = surplus;

	}

	public void readFields(DataInput in) throws IOException {

		// TODO Auto-generated method stub

		this.account = in.readUTF();

		this.income = in.readDouble();

		this.expense = in.readDouble();

		this.surplus = in.readDouble();

	}

	public void write(DataOutput out) throws IOException {

		// TODO Auto-generated method stub

		out.writeUTF(account);

		out.writeDouble(income);

		out.writeDouble(expense);

		out.writeDouble(surplus);

	}

	public void set(String account,double income,double expense) {

		this.account = account;

		this.income = income;

		this.expense = expense;

		this.surplus = income - expense;

	}

	public InfoBean() {

		super();

		// TODO Auto-generated constructor stub

	}

	@Override

	public String toString() {

		return "InfoBean [income=" + income + ", expense=" + expense

				+ ", surplus=" + surplus + "]";

	}

	public int compareTo(InfoBean o) {

		// TODO Auto-generated method stub

		if(this.income == o.getIncome()) {

			return this.expense>o.getExpense()?1:-1;

		}else {

			return this.income>o.getIncome()?-1:1;

		}

	}

}

四、第一种实现

4.1 Mapper

//第一个处理文本的话一般是LongWritable  或者object

//一行一行的文本是text

//输出的key的手机号 定位Text

//结果是DataBean  一定要实现Writable接口

public class InfoSortMapper extends Mapper<LongWritable, Text, Text, InfoBean> {

	private InfoBean v = new InfoBean();

	private Text k = new Text();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account);

		v.set(account, in, out);

		context.write(k, v);

	}

　　4.2 Reducer

public class InfoSortReducer extends Reducer<Text, InfoBean, Text, InfoBean> {

	//k就是key，不需要

	private InfoBean v = new InfoBean();

	public void reduce(Text key, Iterable<InfoBean> value, Context context)

			throws IOException, InterruptedException {

		// process values

		double incomeSum = 0;

		double expenseSum = 0;

		for (InfoBean o : value) {

			incomeSum += o.getIncome();

			expenseSum += o.getExpense();

		}

		v.set(key.toString(), incomeSum, expenseSum);

		//databean会自动调用toString

		context.write(key,v);

	}

}

五、第二种实现

5.1 Mapper

//对 InfoBean  排序  k2就是他

public class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {

	private InfoBean k = new InfoBean();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account, in, out);

		//value必须是NullWritable.get()，NullWritable不行，提示不是变量

		context.write(k, NullWritable.get());

	}

}

　　5.2 Reducer

//对 InfoBean  排序  k2就是他

public class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {

	private InfoBean k = new InfoBean();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account, in, out);

		//value必须是NullWritable.get()，NullWritable不行，提示不是变量

		context.write(k, NullWritable.get());

	}

}

六、结束语

　　如果k2 v2和k4 v4，也就是mapp的输出和reducer的输出类型不一致的话必须在Main里也设置Mapper的输出,上面的第二种就是。

job.setMapOutputKeyClass(InfoBean.class);

		job.setMapOutputValueClass(NullWritable.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(InfoBean.class);

　　否则java里不报错，加上log4j后看到类型不匹配。

MapReduce实现手机上网日志分析（排序）的更多相关文章

MapReduce实现手机上网日志分析（分区）
一.问题背景实际业务的需要,比如以移动为例,河南的用户去了北京上网,那么他的上网信息默认保存在了北京的基站,那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息,否则只能 ...
MapReduce实现手机上网流量分析（业务逻辑）
一.问题背景现在的移动刚一通话就可以在网站上看自己的通话记录,以前是本月只能看上一个月.不过流量仍然是只能看上一月的. 目的就是找到用户在一段时间内的上网流量. 本文并没有对时间分组.下一节进行分区 ...
使用Pig对手机上网日志进行分析
在安装成功Pig的基础上.本文将使用Pig对手机上网日志进行分析,详细过程例如以下: 写在前面: 手机上网日志文件phone_log.txt.文件内容及字段说明部分截图例如以下需求分析显示每一 ...
Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...
Hadoop学习笔记—5.自定义类型处理手机上网日志
转载自http://www.cnblogs.com/edisonchou/p/4288737.html Hadoop学习笔记—5.自定义类型处理手机上网日志一.测试数据:手机上网日志 1.1 关于这 ...
Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志
测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...
Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
ELK日志分析平台环境部署（yum安装）
前言:通常体质被分散存储在不同的设备上面,在庞大的服务器集群中,我们需要集中化的管理,日志的统计和检索,一般我们使用grep和awk,wc等linux命令虽然能够实现检索和统计,但是呢,对于要求更高的 ...
Hadoop学习笔记—20.网站日志分析项目案例
1.1 项目来源本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖.回帖,如图1所示. 图1 项目来源网站-技术学习论坛本次实践的目的就在于 ...

随机推荐

常用API——Math对象型、Number型
Math.abs(num) : 返回num的绝对值 Math.acos(num) : 返回num的反余弦值 Math.asin(num) : 返回num的反正弦值 Math.atan(num) : 返 ...
Java源码分析之LinkedList
LinkedList与ArrayList正好相对,同样是List的实现类,都有增删改查等方法,但是实现方法跟后者有很大的区别. 先归纳一下LinkedList包含的API 1.构造函数: ①Linke ...
Erlang/OTP 17.0-rc1 新引入的"脏调度器"浅析
最近在做一些和 NIF 有关的事情,看到 OTP 团队发布的 17 rc1 引入了一个新的特性“脏调度器”,为的是解决 NIF 运行时间过长耗死调度器的问题.本文首先简单介绍脏调度器机制的用法,然后简 ...
使用 Fiddler 上传微信公众账号自定义菜单
0.你必须有微信公众账号的服务号.成为开发者之后.... 1.得到你的 appid (xxxxxxoooo)和 secret (oooooooxxxxxxx) 2.用这个链接得到你的 access_t ...
Ignite安装配置——中篇
Linux Ignite配置——上篇大体介绍了一下Ignite工具的功能.特性等,以及如何在Linux 上安装配置.从上篇可见Ignite安装非常的简单方便.下面介绍一下Ignite Reposito ...
SQL范式
第一范式:确保每列的原子性(字段不可分). 如果每列(或者每个属性)都是不可再分的最小数据单元(也称为最小的原子单元),则满足第一范式. 释义: 1.每一列属性都是不可再分的属性值,确保每一列的原子性 ...
烂泥：haproxy学习之手机规则匹配
本文由ilanniweb提供友情赞助,首发于烂泥行天下想要获得更多的文章,可以关注我的微信ilanniweb. 今天我们来介绍下有关haproxy匹配手机的一些规则配置. 一.业务需要现在根据业务 ...
(转)浅析Java中的访问权限控制
原文地址: http://www.cnblogs.com/dolphin0520/p/3734915.html 今天我们来一起了解一下Java语言中的访问权限控制.在讨论访问权限控制之前,先来讨论一下 ...
vuejs的动态过滤
想要通过vuejs动态过滤(这里动态指得是过滤的条件是动态变化的), 一直没找到好办法, 最蠢的办法当然是两个两个数组,一个作为原始副本数组一个作为视图数组,这样当过滤条件变化的时候动态拷贝原始数 ...
《JavaScript高级程序设计》笔记整理
欢迎各位指导与讨论 : ) -------------------------待续------------------------------- 本文为笔者在学习时整理的笔记,如有错漏,恳请各位指出, ...

MapReduce实现手机上网日志分析（排序）

一、背景

1.1 流程

1.2 数据集

二、理论知识

三、实体类

四、第一种实现

4.1 Mapper

4.2 Reducer

五、第二种实现

5.1 Mapper

5.2 Reducer

六、结束语

MapReduce实现手机上网日志分析（排序）的更多相关文章

随机推荐

热门专题

　　4.2 Reducer

　　5.2 Reducer