一、背景

1.1 流程

　　实现排序，分组拍上一篇通过Partitioner实现了。

　　实现接口，自动产生接口方法，写属性，产生getter和setter，序列化和反序列化属性，写比较方法，重写toString，为了方便复制写够着方法，不过重写够着方法map里需要不停地new，发现LongWritable有set方法，text也有，可以用，产生默认够着方法。

	public void set(String account,double income,double expense,double surplus) {

		this.account = account;

		this.income = income;

		this.expense = expense;

		this.surplus = income-expense;

	}

1.2 数据集

为了和上一篇保在知识上持递进，数据及换了，名字没变。

　　下面是输出结果，其实mr也会自动排序，不过string按字典序排序了。

二、理论知识

　　字符串拼接，记得以前自己写过，现在拿出来看看，http://www.cnblogs.com/hxsyl/archive/2012/10/18/2729112.html

　　简单总结扩展如下：String是final的，不能改变也不能继承，因此在每次对 String 类型进行改变的时候其实都等同于生成了一个新的 String 对象，然后将指针指向新的 String 对象，所以经常改变内容的字符串最好不要用 String ，因为每次生成对象都会对系统性能产生影响，特别当内存中无引用对象多了以后， JVM 的 GC 就会开始工作，那速度是一定会相当慢的。

　　如果for循环1w次，这句 string += "hello";的过程相当于将原有的string变量指向的对象内容取出与"hello"作字符串相加操作再存进另一个新的String对象当中，再让string变量指向新生成的对象。反编译出的字节码文件可以很清楚地看出，每次循环会new出一个StringBuilder对象，然后进行append操作，最后通过toString方法返回String对象。也就是说这个循环执行完毕new出了10000个对象，试想一下，如果这些对象没有被回收，内存浪费不说，有可能重复使用赵成系统卡死。从上面还可以看出：string+="hello"的操作事实上会自动被JVM优化成：

　　StringBuilder str = new StringBuilder(string);

　　str.append("hello");

　　str.toString();

　　如果直接for循环里StringBuilder 的话会只是new一次。效率高。

　　而StringBuffer是线程安全的，多了synchronized关键字，也就是在多线程下会顺序读取换冲刺。

　参考了这个http://blog.csdn.net/loveyaozu/article/details/47037957

三、实体类

　　收入相同的话按消费从低到高，否则收入从高到低。

package cn.app.hadoop.mr.sort;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.math.BigDecimal;

import org.apache.hadoop.io.WritableComparable;

import org.apache.jasper.tagplugins.jstl.core.Out;

//Writable是序列化接口

//泛型是InfoBean，就像比较学生信息一样，成绩，性别等 ，封装在了一个bean里

//不过发现WritableComparable  有了序列化和反序列化

public class InfoBean implements WritableComparable<InfoBean>{

	private String account;

	//金钱类都需要BigDecimal，double顺势精度,不过不知道下边序列化咋写类型，所以先用double，估计writeUTF可以

	private double income;

	private double expense;

	private double surplus;

	public String getAccount() {

		return account;

	}

	public void setAccount(String account) {

		this.account = account;

	}

	public double getIncome() {

		return income;

	}

	public void setIncome(double income) {

		this.income = income;

	}

	public double getExpense() {

		return expense;

	}

	public void setExpense(double expense) {

		this.expense = expense;

	}

	public double getSurplus() {

		return surplus;

	}

	public void setSurplus(double surplus) {

		this.surplus = surplus;

	}

	public void readFields(DataInput in) throws IOException {

		// TODO Auto-generated method stub

		this.account = in.readUTF();

		this.income = in.readDouble();

		this.expense = in.readDouble();

		this.surplus = in.readDouble();

	}

	public void write(DataOutput out) throws IOException {

		// TODO Auto-generated method stub

		out.writeUTF(account);

		out.writeDouble(income);

		out.writeDouble(expense);

		out.writeDouble(surplus);

	}

	public void set(String account,double income,double expense) {

		this.account = account;

		this.income = income;

		this.expense = expense;

		this.surplus = income - expense;

	}

	public InfoBean() {

		super();

		// TODO Auto-generated constructor stub

	}

	@Override

	public String toString() {

		return "InfoBean [income=" + income + ", expense=" + expense

				+ ", surplus=" + surplus + "]";

	}

	public int compareTo(InfoBean o) {

		// TODO Auto-generated method stub

		if(this.income == o.getIncome()) {

			return this.expense>o.getExpense()?1:-1;

		}else {

			return this.income>o.getIncome()?-1:1;

		}

	}

}

四、第一种实现

4.1 Mapper

//第一个处理文本的话一般是LongWritable  或者object

//一行一行的文本是text

//输出的key的手机号 定位Text

//结果是DataBean  一定要实现Writable接口

public class InfoSortMapper extends Mapper<LongWritable, Text, Text, InfoBean> {

	private InfoBean v = new InfoBean();

	private Text k = new Text();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account);

		v.set(account, in, out);

		context.write(k, v);

	}

　　4.2 Reducer

public class InfoSortReducer extends Reducer<Text, InfoBean, Text, InfoBean> {

	//k就是key，不需要

	private InfoBean v = new InfoBean();

	public void reduce(Text key, Iterable<InfoBean> value, Context context)

			throws IOException, InterruptedException {

		// process values

		double incomeSum = 0;

		double expenseSum = 0;

		for (InfoBean o : value) {

			incomeSum += o.getIncome();

			expenseSum += o.getExpense();

		}

		v.set(key.toString(), incomeSum, expenseSum);

		//databean会自动调用toString

		context.write(key,v);

	}

}

五、第二种实现

5.1 Mapper

//对 InfoBean  排序  k2就是他

public class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {

	private InfoBean k = new InfoBean();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account, in, out);

		//value必须是NullWritable.get()，NullWritable不行，提示不是变量

		context.write(k, NullWritable.get());

	}

}

　　5.2 Reducer

//对 InfoBean  排序  k2就是他

public class SortMapper extends Mapper<LongWritable, Text, InfoBean, NullWritable> {

	private InfoBean k = new InfoBean();

	public void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		String line = value.toString();

		String[] fields = line.split("\t");

		String account = fields[0];

		double in = Double.parseDouble(fields[1]);

		double out = Double.parseDouble(fields[2]);

		//不用每次new  几遍不重写内存引用，也很站用资源

		k.set(account, in, out);

		//value必须是NullWritable.get()，NullWritable不行，提示不是变量

		context.write(k, NullWritable.get());

	}

}

六、结束语

　　如果k2 v2和k4 v4，也就是mapp的输出和reducer的输出类型不一致的话必须在Main里也设置Mapper的输出,上面的第二种就是。

job.setMapOutputKeyClass(InfoBean.class);

		job.setMapOutputValueClass(NullWritable.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(InfoBean.class);

　　否则java里不报错，加上log4j后看到类型不匹配。

MapReduce实现手机上网日志分析（排序）的更多相关文章

MapReduce实现手机上网日志分析（分区）
一.问题背景实际业务的需要,比如以移动为例,河南的用户去了北京上网,那么他的上网信息默认保存在了北京的基站,那么我们想要查询北京地区的上网日志信息默认也包含了其他地区用户的在本区的上网信息,否则只能 ...
MapReduce实现手机上网流量分析（业务逻辑）
一.问题背景现在的移动刚一通话就可以在网站上看自己的通话记录,以前是本月只能看上一个月.不过流量仍然是只能看上一月的. 目的就是找到用户在一段时间内的上网流量. 本文并没有对时间分组.下一节进行分区 ...
使用Pig对手机上网日志进行分析
在安装成功Pig的基础上.本文将使用Pig对手机上网日志进行分析,详细过程例如以下: 写在前面: 手机上网日志文件phone_log.txt.文件内容及字段说明部分截图例如以下需求分析显示每一 ...
Hadoop自定义类型处理手机上网日志
job提交源码分析在eclipse中的写的代码如何提交作业到JobTracker中的哪?(1)在eclipse中调用的job.waitForCompletion(true)实际上执行如下方法 con ...
Hadoop学习笔记—5.自定义类型处理手机上网日志
转载自http://www.cnblogs.com/edisonchou/p/4288737.html Hadoop学习笔记—5.自定义类型处理手机上网日志一.测试数据:手机上网日志 1.1 关于这 ...
Hadoop日记Day13---使用hadoop自定义类型处理手机上网日志
测试数据的下载地址为:http://pan.baidu.com/s/1gdgSn6r 一.文件分析首先可以用文本编辑器打开一个HTTP_20130313143750.dat的二进制文件,这个文件的内 ...
Hadoop学习笔记—20.网站日志分析项目案例（一）项目介绍
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...
ELK日志分析平台环境部署（yum安装）
前言:通常体质被分散存储在不同的设备上面,在庞大的服务器集群中,我们需要集中化的管理,日志的统计和检索,一般我们使用grep和awk,wc等linux命令虽然能够实现检索和统计,但是呢,对于要求更高的 ...
Hadoop学习笔记—20.网站日志分析项目案例
1.1 项目来源本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖.回帖,如图1所示. 图1 项目来源网站-技术学习论坛本次实践的目的就在于 ...

随机推荐

深入理解Linux修改hostname
当我觉得对Linux系统下修改hostname已经非常熟悉的时候,今天碰到了几个个问题,这几个问题给我好好上了一课,很多知识点,当你觉得你已经掌握的时候,其实你了解的还只是皮毛.技术活,切勿浅尝则止! ...
ORA-02292: integrity constraint (xxxx) violated - child record found
在更新表的主键字段或DELETE数据时,如果遇到ORA-02292: integrity constraint (xxxx) violated - child record found 这个是因为主外 ...
Hive基本语法操练
建表规则如下: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment ...
FindBugs 入门——帮你减少代码中的bug数
FindBugs 入门 FindBugs 作用开发人员在开发了一部分代码后,可以使用FindBugs进行代码缺陷的检查.提高代码的质量,同时也可以减少测试人员给你报的bug数. 代码缺陷分类根据缺 ...
mysql中类似indexOf的方法LOCATE()
LOCATE(substr,str), LOCATE(substr,str,pos) 第一个语法返回substr在字符串str 的第一个出现的位置. 第二个语法返回子符串 substr 在字符串st ...
VS2013问题与解决方法
问题: Getting Error "'Microsoft.VisualStudio.Editor.Implementation.EditorPackage' package did not ...
单元测试实战 - Junit测试
一.对加法函数进行测试 1.实例化被测单元(方法):类名实例名=new 类名([参数]) 2.调用被测单元,对比预期值和输出值(实际值): 在没有junit测试工具的情况下,我们要进行如下的测试代码 ...
python3下urlopen解析中文url编码错误
这是在ipython下测试的结果: In [24]: x Out[24]: 'http://127.0.0.1:8000/xxx/?id=a45ex0bad3c9&game=五子棋' In [ ...
HDU 1524 A Chess Game【SG函数】
题意:一个N个点的拓扑图,有M个棋子,两个人轮流操作,每次操作可以把一个点的棋子移动到它的一个后继点上(每个点可以放多个棋子),直到不能操作,问先手是否赢. 思路:DFS求每个点的SG值,没有后继的点 ...
codevs2178 表达式运算Cuties[笛卡尔树]
2178 表达式运算Cuties 时间限制: 1 s 空间限制: 32000 KB 题目等级 : 大师 Master 题解查看运行结果题目描述 Description 给出一个表达 ...

MapReduce实现手机上网日志分析（排序）

一、背景

1.1 流程

1.2 数据集

二、理论知识

三、实体类

四、第一种实现

4.1 Mapper

4.2 Reducer

五、第二种实现

5.1 Mapper

5.2 Reducer

六、结束语

MapReduce实现手机上网日志分析（排序）的更多相关文章

随机推荐

热门专题

　　4.2 Reducer

　　5.2 Reducer