程序:(另外一个关于单词计数的总结:http://www.cnblogs.com/DreamDrive/p/5492572.html)
 import java.io.IOException;

 import mapreduce.WordCountApp.WordCountMapper.WordCountReducer;

 import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; /**
* 以文本
* hello you
* hello me
* 为例子.
* map方法调用了两次,因为有两行
* k2 v2 键值对的数量有几个?
* 有4个.有四个单词.
*
* 会产生几个分组?
* 产生3个分组.
* 有3个不同的单词.
*
*/
public class WordCountApp {
public static void main(String[] args) throws Exception {
//程序在这里运行,要有驱动.
Configuration conf = new Configuration();
Job job = Job.getInstance(conf,WordCountApp.class.getSimpleName()); //我们运行此程序通过运行jar包来执行.一定要有这句话.
job.setJarByClass(WordCountApp.class); FileInputFormat.setInputPaths(job,args[0]); job.setMapperClass(WordCountMapper.class);//设置Map类
job.setMapOutputKeyClass(Text.class);//设置Map的key
job.setMapOutputValueClass(LongWritable.class);//设置Map的value
job.setReducerClass(WordCountReducer.class);//设置Reduce的类
job.setOutputKeyClass(Text.class);//设置Reduce的key Reduce这个地方只有输出的参数可以设置. 方法名字也没有Reduce关键字区别于Map
job.setOutputValueClass(LongWritable.class);//设置Reduce的value. FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.waitForCompletion(true);//表示结束了才退出,不结束不退出
}
/**
* 4个泛型的意识
* 第一个是LongWritable,固定就是这个类型,表示每一行单词的起始位置(单位是字节)
* 第二个是Text,表示每一行的文本内容.
* 第三个是Text,表示单词
* 第四个是LongWritable,表示单词的出现次数
*/
public static class WordCountMapper extends Mapper<LongWritable, Text, Text ,LongWritable>{
Text k2 = new Text();
LongWritable v2 = new LongWritable();
//增加一个计数器,这个Map调用几次就输出对应的次数.
int counter = 0; /**
* key和value表示输入的信息
* 每一行文本调用一次map函数
*/
@Override
protected void map(LongWritable key, Text value,Mapper<LongWritable, Text, Text, LongWritable>.Context context)
throws IOException, InterruptedException {
counter = counter + 1;
System.out.println("mapper 调用的次数:" + counter);
//这个map方法中的Mapper的各个泛型和上面的意识是一样的,分别代表的是k1,v1,k2,v2
String line = value.toString();
System.out.println(String.format("<k1,v1>的值<"+key.get()+","+line+">"));
String[] splited = line.split("\t");
for (String word : splited) {
k2.set(word);
v2.set(1);
System.out.println(String.format("<k2,v2>的值<"+k2.toString()+","+v2.get()+">"));
context.write(k2, v2);//通过context对象写出去.
}
}
/**
* 这个地方的四个泛型的意思
* 前两个泛型是对应的Map方法的后两个泛型.
* Map的输出对应的是Reduce的输入.
* 第一个Text是单词
* 第二个LongWritable是单词对应的次数
* 我们想输出的也是单词 和 次数
* 所以第三个和第四个的类型和第一和第二个的一样
*
* 分组指的是把相同key2的value2放到一个集合中
*
*/
public static class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
LongWritable v3 = new LongWritable();
//增加一个计数器,这个Reduce调用几次就输出对应的次数.
int counter = 0; /**
* 每一个分组调用一次reduce函数
* 过来的k2 分别是hello you me
*
*/
@Override
protected void reduce(Text key2, Iterable<LongWritable> value2Iterable,Reducer<Text, LongWritable, Text,
LongWritable>.Context context)
throws IOException, InterruptedException {
counter = counter + 1;
System.out.println("reducer 调用的次数:" + counter);
//第一个参数是单词,第二个是可迭代的集合. 为什么上面的LongWritable类型的对象value2变成了一个可以迭代的结合参数?
//因为分组指的是把相同key2的value2放到一个集合中
long sum = 0L;
for (LongWritable value2 : value2Iterable) {
System.out.println(String.format("<k2,v2>的值<"+key2.toString()+","+value2.toString()+">"));
sum += value2.get(); //这个value2是LongWritable类型的,不能进行+= 操作,要用get()得到其对应的java基本类型.
//sum表示单词k2 在整个文本中的出现次数.
}
v3.set(sum);
context.write(key2, v3);
System.out.println(String.format("<k3,v3>的值<"+key2.toString()+","+v3.get()+">"));
}
}
}
}

三:查看结果

打包上传到Hadoop集群,然后执行命令运行.详细运行过程不再写了.........

//==============================================================================================

程序二:

 /*
* 一个hello文件内容如下:
* hello you
* hello me
*/
import java.io.IOException; import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCountApp {
public static void main(String[] args) throws Exception {
// 在main方法写驱动程序,把Map函数和Reduce函数组织在一起.
// 搞一个对象把Map对象和Reduce对象都放在这个对象中,我们把这个对象称作Job
// 两个形参,一个是Configuration对象,一个是Job的名称,这样获得了一个Job对象;
Job job = Job.getInstance(new Configuration(),
WordCountApp.class.getSimpleName());
// 对这个job进行设置
job.setJarByClass(WordCountApp.class);// 通过这个设置可以让框架识别你写的代码 job.setMapperClass(MyMapper.class);// 把自定义的Map类放到job中
job.setMapOutputKeyClass(Text.class);// 定义Map的key的输出类型,Map的输出是<hello,2>
job.setMapOutputValueClass(LongWritable.class);// 定义Map的value的输出类型 job.setReducerClass(MyReducer.class);// 把自定义的Reducer类放到job中
job.setOutputKeyClass(Text.class);// 因为Reduce的输出是最终的数据,Reduce的输出是<hello,2>
// 所以这个方法名中没有像Map对应的放发一样带有Reduce,直接就是setOutputKeyClass
job.setOutputValueClass(LongWritable.class);// 定义reduce的value输出 FileInputFormat.setInputPaths(job, args[0]);// 输入指定:传入一个job地址.
// 这个args[0] 就是新地址,"hdfs://192.168.0.170/hello"
FileOutputFormat.setOutputPath(job, new Path(args[1]));
// 输出指定
// 指定输入和输出路径可以通过在这里写死的方式,也可以通过main函数参数的形式
// 分别是args[0]和args[1] // 把job上传到yarn平台上.
job.waitForCompletion(true);
} /*
* 对于<k1,v1>而言,每一行产生一个<k1,v1>对,<k1,v1>表示<行的起始位置,行的文本内容>
* 就本例而言map函数总共调用两次,因为总共只有两行.
* 正对要统计的文本内容可以知道总共两行,总共会调用两次Map函数对应产生的<k1,v1>分别是<0,hello you>
* 和第二个<k1,v1>是<10,hello me>
*/
private static class MyMapper extends
Mapper<LongWritable, Text, Text, LongWritable> {
// 这个Mapper的泛型参数是<KEYIN,VALUEIN,KEYOUT,VALUEOUT> 分别对应的是k1,v1,k2,v2
// 我们如下讲的k1,v1的类型是固定的.
// 就本例而言,map函数会被调用2次,因为总共文本文件就只有两行. //要定义输出的k2和v2.本案例中可以分析出<k2,v2>是对文本内容的统计<hello,1><hello,1><you,1><me,1>
//而且<k2,v2>的内容是和<k3,v3>中的内容是一样的.
Text k2 = new Text();
LongWritable v2 = new LongWritable();
//重写父类Mapper中的map方法
@Override
protected void map(LongWritable key, Text value,
Mapper<LongWritable, Text, Text, LongWritable>.Context context)
throws IOException, InterruptedException {
//通过代码或者案例分析就可以知道k1其实没有什么用出的.
String line = value.toString();
String[] splited = line.split("\t");//根据制表分隔符机进行拆分.hello和me,you之间是一个制表分隔符.
for (String word : splited) {
k2.set(word);
v2.set(1);
context.write(k2, v2);
//用context把k2,v2写出去,框架会写,不用我们去管.
}
}
} private static class MyReducer extends
Reducer<Text, LongWritable, Text, LongWritable> {
//这个例子中的<k2,v2>和<k3,v3>中的k是一样的,所以这里,k2当做k3了.
LongWritable v3 = new LongWritable();
@Override
protected void reduce(Text k2, Iterable<LongWritable> v2s,
Reducer<Text, LongWritable, Text, LongWritable>.Context context)
throws IOException, InterruptedException {
//Reduce是对上面Map中的结果进行汇总的.
//上面拆分出来的<k2,v2>是<hello,1><hello,1><you,1><me,1>Reduce方法中就要对其进行汇总.
long sum = 0L;
for(LongWritable v2:v2s){
sum = sum +v2.get();//sum是long类型,v2是LongWritable类型
//LongWritable类型转换成long类型用get()方法.
//sum的值表示单词在整个文件中出现的中次数.
}
v3.set(sum);
context.write(k2,v3);
}
}
}

MapReduce的手机流量统计的案例的更多相关文章

  1. 023_数量类型练习——Hadoop MapReduce手机流量统计

    1) 分析业务需求:用户使用手机上网,存在流量的消耗.流量包括两部分:其一是上行流量(发送消息流量),其二是下行流量(接收消息的流量).每种流量在网络传输过程中,有两种形式说明:包的大小,流量的大小. ...

  2. Hadoop_17_MapRduce_案例2_实现用户手机流量统计(ReduceTask并行度控制)

    需求:1.统计每一个用户(手机号)所耗费的总上行流量.下行流量,总流量 1.数据如下:保存为.dat文件(因为以\t切分数据,文件格式必须合适) 1363157985066 13726230503 0 ...

  3. 基于MapReduce的手机流量统计分析

    1,代码 package mr; import java.io.IOException; import org.apache.commons.lang.StringUtils; import org. ...

  4. Mapreduce的序列化和流量统计程序开发

    一.Hadoop数据序列化的数据类型 Java数据类型 => Hadoop数据类型 int IntWritable float FloatWritable long LongWritable d ...

  5. MapReduce 经典案例手机流量排序的分析

    在进行流量排序之前,先要明白排序是发生在map阶段,排序之后(排序结束后map阶段才会显示100%完成)才会到reduce阶段(事实上reduce也会排序),.此外排序之前要已经完成了手机流量的统计工 ...

  6. 第2节 mapreduce深入学习:8、手机流量汇总求和

    第2节 mapreduce深入学习:8.手机流量汇总求和 例子:MapReduce综合练习之上网流量统计. 数据格式参见资料夹 需求一:统计求和 统计每个手机号的上行流量总和,下行流量总和,上行总流量 ...

  7. Android学习笔记_64_手机安全卫士知识点归纳(4) 流量统计 Log管理 混淆打包 加入广告 自动化测试 bug管理

    android 其实就是linux 上面包装了一个java的框架. linux 系统下 所有的硬件,设备(网卡,显卡等) 都是以文件的方式来表示. 文件里面包含的有很多设备的状态信息. 所有的流量相关 ...

  8. ios 使用可视化工具charles转换pcap文件,进行流量统计(通过tcpdump抓包)

    环境准备:使用mac电脑,下载xcode,Charles 连接iPhone手机,打开xcode-window-devices-查看设备UDID 打开终端:rvictl –s 设备号 ,查看虚拟端口号 ...

  9. 安卓App流量统计

    http://keepcleargas.bitbucket.org/2013/10/12/android-App-Traffic.html 安卓App流量统计 12 OCT 2013 android流 ...

随机推荐

  1. Web开发人员需知的Web缓存知识

    最近的译文距今已有4年之久,原文有一定的更新.今天踩着前辈们的肩膀,再次把这篇文章翻译整理下.一来让自己对web缓存的理解更深刻些,二来让大家注意力稍稍转移下,不要整天HTML5, 面试题啊叨啊叨的~ ...

  2. 【转】从零开始,让你的框架支持CocoaPods

    首先概括一个大概的步骤: 代码上传到Github 创建podspec文件 在Github上创建release版本 注册CocoaPods账号 上传代码到CocoaPods 检验是否上传成功 更新框架版 ...

  3. sql server 2014内存表

    内存数据库,指的是将数据库的数据放在内存中直接操作.相对于存放在磁盘上,内存的数据读写速度要高出很多,故可以提高应用的性能.微软的SQL Server 2014已于2014年4月1日正式发布,SQL ...

  4. C#Windows窗体界面设计_01_绘制三角函数_附强制类型转换

    binzhouweichao@163.com 今天开始学习C#windows窗体界面设计. 首先说一下类型转换. 参考http://www.csharpwin.com/csharpspace/6848 ...

  5. ActiveMQ学习笔记(一) JMS概要

    (一)什么是JMS jms即Java消息服务(Java Message Service)应用程序接口是一个Java平台中关于面向消息中间件(MOM)的API,用于在两个应用程序之间,或分布式系统中发送 ...

  6. mysql的interval函数用法

    Name: 'INTERVAL' Description: Syntax: INTERVAL(N,N1,N2,N3,...) Returns 0 if N < N1, 1 if N < N ...

  7. 从最简单的HelloWorld理解MVP模式

    版权声明:本文为博主原创文章,转载请注明出处:http://www.cnblogs.com/joy99/p/6116855.html 大多数编程语言相关的学习书籍,都会以hello,world这个典型 ...

  8. Linux学习笔记--(1)

    今天用Linux 的 test 命令,发现了一个有趣的现象: 打入 " test "abc"="abc" ;echo $? " 后,结果应该 ...

  9. freeRadius 基础配置及测试

    国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送) 国 ...

  10. iOS有关截图的操作

    1.截取选中view的图片 //根据size大小创建一个基于位图的图形上下文 CGRect rect =view.frame; UIGraphicsBeginImageContext(rect.siz ...