mapreduce统计总数

现有某电商网站用户对商品的收藏数据，记录了用户收藏的商品id以及收藏日期，名为buyer_favorite1。

buyer_favorite1包含：买家id，商品id，收藏日期这三个字段，数据以“\t”分割，样本数据及格式如下：

买家id   商品id    收藏日期  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::  

      -- ::

要求编写MapReduce程序，统计每个买家收藏商品数量。

源代码：

package mapreduce;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

       public static class MyMapper extends Mapper<Object,Text,Text,IntWritable>{

           private final static IntWritable one = new IntWritable();

           private static String word = new String();

           public void map(Object key, Text value, Context context) throws IOException,InterruptedException{

                   StringTokenizer itr = new StringTokenizer(value.toString());  

                   while (itr.hasMoreTokens()){  

                           word=itr.nextToken();

                           System.out.println(word);

                           String id=word.substring(,word.indexOf("   "));

                           Text word2=new Text();

                           word2.set(id);

                           context.write(word2,one);

                   }  

           }

   }        

       public static class MyReducer extends Reducer<Text,IntWritable,Text,IntWritable>{

           private IntWritable result = new IntWritable();

           public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException,InterruptedException{

                   int sum = ;

                   for (IntWritable val : values)

                   {

                           sum += val.get();

                   }

                   result.set(sum);  

                   context.write(key,result);

           }

   }  

       public static void main(String[] args) throws Exception{  

         Job job = Job.getInstance();

         job.setJobName("WordCount");

         job.setJarByClass(WordCount.class);

         job.setMapperClass(MyMapper.class);

         job.setReducerClass(MyReducer.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         Path in  = new Path("hdfs://localhost:9000/mymapreduce1/in/buyer_favorite1") ;

         Path out  = new Path("hdfs://localhost:9000/mymapreduce1/out") ;

         FileInputFormat.addInputPath(job,in);

         FileOutputFormat.setOutputPath(job,out);

         System.exit(job.waitForCompletion(true)?:);

 }  

}

统计数据：


买家id

mapreduce统计总数的更多相关文章

MongoDb 用 mapreduce 统计留存率
MongoDb 用 mapreduce 统计留存率(金庆的专栏)留存的定义采用的是新增账号第X日:某日新增的账号中,在新增日后第X日有登录行为记为留存输出如下:(类同友盟的留存率显示)留存用户注册时 ...
Hadoop基础-Map端链式编程之MapReduce统计TopN示例
Hadoop基础-Map端链式编程之MapReduce统计TopN示例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.项目需求对“temp.txt”中的数据进行分析,统计出各 ...
bootstrap-table 页脚总计(自定义统计总数)
•首先给table添加属性: showFooter: footer js代码如下: //初始化bootstrapTableinitBootstrapTable: function () { var o ...
MySQL统计总数就用count(*)，别花里胡哨的《死磕MySQL系列十》
有一个问题是这样的统计数据总数用count(*).count(主键ID).count(字段).count(1)那个效率高. 先说结论,不用那么花里胡哨遇到统计总数全部使用count(*). 但是有很多 ...
大家都在用MySQL count(*)统计总数，到底有什么问题？
在日常开发工作中,我经常会遇到需要统计总数的场景,比如:统计订单总数.统计用户总数等.一般我们会使用MySQL 的count函数进行统计,但是随着数据量逐渐增大,统计耗时也越来越长,最后竟然出现慢查询 ...
针对微信的一篇推送附有的数据链接进行MapReduce统计
原推送引用:https://mp.weixin.qq.com/s/3qQqN6qzQ3a8_Au2qfZnVg 版权归原作者所有,如有侵权请及时联系本人,见谅! 原文采用Excel进行统计数据,这里采 ...
sql中奇怪的sum(1),sum(2),count(1)，count（6）,count(*)：统计总数
sql的统计函数 sql统计函数有 count 统计条数,配合group用 sum 累加指定字段数值但注意sum(1)就特殊 sum(1)等同于count(*) sum(1)统计个数,功能和coun ...
MapReduce -- 统计天气信息
示例数据: -- :: 34c -- :: 36c -- :: 32c -- :: 37c -- :: 23c -- :: 45c -- :: 50c -- :: 33c -- :: 41c -- ...
MySQL的统计总数count(*)与count(id)或count(字段)的之间的各自效率性能对比
执行效果: 1. count(1) and count(*) 当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多了! 从执行计划来看,count(1)和cou ...

随机推荐

利用脚本，一键设置java环境变量(默认安装路径)
Windows一键设置Java环境变量右击以管理员方式运行,注意自行更改JAVA_HOME目录文件安装目录. JDKSetting.bat @echo off color 0a echo.----- ...
6.Model类
Basic Concepts 在Model/View结构中,Model提供标准的接口让View和Delegate获得数据.在QT中,标准的接口都被定义在QAbstractItemModel类 ...
Person.delete请求－－－－强大的bug－－－下班之前总结整个过程
默认访问的是: findAll(query) 还有个findAll(ids,query) 只有findAll才调用了findEntity->findById: 那么我重写了findById,查询 ...
（数组）字符串的回文构词法（ anagrams）
题目:https://www.nowcoder.com/practice/e84e273b31e74427b2a977cbfe60eaf4?tpId=46&tqId=29130&tPa ...
springcloud 通过后端去下载和预览文件，要重设跨域允许
@RequestMapping("/download") public void downloadNet(String uri, boolean isOnLine, HttpSer ...
【Arcgis for android】相关教程收集自网络
请加入qq群:143501213 一起交流和学习推荐博客: 张云飞VIR http://www.cnblogs.com/vir56k/tag/arcgis%20for%20android/ arcg ...
JetBrains Rider 在 Mac 环境下将 cs 文件生成 exe
因为自己的开发环境是 Mac + Rider 组合,想测试网络编程相关内容.想在Windows 虚拟机上运行一套代码来与Mac 机进行测试,但又不想在虚拟机上安装一套开发环境.最终找到的解决方案是通过 ...
ASP.NET网页之间传递参数与值
ASP.NET网页之间传递参数与值,方法很多,可以使用Application,Cookie,Session,或是Querystring等等.由于Insus.NET开发的程序中,多数是在后台之间进行参数 ...
Gazebo学习随记2 SDF和XML
Model 模型一个模型数据库会拥有的文件 database.config:有关数据库的元数据,从CMakeList自动填充『本地不需要』 model文件夹一个模型[奏是辣个文件夹]会有的文件 m ...
UINavigationController + UIScrollView组合，视图尺寸的设置探秘（一）
UINavigationController和UIScrollView是iOS下几种主要的交互元素,但当我搭配二者在一起时,UIScrollView的滚动区域出现了很诡异的现象.我希望UIScroll ...

mapreduce统计总数

mapreduce统计总数的更多相关文章

随机推荐

热门专题