MapReduce算法形式一:WordCount

这种形式可以做一些网站登陆次数,或者某个电商网站的商品销量啊诸如此类的,主要就是求和,但是求和之前还是要好好清洗数据的,以免数据缺省值太多,影响真实性。

废话不多说,上代码吧,我把注释一行行的都写了~~可可可可~

先封装了数据行的对象:

public class Log {
  private String time;
  private String UID;
  private String keyWord;
  private int rank;
  private int order;
  private String URL;

  public String getTime() {
    return time;
  }
  public void setTime(String time) {
    this.time = time;
  }
  public String getUID() {
    return UID;
  }
  public void setUID(String uID) {
    UID = uID;
  }
  public String getKeyWord() {
    return keyWord;
  }
  public void setKeyWord(String keyWord) {
    this.keyWord = keyWord;
  }
  public int getRank() {
    return rank;
  }
  public void setRank(int rank) {
    this.rank = rank;
  }
  public int getOrder() {
    return order;
  }
  public void setOrder(int order) {
    this.order = order;
  }
  public String getURL() {
    return URL;
  }
  public void setURL(String uRL) {
    URL = uRL;
  }

  public Log(String time, String uID, String keyWord, int rank, int order,String uRL) {
    super();
    this.time = time;
    this.UID = uID;
    this.keyWord = keyWord;
    this.rank = rank;
    this.order = order;
    this.URL = uRL;
  }

  public Log() {
    super();
  }

/*
* 对行记录日志信息进行封装成对象
* 并将对象返回
*/
  public static Log getInfo(String value){
    Log log = new Log();

    //将一条日志记录转换成一个数组
    String[] lines = value.toString().trim().split("\t");
    //判断行记录中间是否有缺省值
    if(lines.length == 6){
      //行记录封装
      log.setTime(lines[0].trim());
      log.setUID(lines[1].trim());
      log.setKeyWord(lines[2].trim());
      log.setRank(Integer.parseInt(lines[3].trim()));
      log.setOrder(Integer.parseInt(lines[4].trim()));
      log.setURL(lines[5].trim());
    }
      return log;
  }

}

mr中的代码:

public class PVSum {
/**案例一:WordCount
*
* 非空查询条数
* 不去重,直接统计总和即可
*
* 假设:
* 日志格式如下:(已经过清洗,以制表符分割)
* 20111230050630 时间time
* 2a12e06f50ad41063ed2b62bffac29ad 用户UID
* 361泰国电影 搜索的关键词keyword
* 5 rank搜索结果排序
* 8 order点击次数
* http://www.57ge.com/play/?play_2371_1_361.html 访问的URL
*
* @param args
* @throws Exception
*/
public static void main(String[] path) throws Exception {
  if(path.length != 2){
    System.out.println("please input full path!");
    System.exit(0);
  }

  Job job = Job.getInstance(new Configuration(), PVSum.class.getSimpleName());
  job.setJarByClass(PVSum.class);

  FileInputFormat.setInputPaths(job, new Path(path[0]));
  FileOutputFormat.setOutputPath(job, new Path(path[1]));

  job.setMapperClass(PVSumMap.class);
  job.setReducerClass(PVSumReduce.class);

  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(IntWritable.class);

  job.waitForCompletion(true);
}

public static class PVSumMap extends Mapper<LongWritable, Text, Text, IntWritable> {
  IntWritable one = new IntWritable(1);//记录数量,一条记录即为1
  Text text = new Text("非空关键词的PV访问量总计:");
  protected void map(LongWritable key, Text value,org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, Text, IntWritable>.Context context)
            throws java.io.IOException, InterruptedException {
    //获取每条记录的对象
    Log log = Log.getInfo(value.toString().trim());
    //判断关键字是否为空
    if(log.getKeyWord().trim() != null && !log.getKeyWord().trim().equals("")){
      //写入数据
      context.write(text, one);
      //map : <非空关键词的PV访问量总计:, 1>
    }
  };
}

//shuffle : <非空关键词的PV访问量总计:, {1, 1, 1...}>

public static class PVSumReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
  protected void reduce(Text key, java.lang.Iterable<IntWritable> values,

              org.apache.hadoop.mapreduce.Reducer<Text, IntWritable, Text, IntWritable>.Context context)

              throws java.io.IOException, InterruptedException {
      int sum = 0;//记录总条数
      for (IntWritable count : values) {
        sum += count.get();
      }
      context.write(key, new IntWritable(sum));
  };
}

}

MapReduce算法形式一:WordCount的更多相关文章

  1. MapReduce算法形式六:只有Map独自作战

    案例六:Map独自直接输出 之前一直没有用过这个map独自输出的模式,就算是输出一些简单的我也会经过一次reduce输出,但是,发现这个map输出的结果跟我预想的有点不一样,我一直以为shuffle的 ...

  2. MapReduce算法形式五:TOP—N

    案例五:TOP—N 这个问题比较常见,一般都用于求前几个或者后几个的问题,shuffle有一个默认的排序是正序的,但如果需要逆序的并且暂时还不知道如何重写shuffle的排序规则的时候就用以下方法就行 ...

  3. MapReduce算法形式四:mapjoin

    案例四:mapjoin(对个map共同输入,一个reduce) 这个方法主要解决的是,几个表之间的比较,类似于数据库的内外连接,还有一些左右连接之类的,简而言之就是,A表没有的B表有,B表有的A没有或 ...

  4. MapReduce算法形式三:cleanup

    案例三:cleanup 其实这个案例可以不用写这么复杂,不用cleanup也能写,但是为了,突显,突显,突显(重要的事说四遍)cleanup的重要性,琢磨了半天,恩,这样写既可以突显cleanup又显 ...

  5. MapReduce算法形式二:去重(HashSet)

    案例二:去重(shuffle/HashSet等方法)shuffle主要针对的是key去重HashSet主要针对values去重

  6. MapReduce算法形式二:去重(shuffle)

    案例二:去重(shuffle/HashSet等方法)shuffle主要针对的是key去重HashSet主要针对values去重

  7. hadoop笔记之MapReduce的应用案例(WordCount单词计数)

    MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数 作用: 计算文件中出现每个单词的频数 输入结果 ...

  8. 海量数据挖掘MMDS week6: MapReduce算法(进阶)

    http://blog.csdn.net/pipisorry/article/details/49445519 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...

  9. 如何简单解释 MapReduce算法

    原文地址:如何简单解释 MapReduce 算法 在Hackbright做导师期间,我被要求向技术背景有限的学生解释MapReduce算法,于是我想出了一个有趣的例子,用以阐释它是如何工作的. 例子 ...

随机推荐

  1. 高精度&&FFT

    ACM-高精度模板(综合篇) 时间:-- :: 阅读: 评论: 收藏: [点我收藏+] 标签:高精度 在这里,我们约定,能用int表示的数据视为单精度,否则为高精度.所有函数的设计均采用带返回值的形式 ...

  2. "sort open failed +1 no such file or directory"解决方

    GNU的sort也认老式字段规格: +n.m. 但是字段和字符都从0开始计, 例如-k3 -k2可以等效为+2 -3 +1 -2. 目前使用的sort+和-必须成对使用, 只用+就会报错说”sort: ...

  3. 【Luogu】P1948电话线(二分SPFA)

    题目链接 二分最长的电话线长度.把所有大于这个长度的边权设成1,小于等于的设成零,然后跑SPFA看dis[n]是否>k.若>k则l=mid+1 否则r=mid-1 放代码 #include ...

  4. BZOJ 1861 [Zjoi2006]Book 书架 ——Splay

    [题目分析] 模板题目. 首尾两个虚拟结点,十分方便操作. [代码] #include <cstdio> #include <cstring> #include <cma ...

  5. 转载:LINK:fatal error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏

    原文地址:http://yacare.iteye.com/blog/2010049 很多伙伴在更新VS2010,或者卸载VS2012安装2010后,建立Win32 Console Project/MF ...

  6. 洛谷 [T21776] 子序列

    题目描述 你有一个长度为 \(n\) 的数列 \(\{a_n\}\) ,这个数列由 \(0,1\) 组成,进行 \(m\) 个的操作: \(1\ l\ r\) :把数列区间$ [l,r]$ 内的所有数 ...

  7. CSS参数介绍

    原文发布时间为:2008-08-03 -- 来源于本人的百度文章 [由搬家工具导入] 行高       line-height: 16px 宽度       (具体位置)-width: 16px 文字 ...

  8. UI小结

    第一.UIButton的定义      UIButton *button=[[UIButton buttonWithType:(UIButtonType); 能够定义的button类型有以下6种,   ...

  9. git status检测不到文件变化

    SourceTree(Git)无法检测新增文件的解决方法 有时候使用git管理软件SourceTree会遇到往项目里新增了文件,软件却没有任何反应的问题,这多发生在git合并出错而只能重新git的情况 ...

  10. 省赛i题/求1~n内所有数对(x,y),满足最大公约数是质数的对数

    求1~n内所有数对(x,y),gcd(x,y)=质数,的对数. 思路:用f[n]求出,含n的对数,最后用sum[n]求和. 对于gcd(x,y)=a(设x<=y,a是质数),则必有gcd(x/a ...