重新认识mapreduce

写这篇文章，是因为最近遇到了mapreduce的二次排序问题。以前的理解不完全正确。首先看一下mapreduce的过程

相信这张图熟悉MR的人都应该见过，再来一张图

wordcount也不细说了，hadoop里面的hello,world

之前我的理解是map过来的<k,v>会形成(k,<v1,v2,v3...>)的格式，并且按照这种思路写出来不少的mapreduce程序，而且没有错。

后来自定义Writable对象，封装一组值作为key，也没有什么问题，而且一直认为key只要在compareTo中重写了方法就万事大吉，而且compareTo返回0的会作为相同的key。误区就在这里，之前一直认为key相同的value会合并到一个"list"中-。这句话就有错，key是key，value是value，根本不会将key对应的value合并在一起，真实情况是默认将key相同（compareTo返回0的）的合并成了一组，在组相同的里面去foreach里面的value，如果是自定义key的话你可以将key打印一下，或发现key并不相同。

上代码：

public class Entry implements WritableComparable<Entry> {

    private String yearMonth;

    private int count;

    public Entry() {

    }

    @Override

    public int compareTo(Entry entry) {

        int result = this.yearMonth.compareTo(entry.getYearMonth());

        if (result == 0) {

            result = Integer.compare(count, entry.getCount());

        }

        return result;

    }

    @Override

    public void write(DataOutput dataOutput) throws IOException {

        dataOutput.writeUTF(yearMonth);

        dataOutput.writeInt(count);

    }

    @Override

    public void readFields(DataInput dataInput) throws IOException {

        this.yearMonth = dataInput.readUTF();

        this.count = dataInput.readInt();

    }

    public String getYearMonth() {

        return yearMonth;

    }

    public void setYearMonth(String yearMonth) {

        this.yearMonth = yearMonth;

    }

    public int getCount() {

        return count;

    }

    public void setCount(int count) {

        this.count = count;

    }

    @Override

    public String toString() {

        return yearMonth;

    }

}

自定义分区 EntryPartitioner.java

public class EntryPartitioner extends Partitioner<Entry, Text> {

    @Override

    public int getPartition(Entry entry, Text paramVALUE, int numberPartitions) {

        return Math.abs((entry.getYearMonth().hashCode() % numberPartitions));

    }

}

自定义分组

public class EntryGroupingComparator extends WritableComparator {

    public EntryGroupingComparator() {

        super(Entry.class, true);

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        Entry a1 = (Entry) a;

        Entry b1 = (Entry) b;

        return a1.getYearMonth().compareTo(b1.getYearMonth());

    }

}

mapper类

public class SecondarySortMapper extends

        Mapper<LongWritable, Text, Entry, Text> {

    private Entry entry = new Entry();

    private Text value = new Text();

    @Override

    protected void map(LongWritable key, Text lines, Context context)

            throws IOException, InterruptedException {

        String line = lines.toString();

        String[] tokens = line.split(",");

        String yearMonth = tokens[0] + "-" + tokens[1];

        int count = Integer.parseInt(tokens[2]);

        entry.setYearMonth(yearMonth);

        entry.setCount(count);

        value.set(tokens[2]);

        context.write(entry, value);

    }

}

reducer类

public class SecondarySortReducer extends Reducer<Entry, Text, Entry, Text> {

    @Override

    protected void reduce(Entry key, Iterable<Text> values, Context context)

            throws IOException, InterruptedException {

        System.out.println("-----------------华丽的分割线-----------------");

        StringBuilder builder = new StringBuilder();

        for (Text value : values) {

            System.out.println(key+"==>"+value);

            builder.append(value.toString());

            builder.append(",");

        }

        context.write(key, new Text(builder.toString()));

    }

}

reducer中打印出来的跟原来想的不一样，一组的值除了自定义分组的属性相同外，其他的属性有不同的。看来以前是自己理解不够深入啊，特此写出，以示警戒

重新认识mapreduce的更多相关文章

Mapreduce的文件和hbase共同输入
Mapreduce的文件和hbase共同输入 package duogemap; import java.io.IOException; import org.apache.hadoop.co ...
mapreduce多文件输出的两方法
mapreduce多文件输出的两方法 package duogemap; import java.io.IOException; import org.apache.hadoop.conf ...
mapreduce中一个map多个输入路径
package duogemap; import java.io.IOException; import java.util.ArrayList; import java.util.List; imp ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
[Hadoop in Action] 第5章高阶MapReduce
链接多个MapReduce作业执行多个数据集的联结生成Bloom filter 1.链接MapReduce作业 [顺序链接MapReduce作业] mapreduce-1 | mapr ...
MapReduce
2016-12-21 16:53:49 mapred-default.xml mapreduce.input.fileinputformat.split.minsize 0 The minimum ...
使用mapreduce计算环比的实例
最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spark计算,可是本人目前spark还只是简单看了下,因此就先改用mapreduce计算了,今天和大家分享下这个 ...
MapReduce剖析笔记之八: Map输出数据的处理类MapOutputBuffer分析
在上一节我们分析了Child子进程启动,处理Map.Reduce任务的主要过程,但对于一些细节没有分析,这一节主要对MapOutputBuffer这个关键类进行分析. MapOutputBuffer顾 ...
MapReduce剖析笔记之七：Child子进程处理Map和Reduce任务的主要流程
在上一节我们分析了TaskTracker如何对JobTracker分配过来的任务进行初始化,并创建各类JVM启动所需的信息,最终创建JVM的整个过程,本节我们继续来看,JVM启动后,执行的是Child ...
MapReduce剖析笔记之六：TaskTracker初始化任务并启动JVM过程
在上面一节我们分析了JobTracker调用JobQueueTaskScheduler进行任务分配,JobQueueTaskScheduler又调用JobInProgress按照一定顺序查找任务的流程 ...

随机推荐

Scalaz（9）－ typeclass：checking instance abiding the laws
在前几篇关于Functor和Applilcative typeclass的讨论中我们自定义了一个类型Configure,Configure类型的定义是这样的: case class Configure ...
mysql Access denied for user root@localhost错误解决方法总结(转)
mysql Access denied for user root@localhost错误解决方法总结(转) mysql Access denied for user \'root\'@\'local ...
DDD开发框架ABP之本地化/多语言支持
本地化(Localization)也就是多语言功能,借此用户能够选择他的母语或熟悉的语言来使用系统,这显然非常有利于软件系统推向国际化.一个应用程序的UI界面至少有一种语言,DDD开发框架ABP就提供 ...
GJM ：FPSCalc-简单FPS观测类 [转载]
版权声明:本文原创发表于 [请点击连接前往] ,未经作者同意必须保留此段声明!如有侵权请联系我删帖处理! FPSCalc--简单FPS观测类利用Unity做的手游项目很多时候要保证流畅度,流畅度最直 ...
RDBMS架构的开源DW/DSS引擎列表
因为笔者早期以oracle为主要RDBMS进行设计和优化,所以几乎即使单表超过5000w,多张超过300万以上的表做任意复杂的统计和风控计算都没出过性能问题.如今全面mysql为主线或者说open s ...
CSS：使用CSS媒体查询创建响应式布局
现如今在Web前端领域,BootStrap是一个最流行的UI库,其12列的栅栏系统为响应式布局提供了一种对程序员来说很好操作的模式. 追究Bootstrap的内在原理,其实就是通过媒体查询来完成对不同 ...
UrlRewrite(URL重写）--ASP.NET中的实现
概述今天看了下URL重写的实现,主要看的是MS 的URL Rewrite. URL重写的优点有:更友好的URL,支持老版本的URL URL重写的缺点有:最主要的缺点是性能低下,因为如果要支持无后缀的 ...
bootstrap源码分析之form、navbar
一.表单(Form) 源码文件:_form.scssmixins/_form.scss 1.按层次结构分:form-group -> form-control/input-group/form- ...
JS高程2.在HTML中使用Javascript（2）
1.延迟脚本defer 在<script>元素中设置defer属性,相当于告诉浏览器立即下载,但是延迟执行.<script>中的脚本会延迟到浏览器遇到</html> ...
JavaScript学习笔记-正则表达式(RegExp对象)
正则表达式(RegExp对象) 1.正则表达式字面量,在脚本加载后编译.若你的正则表达式是常量,使用这种方式可以获得更好的性能,重复使用时不会重新编译: 2.使用构造函数创建的RegExp,提供了 ...

重新认识mapreduce

重新认识mapreduce的更多相关文章

随机推荐

热门专题