十二道MR习题 – 1

题目：

一个文件，大小约为100G。文件的每一行都是一个数字，要求对文件中的所有数字进行排序。

对于这个题目，了解过Hadoop的同学可以笑而不语了。即使用spark实现也是非常简单的事情。

先说下如何用Hadoop实现。实际上也没什么好说的：Map任务逐行读入数字，而后在Reduce中输出就可以了，简单粗暴到令人发指。

看下代码好了：

package com.zhyea.dev;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class NumberSort {

    public static class SplitterMapper extends Mapper<Object, Text, IntWritable, IntWritable> {

        private static final IntWritable intWritable = new IntWritable();

        @Override

        public void map(Object key, Text value, Context context) {

            try {

                int num = Integer.valueOf(value.toString());

                intWritable.set(num);

                context.write(intWritable, intWritable);

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

    }

    public static class IntegrateReducer extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable> {

        @Override

        public void reduce(IntWritable key, Iterable<IntWritable> values, Context context) {

            try {

                context.write(key, key);

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf, "number-sort");

        job.setJarByClass(NumberSort.class);

        job.setMapperClass(SplitterMapper.class);

        job.setReducerClass(IntegrateReducer.class);

        job.setOutputKeyClass(IntWritable.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

在map方法中，输出值的Value部分我选择了一个IntWritable的值。Value值的类型也是可以设置为NullWritable的。

在我们的程序里没有执行任何排序的动作，但是输出的结果是有序的，这是因为在shuffle阶段已经完成了排序（一次快速排序，一次归并排序）。

再来看看用spark是如何完成的：

object NumSortJob {

  def main(args: Array[String]): Unit = {

    val inputPath = args(0)

    val outputPath = args(1)

    val conf = new SparkConf().setAppName("Num Sort")

    val sc = new SparkContext(conf)

    val data = sc.hadoopFile[LongWritable, Text, TextInputFormat](inputPath)

    data.map(p => p._2.toString.toInt).distinct().sortBy[Int](p => p).coalesce(1, true).saveAsTextFile(outputPath)

  }

}

spark则需要主动进行排序。即使选择了使用sortBasedShuffle，它的排序也仅止于mapper端的排序，结果集不一定是有序的。

#########

十二道MR习题 – 1 – 排序的更多相关文章

十二道MR习题 - 4 - TopN问题
题目: 有一个很大的文件,这文件中的内容全部都是数字,要求尝试从这个文件中找出最大的10个数字. 分析: 看起来像是一个比较简单的问题.不用大数据框架的话,也能比较轻易的实现:就是逐个读取文件中的每个 ...
十二道MR习题 - 2 - 多文件保存
题目: 需要将MR的执行结果保存到3个文件中,该怎么做. 又是一个送分题. 对于Hadoop的MapReduce来说只需要设置一下reduce任务的数量即可.MR的Job默认reduce数量是1,需要 ...
十二道MR习题 - 3 - 交集并集差集
题目有两个文件A和B,两个文件中都有几百万行数字,现在需要找出A文件和B文件中数字集合的交集.并集.以及A对B的差集. 简单说一下思路: 这个问题关键在于key和value的设计.这里我将文件中的数 ...
Java进阶(三十九)Java集合类的排序,查找,替换操作
Java进阶(三十九)Java集合类的排序,查找,替换操作前言在Java方向校招过程中,经常会遇到将输入转换为数组的情况,而我们通常使用ArrayList来表示动态数组.获取到ArrayList对 ...
YTU 2427: C语言习题整数排序
2427: C语言习题整数排序时间限制: 1 Sec 内存限制: 128 MB 提交: 391 解决: 282 题目描述用指向指针的指针的方法对n个整数排序并输出.要求将排序单独写成一个函数 ...
YTU 2426: C语言习题字符串排序
2426: C语言习题字符串排序时间限制: 1 Sec 内存限制: 128 MB 提交: 262 解决: 164 题目描述用指向指针的指针的方法对5个字符串排序并输出.要求将排序单独写成一个 ...
YTU 2414: C语言习题字符串排序
2414: C语言习题字符串排序时间限制: 1 Sec 内存限制: 128 MB 提交: 656 解决: 305 题目描述输入n个字符串,将它们按字母由小到大的顺序排列并输出.编写三个函数实 ...
C primer plus 第五版十二章习题
看完C prime plus(第五版)第十二章,随带完成了后面的习题. 1.不使用全局变量,重写程序清单12.4的程序. 先贴出12.4的程序,方便对照: /* global.c --- 使用外部变量 ...
Python [习题] 字典排序
[习题] 对此字典分别按照value 和key 如何排序? dic1 = {'and':40, 'a':54, 'is':60, 'path':139, 'the':124, 'os':49} In ...

随机推荐

AEcs6破解版下载
下载地址 http://pan.baidu.com/share/link?shareid=79184520&uk=1795677788 点击下载
SQL Server常用函数汇总
1.day(date) 用途:获取日期是所在月的几号参数:date是一个可以解析为 time.date.smalldatetime.datetime.datetime2 或 datetime ...
Powershell Get Domain Mailbox的几种方法
一.Disconnected Mailboxes 1.Finding Disconnected Mailboxes The first function is called Get-Disconnec ...
php 汉字验证码
代码: captcha.php <?php //实现简单的验证码 //session_start session_start(); //画布 $image = imagecreatetrueco ...
css3的3d属性集合
css3的3d属性集合想进入css3的3d世界必须知道一下几个属性及其用法. 当然在进入属性介绍之前我想你必须知道3维坐标,附上一张经典图如下: 我想不用解释了吧.之后要平移和旋转都是在这个基础之上 ...
form表单学习
1.http://www.cnblogs.com/fish-li/archive/2011/07/17/2108884.html 2.http://www.cnblogs.com/polk6/arch ...
Linux下套接字具体解释（九）---poll模式下的IO多路复用server
參照 poll调用深入解析-从poll的实现来讲poll多路复用模型,非常有深度 poll多路复用 poll的机制与select相似,与select在本质上没有多大差别.管理多个描写叙述符也是进行轮询 ...
Android学习十二---在android上实现图像匹配
一.效果图及功能描述效果图点击ShowImg后点击match,然后点击showmatch,可以不断点击showmatch. 主要功能描述:显示在SD卡上已经存在的图片test.jpg,根据图片在 ...
解释一下python中的身份运算符
通过身份运算符‘is’和‘is not’,我们可以确定两个值是否相同 ')#False print(True is not False)#True
HDU 4370 - 0 or 1 （SPFA+思维）
题意:给一个N*N的矩阵C,和一个N*N的只由0和1组成的矩阵X. X满足以下条件: 1.X 12+X 13+...X 1n=1 2.X 1n+X 2n+...X n-1n=1 3.任意 i (1 ...

十二道MR习题 – 1 – 排序

十二道MR习题 – 1 – 排序的更多相关文章

随机推荐

热门专题