十二道MR习题 - 3 - 交集并集差集

题目

有两个文件A和B，两个文件中都有几百万行数字，现在需要找出A文件和B文件中数字集合的交集、并集、以及A对B的差集。

简单说一下思路：

这个问题关键在于key和value的设计。这里我将文件中的数字设置为key，将文件名称设置为value。这样在reduce阶段很容易就能找出A、B两个文件中数字的交并差集了。

并集就是reduce阶段能输出的全部记录；交集则需要做下过滤，即一个记录中的value需要同时有A、B两个文件的名称；差集则是文件名称集合中只包含A或B的记录。

看下用MapReduce是如何实现的：

package com.zhyea.dev;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

import java.util.Iterator;

public class ContentCompare {

    public static class SplitterMapper extends Mapper<Object, Text, Text, Text> {

        private Text text = new Text();

        @Override

        public void map(Object key, Text value, Context context) {

            try {

                String fileName = ((FileSplit) context.getInputSplit()).getPath().getName();

                text.set(fileName);

                context.write(value, text);

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

    }

    public static class UnionReducer extends Reducer<Text, Text, Text, NullWritable> {

        @Override

        public void reduce(Text key, Iterable<Text> values, Context context) {

            try {

                context.write(key, NullWritable.get());

            } catch (IOException e) {

                e.printStackTrace();

            } catch (InterruptedException e) {

                e.printStackTrace();

            }

        }

    }

    public static class InterReducer extends Reducer<Text, Text, Text, NullWritable> {

        @Override

        public void reduce(Text key, Iterable<Text> values, Context context) {

            try {

                Iterator<Text> itr = values.iterator();

                boolean flagA = false;

                boolean flagB = false;

                while (itr.hasNext()) {

                    String s = itr.next().toString();

                    if (s.equals("B")) {

                        flagB = true;

                    }

                    if (s.equals("A")) {

                        flagA = true;

                    }

                }

                if (flagA && flagB) {

                    context.write(key, NullWritable.get());

                }

            } catch (IOException e) {

                e.printStackTrace();

            } catch (InterruptedException e) {

                e.printStackTrace();

            }

        }

    }

    public static class DiffAReducer extends Reducer<Text, Text, Text, NullWritable> {

        @Override

        public void reduce(Text key, Iterable<Text> values, Context context) {

            try {

                Iterator<Text> itr = values.iterator();

                boolean flagA = false;

                boolean flagB = false;

                while (itr.hasNext()) {

                    String s = itr.next().toString();

                    if (s.equals("A")) {

                        flagA = true;

                    }

                    if (s.equals("B")) {

                        flagB = true;

                    }

                }

                if (flagA && !flagB) {

                    context.write(key, NullWritable.get());

                }

            } catch (IOException e) {

                e.printStackTrace();

            } catch (InterruptedException e) {

                e.printStackTrace();

            }

        }

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf, "content-compare");

        job.setJarByClass(ContentCompare.class);

        job.setMapperClass(SplitterMapper.class);

        job.setReducerClass(DiffAReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(NullWritable.class);

        job.setNumReduceTasks(1);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

用spark实现就简单的多了，这里我们很大程度上是受益于scala语法的简洁性：

package com.talkingdata.campaign

import org.apache.hadoop.io.{LongWritable, Text}

import org.apache.hadoop.mapred.{FileSplit, InputSplit, TextInputFormat}

import org.apache.spark.rdd.HadoopRDD

import org.apache.spark.{SparkConf, SparkContext}

object ContentCompare {

  def main(args: Array[String]): Unit = {

    val inputPath = args(0)

    val outputPath = args(1)

    val conf = new SparkConf().setAppName("content compare")

    val sc = new SparkContext(conf)

    val data = sc.hadoopFile[LongWritable, Text, TextInputFormat](inputPath)

    val hadoopRDD = data.asInstanceOf[HadoopRDD[LongWritable, Text]]

    hadoopRDD.mapPartitionsWithInputSplit[(String, String)](readFile)

      .reduceByKey(_ + _)

      .filter(p => p._2.length == 2)

      .map(p => p._1)

      .repartition(1)

      .saveAsTextFile(outputPath)

    def readFile(inputSplit: InputSplit, itr: Iterator[(LongWritable, Text)]) = {

      val fileName = inputSplit.asInstanceOf[FileSplit].getPath.getName

      itr.map(p => (p._2.toString, fileName))

    }

  }

}

上面的代码中列出了计算交集的方法。并集实在是没什么好说的，读取文件后，reduce或distinct一下就能实现了。

要计算差集的话只需要调整下filter中的函数值就可以了：

hadoopRDD.mapPartitionsWithInputSplit[(String, String)](readFile)

      .reduceByKey(_ + _)

      .filter(p => p._2.length == 1 && p._2 == "A")

      .map(p => p._1)

      .repartition(1)

      .saveAsTextFile(outputPath)

#############

十二道MR习题 - 3 - 交集并集差集的更多相关文章

十二道MR习题 - 2 - 多文件保存
题目: 需要将MR的执行结果保存到3个文件中,该怎么做. 又是一个送分题. 对于Hadoop的MapReduce来说只需要设置一下reduce任务的数量即可.MR的Job默认reduce数量是1,需要 ...
十二道MR习题 - 4 - TopN问题
题目: 有一个很大的文件,这文件中的内容全部都是数字,要求尝试从这个文件中找出最大的10个数字. 分析: 看起来像是一个比较简单的问题.不用大数据框架的话,也能比较轻易的实现:就是逐个读取文件中的每个 ...
十二道MR习题 – 1 – 排序
题目: 一个文件,大小约为100G.文件的每一行都是一个数字,要求对文件中的所有数字进行排序. 对于这个题目,了解过Hadoop的同学可以笑而不语了.即使用spark实现也是非常简单的事情. 先说下如 ...
(java/javascript) list 交集并集差集去重复并集
java list 交集并集差集去重复并集 package com; import java.util.ArrayList; import java.util.Iterator; import ...
Python 求两个文本文件以行为单位的交集并集差集
Python 求两个文本文件以行为单位的交集并集差集,来代码: s1 = set(open('a.txt','r').readlines()) s2 = set(open('b.txt','r') ...
如何求ArrayList集合的交集并集差集去重复并集
需要用到List接口中定义的几个方法: addAll(Collection<? extends E> c) :按指定集合的Iterator返回的顺序将指定集合中的所有元素追加到此列表的末尾 ...
spark之交集并集差集拉链
spark之交集并集差集拉链 def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setMaster(&qu ...
java 两个list 交集并集差集去重复并集
前提需要明白List是引用类型,引用类型采用引用传递. 我们经常会遇到一些需求求集合的交集.差集.并集.例如下面两个集合: List<String> list1 = new ArrayLi ...
java list 交集并集差集去重复并集
package com; import java.util.ArrayList;import java.util.Iterator;import java.util.List; public clas ...

随机推荐

Less-css基础扩展
//扩展Extend less的伪类,合并了选择器,放在与它引用匹配的选择器上 Use Method:以在study上扩展test的样式为例 .test{ color:#000000; font-si ...
如何设置，使IntelliJ IDEA智能提示忽略大小写
关于this，作用域，属性，原型链的一个小练习
function p () { this.name = 'x'; var name = 'y'; this.getName = function () { return name; } } // 求值 ...
MyBatis generator 生成生成dao model mappper
MyBatis GeneratorXML配置文件参考在最常见的用例中,MyBatis Generator(MBG)由XML配置文件驱动. 配置文件告诉MBG: 如何连接到数据库什么对象要生成,以及 ...
mysq查询语句包含中文以及中文乱码，字符集 GBK、GB2312、UTF8的区别
一.查看mysql 字符集设置情况使用Navicat for Mysql查看工具,打开命令列界面,输入show variables like '%char%';如下图,查看当前mysql字符集设置情 ...
unity3d相关资源
http://pan.baidu.com/s/1kTG9DVD GUI源码
01 javaSe 01 抽象类和接口
抽象类接口目录(?)[-] 1 抽象类与接口是面向对象思想层面概念不是程序设计语言层面概念 2 抽象类是本体的抽象接口是行为的抽象 3 C中抽象类与接口的探讨目录(?)[+] ...
CoreThink开发（十三）增加页面加载动画
效果: 加载动画是由jquery和fakeloader这个js库实现的. 其实这个也可以做成一个插件,用数据库记录是否开启,选择动画的样式,那样扩展性会更好. 源码资源已经上传在我的csdn下载中. ...
数据库、Java与Hibernate数据类型对照
数据类型对照表: 标准SQL数据类型 Java数据类型 Hibernate数据类型 TINYINT byte.java.lang.Byte byte SMALLINT short.java.lang. ...
python安装virtualenv
pip install virtualenv 为了使用更方便用,安装另外一个,windows下要-win,linux下不用 pip install virtualenvwrapper-win 使用方法 ...

十二道MR习题 - 3 - 交集并集差集

十二道MR习题 - 3 - 交集并集差集的更多相关文章

随机推荐

热门专题