Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重

package com.bank.service;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
* 将清洗后的数据通过Map端Shuffle（Job.setCombinerClass）去除重复值
* @author mengyao
*
*/
public class CnyDataFormatReplition extends Configured implements Tool {

/**
   * Map端将行内容通过key输出到Reduce，这样会按照字典顺序对key进行排序，输出的value则为空，空值使用Hadoop提供的NullWritable类，该类是Hadoop的序列化后的类型
   * @author mengyao
   *
   */
   static class CnyDataFormatReplitionMapper extends Mapper<LongWritable, Text, Text, NullWritable> {
       @Override
       protected void map(LongWritable key, Text value, Context context)
               throws IOException, InterruptedException {
           context.write(value, NullWritable.get());
       }
   }

/**
   * 在Map端Combiner后作为Reduce接收的key，Reduce端将key写入到HDFS，value则无需输出，使用NullWritable表示不输出
   * @author mengyao
   *
   */
   static class CnyDataFormatReplitionReduce extends Reducer<Text, NullWritable, Text, NullWritable> {
       @Override
       protected void reduce(Text key, Iterable<NullWritable> value, Context context)
               throws IOException, InterruptedException {
           context.write(key, NullWritable.get());
       }
   }

   @Override
   public int run(String[] arg0) throws Exception {
       Job job = Job.getInstance(getConf(), CnyDataFormatReplition.class.getSimpleName());
       //指定运行作业类的主函数入口
       job.setJarByClass(CnyDataFormatReplition.class);

       FileInputFormat.setInputPaths(job, new Path(arg0[0]));
       job.setMapperClass(CnyDataFormatReplitionMapper.class);
       job.setMapOutputKeyClass(Text.class);
       job.setMapOutputValueClass(NullWritable.class);

       //在Map端进行shuffle，先写入缓冲区预排序（达到缓冲区默认100m后系统起后台线程spill到本地磁盘，写入磁盘前会进行二次快速排序），减少到Reduce的网络开销
       job.setCombinerClass(CnyDataFormatReplitionReduce.class);

       FileOutputFormat.setOutputPath(job, new Path(arg0[1]));
       job.setReducerClass(CnyDataFormatReplitionReduce.class);
       job.setOutputKeyClass(Text.class);
       job.setOutputValueClass(NullWritable.class);

       //提交作业并打印作业的进度详情，true打印，false为不打印
       return job.waitForCompletion(true) ? 0 : 1;
   }


   public static void main(String[] args) throws Exception {
       Configuration conf = new Configuration();
       String[] otherArgs = new GenericOptionsParser(conf,args).getRemainingArgs();
       if (otherArgs.length != 2) {
           System.err.println(" ERROR: <inputDir> <outputDir>");
           System.exit(2);
       }
       int status = ToolRunner.run(new CnyDataFormatReplition(), otherArgs);
       System.exit(status);
   }

}

Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重的更多相关文章

MapReduce在Map端的Combiner和在Reduce端的Partitioner
1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: /** * 以文本 * hello you * he ...
List<Map>中根据map的同一指标项数据——去重代码
先看网络上,博客经常出现的错误代码: for(ABatchAddCheckVO aBatchAddCheckVO : addList){ dto.put("aac001",aBat ...
Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端内容整理
下午对着源码看陆喜恒. Hadoop实战(第2版)6.4.1 (Shuffle和排序)Map端,发现与Hadoop 1.2.1的源码有些出入.下面作个简单的记录,方便起见,引用自书本的语句都用斜体表 ...
Hadoop基础-Map端链式编程之MapReduce统计TopN示例
Hadoop基础-Map端链式编程之MapReduce统计TopN示例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.项目需求对“temp.txt”中的数据进行分析,统计出各 ...
第2节 mapreduce深入学习：16、17、map端的join算法的实现
map端的join算法,适用于小表join大表的时候,一次性把小表的数据全部装载到内存当中来: 代码: MapJoinMain: package cn.itcast.demo5.mapJoin; im ...
MapReduce详解及shuffle阶段
hadoop1.x和hadoop2.x的区别: Hadoop1.x版本: 内核主要由Hdfs和Mapreduce两个系统组成,其中Mapreduce是一个离线分布式计算框架,由一个JobTracker ...
MapReduce之Map Join
一介绍之所以存在Reduce Join,是因为在map阶段不能获取所有需要的join字段,即:同一个key对应的字段可能位于不同map中.Reduce side join是非常低效的,因为shuf ...
MapReduce：详解Shuffle过程
Shuffle过程,也称Copy阶段.reduce task从各个map task上远程拷贝一片数据,并针对某一片数据,如果其大小超过一定的阀值,则写到磁盘上,否则直接放到内存中. 官方的Shuffl ...
hadoop的压缩解压缩,reduce端join,map端join
hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别 ...

随机推荐

swift实现ios类似微信输入框跟随键盘弹出的效果
封面(图文无关) 为什么要做这个效果在聊天app,例如微信中,你会注意到一个效果,就是在你点击输入框时输入框会跟随键盘一起向上弹出,当你点击其他地方时,输入框又会跟随键盘一起向下收回,二者完全无缝连 ...
【iOS解决思路】得到某个view所在的ViewController
在一个tableViewCell中有个btn,如何得到它所在的viewcontroller,以便于push出新的viewController? 我的思路是传值,但网上有下面这种方法,分享. 跟得到某个 ...
[转] GDB attach
转:http://blog.csdn.net/wangeen/article/details/14230171 attach是GDB一种重要的debug模式,在MPI程序debug中发挥重要的作用. ...
Hadoop32位和64位的查询
1.查看自己的hadoop版本是32位还是64位进入: hadoop-2.6.4/lib/native 使用file命令 file libhadoop.so.1.0.0
NS2仿真：公交车移动周期模型及性能分析
NS2仿真实验报告3 实验名称:公交车移动周期模型及性能分析实验日期:2015年3月16日~2015年3月21日实验报告日期:2015年3月22日一.实验环境(网络平台,操作系统,网络拓扑图) ...
bootsrtap (-)
1.text-muted:提示,使用浅灰色(#999).text-primary:主要,使用蓝色(#428bca).text-success:成功,使用浅绿色(#3c763d).text-info:通 ...
ASP.NET中的MD5加密
新人冒泡,打今起在园子里算是开博了,先来写点关于基础性的东西为以后的写其他的文章做准备. 今天就先来说说MD5加密与在ASP.NET中如何实现MD5加密. MD5加密简单的说就是把一段明文通过某种 ...
IPTV中的EPG前端优化
先看一下IPTV相关情况: l 目前TPTV市场情况 a) 截止今年2月,全国IPTV总用户数达3630.2万,我国移动互联网用户规模接近9亿,人均月接入量近300M,8M宽带达半数,光纤近4成. 图 ...
MYSQL Model报错：指定的存储区提供程序在配置中找不到的解决
开了项目发现没装mysql及mysql connector/.net.下了个最新版本,结果打开vs,进入模型edmx页面就出了这个问题. 刚开始以为是ProviderManifestToken版本的问 ...
（转）Eclipse快捷键大全,导包快捷键:ctrl+Shift+/
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当 ...

Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重

Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重的更多相关文章

随机推荐

热门专题