hadoop —— MapReduce例子（数据排序）

参考：http://eric-gcm.iteye.com/blog/1807468

file1.txt:

file2.txt:

file3.txt:

JAVA代码:

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Sort {

    // map将输入中的value化成IntWritable类型，作为输出的key

    public static class Map extends

            Mapper<Object, Text, IntWritable, IntWritable> {

        private static IntWritable data = new IntWritable();

        // 实现map函数

        public void map(Object key, Text value, Context context)

            throws IOException, InterruptedException {

            String line = value.toString();

            data.set(Integer.parseInt(line));

            context.write(data, new IntWritable(1));

        }

    }

    // reduce将输入中的key复制到输出数据的key上，

    // 然后根据输入的value-list中元素的个数决定key的输出次数

    // 用全局linenum来代表key的位次

    public static class Reduce extends

        Reducer<IntWritable, IntWritable, IntWritable, IntWritable> {

        private static IntWritable linenum = new IntWritable(1);

        // 实现reduce函数

        public void reduce(IntWritable key, Iterable<IntWritable> values,

                Context context)

            throws IOException, InterruptedException {

            for (IntWritable val : values) {

                context.write(linenum, key);

                linenum = new IntWritable(linenum.get() + 1);

            }

        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        // 这句话很关键

        conf.set("mapred.job.tracker", "172.16.11.74:9001");

        String[] ioArgs = new String[] { "sort_in", "sort_out" };

        String[] otherArgs = new GenericOptionsParser(conf, ioArgs)

                .getRemainingArgs();

        if (otherArgs.length != 2) {

            System.err.println("Usage: Data Sort <in> <out>");

            System.exit(2);

        }

        Job job = new Job(conf, "Data Sort");

        job.setJarByClass(Sort.class);

        // 设置Map和Reduce处理类

        job.setMapperClass(Map.class);

        job.setReducerClass(Reduce.class);

        // 设置输出类型

        job.setOutputKeyClass(IntWritable.class);

        job.setOutputValueClass(IntWritable.class);

        // 设置输入和输出目录

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

Sort

运行结果：

1       2

2       6

3       15

4       22

5       26

6       32

7       32

8       54

9       92

10      650

11      654

12      756

13      5956

14      65223

具体打包运行步骤：

参考上一篇博文：http://www.cnblogs.com/-wangjiannan/p/3590324.html

知识点：

　　MapReduce的默认排序规则是按照key值进行排序的。

　　如果key为封装int的IntWritable类型，那么MapReduce按照数字大小对key排序，

　　如果key为封装为String的Text类型，那么MapReduce按照字典顺序对字符串排序。

代码理解：

map阶段：

　　　　1. String line = value.toString();

　　　　　　实现的map方法中，针对文本的一行（line）处理，遍历每行的代码框架内部实现了

　　　　2. context.write(data, new IntWritable(1));

　　每一行：key是data（强转成IntWritable类型的 line），value是IntWritable类型的 1

　　 3. 所有行默认排序好了，而且是按递增顺序的

　　　　　　若有重复的行，那么data对应的value合并成一个集合{Values}（{IntWritable类型的 1+}）

reduce阶段：

1. reduce(IntWritable key, Iterable<IntWritable> values, Context context)

　　每一行：key是map阶段后的data，values是data对应的集合{Values}

　　　　2. for (IntWritable val : values) { context.write(linenum, key); linenum = new IntWritable(linenum.get() + 1); }

　　　　　　这行代码的作用是输出：行号 data

　　　　　　同时：行号递增，若有重复的行，则换行输出

hadoop —— MapReduce例子（数据排序）的更多相关文章

hadoop —— MapReduce例子（数据去重）
参考:http://eric-gcm.iteye.com/blog/1807468 例子1: 概要:数据去重描述:将file1.txt.file2.txt中的数据合并到一个文件中的同时去掉重复的内容 ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop MapReduce例子-新版API多表连接Join之模仿订单配货
文章为作者原创,未经许可,禁止转载. -Sun Yat-sen University 冯兴伟一. 项目简介: 电子商务的发展以及电商平台的多样化,类似于京东和天猫这种拥有过亿用户的在线购 ...
hadoop mapreduce实现数据去重
实现原理分析: map函数数将输入的文本按照行读取, 并将Key--每一行的内容输出 value--空. reduce 会自动统计所有的key,我们让reduce输出key-> ...
hadoop —— MapReduce例子（求平均值）
参考:http://eric-gcm.iteye.com/blog/1807468 math.txt: 张三 88 李四 99 王五 66 赵六 77 china.txt: 张三 78 李四 89 王 ...
Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户
你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
Hadoop学习笔记—11.MapReduce中的排序和分组
一.写在之前的 1.1 回顾Map阶段四大步骤首先,我们回顾一下在MapReduce中,排序和分组在哪里被执行: 从上图中可以清楚地看出,在Step1.4也就是第四步中,需要对不同分区中的数据进行排 ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...

随机推荐

【温故知新】——BABYLON.js学习之路·前辈经验（一）
前言:公司用BABYLON作为主要的前端引擎,同事们在长时间的项目实践中摸索到有关BABYLON的学习路径和问题解决方法,这里只作为温故知新. 一.快速学习BABYLON 1. 阅读Babylon[基 ...
Linux后台进程管理（转）
fg.bg.jobs.&.ctrl + z命令一. &加在一个命令的最后,可以把这个命令放到后台执行 ,如gftp &,二.ctrl + z可以将一个正在前台执行的命令放到后台 ...
Android设计中的尺寸问题
Android把屏幕大小分成四种:small, normal, large, xlarge; 屏幕密度分成:low(ldpi), medium(mdpi), high(hdpi), extra hig ...
Python获取免费的可用代理
Python获取免费的可用代理在使用爬虫多次爬取同一站点时,常常会被站点的ip反爬虫机制给禁掉,这时就能够通过使用代理来解决.眼下网上有非常多提供最新免费代理列表的站点.这些列表里非常多的代理主机是 ...
（转）微信小程序开发项目——笑话大全
此项目是学习完微信小程序后实现的一个demo,采用聚合数据的免费api获取最新的文本笑话和趣图(图片和gif图) 项目地址:https://github.com/zhijieeeeee/wecha ...
【Excle数据透视表】如何移动数据透视表的位置
数据透视表创建完成了,现在需要将它移动到D5位置,如何移动呢? 解决办法通过"移动数据透视表"功能实现数据透视表的位置移动步骤1 单击数据透视表任意单元格→数据透视表工具→分析 ...
JS函数库Underscore.js
http://underscorejs.org/ http://www.css88.com/doc/underscore/ http://www.bootcss.com/p/underscore/
ThinkPHP中的模型命名
当我们创建一个UserModel类的时候,其实已经遵循了系统的约定.ThinkPHP要求数据库的表名和模型类的命名遵循一定的规范,首先数据库的表名和字段全部采用小写形式,模型类的命名规则是除去表前缀的 ...
效率提升最重要的原则 - Doing one thing at a time
前段时间流行的时间管理方法 - url=NotLrz-4f4eCgENFAECrXNw88mSLoJ2Rc2MrkP4aes1yQvPjNQRlmdYcbz9oP9U8JoBzJeY-DSUhhInx ...
linux配置nfs步骤及心得
这节我们介绍NFS的相关概念,以及怎样配置NFS和在client中查看NFS. NFS的配置过程非常easy. 在server端中编辑/etc/exports文件,加入例如以下内容: ...

hadoop —— MapReduce例子 （数据排序）

hadoop —— MapReduce例子 （数据排序）的更多相关文章

随机推荐

热门专题

hadoop —— MapReduce例子（数据排序）

hadoop —— MapReduce例子（数据排序）的更多相关文章