MapReduce编程实现学习

MapReduce主要包括两个阶段：一个是Map，一个是Reduce. 每一步都有key-value对作为输入和输出。

　　Map阶段的key-value对的格式是由输入的格式决定的，如果是默认的TextInputFormat,则每行作为一个记录进程处理，其中key为此行的开头相对文件的起始位置，value就是此行的字符文本。Map阶段的输出的key-value对的格式必须同reduce阶段的输入key-value对的格式相对应。

下面开始尝试，假设我们需要处理一批有关天气的数据，其格式如下：

按照ASCII码存储，每行一条记录
每一行字符从0开始计数，第15个到第18个字符为年
第25个到第29个字符为温度，其中第25位是符号+/-

Text文本样例：

0067011990999991950051507+0000+

0043011990999991950051512+0022+

0043011990999991950051518-0011+

0043012650999991949032412+0111+

0043012650999991949032418+0078+

0067011990999991937051507+0001+

0043011990999991937051512-0002+

0043011990999991945051518+0001+

0043012650999991945032412+0002+

0043012650999991945032418+0078+

上代码啦:

package Hadoop;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Reducer.Context;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

import java.util.StringTokenizer;

/**

 * Created by root on 4/23/16.

 */

public class hadoopTest extends Configured implements Tool{

　　 //map将输入中的value复制到输出数据的key上，并直接输出

    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {

　　　　　//实现map函数

        @Override

        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

            String line = value.toString();

            String year = line.substring(15, 19);

            int airTemperature;

            if (line.charAt(25) == '+') {

                airTemperature = Integer.parseInt(line.substring(26, 30));

            } else {

                airTemperature = Integer.parseInt(line.substring(25, 30));

            }

            context.write(new Text(year), new IntWritable(airTemperature));

        }

    }


　　　　  //reduce将输入中的key复制到输出数据的key上，并直接输出

        public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {

            public void reduce(Text key, Iterable<IntWritable> values, Context context)

                    throws IOException, InterruptedException {

                int maxValue = Integer.MIN_VALUE;

                for (IntWritable sorce : values) {

                    maxValue = Math.max(maxValue, sorce.get());

                }

                    context.write(key, new IntWritable(maxValue));

            }

        }

        @Override

        public int run(String[] arg0) throws Exception {
　　　　　　　 //这里测试用，传入的路径直接赋值

            String InputParths = "/usr/local/hadooptext.txt";

            String OutputPath = "/usr/local/hadoopOut";
　　　　　　　 //声明一个job对象,这里的getConf是获取hadoop的配置信息，需要继承Configured.

            Job job = new Job(getConf());
　　　　　　   //设置job名称

            job.setJobName("AvgSorce");
            //设置mapper输出的key-value对的格式

            job.setOutputKeyClass(Text.class);
　　　　　　　 
　　　　　　　 //设置Mapper,默认为IdentityMapper,这里设置的代码中的Mapper

            job.setMapperClass(hadoopTest.Map.class);
　　　　　　   //Combiner可以理解为小的Reducer，为了降低网络传输负载和后续Reducer的计算压力 可以单独写一个方法进行调用

            job.setCombinerClass(Reduce.class);
　　　　　　　 //设置reduce输出的key-value对的格式
            job.setOutputValueClass(IntWritable.class);
            //设置输入格式

            job.setInputFormatClass(TextInputFormat.class);
            //设置输入输出目录

            FileInputFormat.setInputPaths(job, new Path(InputParths));

            FileOutputFormat.setOutputPath(job, new Path(OutputPath));

            boolean success = job.waitForCompletion(true);

            return success ? 0 : 1;

        }

        public static void main(String[] args) throws Exception {

            int ret = ToolRunner.run(new hadoopTest(), args);

            System.exit(ret);

        }

    }

Map函数继承自MapReduceBase,它实现了Mapper接口，此接口是一个范型类型，它有4种形式的参数，分别用来指定map的输入key值类型、输入value值类型、输出key值类型和输出value值类型。这里使用的是TextInputFormat，它的输出key值是LongWritable类型，输出value是Text类型。因为需要输出<word,1>形式，因此输出的key值类型是Text,输出的value值类型是IntWritable

InputFormat()和inputSplit

　　InputSplit是Hadoop定义的用来传输给每个单独的map的数据，InputSplit存储的并非数据本身，而是一个分片长度和一个记录数据位置的数组。生成InputSplit的方法可以通过InputFormat()来设置。当数据传输给map时，map会将输入分片传送到InputFormat上，InputFormat调用getRecordReader()方法生成RecordReader,RecordReader再通过creatKey()、creatValue()方法创建可供map处理的<key,value>对，即<k1,v1>，InputFormat()方法是用来生成可供map处理的<key,value>对的。

TextInputFormat是Hadoop默认的输入方法，在TextInputFormat中，每个文件都会单独地作为map的输入，而这是继承自FileInputFormat的，之后，每行数据都会生成一条记录，每条记录则表示成<key,value>形式。

这里的key是每个数据的记录在数据分片中的字节偏移量，数据类型是LongWritable.

value值是每行的内容，数据类型是Text.

执行结果：

MapReduce编程实现学习的更多相关文章

mapreduce编程--（准备篇）
mapreduce编程准备学习mapreduce编程之前需要做一些概念性的了解,这是做的一些课程学习笔记,以便以后时不时的翻出来学习下,之前看过一篇文章大神们都是时不时的翻出基础知识复习下,我也做点 ...
[Hadoop入门] - 1 Ubuntu系统 Hadoop介绍 MapReduce编程思想
Ubuntu系统 (我用到版本号是140.4) ubuntu系统是一个以桌面应用为主的Linux操作系统,Ubuntu基于Debian发行版和GNOME桌面环境.Ubuntu的目标在于为一般用户提供一 ...
mapreduce编程模型你知道多少？
上次新霸哥给大家介绍了一些hadoop的相关知识,发现大家对hadoop有了一定的了解,但是还有很多的朋友对mapreduce很模糊,下面新霸哥将带你共同学习mapreduce编程模型. mapred ...
指导手册05：MapReduce编程入门
指导手册05:MapReduce编程入门 Part 1:使用Eclipse创建MapReduce工程操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...
MapReduce编程基础
MapReduce编程基础 1. WordCount示例及MapReduce程序框架 2. MapReduce程序执行流程 3. 深入学习MapReduce编程(1) 4. 参考资料及代码下载 & ...
Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
pthread多线程编程的学习小结
pthread多线程编程的学习小结 pthread 同步3种方法: 1 mutex 2 条件变量 3 读写锁:支持多个线程同时读,或者一个线程写程序员必上的开发者服务平台 —— DevSt ...
C++编程开发学习的50条建议（转）
每个从事C++开发的朋友相信都能给后来者一些建议,但是真正为此进行大致总结的很少.本文就给出了网上流传的对C++编程开发学习的50条建议,总结的还是相当不错的,编程学习者(不仅限于C++学习者)如果真 ...
hadoop2.2编程：使用MapReduce编程实例（转）
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...

随机推荐

网站后台的lnmp启动与重启
网站建立时间很长了,经常挂掉,又没有其他技术人员带.只好自己摸索着修复. 到今天网站已经挂掉了一个礼拜.请求各路大神无果后决定自己修复. 首先出现的是502,网关错误. 1.上阿里云服务用户中心重新启 ...
poj1420 拓扑序
题意:给出一个表格,一部分单元格是给定的数字,而另一部分单元格则是一个式子,表示是其他一些单元格的和,让你输出最后计算出的所有格子的数. 因为有些格子需要其他格子先计算出来,所以计算顺序是按照拓扑序的 ...
poj1456 结构体排序+贪心
题意:给出很多商品,每个商品有价值和出售期限,只能在期限内出售才能获取利润,每一个单位时间只能出售一种商品,问最多能获得多少利润. 只需要按照优先价值大的,其次时间长的排序所有物品,然后贪心选择,从它 ...
console下纯字符实现的贪吃蛇
最近简直超级无聊-- code blocks win7 64编译运行无问题,应该其他编译器也不会有问题. w:上 s:下 a:左 d:右 CS标准方向控制,AK47和M4这种高级货是没有滴-- 废话不 ...
caffe: compile error : undefined reference to `cv::imread(cv::String const&, int)' et al.
when I compile caffe file : .build_debug/lib/libcaffe.so: undefined reference to `cv::imread(cv::Str ...
Linux-Memcache分布式部署方案（magent代理解决单点故障）
Memcached的特点 Memcached作为高速运行的分布式缓存服务器具有以下特点. 1. 协议简单:memcached的服务器客户端通信并不使用复杂的MXL等格式, 而是使用简单的基于文本的协议 ...
java_queue
队列是一种特殊的线性表,先进先出(first in first out)FIFO,它只允许在表的前端(front)进行删除操作,只允许在表的后端(rear)进行插入操作. 实际应用:排队等待公交车,银 ...
webbrowser在不同的.netframework版本差异
这几在做一个浏览器的自动化下载的工具,发现自己做的demo和做的项目代码运行不一致,代码就那么几行,拷贝过去为什么有些行为就不一样呢?经过分析发现原来有.net4.0和.net2.0中的webbrow ...
vs2010 clickone 工程安装后的路径 win7
C:\Users\xuan\AppData\Local\Apps\2.0\DX16T5JV.MLO\1H1ZAND1.1ZY\test..tion_f74974f651f2573b_0001.0000 ...
更简单的跨域解决方案 - CORS
跨域问题是前端开发经常遇到的了,大家可能常用的就是JSONP了, JSONP非常方便,只要前后端约定好一个方法名,就可以沟通了,但JSONP也有一定的局限,JSONP只支持GET请求,还有当你想提供一 ...

MapReduce编程实现学习

MapReduce编程实现学习的更多相关文章

随机推荐

热门专题