Hadoop程序基础模板

分布式编程相对复杂，而Hadoop本身蒙上大数据、云计算等各种面纱，让很多初学者望而却步。可事实上，Hadoop是一个很易用的分布式编程框架，经过良好封装屏蔽了很多分布式环境下的复杂问题，因此，对普通开发者来说很容易，容易到可以照葫芦画瓢。

大多数Hadoop程序的编写可以简单的依赖于一个模板及其变种。当编写一个新的MapReduce程序时，我们通常采用一个现有的MapReduce程序，通过修改达到我们希望的功能就行了。对于写大部分的Hadoop程序来说几乎就是照葫芦画瓢。这个瓢到底是什么样子呢？还是和小讲一起看看吧。

使用 Java 语言编写 MapReduce 非常方便，因为 Hadoop 的 API 提供了 Mapper 和 Reducer 抽象类，对开发人员来说，只需要继承这两个抽象类，然后实现抽象类里面的方法就可以了。

有一份CSV格式专利引用数据，超过1600万行，某几行如下：
"CITING(引用)","CITED(被引用)"
3858241,956203
3858241,1324234
3858241,3398406
3858242,1515701
3858242,3319261
3858242,3707004
3858243,1324234
2858244,1515701
...
对每个专利，我们希望找到引用它的专利并合并，输出如下：
1324234 3858243,3858241
1515701 2858244,3858242
3319261 3858242
3398406 3858241
3707004 3858242
956203 3858241
...
下边的程序就实现了一个这样的功能。很强大的功能，代码就这么少，没想到吧？？？

下面是一个典型的Hadoop程序模板

package com.dajiangtai.hadoop.junior;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * Hadoop程序基础模板

 */

public class HadoopTpl extends Configured implements Tool {

    public static class   MapClass  extends Mapper< Text,Text,Text,Text> {

        public void map(Text key, Text value, Context context) throws IOException, InterruptedException {    

            context.write(value, key);

        }

    }

    public static class   ReduceClass extends Reducer< Text, Text, Text, Text> {

        public void reduce(Text key, Iterable< Text> values, Context context)  throws IOException, InterruptedException {

            String csv = "";

            for(Text val:values) {

                if(csv.length() > 0)

                    csv += ",";

                csv += val.toString();

            }

            context.write(key, new Text(csv));

        }

    }

    @Override

    public int   run(String[] args) throws Exception {

        Configuration conf = getConf();    //读取配置文件

        conf.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", ",");

        Job job = new Job(conf, "HadoopTpl");//新建一个任务

        job.setJarByClass(HadoopTpl.class);//主类

        Path in = new Path(args[0]);

        Path out = new Path(args[1]);

        FileSystem hdfs = out.getFileSystem(conf);

        if (hdfs.isDirectory(out)) {

            hdfs.delete(out, true);

        }

        FileInputFormat.setInputPaths(job, in);//文件输入

        FileOutputFormat.setOutputPath(job, out);//文件输出

        job.setMapperClass(MapClass.class);//Mapper

        job.setReducerClass(ReduceClass.class);//Reducer

        job.setInputFormatClass(KeyValueTextInputFormat.class);//文件输入格式

        job.setOutputFormatClass(TextOutputFormat.class);//文件输出格式

        job.setOutputKeyClass(Text.class);//设置作业输出值 Key 的类

        job.setOutputValueClass(Text.class);//设置作业输出值 Value 的类 

        System.exit(job.waitForCompletion(true)?0:1);//等待作业完成退出

        return 0;

    }

    /**

     * @param args 输入文件、输出路径，可在Eclipse的Run Configurations中配Arguments如：

     * hdfs://single.hadoop.dajiangtai.com:9000/junior/patent.txt

     * hdfs://single.hadoop.dajiangtai.com:9000/junior/patent-out/

     */

    public static void   main(String[] args) {

        try {

            int res = ToolRunner.run(new Configuration(), new HadoopTpl(), args);

            System.exit(res);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

可以想像，一份超过1600万的数据，实现这样一个功能，如果我们自己写算法处理，效率和资源耗费很难想像。可使用Hadoop处理起来就是这么简单。是不是很强大？加紧学习吧，少年！

Hadoop程序基础模板的更多相关文章

hadoop rpc基础
第一部分: hadoop rpc基础 RPC,远程程序调用,分布式计算中C/S模型的一个应用实例. 同其他RPC框架一样,Hadoop分为四个部分: 序列化层:支持多种框架实现序列化与反序列化函数调 ...
IntelliJ IDEA + Maven环境编写第一个hadoop程序
1. 新建IntelliJ下的maven项目点击File->New->Project,在弹出的对话框中选择Maven,JDK选择你自己安装的版本,点击Next 2. 填写Maven的Gr ...
运行第一个Hadoop程序，WordCount
系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. ...
Windows Phone 8初学者开发—第10部分：数据绑定应用程序和透视应用程序项目模板简介
原文 Windows Phone 8初学者开发—第10部分:数据绑定应用程序和透视应用程序项目模板简介原文地址: http://channel9.msdn.com/Series/Windows-Ph ...
一个完整的hadoop程序开发过程
目的说明hadoop程序开发过程前提条件 ubuntu或同类OS java1.6.0_45 eclipse-indigo hadoop-0.20.2 hadoop-0.20.2-eclipse-p ...
小程序基础知识点讲解-WXML + WXSS + JS，生命周期
小程序基础小程序官方地址,小程序开发者工具,点击此处下载.在微信小程序中有一个配置文件project.config.json,此文件可以让开发者在不同设备中进行开发. 微信小程序共支持5种文件,wx ...
Hadoop框架基础（三）
** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduc ...
Hadoop框架基础（一）
** Hadoop框架基础(一) 学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

随机推荐

Android之——JNI配置C语言打印Logcat信息
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/47425073 这篇文章给大家介绍一下在JNI中怎样为C语言配置打印Logcat信息 ...
libsvm easy.py ValueError: need more than 0 values to unpack windows下终极解决
现象是: python easy.py train test 输出: Scaling training data...WARNING: original #nonzeros 100389 new #n ...
OpenCV学习笔记：opencv_core模块
一,简介: opencv最基础的库.包含exception,point,rect,size,slice,vector,matrix,image等数据结构,和相应的操作函数,以及一些基础算法. 二,分析 ...
Tomcat访问日志详细配置(转)
在server.xml里的<host>标签下加上<Valve className="org.apache.catalina.valves.AccessLogValve&qu ...
Android 定时器Timer的使用
定时器有什么用在我们Android客户端上有时候可能有些任务不是当时就执行,而是过了一个规定的时间在执行此次任务.那么这个时候定时器的作用就非常有用了.首先开启一个简单的定时器 Timer time ...
#1560 : H国的身份证号码II(dp+矩阵快速幂)
#1560 : H国的身份证号码II 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 H国的身份证号码是一个N位的正整数(首位不能是0).此外,由于防伪需要,一个N位正整 ...
Exponentiation(高精度大数)
Exponentiation Description Problems involving the computation of exact values of very large magnitud ...
jQuery之获取select选中的值
本来以为jQuery("#select1").val();是取得选中的值, 那么jQuery("#select1").text();就是取得的文本. 这是不正确 ...
Sql注入基础_access注入
1.access注入攻击片段-联合查询 2.access注入攻击片段-逐字猜解法 3.Access偏移注入(表名和列名猜解成功率不是百分百,猜解不到) access注入攻击片段-联合查询法判断注入 ...
通过spring boot提供restful api
1 将返回设置为produces = "application/json" 返回给客户端json格式的response. 2 对各种异常的处理各种异常如何返回给客户端? 各种异常 ...

Hadoop程序基础模板

Hadoop程序基础模板的更多相关文章

随机推荐

热门专题