Hadoop程序基础模板

分布式编程相对复杂，而Hadoop本身蒙上大数据、云计算等各种面纱，让很多初学者望而却步。可事实上，Hadoop是一个很易用的分布式编程框架，经过良好封装屏蔽了很多分布式环境下的复杂问题，因此，对普通开发者来说很容易，容易到可以照葫芦画瓢。

大多数Hadoop程序的编写可以简单的依赖于一个模板及其变种。当编写一个新的MapReduce程序时，我们通常采用一个现有的MapReduce程序，通过修改达到我们希望的功能就行了。对于写大部分的Hadoop程序来说几乎就是照葫芦画瓢。这个瓢到底是什么样子呢？还是和小讲一起看看吧。

使用 Java 语言编写 MapReduce 非常方便，因为 Hadoop 的 API 提供了 Mapper 和 Reducer 抽象类，对开发人员来说，只需要继承这两个抽象类，然后实现抽象类里面的方法就可以了。

有一份CSV格式专利引用数据，超过1600万行，某几行如下：
"CITING(引用)","CITED(被引用)"
3858241,956203
3858241,1324234
3858241,3398406
3858242,1515701
3858242,3319261
3858242,3707004
3858243,1324234
2858244,1515701
...
对每个专利，我们希望找到引用它的专利并合并，输出如下：
1324234 3858243,3858241
1515701 2858244,3858242
3319261 3858242
3398406 3858241
3707004 3858242
956203 3858241
...
下边的程序就实现了一个这样的功能。很强大的功能，代码就这么少，没想到吧？？？

下面是一个典型的Hadoop程序模板

package com.dajiangtai.hadoop.junior;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * Hadoop程序基础模板

 */

public class HadoopTpl extends Configured implements Tool {

    public static class   MapClass  extends Mapper< Text,Text,Text,Text> {

        public void map(Text key, Text value, Context context) throws IOException, InterruptedException {    

            context.write(value, key);

        }

    }

    public static class   ReduceClass extends Reducer< Text, Text, Text, Text> {

        public void reduce(Text key, Iterable< Text> values, Context context)  throws IOException, InterruptedException {

            String csv = "";

            for(Text val:values) {

                if(csv.length() > 0)

                    csv += ",";

                csv += val.toString();

            }

            context.write(key, new Text(csv));

        }

    }

    @Override

    public int   run(String[] args) throws Exception {

        Configuration conf = getConf();    //读取配置文件

        conf.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", ",");

        Job job = new Job(conf, "HadoopTpl");//新建一个任务

        job.setJarByClass(HadoopTpl.class);//主类

        Path in = new Path(args[0]);

        Path out = new Path(args[1]);

        FileSystem hdfs = out.getFileSystem(conf);

        if (hdfs.isDirectory(out)) {

            hdfs.delete(out, true);

        }

        FileInputFormat.setInputPaths(job, in);//文件输入

        FileOutputFormat.setOutputPath(job, out);//文件输出

        job.setMapperClass(MapClass.class);//Mapper

        job.setReducerClass(ReduceClass.class);//Reducer

        job.setInputFormatClass(KeyValueTextInputFormat.class);//文件输入格式

        job.setOutputFormatClass(TextOutputFormat.class);//文件输出格式

        job.setOutputKeyClass(Text.class);//设置作业输出值 Key 的类

        job.setOutputValueClass(Text.class);//设置作业输出值 Value 的类 

        System.exit(job.waitForCompletion(true)?0:1);//等待作业完成退出

        return 0;

    }

    /**

     * @param args 输入文件、输出路径，可在Eclipse的Run Configurations中配Arguments如：

     * hdfs://single.hadoop.dajiangtai.com:9000/junior/patent.txt

     * hdfs://single.hadoop.dajiangtai.com:9000/junior/patent-out/

     */

    public static void   main(String[] args) {

        try {

            int res = ToolRunner.run(new Configuration(), new HadoopTpl(), args);

            System.exit(res);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

可以想像，一份超过1600万的数据，实现这样一个功能，如果我们自己写算法处理，效率和资源耗费很难想像。可使用Hadoop处理起来就是这么简单。是不是很强大？加紧学习吧，少年！

Hadoop程序基础模板的更多相关文章

hadoop rpc基础
第一部分: hadoop rpc基础 RPC,远程程序调用,分布式计算中C/S模型的一个应用实例. 同其他RPC框架一样,Hadoop分为四个部分: 序列化层:支持多种框架实现序列化与反序列化函数调 ...
IntelliJ IDEA + Maven环境编写第一个hadoop程序
1. 新建IntelliJ下的maven项目点击File->New->Project,在弹出的对话框中选择Maven,JDK选择你自己安装的版本,点击Next 2. 填写Maven的Gr ...
运行第一个Hadoop程序，WordCount
系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. ...
Windows Phone 8初学者开发—第10部分：数据绑定应用程序和透视应用程序项目模板简介
原文 Windows Phone 8初学者开发—第10部分:数据绑定应用程序和透视应用程序项目模板简介原文地址: http://channel9.msdn.com/Series/Windows-Ph ...
一个完整的hadoop程序开发过程
目的说明hadoop程序开发过程前提条件 ubuntu或同类OS java1.6.0_45 eclipse-indigo hadoop-0.20.2 hadoop-0.20.2-eclipse-p ...
小程序基础知识点讲解-WXML + WXSS + JS，生命周期
小程序基础小程序官方地址,小程序开发者工具,点击此处下载.在微信小程序中有一个配置文件project.config.json,此文件可以让开发者在不同设备中进行开发. 微信小程序共支持5种文件,wx ...
Hadoop框架基础（三）
** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduc ...
Hadoop框架基础（一）
** Hadoop框架基础(一) 学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

随机推荐

Windows之建立C++开发环境
下载:https://yun.baidu.com/s/1pK7j4Fp 解压得到把myMingw文件夹复制系统根目录下. 添加C:\myMingw\bin到系统环境变量双击make-3.81.ex ...
Eclipse 编译项目
Eclipse 编译项目编译 Java 项目一个项目可以关联多个编译器. java 项目关联的是 java 编译器.可以通过以下方式来查看项目关联的编译器: 在 Package Explorer ...
自己动手写ORM（01）：解析表达式树生成Sql碎片
在EF中,我们查询数据时可能会用拉姆达表达式 Where(Func<T,ture> func)这个方法来筛选数据,例如,我们定义一个User实体类 public class User { ...
C++11写算法之冒泡排序
冒泡排序很形象,指从数组后面将更小的值慢慢浮到前面去,每遍历一趟使得最小值浮到最前面(指当前位置). 这里有点小技巧,当某一次遍历过程中发现无交换,则说明此时数组已经排序完成,可提前退出. 时间复杂度 ...
Frosh Week(归并排序求逆序数)
H - Frosh Week Time Limit:1000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Desc ...
A C Program to demonstrate adjacency list representation of graphs
w Graph and its representations - GeeksforGeekshttp://www.geeksforgeeks.org/graph-and-its-representa ...
python系列四：Python3字符串
#!/usr/bin/python #Python3 字符串#可以截取字符串的一部分并与其他字段拼接var1 = 'Hello World!'print ("已更新字符串 : ", ...
Python：itertools模块（转）
原文:http://www.cnblogs.com/cython/articles/2169009.html itertools模块包含很多创建迭代器的函数,可以用各种方式对数据进行循环操作,此模块中 ...
python基础——函数参数
课上老师已经讲过函数(func)的参数(args)传递. 之前学习了根据位置传递对应的参数,下面会介绍其他参数传递方式. 之前的位置传参: def f(a,b,c): return a+b+c pri ...
DMR技术白皮书
DMR技术白皮书主页(http://pttcn.net):DMR技术白皮书关于DMR 1.模拟技术的局限性虽然模拟技术仍具有不少优势,如低廉的成本.可自定的功能以及简便的搭建方式等.但模拟技术已 ...

Hadoop程序基础模板

Hadoop程序基础模板的更多相关文章

随机推荐

热门专题