MapRecude

任务：分析通话记录，查处每个手机号码有哪些打过来的号码

13510921776 10086

13710148751 10086

13914248991 10086

13510921776 13710148751

13510921776 13710148751

13914248991 13710148751

13710148751 13510921776

要求输出结果：

10086    13510921776|13710148751|13914248991|

13510921776    13710148751|

13710148751    13510921776|13510921776|13914248991|

代码：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class PhoneAnalyzer extends Configured implements Tool {

    enum Counter {

        LINESKIP; // 出错的行

    }

    @Override

    public int run(String[] args) throws Exception {

        Configuration conf = getConf();

        Job job = new Job(conf, "phoneAnalyzer"); // 任务名

        job.setJarByClass(PhoneAnalyzer.class); // 指定Class

        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/user/root/in")); // 输入路径

        FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/user/root/out")); // 输出路径

        job.setMapperClass(Map.class); // 调用Map类作为Mapper任务代码

        job.setReducerClass(Reduce.class); // 调用Reduce类作为Reducer任务代码

        job.setOutputFormatClass(TextOutputFormat.class);

        job.setOutputKeyClass(Text.class); // 指定输出的Key的格式(KEYOUT)

        job.setOutputValueClass(Text.class); // 指定输出的Value的格式(VALUEOUT)

        job.waitForCompletion(true);

        return job.isSuccessful() ? 0 : 1;

    }

    public static class Map extends

            Mapper<LongWritable, Text, Text, Text> {    //<KEYIN, VALUEIN, KEYOUT, VALUEOUT>

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            try {

                // key - 行号 value - 一行的文本

                String line = value.toString();    //13510000000 10086(13510000000拨打10086)

                // 数据处理

                String[] lineSplit = line.split(" ");

                String phone1 = lineSplit[0];

                String phone2 = lineSplit[1];

                context.write(new Text(phone2), new Text(phone1));    // 输出 key \t value

            } catch (Exception e) {

                context.getCounter(Counter.LINESKIP).increment(1); // 出错令计数器+1

            }

        }

    }

    public static class Reduce extends Reducer<Text, Text, Text, Text> {    //<KEYIN（必须与Mapper的KEYOUT相同）,VALUEIN（必须与Mapper的VALUEOUT相同）,KEYOUT,VALUEOUT>

        @Override

        protected void reduce(Text key, Iterable<Text> values,

                Context context)

                throws IOException, InterruptedException {

            String valueStr;

            String out = "";

            for(Text value:values){

                valueStr = value.toString() + "|";

                out += valueStr;

            }

            // 输出 key \t value（如果我们的输出结果不是key \t value格式，那么我们的key可定义为NullWritable，而value使用key与value的组合。）

            context.write(key, new Text(out));

        }

    }

    public static void main(String[] args) throws Exception {

        //运行任务

        int res = ToolRunner.run(new Configuration(), new PhoneAnalyzer(), args);

        System.exit(res);

    }

}

MapRecude的更多相关文章

Hadoop基础教程之重新认识Hadoop
之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一 ...
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...
Hive SQL运行状态监控（HiveSQLMonitor）
引言目前数据平台使用Hadoop构建,为了方便数据分析师的工作,使用Hive对Hadoop MapReduce任务进行封装,我们面对的不再是一个个的MR任务,而是一条条的SQL语句.数据平台内部 ...
YARN
YARN 介绍 Apache Hadoop YARN作为hadoop的子项目加入到Hadoop Common (core libraries), Hadoop HDFS (storage) and H ...
Hadoop学习（二） Hadoop配置文件参数详解
Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2.6.4. etc/hadoop/core-site.xm ...
1.hive介绍及安装配置
1.Hive介绍数据库OLTP 在线事务处理数据仓库OLAP 在线分析处理延迟高类sql方式(HQL) 使用sql方式,用来读写,管理位于分布式存储系统上的大型数据集的数据仓库技术 hive是 ...
mapreduce程序调用各个类的功能
转自:http://www.cnblogs.com/z1987/p/5052409.html 1.map类 map类继承了库类中的Mapper,即Mapper<KEYIN, VALUEIN, K ...
win32下开发hadoop
转载自:http://my.oschina.net/muou/blog/408543[木偶:Windows下使用Hadoop2.6.0-eclipse-plugin插件] 对于一些细节地 ...
Hadoop Intro - Configure
Hadoop学习(二) Hadoop配置文件参数详解 Hadoop运行模式分为安全模式和非安全模式,在这里,我将讲述非安全模式下,主要配置文件的重要参数功能及作用,本文所使用的Hadoop版本为2 ...

随机推荐

红米Note4X开发者选项
1.打开,设置->我的设备->全部参数 2.看到“MIUI版本”连点7次,在点击的过程中下部会有提示“在点X次就进入开发者模式”. 3.完成2步后,再次打开,设置->更多设置(系统和 ...
Xamarin for VS 4.0.1.145 Stable版免费完整破解补丁
Xamarin for VS 4.0.1.145 Stable版免费完整破解补丁支持Priority最高权限(超企业版)开发, 支持Android, IOS调试. 支持Android打包为Bund ...
docker容器跑tomcat遇到的坑
使用docker容器跑tomcat,由于同一个宿主机上跑了多个容器,再加上宿主机本身跑了很多进程,导致系统总的进程数达到了8000+,而容器中tomcat的启动脚本中会调用自带的setenv.sh,在 ...
一定要使用-server参数来调试并发程序
在阅读JCIP的时候想手工测试一下,结果发现总是没有出现书中描述的并发问题后来我琢磨,以前记得书上说过,在debugging的环境下,JVM是低并发的,一定要在server的环境下测试,让JVM在高 ...
入门基础之——flash
不得不说韦老师的课程还是很需要时间去消化.今天改变了学习策略,遇到不会的知识点,先查资料. 以前在单片机编程中,都只是知道代码存在flash中,而一听韦老师的课程,就是nand flash启动或者no ...
centos7系统根目录扩容
比如点击了后点击创建虚拟磁盘选择一个 20G 然后启动虚拟机使用fdisk查看所有的磁盘看是否新增了一个20G的硬盘 [root@localhost ~]# fdisk -l 磁盘 /dev ...
Spark Streaming：大规模流式数据处理的新贵
转自:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data 提到Spark Streaming,我们不得不说一 ...
ubuntu samba 安装
Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件,是一种在局域网上共享文件和打印机的一种通信协议. 1. 安装 sudo apt-get install samba samba-c ...
CSS3文字立体效果
<!DOCTYPE HTML> <html lang="en-US"> <head> <meta charset="UTF-8& ...
Html制作简单而漂亮的登录页面
先来看看样子. html源码: <!DOCTYPE html> <html lang="en"> <head> <meta charset ...

MapRecude

MapRecude的更多相关文章

随机推荐

热门专题