【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码

MapReduce和自定义Partition

MobileDriver主类

package Partition;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

public class MobileDriver {

    public static void main(String[] args) {

        String[] paths = {"F:\\mobile.txt", "F:\\output"};

        JobUtils.commit(paths, true, 3, MobileDriver.class,

                MobileMapper.class, Text.class, NullWritable.class, MobilePartition.class,

                MobileReduce.class, Text.class, NullWritable.class);

    }

}

JobUtils工具类

package Partition;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.File;

import java.io.IOException;

public class JobUtils {

    private static Configuration conf;

    static {

        conf = new Configuration();

    }

    /**

     * 提交job

     *

     * @param paths        输入输出路径数组

     * @param isPartition  是否包含自定义分区类

     * @param reduceNumber reduce数量(若自定义分区为true，则此项必须>=自定义分区数)

     * @param params       可变参数

     */

    public static void commit(String[] paths, boolean isPartition, int reduceNumber, Class... params) {

        try {

            Job job = Job.getInstance(conf);

            job.setJarByClass(params[0]);

            job.setMapperClass(params[1]);

            job.setOutputKeyClass(params[2]);

            job.setOutputValueClass(params[3]);

            if (isPartition) {

                job.setPartitionerClass(params[4]);//设置自定义分区；

            }

            if (reduceNumber > 0) {

                job.setNumReduceTasks(reduceNumber);

                job.setReducerClass(params[5]);

                job.setOutputKeyClass(params[6]);

                job.setOutputValueClass(params[7]);

            } else {

                job.setNumReduceTasks(0);

            }

            deleteDirectory(paths[1]);

            FileInputFormat.setInputPaths(job, new Path(paths[0]));

            FileOutputFormat.setOutputPath(job, new Path(paths[1]));

            job.waitForCompletion(true);

        } catch (InterruptedException | ClassNotFoundException | IOException e) {

            e.printStackTrace();

        }

    }

    //输出目录存在则删除

    public static void deleteDirectory(String path) {

        File pFile = new File(path);

        if (!pFile.exists()) {

            return;

        }

        if ((pFile.isDirectory() && pFile.listFiles().length == 0) || pFile.isFile()) {

            pFile.delete();

        } else {

            for (File file : pFile.listFiles()) {

                if (file.isDirectory()) {

                    deleteDirectory(file.getAbsolutePath());

                } else {

                    file.delete();

                }

            }

        }

        pFile.delete();

    }

}

Map自定义类

package Partition;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class MobileMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line = value.toString();

        String[] mobiles = line.split("\t");

        for (String mobile : mobiles) {

        	//不满足11位手机号进行过滤

            if (mobile.length() == 11) {

                context.write(new Text(mobile), NullWritable.get());

            }

        }

    }

}

Reduce自定义类

package Partition;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class MobileReduce extends Reducer<Text, NullWritable, Text, NullWritable> {

    @Override

    protected void reduce(Text key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {

        context.write(key, NullWritable.get());

    }

}

Partition自定义分区类

package Partition;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Partitioner;

import java.util.Arrays;

public class MobilePartition extends Partitioner<Text, NullWritable> {

    @Override

    public int getPartition(Text text, NullWritable nullWritable, int i) {

        String line = text.toString();

        String flag = line.substring(0, 3);

        if (Arrays.asList(Mobile.CHINA_MOBILE).contains(flag)) {

            return 0;//移动

        } else if (Arrays.asList(Mobile.CHINA_UNICOM).contains(flag)) {

            return 1;//联通

        } else {

            return 2;//电信

        }

    }

}

【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码的更多相关文章

Hadoop mapreduce自定义分区HashPartitioner
本文发表于本人博客. 在上一篇文章我写了个简单的WordCount程序,也大致了解了下关于mapreduce运行原来,其中说到还可以自定义分区.排序.分组这些,那今天我就接上一次的代码继续完善实现自定 ...
Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
Hadoop学习之路(6)MapReduce自定义分区实现
MapReduce自带的分区器是HashPartitioner 原理:先对map输出的key求hash值,再模上reduce task个数,根据结果,决定此输出kv对,被匹配的reduce任务取走. ...
[Hadoop] - Mapreduce自定义Counter
在Hadoop的MR程序开发中,经常需要统计一些map/reduce的运行状态信息,这个时候我们可以通过自定义Counter来实现,这个实现的方式是不是通过配置信息完成的,而是通过代码运行时检查完成的 ...
【Hadoop】Hadoop MR 自定义分组 Partition机制
1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ...
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客. 今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区.排序.分组.规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码 ...
Hadoop MapReduce自定义数据类型
一自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出: 2.如果该数据需要作为主键key使用 ...
一起学Hadoop——使用自定义Partition实现hadoop部分排序
排序在很多业务场景都要用到,今天本文介绍如何借助于自定义Partition类实现hadoop部分排序.本文还是使用java和python实现排序代码. 1.部分排序. 部分排序就是在每个文件中都是有序 ...
[MapReduce_8] MapReduce 中的自定义分区实现
0. 说明设置分区数量 && 编写自定义分区代码 1. 设置分区数量分区(Partition) 分区决定了指定的 Key 进入到哪个 Reduce 中分区目的:把相同的 Key ...

随机推荐

git 判断路径是否是 git 仓库
git 判断路径是否是 git 仓库 import subprocess repo_dir = "../path/to/check/" command = ['git', 'rev ...
Elastic-Job开发指南(转)
原文地址:http://dangdangdotcom.github.io/elastic-job/post/1.x/user_guide/ 开发指南代码开发作业类型目前提供3种作业类型,分别是S ...
THUWC2020 游记
不知道标题该叫什么,那就叫游记吧.反正是来玩的. CSP-S 排到我省三十几名,也不知怎么就过了 THU 的初审. Day0 到了宾馆.和 cy 划了一晚上. 发现自己不会做这次月考数学题,丢人啊丢人 ...
[转]vue-router各个属性的作用及用法
转自以下网址,当备忘使用:https://www.cnblogs.com/goloving/p/9211358.html vue-router是vue单页面开发的路由,就是决定页面跳转的! <r ...
适配器模式（Adapter）---结构型
1 基础知识定义:将一个类的接口(被适配者)转换成客户期望的另一个接口(目标).特征:使原本接口不兼容的类可以一起工作. 本质:转换匹配,复用功能.把不兼容的接口转换为客户端期望的样子从而实现功能的 ...
洛谷——P2058 海港
题目传送由于于题目保证输入的ti是递增的,所以发现当我们统计完一艘船的答案后,这个答案多少会对下一艘船的答案有贡献.同时还发现如果对每个艘船都记录他的乘客在整个数据出现的所有国籍中相应出现的次数,在 ...
利用pyltp进行实体识别
一.实体识别作为信息抽取中基础的也是重要的一步,其技术可以分为三类,分别是其于规则的方法.其于统计模型的方法以及基于深度学习的方法. 基于规则的方法,主要依靠构建大量的实体抽取规则,一般由具有一定领域 ...
Contos 安装Tomcat
# 下载安装包 wget http://mirrors.tuna.tsinghua.edu.cn/apache/tomcat/tomcat-8/v8.5.40/bin/apache-tomcat-8. ...
Codeforces 1051 D.Bicolorings（DP）
Codeforces 1051 D.Bicolorings 题意:一个2×n的方格纸,用黑白给格子涂色,要求分出k个连通块,求方案数. 思路:用0,1表示黑白,则第i列可以涂00,01,10,11,( ...
用ST解决RMQ问题
用ST算法解决RMQ(区间最值问题) 在解决CF上的6E Exposition时,用到了RMQ+二分的方法.学习了用ST来快速解决RMQ问题,因此做一个小记建表用DP的方式来建ST. dp[i][ ...

【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码

MapReduce和自定义Partition

MobileDriver主类

JobUtils工具类

Map自定义类

Reduce自定义类

Partition自定义分区类

【Hadoop】MapReduce自定义分区Partition输出各运营商的手机号码的更多相关文章

随机推荐

热门专题