Hadoop MR编程

Hadoop开发job需要定一个Map/Reduce/Job（启动MR job，并传入参数信息），以下代码示例实现的功能：

1）将一个用逗号分割的文件，替换为“|”分割的文件；

2）对小文件合并，将文件合并为reduceNum个文件。

DataMap.java

package com.dx.fpd_load;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class DataMap extends Mapper<LongWritable, Text, Text, Text> {

    private final Text key = new Text();

    @Override

    protected void map(LongWritable longWritable, Text value, Context context) throws IOException, InterruptedException {

        // 如果数据为空，则不进行处理，跳出map输入

        if (value.getLength() == 0) {

            return;

        }

        String newValue = value.toString().replace(",", "|") + "|NULL|NULL";

        String[] newValues = newValue.split("\\|");

        // 输入的文件路径

        String filePath = context.getInputSplit().toString().toUpperCase();

        // 如果路径包含了fpd_bak才进行处理否则不处理

        if (filePath.contains("fpd_bak".toUpperCase()) && newValues.length > 10) {

            key.set(newValues[6]); //objid

            context.write(key, new Text(newValue));

        }

    }

}

DataReducer.java

package com.dx.fpd_load;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import java.io.IOException;

public class DataReducer extends Reducer<Text, Text, NullWritable, Text> {

    public MultipleOutputs multipleOutputs;

    public final Text key = new Text();

    @Override

    protected void setup(Context context) throws IOException, InterruptedException {

        multipleOutputs = new MultipleOutputs(context);

    }

    @Override

    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {

        for (Text text : values) {

            String data = text.toString();

            String[] p_days = context.getConfiguration().getStrings("p_day");

            String[] p_cities = context.getConfiguration().getStrings("p_city");

            String p_day = "p_day";

            if (p_days != null) {

                p_day = p_days[0];

            }

            String p_city = "p_city";

            if (p_cities != null) {

                p_city = p_cities[0];

            }

            multipleOutputs.write("fpdload", NullWritable.get(), new Text(data), "/thetenet/my_hive_db/fpd_new/p_day=" + p_day + "/p_city=" + p_city + "/fpd_data");

        }

    }

    @Override

    protected void cleanup(Context context) throws IOException, InterruptedException {

        multipleOutputs.close();

    }

}

DataJob.java

package com.dx.fpd_load;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class FingerLib_Load_DataJob {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

        String p_city = otherArgs[0];

        String p_day = otherArgs[1];

        String reducerNum = otherArgs[2];

        String inputPath = otherArgs[3];

        String outputPath = otherArgs[4];

        if (p_day == null) {

            throw new Exception("p_day is null");

        }

        conf.set("p_day", p_day);

        if (p_city == null) {

            throw new Exception("p_city is null");

        }

        conf.set("p_city", p_city);

        Job job = Job.getInstance(conf);

        job.setJobName("LoadDataIntoFPD_p_city" + p_city + "_p_day_" + p_day);

        job.setJarByClass(DataJob.class);

        job.setMapperClass(DataMap.class);

        job.setReducerClass(DataReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(NullWritable.class);

        job.setOutputValueClass(Text.class);

        job.setNumReduceTasks(Integer.parseInt(reducerNum));

        MultipleOutputs.addNamedOutput(job, "fpdload", TextOutputFormat.class, NullWritable.class, Text.class);

        FileInputFormat.addInputPath(job, new Path(inputPath));

        FileOutputFormat.setOutputPath(job, new Path(outputPath));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

调用脚本：

#!/usr/bin/env bash

source /app/mylinux/login.sh

#./submit_fpdload.sh

DAY=$

CITY=$

REDUCER_NUMBER=$

JAR="/app/mylinux/service/dx-1.0-SNAPSHOT.jar"

MAIN_CLASS="com.dx.fpd_load.DataJob"

INPUT_PATH="/thetenet/my_hive_db/fpd_bak/p_day=$DAY/p_city=$CITY/"

OUT_DIR="/thetenet/my_hive_db/fpd_load_out/"

hadoop fs -rm -r /thetenet/my_hive_db/fpd_new/p_day=$DAY/p_city=$CITY/

hadoop fs -rm -r $OUT_DIR

time yarn jar $JAR $MAIN_CLASS $CITY $DAY $REDUCER_NUMBER $INPUT_PATH $OUT_DIR

#beeline -e "

#alter table my_hive_db.fpd_new add if not exists partition(p_day=$DAY,p_city=$CITY)

#location '/thetenet/my_hive_db/fpd_new/p_day=$DAY/p_city=$CITY/';"

echo "Complete..."

Hadoop MR编程的更多相关文章

Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...
hadoop streaming 编程
概况 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程.一个最简单的程序 $HADOOP_HOME/bin/hadoop jar ...
【Hadoop】Hadoop MR 如何实现倒排索引算法？
1.概念.方案 2.代码示例 InverseIndexOne package com.ares.hadoop.mr.inverseindex; import java.io.IOException; ...
【Hadoop】Hadoop MR 自定义分组 Partition机制
1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ...
【Hadoop】Hadoop MR 自定义排序
1.概念 2.代码示例 FlowSort package com.ares.hadoop.mr.flowsort; import java.io.IOException; import org.apa ...
【Hadoop】Hadoop MR异常处理
1.代码示例 package com.ares.hadoop.mr.flowsort; import java.io.IOException; import org.apache.hadoop.con ...
【Hadoop】Hadoop MR 自定义序列化类
1.基本概念 2.Mapper代码 package com.ares.hadoop.mr.flowsum; import java.io.IOException; import org.apache. ...
【Hadoop】Hadoop mr wordcount基础
1.基本概念 2.Mapper package com.ares.hadoop.mr.wordcount; import java.io.IOException; import java.util.S ...
《Hadoop高级编程》之为Hadoop实现构建企业级安全解决方案
本章内容提要 ● 理解企业级应用的安全顾虑 ● 理解Hadoop尚未为企业级应用提供的安全机制 ● 考察用于构建企业级安全解决方案的方法第10章讨论了Hadoop安全性以及Hado ...

随机推荐

NGUI_slider
十一.进度条UISlider 1.一般按以下规律使用进度条; 如果某一钟值,他有最大值,需要表达当前的值得占比,则可以使用不可拖动的进度条如果某一值,他有最大值,需要玩家记性滑动设置,则可以使用可拖 ...
dot watch+vs code提成asp.net core开发效率
在园子中,已经又前辈介绍过dotnet watch的用法,但是是基于asp.net core 1.0的较老版本来讲解的,在asp.net core 2.0的今天,部分用法已经不太一样,所以就再写一篇文 ...
Linux档案权限与目录配置
一.档案权限: Linux 最优秀的地方之一,就在于他的多人多任务环境.而为了让各个使用者具有较保密的档案数据,因此档案的权限管理就变的很重要了. Linux 一般将档案可存取的身份分为三个类别,分别 ...
简单使用git和github来管理代码----配置与使用
在以前没听说过github之前,自己写的代码很容易丢或者遗失,等到用时才知码到用时方恨丢,现在用了github,真的是替自己生省不少的事,闲话不多说,上教程. 1 在github上注册账号 https ...
[模拟赛] T2 不等数列
Description 将1到n任意排列,然后在排列的每两个数之间根据他们的大小关系插入">"和"<".问在所有排列中,有多少个排列恰好有k个&qu ...
Day4----------用户、群组、权限
一.创建用户命令:useradd 详细信息: root:x:0:0:root:/root:/bin/bash 总共七位 tom:x:500:500: :/home/tom:/bin/bash 1.r ...
【Python】系统配置/进程等信息查看 psutil
psutil 原以为psutil只是跟进程有关的一个模块,没想到它其实提供了从CPU到内存各种各样的信息,十分IMBA.记录一下我用了pip install psutil安装的这个模块,不过路中遇到 ...
Android学习笔记2——shape
Android有很多特别的xml文件,如常用的selector.style以及shape,熟练使用这些xml可以是我们的项目变得更个性化. 一.子标签(corners.gradient.padding ...
python读取三维点云球坐标数据并动态生成三维图像与着色
关键步骤: 1.首先通过读取.txt文本数据并进行一系列字符串处理,提取显示所需要的相关数据矩阵 2.然后利用python的matplotlib库来进行动态三维显示备注:matplotlib在显示2 ...
设计模式 --> （7）外观模式
外观模式外观模式为子系统中的一组接口提供一个一致的界面, 外观模式定义了一个高层接口,这个接口使得这一子系统更加容易使用. 适用性 1．为一个复杂子系统提供一个简单接口. 2．提高子系统的独立性. ...

Hadoop MR编程

Hadoop MR编程的更多相关文章

随机推荐

热门专题