Hadoop工程师面试题(1)--MapReduce实现单表汇总统计

数据源格式描述:

输入t1.txt源数据，数据文件分隔符”*&*”,字段说明如下：

字段序号	字段英文名称	字段中文名称	字段类型	字段长度
1	TIME_ID	时间（到时）	字符型	12
2	Session	会话时长	数值型	8
3	MSISDN	用户号码	字符型	11
4	SP_DOMAIN	SP域名	数值型	64
5	USER_AGENT_ORIGN	终端字串	字符型	128
6	USER_AGENT	终端类别	字符型	64
7	UPSTREAM_VOL	上行流量	数值型	8
8	DOWNSTREAM_VOL	下行流量	数值型	8
9	URL_CNT	访问次数	数值型	20

用mapreduce实现单表汇总：

在数据源的基础上，根据终端类型汇总出总流量及访问次数。汇总模型字段说明如下：

字段序号

字段英文名称

字段中文名称

字段类型

字段长度

1	USER_AGENT	终端类型	字符型
2	TOT_FLUX	总流量	数值型	30
3	URL_CNT	访问次数	数值型	30

代码如下：

package mianshi;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;

import com.google.protobuf.TextFormat;

public class Test1 {

/**
     * @param args
     * @throws IOException
     * @throws InterruptedException
     * @throws ClassNotFoundException
     */
    public static void main(String[] args) throws Exception {
        //创建配置文件
        Configuration conf=new Configuration();
        //创建job
        Job job = new Job(conf,Test1.class.getName());
        //设置jar包运行
        job.setJarByClass(Test1.class);
        //设置输入路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //设置输入格式
        job.setInputFormatClass(TextInputFormat.class);
        //设置自定义Mapper
        job.setMapperClass(MyMapper.class);
        //设置Map输出的Value类型，也就是V2
        job.setMapOutputValueClass(Model.class);
        //设置Map输出的Key类型，也就是K2
        job.setMapOutputKeyClass(Text.class);
        //设置分区类型
        job.setPartitionerClass(HashPartitioner.class);
        //设置Rudece任务数
        job.setNumReduceTasks(1);
        //设置自定义Reduce类
        job.setReducerClass(MyReducer.class);
        //设置输出K3的类型
        job.setOutputKeyClass(Text.class);
        //设置输出的V3类型
        job.setOutputValueClass(Model.class);
        //设置输出的格式
        job.setOutputFormatClass(TextOutputFormat.class);
        //指定输出路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        //提交job
        job.waitForCompletion(true);

}
    static class MyMapper extends Mapper<LongWritable, Text, Text, Model>{
        @Override
        protected void map(LongWritable k1, Text v1,Context context)
                throws IOException, InterruptedException {
            /**
             * 切割字符串有点意思！
             * “*”是特殊字符，需要用[]
             * "&"需要用\\转义
             *
             *
             */
            String[] split = v1.toString().split("[*]\\&[*]");
            Text user_agent = new Text(split[5]);
            Long tot_flux = new Long(split[6])+new Long(split[7]);
            Long url_cnt = new Long(split[8]);
            Model v2 = new Model(tot_flux, url_cnt);
            context.write(user_agent, v2);

        }
    }

    static class MyReducer extends Reducer<Text, Model, Text, Model>{

        @Override
        protected void reduce(Text k2, Iterable<Model> v2s,Context context)
                throws IOException, InterruptedException {

            //定义计数器
            long sum_flux =0L;
            long sum_url = 0L;
            for(Model model : v2s){
                sum_flux += model.tot_flux;
                sum_url += model.url_cnt;
            }
            Model v3 = new Model(sum_flux,sum_url);
            context.write(k2, v3);
        }

    }

}

/**
* 自定义类型必须实现Writable
* @author Sky
*
*/
class Model implements Writable{

    long tot_flux;
    long url_cnt;

    public Model(){}
    public Model(Long tot_flux,Long url_cnt){
        this.tot_flux = tot_flux;
        this.url_cnt = url_cnt;
    }

public void write(DataOutput out) throws IOException {
        //序列化出去
        out.writeLong(tot_flux);
        out.writeLong(url_cnt);
    }

public void readFields(DataInput in) throws IOException {
        //和序列化出去的一样
        this.tot_flux = in.readLong();
        this.url_cnt = in.readLong();

    }

    //必须覆写toString方法，否则输出的值是内存值
    @Override
    public String toString() {
        return tot_flux+"\t"+url_cnt;
    }


}

文章参考论坛：超人hadoop网络学院论坛

Hadoop工程师面试题(1)--MapReduce实现单表汇总统计的更多相关文章

Hadoop on Mac with IntelliJ IDEA - 8 单表关联NullPointerException
简化陆喜恒. Hadoop实战(第2版)5.4单表关联的代码时遇到空指向异常,经分析是逻辑问题,在此做个记录. 环境:Mac OS X 10.9.5, IntelliJ IDEA 13.1.5, Ha ...
Hadoop案例（七）MapReduce中多表合并
MapReduce中多表合并案例一.案例需求订单数据表t_order: id pid amount 1001 01 1 1002 02 2 1003 03 3 订单数据order.txt 商品信息 ...
20180518VSTO多簿单表汇总外接程序按钮
using System; using System.Collections.Generic; using System.Linq; using System.Text; using Microsof ...
20180518VSTO多簿单表汇总
using System; using System.Collections.Generic; using System.Linq; using System.Text; using Microsof ...
Hadoop阅读笔记（三）——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算 ...
MapReduce应用案例--单表关联
1. 实例描述单表关联这个实例要求从给出的数据中寻找出所关心的数据,它是对原始数据所包含信息的挖掘. 实例中给出child-parent 表, 求出grandchild-grandparent表. ...
Web前端开发工程师面试题
Web前端开发工程师面试题1.说说css的优先级?2.在移动端中,常常使用tap作为点击事件,好处是?会带来什么问题?3.原生JS的window,onload与Jquery的$(document).r ...
Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装
Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架.其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapR ...
MapReduce编程系列 — 5：单表关联
1.项目名称: 2.项目数据: chile parentTom LucyTom JackJone LucyJone JackLucy MaryLucy Ben ...

随机推荐

WPF中的一些常用类型转换
1.string和Color的转换: //string转Color (Color)ColorConverter.ConvertFromString((string)str); //Color转stri ...
一步步学习ASP.NET MVC3 (7)——Controller,Action,ActionResult
请注明转载地址:http://www.cnblogs.com/arhat 前面几章我们讲解的都是关于View方面的知识,虽然还有很多关于View的知识没有讲,但是没关系,我们在后面使用到的时候在讲解, ...
hadoop 存储空间满了
-- ::, WARN mapred.LocalJobRunner - job_local_0001 org.apache.hadoop.util.DiskChecker$DiskErrorExcep ...
call()和apply()的区别
var a = function(a,b){ console.log(a+b); }, b = { c:5, d:3 }; a.call(b,1,2); a.apply(b,[1,2]); a.cal ...
Yahoo! Logo ASCII Animation in 462 bytes of C
Last week I put together another obfuscated C program and have been urged by my coworkers to post it ...
POJ 3592 Instantaneous Transference（强联通分量 Tarjan）
http://poj.org/problem?id=3592 题意 :给你一个n*m的矩阵,每个位置上都有一个字符,如果是数字代表这个地方有该数量的金矿,如果是*代表这个地方有传送带并且没有金矿,可以 ...
easyui源码翻译1.32--SearchBox（搜索框）
前言使用$.fn.searchbox.defaults重写默认值对象.下载该插件翻译源码搜索框提示用户需要输入搜索的值.它可以结合一个菜单,允许用户选择不同的搜索类别.在用户按下回车键或点击组件右 ...
Linux下的绘图（流程图、UML、mindmap)工具
http://blog.csdn.net/piyajee/article/details/5902380
Android 设置控件可见与不可见
通常控件的可见与不可见分为三种情况第一种 gone 表示不可见并且不占用空间第二种 visible 表示可见第三种 invisible 表示不 ...
Django单元测试(一)
Django测试框架非常简单,首选方法是使用python标准库中的unittest模块. Writing tests Django的单元测试使用python的unittest模块,这个模块使用基于类的 ...

Hadoop工程师面试题(1)--MapReduce实现单表汇总统计

数据源格式描述:

用mapreduce实现单表汇总：

代码如下：

Hadoop工程师面试题(1)--MapReduce实现单表汇总统计的更多相关文章

随机推荐

热门专题