大数据笔记（七）——Mapreduce程序的开发

一.分析Mapreduce程序开发的流程

1.图示过程

输入：HDFS文件 /input/data.txt

Mapper阶段：

　　　　　　 K1:数据偏移量（以单词记）V1：行数据

K2:单词 V2:记一次数

Reducer阶段 :

　　　　　　 K3:单词（=K2） V3:V2计数的集合

K4:单词 V4:V3集合中元素累加和

输出：HDFS

2.开发WordCount程序需要的jar

/root/training/hadoop-2.7.3/share/hadoop/common

/root/training/hadoop-2.7.3/share/hadoop/common/lib

/root/training/hadoop-2.7.3/share/hadoop/mapreduce

/root/training/hadoop-2.7.3/share/hadoop/mapreduce/lib

3.WordCountMapper.java

package demo.wc;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

    @Override

    protected void map(LongWritable k1, Text v1, Context context)

            throws IOException, InterruptedException {

        //Context代表Mapper的上下文 上文：HDFS 下文：Mapper

        //取出数据： I love beijing

        String data = v1.toString();

        //分词

        String[] words = data.split(" ");

        //输出K2 V2

        for (String w : words) {

            context.write(new Text(w), new LongWritable(1));

        }

    }

}

4.WordCountReducer.java

package demo.wc;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

    @Override

    protected void reduce(Text k3, Iterable<LongWritable> v3,

            Context context) throws IOException, InterruptedException {

        //context 代表Reduce的上下文 上文：Mapper 下文：HDFS

        long total = 0;

        for (LongWritable l : v3) {

            //对v3求和

            total = total + l.get();

        }

        //输出K4 V4

        context.write(k3, new LongWritable(total));

    }

}

5.WordCountMain.java

package demo.wc;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountMain {

    public static void main(String[] args) throws Exception {

        //创建一个job = mapper + reducer

        Job job = Job.getInstance(new Configuration());

        //ָ指定任务的入口

        job.setJarByClass(WordCountMain.class);

        //ָ指定任务的mapper和输出的数据类型

        job.setMapperClass(WordCountMapper.class);

        job.setMapOutputKeyClass(Text.class);//指定k2

        job.setMapOutputValueClass(LongWritable.class);//指定v2

        //ָ指定任务的reducer和输出的数据类型

        job.setReducerClass(WordCountReducer.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        //ָ指定输入的路径(map)、输出的路径(reduce)

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //ִ执行任务

        job.waitForCompletion(true);

    }

}

打包，传到HDFS上：

运行任务：

hadoop jar wc.jar /input/data.txt /output/day0228/wc

日志信息：

18/03/01 00:14:00 INFO client.RMProxy: Connecting to ResourceManager at bigdata11/192.168.153.11:8032

18/03/01 00:14:01 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.

18/03/01 00:14:01 INFO input.FileInputFormat: Total input paths to process : 1

18/03/01 00:14:01 INFO mapreduce.JobSubmitter: number of splits:1

18/03/01 00:14:02 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1519833888534_0001

18/03/01 00:14:02 INFO impl.YarnClientImpl: Submitted application application_1519833888534_0001

18/03/01 00:14:02 INFO mapreduce.Job: The url to track the job: http://bigdata11:8088/proxy/application_1519833888534_0001/

18/03/01 00:14:02 INFO mapreduce.Job: Running job: job_1519833888534_0001

18/03/01 00:14:16 INFO mapreduce.Job: Job job_1519833888534_0001 running in uber mode : false

18/03/01 00:14:16 INFO mapreduce.Job:  map 0% reduce 0%

18/03/01 00:14:24 INFO mapreduce.Job:  map 100% reduce 0%

18/03/01 00:14:31 INFO mapreduce.Job:  map 100% reduce 100%

查看结果：

hdfs dfs -ls /output/day0228/wc

hdfs dfs -cat /output/day0228/wc/part-r-00000

Web Console通过8088端口查看：

大数据笔记（七）——Mapreduce程序的开发的更多相关文章

大数据篇：MapReduce
MapReduce MapReduce是什么? MapReduce源自于Google发表于2004年12月的MapReduce论文,是面向大数据并行处理的计算模型.框架和平台,而Hadoop MapR ...
《OD大数据实战》MapReduce实战
一.github使用手册 1. 我也用github(2)——关联本地工程到github 2. Git错误non-fast-forward后的冲突解决 3. Git中从远程的分支获取最新的版本到本地 4 ...
大数据运算模型 MapReduce 原理
大数据运算模型 MapReduce 原理 2016-01-24 杜亦舒 MapReduce 是一个大数据集合的并行运算模型,由google提出,现在流行的hadoop中也使用了MapReduce作为计 ...
大数据笔记（十）——Shuffle与MapReduce编程案例（A）
一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运 ...
大数据笔记（八）——Mapreduce的高级特性（A）
一.序列化类似于Java的序列化:将对象——>文件如果一个类实现了Serializable接口,这个类的对象就可以输出为文件同理,如果一个类实现了的Hadoop的序列化机制(接口:Writ ...
基于Hbase数据的Mapreduce程序环境开发
一.实验目标编写Mapreduce程序,以Hbase表数据为Map输入源,计算结果输出到HDFS或者Hbase表中. 在非CDH5的Hadoop集群环境中,将编写好的Mapreduce程序整个工程打 ...
大数据基础总结---MapReduce和YARN技术原理
Map Reduce和YARN技术原理学习目标熟悉MapReduce和YARN是什么掌握MapReduce使用的场景及其原理掌握MapReduce和YARN功能与架构熟悉YARN的新特性 M ...
大数据笔记01：大数据之Hadoop简介
1. 背景随着大数据时代来临,人们发现数据越来越多.但是如何对大数据进行存储与分析呢? 单机PC存储和分析数据存在很多瓶颈,包括存储容量.读写速率.计算效率等等,这些单机PC无法满足要求. 2. ...
大数据IDEA调试flink程序
Flink在IDEA中开发是一件比较困难的事情,网上没有参考资料,就算就业说的太过笼统,不知道是会了不说还是不会瞎说,为了解决flink这个问题,本人特别做了一遍开发的简单说明.主要考虑两个问题,1. ...

随机推荐

100+ Python挑战性编程练习（2）
熟能生巧,多撸代码多读书 https://github.com/zhiwehu/Python-programming-exercises/blob/master/100+%20Python%20cha ...
2019JS必看面试题
2019JS必看面试题:https://www.jianshu.com/p/f1f39d5b2a2e 1. javascript的typeof返回哪些数据类型. 答案:string,boolean,n ...
layui动态渲染select等组件并初始化赋值失败
描诉:有一个用户信息form表单,其中有部门单选框,数据库中有一张dept(部门)表,要动态渲染出所有部门,并默认选中用户所在部门关键代码: html页面 <div class="l ...
Ubuntu终端路径和文件夹相互切换
一. 环境配置 1. 打开终端输入安装命令 sudo apt-get install nautilus-open-terminal 2. 重新加载文件管理器 nautilus -q 3. 重启电脑 s ...
Scrapy 教程(七)-架构与中间件
Scrapy 使用 Twisted 这个异步框架来处理网络通信,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求. Scrapy 架构其实之前的教程都有涉及,这里再做个系统介绍 Engin ...
[pwnable.kr] - wtf
Q: I don't understand why my exploit is not working. I need your help. download : http://pwnable.kr/ ...
浏览器常用12种兼容问题（JS）
//1.滚动条到顶端的距离(滚动高度) var scrollTop = document.documentElement.scrollTop || document.body.scrollTop; / ...
Android C# java 长连接框架
mina框架详解 Apache Mina Server 是一个网络通信应用框架,也就是说,它主要是对基于TCP/IP.UDP/IP协议栈的通信框架(当然,也可以提供JAVA 对象的序列化服务.虚拟机管 ...
MapReduce单机提交（待稿）
MR 提交方式源码提交方式: 1,开发-> jar -> 上传到集群中的某一个节点 -> hadoop jar ooxx.jar ooxx in out 2,嵌入[linux,wi ...
Java并发——DCL问题
转自:http://www.iteye.com/topic/875420 如果你搜索网上分析dcl为什么在java中失效的原因,都会谈到编译器会做优化云云,我相信大家看到这个一定会觉得很沮丧.很无助, ...

大数据笔记（七）——Mapreduce程序的开发

大数据笔记（七）——Mapreduce程序的开发的更多相关文章

随机推荐

热门专题