Mapreduce概述和WordCount程序

一、Mapreduce概述

　　Mapreduce是分布式程序编程框架，也是分布式计算框架，它简化了开发！

　　Mapreduce将用户编写的业务逻辑代码和自带默认组合整合成一个完整的分布式运算程序，并发的运行在hadoop集群上。

二、Mapreduce优缺点

　　优点：1.易于编程：只用实现几个接口即可完成一个并发的程序。

　　　　　2.良好的拓展性：再不行当前程序运行的情况下，可以通过增加节点来解决用户/数据扩展，计算量增加的问题。

　　　　　3.高容错性：可以运行在廉价的集群机器上。

　　　　　4.适合处理PB级别以上的离线处理。

　　缺点：1.不擅长做实时计算、流式计算。

　　　　　2.不支持DAG(有向图)计算，有依赖的程序(spark支持)。

　　　　　3.每次把计算结果写入磁盘当中，造成磁盘io，性能较低。

三、Mapreduce编程思想

　　需求：统计一个200M的单词文件，查询出每个单词出现的次数。

　　思想：1.将200M的文件切分为两块，128M和72M；

　　　　　2.将两块文件分别交给两个maptask处理，对数据进行读取，切分，封装，然后传输到reducetask；

　　　　　3.reducetask将数据再次整合，累加，输出到结果文件中。

　　注意：mapreduce中的所有maptask都是并行运行的，reducetask也是，

　　　　但是reducetask的运行要依赖maptask的输出。

四、WordCount程序

/**

 * @author: PrincessHug

 * @date: 2019/3/24, 0:52

 * @Blog: https://www.cnblogs.com/HelloBigTable/

 */

public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        //读取数据

        String line = value.toString();

        //切分数据

        String[] fields = line.split(" ");

        //传输数据

        for (String f:fields){

            context.write(new Text(f),new IntWritable(1));

        }

    }

}

public class WordCountReducer extends Reducer<Text, IntWritable,Text,IntWritable> {

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        //累加

        int sum = 0;

        for (IntWritable i:values){

            sum += i.get();

        }

        //输出

        context.write(key,new IntWritable(sum));

    }

}

public class WordCountDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //配置，job对象

        Configuration conf = new Configuration();

        Job job = Job.getInstance();

        //设置运行类

        job.setJarByClass(WordCountDriver.class);

        //设置Mapper，Reducer类

        job.setMapperClass(WordCountMapper.class);

        job.setReducerClass(WordCountReducer.class);

        //设置Mapper输出数据类型

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        //设置Reducer输出数据类型

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //设置输入输出流

        FileInputFormat.setInputPaths(job,new Path("G:\\mapreduce\\wordcount\\in"));

        FileOutputFormat.setOutputPath(job,new Path("G:\\mapreduce\\wordcount\\out"));

        //提交任务

        if (job.waitForCompletion(true)){

            System.out.println("运行完成！");

        }else {

            System.out.println("运行失败！");

        }

    }

}

Mapreduce概述和WordCount程序的更多相关文章

021_在Eclipse Indigo中安装插件hadoop-eclipse-plugin-1.2.1.jar，直接运行wordcount程序
1.工具介绍 Eclipse Idigo.JDK1.7-32bit.hadoop1.2.1.hadoop-eclipse-plugin-1.2.1.jar(自己网上下载) 2.插件安装步骤 1)将ha ...
020_自己编写的wordcount程序在hadoop上面运行，不使用插件hadoop-eclipse-plugin-1.2.1.jar
1.Eclipse中无插件运行MP程序 1)在Eclipse中编写MapReduce程序 2)打包成jar包 3)使用FTP工具,上传jar到hadoop 集群环境 4)运行 2.具体步骤说明:该程 ...
hadoop2.7.x运行wordcount程序卡住在INFO mapreduce.Job: Running job:job _1469603958907_0002
一.抛出问题 Hadoop集群(全分布式)配置好后,运行wordcount程序测试,发现每次运行都会卡住在Running job处,然后程序就呈现出卡死的状态. wordcount运行命令:[hado ...
Yarn集群的搭建、Yarn的架构和WordCount程序在集群提交方式
一.Yarn集群概述及搭建 1.Mapreduce程序运行在多台机器的集群上,而且在运行是要使用很多maptask和reducertask,这个过程中需要一个自动化任务调度平台来调度任务,分配资源,这 ...
Hadoop入门实践之从WordCount程序说起
这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了<Hadoop实战>这本书,对Hadoop编程有了大致的了解.接下来就是多看多写了.以Hado ...
MapReduce概述,原理,执行过程
MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑 ...
Hadoop（十二）MapReduce概述
前言前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架. 一.背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂度 ...
Hadoop下WordCount程序
一.前言在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境.既然环境已经搭建好了,那么现在我们就应该来干点正事嘛!比如来一个Hadoop世界的HelloWorld,也就是 ...
Hadoop集群测试wordcount程序
一.集群环境搭好了,我们来测试一下吧 1.在java下创建一个wordcount文件夹:mkdir wordcount 2.在此文件夹下创建两个文件,比如file1.txt和file2.txt 在fi ...

随机推荐

【XSY2988】取石子博弈论
题目描述有 \(n\) 堆石子,每堆石子的个数是 \(c_i\). Alice 和 Bob 轮流取石子(先后手未定),Alice 每次从一堆中取 \(a\) 个,Bob每次从一堆中取 \(b\) 个 ...
oneinstack 安装 https-certbot
免费https? 官方安装教程:https://certbot.eff.org/#centos6-nginx (以下是说明安装时遇到的): 下载并修改文件权限 wget https://dl.ef ...
vue实战记录（四）- vue实现购物车功能之过滤器的使用
vue实战,一步步实现vue购物车功能的过程记录,课程与素材来自慕课网,自己搭建了express本地服务器来请求数据作者:狐狸家的鱼本文链接:vue实战-实现购物车功能(四) GitHub:sue ...
EOJ 306 树上问题
题解: 因为w大于1,所以,题意就是,有多少(x,z),存在x到z的路径上,有一个x<y<z的y w没用的其实. 树上路径问题,有什么方法吗? 1.树链剖分.这个主要方便处理修改操作. 2 ...
【NOIP2013模拟】终极武器（经典分析+二分区间）
No.2. [NOIP2013模拟]终极武器题意: 给定你一些区间,然后让你找出\(1\sim 9\)中的等价类数字. 也就是说在任何一个区间里的任何一个数,把其中后\(k\)位中的某一位换成等价类 ...
[SDOI2006] 保安站岗
题目链接第一遍不知道为什么就爆零了…… 第二遍改了一下策略,思路没变,结果不知道为什么就 A 了??? 树形 DP 经典问题:选择最少点以覆盖树上所有点(边). 对于本题,设 dp[i][0/1][ ...
Linux系统诊断必备技能之二：tcpdump抓包工具详解
一.简述 TcpDump可以将网络中传送的数据包完全截获下来提供分析.它支持针对网络层.协议.主机.网络或端口的过滤,并提供and.or.not等逻辑语句来帮助你去掉无用的信息. Linux作为网络服 ...
mysql中replace替换字符串更改方法
MySQL中update替换部分字符串replace的简单用法近日,遇到了需要将部分字符串替换为另外的字符,平时用的最多的是直接update整个字段值,在这种情况下效率比较低,而且容易出错.其实my ...
Battery Historian 使用常用命令
一.重置电池数据收集数据打开电池数据获取:adb shell dumpsys batterystats --enable full-wake-history 重置电池数据: adb shell du ...
Numpy 系列（七）- 常用函数
在了解了 Numpy 的基本运算操作,下面来看下 Numpy常用的函数. 数学运算函数 add(x1,x2 [,out]) 按元素添加参数,等效于 x1 + x2 subtract(x1,x2 ...

Mapreduce概述和WordCount程序

Mapreduce概述和WordCount程序的更多相关文章

随机推荐

热门专题