hadoop第一个程序WordCount

hadoop第一个程序WordCount

package test;

import org.apache.hadoop.mapreduce.Job;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/*

 * 作者：翟超科

 * 时间：2019.9.3

 * 任务：mapreduce 实现单词计数

* */

public class WordCount {

    //map类继承Mapper,实现map功能

    public static class doMapper extends Mapper<Object, Text, Text, IntWritable>{

        //定义变量 one 为数字1

        public static final IntWritable one = new IntWritable(1);

        //定义关键字变量 word

        public static Text word = new Text();

        @Override

        protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context)

                throws IOException, InterruptedException {

            //将hdfs上的文件按行分割放入tokenzer集合中

            StringTokenizer tokenizer = new StringTokenizer(value.toString(),"\t");

            //将每一行作为一个关键字

            word.set(tokenizer.nextToken());

            //每个关键字出现1次，将键值对写入缓存。

            context.write(word, one);

        }

    }

    //reduce部分整合缓存的键值对，

    public static class doReduce extends Reducer<Text, IntWritable, Text, IntWritable>{

        //定义每次读入的键值对的同键值对的个数

        private IntWritable result = new IntWritable();

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context)

                throws IOException, InterruptedException {

            int sum = 0;//定义每个键对应的值只用0个

            for(IntWritable value:values) {

                sum += value.get();

            }

            result.set(sum);

            context.write(key, result);

        }

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // TODO Auto-generated method stub

        Job job = Job.getInstance();

        job.setJobName("WordCount");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(doMapper.class);

        job.setReducerClass(doReduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        Path in = new Path("hdfs://192.168.13.101:9000/data");//文件所处位置

        Path out = new Path("hdfs://192.168.13.101:9000/output");//输出位置

        FileInputFormat.addInputPath(job,in);

        FileOutputFormat.setOutputPath(job,out);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

hadoop第一个程序WordCount的更多相关文章

Hadoop学习6--里程碑式的开始之执行第一个程序wordcount
一.先在HDFS文件系统创建对应的目录,具体如下: 1.待处理文件存放目录 /data/wordcount(之所以创建wordcount,是为了对文件分类,对应本次任务名) 命令:hadoop fs ...
hadoop第一个例子WordCount
hadoop查看自己空间 http://127.0.0.1:50070/dfshealth.jsp import java.io.IOException; import java.util.Strin ...
JStorm第一个程序WordCount详解
一.Strom基本知识(回顾) 1,首先明确Storm各个组件的作用,包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple nimbus是整个storm任务 ...
Spark学习之第一个程序 WordCount
WordCount程序求下列文件中使用空格分割之后,单词出现的个数 input.txt java scala python hello world java pyfysf upuptop wintp ...
spark-scala开发的第一个程序WordCount
package ***** import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Ar ...
Hadoop学习历程（三、第一个程序）
根据之前的操作,我们已经可以正常的启动Hadoop了,关于真正的集群我会在之后进行说明.现在我们来看一下第一个程序吧 1. 在eclipse上建立一个java项目 2. 将 /usr/hadoop/s ...
Hadoop环境搭建及wordcount程序
目的: 前期学习了一些机器学习基本算法,实际企业应用中算法是核心,运行的环境和数据处理的平台是基础. 手段: 搭建简易hadoop集群(由于机器限制在自己的笔记本上通过虚拟机搭建) 一.基础环境介绍 ...
(转载)Hadoop示例程序WordCount详解
最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了. 其实Wor ...
第一个MapReduce程序——WordCount
通常我们在学习一门语言的时候,写的第一个程序就是Hello World.而在学习Hadoop时,我们要写的第一个程序就是词频统计WordCount程序. 一.MapReduce简介 1.1 MapRe ...

随机推荐

POI读取格式化后的单元格数据
public static String getFormattedValue(Cell cell) { FormulaEvaluator evaluator = cell.getSheet().get ...
【Python之路】特别篇--抽屉新热榜
登陆与注册注册功能: 流程: 填写用户名,邮箱,获取邮箱验证码,填入密码单击<下一步>按钮,完成注册! 1.获取邮箱验证码(具体步骤分析): 1.利用ajax 往后台传入邮箱, 2.后 ...
luogu4930
P4930 「FJ2014集训」采药人的路径题目描述采药人的药田是一个树状结构,每条路径上都种植着同种药材.采药人以自己对药材独到的见解,对每种药材进行了分类.大致分为两类,一种是阴性的,一种是阳 ...
shell基础之二 bash特性详解
https://blog.51cto.com/13520779/2093146 合格linux运维人员必会的30道shell编程面试题及讲解:https://blog.51cto.com/oldboy ...
国产手机的谷X服务
我换了个新手机,但面临了一个棘手的问题,就是原来的手机的谷X服务是用免root安装器自动安装好的,安装器找不到了.而后我发现现在的手机并没有阉割掉谷X服务,原因不详,好处不用在去一个个安装了.我装好y ...
Spring Boot中的事务管理隔离级别
在声明事务时,只需要通过value属性指定配置的事务管理器名即可,例如:@Transactional(value="transactionManagerPrimary"). 除了指 ...
Zookeeper系列（十一）zookeeper的Leader选举详解（核心之一）
作者:leesf 掌控之中,才会成功:掌控之外,注定失败. 出处:http://www.cnblogs.com/leesf456/p/6107600.html尊重原创,奇文共欣赏: 一.前言前 ...
解惑spring事务传播特性之嵌套事务
/** * Support a current transaction, create a new one if none exists. * Analogous to EJB transaction ...
JS基础_数组的方法
常用的方法 1.push:向数组的末尾添加一个或更多元素,并返回新的长度. 将要添加的元素作为方法的参数传递,这些元素将会自动添加到数组的末尾 var a=[1,2,3]; var r = a.pus ...
Elasticsearch 部署以及报错解决
前言 Elasticsearch 是一个非常值得学习和使用的分布式存储此次部署将采用 centos6.9 一.初步了解 ES 简谈概念 Elasticsearch 是一个开源的高扩展的分布式全文检索 ...

hadoop第一个程序WordCount

hadoop第一个程序WordCount的更多相关文章

随机推荐

热门专题