hadoop第一个程序WordCount

hadoop第一个程序WordCount

package test;

import org.apache.hadoop.mapreduce.Job;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/*

 * 作者：翟超科

 * 时间：2019.9.3

 * 任务：mapreduce 实现单词计数

* */

public class WordCount {

    //map类继承Mapper,实现map功能

    public static class doMapper extends Mapper<Object, Text, Text, IntWritable>{

        //定义变量 one 为数字1

        public static final IntWritable one = new IntWritable(1);

        //定义关键字变量 word

        public static Text word = new Text();

        @Override

        protected void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context)

                throws IOException, InterruptedException {

            //将hdfs上的文件按行分割放入tokenzer集合中

            StringTokenizer tokenizer = new StringTokenizer(value.toString(),"\t");

            //将每一行作为一个关键字

            word.set(tokenizer.nextToken());

            //每个关键字出现1次，将键值对写入缓存。

            context.write(word, one);

        }

    }

    //reduce部分整合缓存的键值对，

    public static class doReduce extends Reducer<Text, IntWritable, Text, IntWritable>{

        //定义每次读入的键值对的同键值对的个数

        private IntWritable result = new IntWritable();

        @Override

        protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context)

                throws IOException, InterruptedException {

            int sum = 0;//定义每个键对应的值只用0个

            for(IntWritable value:values) {

                sum += value.get();

            }

            result.set(sum);

            context.write(key, result);

        }

    }

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // TODO Auto-generated method stub

        Job job = Job.getInstance();

        job.setJobName("WordCount");

        job.setJarByClass(WordCount.class);

        job.setMapperClass(doMapper.class);

        job.setReducerClass(doReduce.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        Path in = new Path("hdfs://192.168.13.101:9000/data");//文件所处位置

        Path out = new Path("hdfs://192.168.13.101:9000/output");//输出位置

        FileInputFormat.addInputPath(job,in);

        FileOutputFormat.setOutputPath(job,out);

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

hadoop第一个程序WordCount的更多相关文章

Hadoop学习6--里程碑式的开始之执行第一个程序wordcount
一.先在HDFS文件系统创建对应的目录,具体如下: 1.待处理文件存放目录 /data/wordcount(之所以创建wordcount,是为了对文件分类,对应本次任务名) 命令:hadoop fs ...
hadoop第一个例子WordCount
hadoop查看自己空间 http://127.0.0.1:50070/dfshealth.jsp import java.io.IOException; import java.util.Strin ...
JStorm第一个程序WordCount详解
一.Strom基本知识(回顾) 1,首先明确Storm各个组件的作用,包括Nimbus,Supervisor,Spout,Bolt,Task,Worker,Tuple nimbus是整个storm任务 ...
Spark学习之第一个程序 WordCount
WordCount程序求下列文件中使用空格分割之后,单词出现的个数 input.txt java scala python hello world java pyfysf upuptop wintp ...
spark-scala开发的第一个程序WordCount
package ***** import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Ar ...
Hadoop学习历程（三、第一个程序）
根据之前的操作,我们已经可以正常的启动Hadoop了,关于真正的集群我会在之后进行说明.现在我们来看一下第一个程序吧 1. 在eclipse上建立一个java项目 2. 将 /usr/hadoop/s ...
Hadoop环境搭建及wordcount程序
目的: 前期学习了一些机器学习基本算法,实际企业应用中算法是核心,运行的环境和数据处理的平台是基础. 手段: 搭建简易hadoop集群(由于机器限制在自己的笔记本上通过虚拟机搭建) 一.基础环境介绍 ...
(转载)Hadoop示例程序WordCount详解
最近在学习云计算,研究Haddop框架,费了一整天时间将Hadoop在Linux下完全运行起来,看到官方的map-reduce的demo程序WordCount,仔细研究了一下,算做入门了. 其实Wor ...
第一个MapReduce程序——WordCount
通常我们在学习一门语言的时候,写的第一个程序就是Hello World.而在学习Hadoop时,我们要写的第一个程序就是词频统计WordCount程序. 一.MapReduce简介 1.1 MapRe ...

随机推荐

【数位贪心】loj#530. 「LibreOJ β Round #5」最小倍数
记录一下题解里写的算法四题目描述 $1 \le T \le 10^4,1\le m\le 100,0\le a_i\le 10^{18}$. 题目分析题解里的算法四是这么写的主要是这个$\alp ...
zprepass 之后再base pass为什么用equal不用lessequal
通常basepass深度测试用less equal 如果先做了zprepass 得到一张全屏depth 再画basepass的时候用equal这样对于alphatest的物体不需要再用alpha通 ...
【转】深入理解Spring的两大特征（IOC和AOP）
原文链接:https://blog.csdn.net/gloomy_114/article/details/68946881 众所周知,Spring的核心特性就是IOC和AOP,IOC(Inversi ...
Markdown使用教程(转载收藏)
基础语法标题 Markdown支持6种级别的标题,对应html标签 h1 ~ h6 # h1 ## h2 ### h3 #### h4 ##### h5 ###### h6 以上标记效果如下: h1 ...
GNS3错误’Could not start Telnet console with command 'Solar-PuTTY.exe‘
这个报错是由于电脑中没有安装Solar-Putty导致的.直接安装一个solar-putty或者putty,然后在gns3上方工具栏点击:edit - preferences - general -c ...
06-vue项目02：vuex、Mutation、Action、ElementUI、axios
1.Vuex 1.为什么使用VueX data从最上面的组件,一层层往下传值,一层层的验证 Vue单向数据流 “中央空调“,代理 VueX 解决数据传值.. 2.Vuex介绍与安装 (1)Vuex官 ...
CSS 图片自适应容器
https://www.jb51.net/css/660677.html 经常有这样一个场景,需要让图片自适应容器的大小. 1.img标签的方式我们马上就能想到,把width.height 设置为1 ...
【线性代数】4-1:四个正交子空间(Orthogonality of the Four Subspace)
title: [线性代数]4-1:四个正交子空间(Orthogonality of the Four Subspace) categories: Mathematic Linear Algebra k ...
C++虚函数和成员函数内存 this指针问题
father* p=new son; p->disp(...); 发现有好多人this指针的本质有错误的认识,估计不少人一说起this指针,脑袋立即反应出:那个类里使用的this指针,那么这个指 ...
Go语言编程中字符串切割方法小结
1.func Fields(s string) []string,这个函数的作用是按照1:n个空格来分割字符串最后返回的是[]string的切片复制代码代码如下: import ( "fm ...

hadoop第一个程序WordCount

hadoop第一个程序WordCount的更多相关文章

随机推荐

热门专题