MapReduce编程：词频统计

首先在项目的src文件中需要加入以下文件，log4j的内容为：

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

代码如下：

 package org.apache.hadoop.examples;

     import java.io.IOException;

     import java.util.Iterator;

     import java.util.StringTokenizer;

     import org.apache.hadoop.conf.Configuration;

     import org.apache.hadoop.fs.Path;

     import org.apache.hadoop.io.IntWritable;

     import org.apache.hadoop.io.Text;

     import org.apache.hadoop.mapreduce.Job;

     import org.apache.hadoop.mapreduce.Mapper;

     import org.apache.hadoop.mapreduce.Reducer;

     import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

     import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

     import org.apache.hadoop.util.GenericOptionsParser;

     public class WordCount {

         public WordCount() {

         }

         //main函数，MapReduce程序运行的入口

         public static void main(String[] args) throws Exception {

             Configuration conf = new Configuration();   //指定HDFS相关的参数

             //String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();

             String[] otherArgs = new String[]{"input","output"};

             if(otherArgs.length < 2) {

                 System.err.println("Usage: wordcount <in> [<in>...] <out>");

                 System.exit(2);

             }

             //通过Job类设置Hadoop程序运行时的环境变量

             Job job = Job.getInstance(conf, "word count");  //设置环境参数

             job.setJarByClass(WordCount.class);  //设置整个程序的类名

             job.setMapperClass(WordCount.TokenizerMapper.class); //添加Mapper类

             job.setCombinerClass(WordCount.IntSumReducer.class);

             job.setReducerClass(WordCount.IntSumReducer.class); //添加Reducer类

             job.setOutputKeyClass(Text.class);  //设置输出类型，因为输出的形式是<单词，个数>，所以这里用Text，类似于Java的String，但还是有些区别

             job.setOutputValueClass(IntWritable.class);  //设置输出类型，类似于Java的Int

             for(int i = 0; i < otherArgs.length - 1; ++i) {

                 FileInputFormat.addInputPath(job, new Path(otherArgs[i]));    //设置输入文件

             }

             FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));   //设置输出文件

             System.exit(job.waitForCompletion(true)?0:1);  //提交作业

         }

         //Reduce处理逻辑

         public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

             private IntWritable result = new IntWritable();

             public IntSumReducer() {

             }

             public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

                 int sum = 0;

                 IntWritable val;

                 for(Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()) {

                     val = (IntWritable)i$.next();

                 }

                 this.result.set(sum);

                 context.write(key, this.result);

             }

         }

         //Map处理逻辑

         public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

             private static final IntWritable one = new IntWritable(1);

             private Text word = new Text();

             public TokenizerMapper() {

             }

             public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {

                 StringTokenizer itr = new StringTokenizer(value.toString());   //分词器

                 while(itr.hasMoreTokens()) {

                     this.word.set(itr.nextToken());

                     context.write(this.word, one);  //输出键值对

                     //这里也可以直接写成context.write(new Text(word), new IntWritable(1));

                 }

             }

         }

     }

MapReduce编程：词频统计的更多相关文章

MapReduce实现词频统计
问题描述:现在有n个文本文件,使用MapReduce的方法实现词频统计. 附上统计词频的关键代码,首先是一个通用的MapReduce模块: class MapReduce: __doc__ = ''' ...
作业4-两人编程<词频统计>
协作:苗中峰,刘鑫成我主要攻克排序,成哥写了文件流的使用.整合工作由我完成,成哥帮我查阅资料,避免和解决语法错误. 这次任务较作业三的变化是: * ...
Hadoop实战5:MapReduce编程-WordCount统计单词个数-eclipse-java-windows环境
Hadoop研发在java环境的拓展一背景由于一直使用hadoop streaming形式编写mapreduce程序,所以目前的hadoop程序局限于python语言.下面为了拓展java语言研 ...
Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 ...
task4: 结对编程-词频统计[修改版]
问题描述: 读取一个文件,统计其中单词出现次数,并按从高到低的顺序显示,相同顺序的字典序排列. 思路: 基于上次的程序用正则提取出文本里的单词,然后利用字典计数(先get,为null则置1,不为nul ...
指导手册05：MapReduce编程入门
指导手册05:MapReduce编程入门 Part 1:使用Eclipse创建MapReduce工程操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...
MapReduce编程模型详解（基于Windows平台Eclipse）
本文基于Windows平台Eclipse,以使用MapReduce编程模型统计文本文件中相同单词的个数来详述了整个编程流程及需要注意的地方.不当之处还请留言指出. 前期准备 hadoop集群的搭建编 ...
MapReduce词频统计
自定义Mapper实现 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; impor ...
Hive简单编程实践-词频统计
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.ed ...
Hadoop MapReduce编程学习
一直在搞spark,也没时间弄hadoop,不过Hadoop基本的编程我觉得我还是要会吧,看到一篇不错的文章,不过应该应用于hadoop2.0以前,因为代码中有 conf.set("map ...

随机推荐

An overview of gradient descent optimization algorithms
原文地址:An overview of gradient descent optimization algorithms An overview of gradient descent optimiz ...
JavaScript基础知识（数据类型）
数据类型布尔:true/fasle console.log(typeof true);// "boolean" Number : true -->1 false --> ...
vue里面的v-for列表循环
列表渲染 v-for v-for可以把数据中的一个数组对应为一组元素v-for 指令需要以 item in items 形式的特殊语法, items 是源数据数组并且 item 是数组元素迭代的别名. ...
架构3(基于LVS LB集群解决方案一：piranha)
1.实现调度器的HA 2.对realserver做健康检测 3.动态维护IPVS路由表 pulse 活跃和备用lvs路由器中都会运行pulse守护进程,在备用路由器中,pulse向活跃的服务器的公共接 ...
.net core 获取不到session 和cookies的值
在启动类的configure services()方法中,设置选项.checkconsent必需=context=false;如下: services.Configure<CookiePolic ...
将python代码打包成一个app/exe
前言打包的代码通常都需要写一个简单的界面,一般用PyQt来写.用PyQt写界面的方法请戳这里:PyQt5的安装及基本配置 PyQt5教程 python提供了几个用来打包的模块,主要有py2ap ...
【学习笔记】Tensorflow+Inception-v3训练自己的数据
导读喵喵的,一个大坑.本文分为吐槽和干货两部分. 一.吐槽大周末的,被导师扣下加班,嗨气,谁叫本狗子太弱鸡呢,看起来很简单的任务倒腾了两天还没完,不扣你扣谁? 自己刚接到微调Inception-v ...
Linux常用总结
CentOS 7.0中一个最主要的改变,就是切换到了systemd.它用于替代红帽企业版Linux前任版本中的SysV和Upstart,对系统和服务进行管理.systemd兼容SysV和Linux标准 ...
Mysql模糊查询like效率，以及更高效的写法
在使用msyql进行模糊查询的时候,很自然的会用到like语句,通常情况下,在数据量小的时候,不容易看出查询的效率,但在数据量达到百万级,千万级的时候,查询的效率就很容易显现出来.这个时候查询的效率就 ...
Java 实现异步调用
首先我遇到的问题是接口调用时需要更新缓存而更新缓存又是个说快不快的过程所以打算做异步调用返回我所需要的结果即可 ,至于缓存什么时候更新完就不是我所需要关注的了废话不多说上代码 publ ...

MapReduce编程：词频统计

MapReduce编程：词频统计的更多相关文章

随机推荐

热门专题