WordCount Analysis

1.Create a new java project, then copy examples folder from /home/hadoop/hadoop-1.0.4/src;

Create a new folder named src, then Paste to the project to this folder.

Error: Could not find or load main class

right-click src folder, --> build Path --> Use as source Folder

2.Copy hadoop-1.0.4-eclipse-plugin.jar to eclipse/plugin . Then restart eclipse.

3.Set the hadoop install directory and configure the hadoop location.

4.Attched the hadoop source code for the project, then you can check hadoop source code freely.

5.Java heap space Error

java.lang.OutOfMemoryError: Java heap space

at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.<init>(MapTask.java:949)

at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:674)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:756)

at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)

int maxMemUsage = sortmb << 20;

int recordCapacity = (int)(maxMemUsage * recper);

recordCapacity -= recordCapacity % RECSIZE;

kvbuffer = new byte[maxMemUsage - recordCapacity];

so we should configure the value of io.sort.mb to avoid this.

我运行的机器环境配置比较低，three nodes, all 512M memory .

我没有在core-site.xml中设置这个参数的值，为了这次job,我直接设置在job的driver code中,

conf.set("io.sort.mb","10");

6.sample test data for WordCount:

10

9

8

7

6

5

4

3

2

1

line1

line3

line2

line5

Line4

运行结果文件是：

1        1

10        1

2        1

3        1

4        1

5        1

6        1

7        1

8        1

9        1

line1        2

line2        2

line3        2

line4        2

line5        2

line6        1

还有一个文件是_Success.表明job执行成功。

可以看到执行后的文件是排过序的。是根据key 值的类型进行排序的，我们wordcount示例中，key值是string类型。

7.在Wordcount示例中，没有专门处理如果输出目录已经存在的情况，为了方便测试，我们添加如下的代码来处理目录.

Path outPath = new Path(args[1]);

FileSystem dfs = FileSystem.get(outPath.toUri(), conf);

if (dfs.exists(outPath)) {

dfs.delete(outPath, true);

}

8.why the wordcount demo 's mapper and reduce class are both static?

（为什么WordCount示例中的mapper和reducer都设计成static的，难道非要这样吗？）

Let me remove the static key word for mapper class, then run the job, you will get exception as follow:

java.lang.RuntimeException: java.lang.NoSuchMethodException: org.apache.hadoop.examples.WordCount$TokenizerMapper.<init>()

at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)

at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:719)at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)

at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:212)

Caused by: java.lang.NoSuchMethodException: org.apache.hadoop.examples.WordCount$TokenizerMapper.<init>()

at java.lang.Class.getConstructor0(Class.java:2730)

在这个时候，mapper类变成了wordcount类的内部类，反射辅助类无法准备地找到它的构造函数，无法实例化。

解决方案，把mapper类从内部类转成非内部类，从wordcount类中拿出来，放到外面去或另起一个文件，这样

执行依然可以。

我们可以看到，我们的示例，尽可能地简单，都放在一个类里面了，使用static就可以保证可以正确运行，如果我们的mapper和reducer不是特别复杂，这样的设计也无可厚非。如果复杂的话，最好单拎出来放一个类。

9.默认我们在eclipse里面直接调试运行或直接运行的时候，我们并非是执行在hadoop cluster上面的，而是进程中模拟执行的，这样方便我们进行调试，我们可以看到console中会有输出类似LocalJobRunner的字样，而不是JobTracker去执行。

这就是为什么，即使我们设置reducetask number大于1的时候，我们仍会在输出的目录里面看到一个part-0000之类的输出，是因为localjobrunner只支持一个.

为了方便我们直接在这里写完代码，就模拟在集群上执行，是很有必要的，有时候是因为你写的代码不在集群上执行就

不能及时地发现错误（分布式应用程序写的时候还是需要注意很多事项的）。

因为提交到集群其实需要做的一件事就是打包你的代码为jar文件，然后提交到集群中去，所以这里需要做这些事情。

我使用spork兄的EJob类来完成这件事，如果你熟悉可以自己写，可以参照http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html.

参照文章，然后在驱动代码中进行部分调整即可。

10.

如果我想把单词中第一个字母小于N的放在第一个reduce task中完成，其他的放在第二个reduce task中输出，该怎么做呢？

写自己的partitioner类，默认的partitioner类是HashPartitioner类，我们简单实现自己的，然后设置一下就可以了。

11.附上修改后的完整的WordCount类源码：

package org.apache.hadoop.examples;

import java.io.File;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Partitioner;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{

private final   IntWritable one = new IntWritable(1);

private Text word = new Text();

@SuppressWarnings("unused")

public void map(Object key, Text value, Context context

             ) throws IOException, InterruptedException {

if(false){

	StringTokenizer itr = new StringTokenizer(value.toString());

		while (itr.hasMoreTokens()) {

		 word.set(itr.nextToken());

		 context.write(word, one);

		}

}else

{

	String s = value.toString();

	String[] words = s.split("\\s+");

	for (int i = 0; i < words.length; i++) {

	    words[i] = words[i].replaceAll("[^\\w]", "");

	   // System.out.println(words[i]);

	    word.set(words[i].toUpperCase());

	    if(words[i].length()>0)

	    	context.write(word,one);

	}

}		

	}

}

public class WordCount {

public static class MyPartitioner<K, V> extends Partitioner<K, V> {

		  public int getPartition(K key, V value,

		                          int numReduceTasks) {

			  if(key.toString().toUpperCase().toCharArray()[0]<'N') return 0;

			  else return 1;

		  }

}

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = 0;

      for (IntWritable val : values) {

        sum += val.get();

      }

      result.set(sum);

      context.write(key, result);

    }

  }

  public static void main(String[] args) throws Exception {

	args= "hdfs://namenode:9000/user/hadoop/englishwords hdfs://namenode:9000/user/hadoop/out".split(" ");

	File jarFile = EJob.createTempJar("bin");

	EJob.addClasspath("/home/hadoop/hadoop-1.0.4/conf");

	//conf.set("mapred.job.tracker","namenode:9001");

	ClassLoader classLoader = EJob.getClassLoader();

	Thread.currentThread().setContextClassLoader(classLoader);

    Configuration conf = new Configuration();

    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

    if (otherArgs.length != 2) {

      System.err.println("Usage: wordcount <in> <out>");

      System.exit(2);

    }

    //drop output directory if exists

    Path outPath = new Path(args[1]);

	FileSystem dfs = FileSystem.get(outPath.toUri(), conf);

	if (dfs.exists(outPath)) {

		dfs.delete(outPath, true);

	}

	conf.set("io.sort.mb","10");

    Job job = new Job(conf, "word count");

    ((JobConf) job.getConfiguration()).setJar(jarFile.toString());

    job.setNumReduceTasks(2);//use to reducer process to process work

    job.setPartitionerClass(MyPartitioner.class);

    job.setJarByClass(WordCount.class);

    job.setMapperClass(TokenizerMapper.class);

    job.setCombinerClass(IntSumReducer.class);

    job.setReducerClass(IntSumReducer.class);

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

    System.exit(job.waitForCompletion(true) ? 0 : 1);

  }

}

WordCount Analysis的更多相关文章

pig—WordCount analysis
grunt> cat /opt/dataset/input.txt keyword1 keyword2 keyword2 keyword4 keyword3 keyword1 keyword4 ...
Latent semantic analysis note(LSA)
1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwes ...
软件质量与测试--第二周作业 WordCount
github地址: https://github.com/wzfhuster/software_test_tasks psp表格: PSP2.1 PSP 阶段预估耗时 (分钟) 实际耗时 (分钟) ...
软件质量与测试——WordCount编码实现及测试
1.GitHub地址 https://github.com/noblegongzi/WordCount 2.PSP表格 PSP2.1 PSP 阶段预估耗时 (分钟) 实际耗时 (分钟) ...
第二周个人作业WordCount
1.Github地址 https://github.com/JingzheWu/WordCount 2.PSP表格 PSP2.1 PSP阶段预估耗时 (分钟) 实际耗时 (分钟) Planning ...
Spark初步从wordcount开始
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作把README.md ...
WordCount项目基本功能
一.项目源代码地址本人Gitee项目地址:https://gitee.com/yuliu10/WordCount 二.PSP表格 psp阶段预估耗时 (分钟) 实际耗时 (分钟) 计划 30 10 ...
第三次作业-结对编程（wordcount）
GIT地址 https://github.com/gentlemanzq/WordCount.git GIT用户名 gentlemanzq 结对伙伴博客地址 https://home.cnblogs ...
WordCount
一.Gitee地址:https://gitee.com/zjgss99/WordCount 二.项目分析: 对程序设计语言源文件统计字符数.单词数.行数,统计结果以指定格式输出到默认文件中,以及其他扩 ...

随机推荐

Dynamics AX 中重点数据源方法
数据源方法描述 Active 当用户刚选中一行数据时执行该方法.若选中的是主表的数据,也用该方法来触发加载从表符合条件的数据.主要覆盖该方法来根据条件设置记录及其字段是否可见或是否可被编辑. ...
The type java.util.Map$Entry cannot be resolved. It is indirectly referenced。。.相似的错误
这个问题是出现一般都是因为JDK版本的问题.今天公司安装NC的时候就出现了这个问题.经过对错误的分析和猜测,将JDK从1.8i换成了1.7,之后就行了.根据我个人的猜测,可能是1.8以后就不支持Map ...
Liunx目录结构
/bin: bin是Binary的缩写, 这个目录存放着最经常使用的命令. /boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件. /dev :dev是Device ...
php多版本管理phpenv
曾经有试过phpbrew的童鞋应该知道有多复杂虽然这个好久没更新了,还是可以用的-- github:phpenv/phpenv 它的原理就是处理PATH变量,将你要求的php版本的路径加到PATH的 ...
Python 学习之进制与编码
进制日常生活中,我们最熟悉的数据就是十进制计数.它的数值部分由十个不同的数字符号0.1.2.3.4.5.6.7.8.9来表示,我们把这些数字符号叫做数码,表示十种不同的状态.数码处于不同的位置(或数 ...
股票价格涨跌预测—基于KNN分类器
code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && docu ...
西邮Linux兴趣小组2016免试题
4.28的宣讲会圆满结束(就在写这段话之前不久),对于西邮Linux兴趣小组这一次纳新,身为局外人表示:还是有历史,还是会玩,还是厉害哈. 华丽的分割线里面是自己之前的攻关战略,最后补充了宣讲会上学长 ...
[WF] Quickstart Sample
[WF] Quickstart Sample 前言 Workflow Foundation(WF),总是给人一种很有用.可是却不知道怎么用的印象.这主要是因为前置的功课太多.要整合很多底层知识,才能完 ...
HTML5中的音视频处理
* 音视频处理 * 视频处理 * 基本内容 * 使用Flash技术处理HTML页面中的视频内容 * 包含音频.动画.网页游戏等 * 特点 * 浏览器原生不支持(IE浏览器要求安装ActiveX组件) ...
SQL 语句日期用法及函数
SQL 语句日期用法及函数 --DAY().MONTH().YEAR()——返回指定日期的天数.月数.年数:select day(cl_s_time) as '日' from class --返回天 ...

WordCount Analysis

WordCount Analysis的更多相关文章

随机推荐

热门专题