Ubuntu中使用终端运行Hadoop程序

接上一篇《Ubuntu Kylin系统下安装Hadoop2.6.0》

通过上一篇，Hadoop伪分布式基本配好了。

下一步是运行一个MapReduce程序，以WordCount为例：

1. 构建实现类：

cd /usr/local/hadoop

mkdir workspace
cd workspace
gedit WordCount.java

将代码复制粘贴。

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static class TokenizerMapper

       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable();

    private Text word = new Text();

    public void map(Object key, Text value, Context context

                    ) throws IOException, InterruptedException {

      StringTokenizer itr = new StringTokenizer(value.toString());

      while (itr.hasMoreTokens()) {

        word.set(itr.nextToken());

        context.write(word, one);

      }

    }

  }

  public static class IntSumReducer

       extends Reducer<Text,IntWritable,Text,IntWritable> {

    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,

                       Context context

                       ) throws IOException, InterruptedException {

      int sum = ;

      for (IntWritable val : values) {

        sum += val.get();

      }

      result.set(sum);

      context.write(key, result);

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job = Job.getInstance(conf, "word count");

    job.setJarByClass(WordCount.class);

    job.setMapperClass(TokenizerMapper.class);

    job.setCombinerClass(IntSumReducer.class);

    job.setReducerClass(IntSumReducer.class);

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

    FileInputFormat.addInputPath(job, new Path(args[]));

    FileOutputFormat.setOutputPath(job, new Path(args[]));

    System.exit(job.waitForCompletion(true) ?  : );

  }

}

对于代码的具体分析，下一篇再详细讲解。

2. 编译

(1) 添加JAVA_HOME

　　export JAVA_HOME=/usr/lib/jvm/java-8u5-sun

　　忘记JAVA_HOME的可以使用：

　　echo $JAVA_HOME

(2) 将jdk目录下的bin文件夹添加到环境变量

export PATH=$JAVA_HOME/bin:$PATH

(3) 将hadoop_classpath添加到环境变量

export HADOOP_CLASSPATH=$JAVA_HOME/lib/tools.jar

编译WordCount.java文件

../bin/hadoop com.sun.tools.javac.Main WordCount.java

　　其中com.sun.tools.javac.Main是生成一个编译器的实例

　　上述语句生成三个class: WordCount.class Reducer.class TokenizerMapper.class

将上述三个class打包成.jar包

jar cf WordCount.jar WordCount*.class

生成WordCount.jar

3. 运行

bin/hdfs dfs -mkdir /user

bin/hdfs dfs -mkdir /user/hadoop

　　构造输入文件：

bin/hdfs dfs -put etc/hadoop /input

　　其中，etc/hadoop是输入文件，可替换为其他文件

bin/hadoop jar /usr/local/hadoop/workspace/WordCount.jar /input /output

　　查看运行结果

bin/hdfs dfs -cat /output/*

4. 结束Hadoop

sbin/stop-dfs.sh

Ubuntu中使用终端运行Hadoop程序的更多相关文章

如何在Ubuntu的idea上运行Hadoop程序
如何在Ubuntu的idea上运行Hadoop程序一.前言在idea上运行Hadoop程序,需要使用Hadoop的相关库,Ubuntu为Hadoop的运行提供了良好的支持. 二.操作方法首先我们 ...
【爬坑】在 IDEA 中运行 Hadoop 程序报 winutils.exe 不存在错误解决方案
0. 问题说明环境为 Windows 10 在 IDEA 中运行 Hadoop 程序报 winutils.exe 不存在错误 1. 解决方案 [1.1 解压] 解压 hadoop-2.7.3 ...
如何在Linux中使用Firejail运行应用程序
有时您可能希望使用在不同环境中未经过良好测试的应用程序,但您必须使用它们.在这种情况下,关注系统的安全性是正常的.在Linux中可以做的一件事是在沙箱中使用应用程序. “沙盒”是在有限环境中运行应用程 ...
使用ToolRunner运行Hadoop程序基本原理分析
为了简化命令行方式运行作业,Hadoop自带了一些辅助类.GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的 ...
关于在Eclipse上运行Hadoop程序的日志输出问题
在安装由Eclipse-Hadoop-Plugin的Eclipse中, 可以直接运行Hadoop的MapReduce程序, 但是如果什么都不配置的话你发现Eclipse控制台没有任何日志输出, 这个问 ...
使用ToolRunner运行Hadoop程序基本原理分析分类： A1_HADOOP 2014-08-22 11:03 3462人阅读评论(1) 收藏
为了简化命令行方式运行作业,Hadoop自带了一些辅助类.GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的 ...
eclipse运行hadoop程序报错:Connection refused: no further information
eclipse运行hadoop程序报错:Connection refused: no further information log4j:WARN No appenders could be foun ...
在windows中：双击运行Python程序、后台运行Python程序
在windows中:双击运行Python程序.后台运行Python程序安装Python解释器的windows环境,如果双击运行*.py的文件,会闪退.怎样避免闪退呢? 我们用python的日志输出程 ...
在 Sublime Text 2 中编译和运行 Java 程序，以及输出中文出错问题解决办法
Sublime Text 2 是我最喜欢用来编码的文本编辑器,如果你尝试使用后相信你也会喜欢上它的.在这篇文章中我们将讨论如何在 Sublime Text 2 中编译和运行 Java 程序. 第一步: ...

随机推荐

opencv安装及学习资料
第一次装时win7+VS2010+opencv3.0,结果不成功,原因解压出来的没有vc10,可能新版本不在支持vc的旧版本了.所以换了VS2013+opencv3.0,比较经典的安装时VS2010+ ...
Vijos1523 NOI2002 贪吃的九头龙树形dp
思路不算很难,但细节处理很麻烦前面建图.多叉转二叉,以及确定dp处理序列的过程都是套路,dp的状态转移过程以注释的形式阐述 #include <cstdio> #include < ...
python 数据结构
Python的数据结构主要分为set(),list[],和dict{}.这篇文章主要记载这几种结果在使用过程中的一些技巧或其中一些函数的用法区别. 1.函数get()与setdefault()区别: ...
【POJ2406】【KMP】Power Strings
Description Given two strings a and b we define a*b to be their concatenation. For example, if a = & ...
javascript——函数属性和方法
<script type="text/javascript"> //每个函数都包含两个属性:length 和 prototype //length:当前函数希望接受的命 ...
Iis 日志文件默认路径
Iis 日志文件默认路径: C:\WINDOWS\system32\LogFiles
magento后台 Fatal error: Call to a member function getId() on a non-object in错误
后台分类管理出现错误 Fatal error: Call to a member function getId() on a non-object in 在数据库中运行以下sql语句 INSERT I ...
WPF学习笔记-如何按ESC关闭窗口
如何按ESC关闭窗口? 在InitializeComponent();下面增加KeyDown事件,如: public ModifyPrice() { InitializeComponent(); th ...
[转]Uploading and Downloading VHDs to Windows Azure
The article shows how to download and upload VHD to Azure. http://michaelwasham.com/windows-azure-po ...
Unity3D内存释放
Unity3D内存释放最近网友通过网站搜索Unity3D在手机及其他平台下占用内存太大. 这里写下关于Unity3D对于内存的管理与优化. Unity3D 里有两种动态加载机制:一个是Resourc ...

Ubuntu中使用终端运行Hadoop程序

Ubuntu中使用终端运行Hadoop程序的更多相关文章

随机推荐

热门专题