MapReduce 应用实例

Hadoop 版本2.8.0

前期准备工作：

1. 设置用户环境变量 PATH 和 CLASSPATH

方便执行 Hadoop 命令时不用转移到对应的目录下，shell 除了会在当前目录下还会到 PATH 指定位置寻找可执行文件。

使用 javac 命令编译 .java 文件时，如果没有指定 -classpath 选项，会到 CLASSPATH 下寻找程序里 import 的类。使用 echo $PATH 命令可察看对应的环境变量。

vi ~/.bash_profile

# set HADOOP ENVIRONMENT

HADOOP_HOME=~/hadoop-2.8.0

CLASSPATH=$CLASSPATH:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.8.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.8.0.jar

export PATH=$PATH:$HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使用 source ~/.bash_profile 使修改生效。有时从系统环境变量中 /etc/profile 去除某一路径可能导致生效不及时，通过重新登陆一次，可以使其重新加载。上述导入的 CLASSPATH 是 MapReduce 函数常用的三个 jar 包，Hadoop-2.8.0 的资源包都在 hadoop-2.8.0/share/hadoop 路径下。

WordCount

1. 输入文件准备

　　1. 新建输入文件 file1 和 file2。其中：

　　　　file1 的文件内容是：

　　　　hello world

　　　　file2 的文件内容是：

　　　　hello hadoop

　　　　hello mapreduce

　　2. 在 HDFS 文件系统中创建输入文件夹（hadoop 可执行文件是在 hadoop-2.8.0/bin 目录下，前面已经将其加入系统路径中，下面命令在 HDFS 根目录下创建文件夹 wordcount_input）

　　　　hadoop fs -mkdir /wordcount_input

　　3. 上传本地目录 ~/files 下的输入文件 file1 和 file2 文件到集群上的输入文件夹

　　　　hadoop fs -put ~/files/* /wordcount_input

2. WordCount 代码

 package test;

 import java.io.IOException;

 import java.util.StringTokenizer;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.util.GenericOptionsParser;

 public class WordCount {

         public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{

                 private final IntWritable one = new IntWritable(1);

                 private Text word = new Text();

                 public void map(Object key, Text value, Context context) throws IOException, InterruptedException {

                         StringTokenizer itr = new StringTokenizer(value.toString());

                         while (itr.hasMoreTokens()) {

                                 word.set(itr.nextToken());

                                 context.write(word, one);

                         }

                 }

         }

         public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

                 private IntWritable result = new IntWritable();

                 public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

                         int sum = 0;

                         for (IntWritable val : values) {

                                 sum += val.get();

                         }

                         result.set(sum);

                         context.write(key, result);

                 }

         }

         public static void main (String[] args) throws Exception {

                 Configuration conf = new Configuration();

                 String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

                 if (otherArgs.length != 2) {

                         System.err.println("Usage: wordcount <in> <out>");

                         System.exit(2);

                 }

                 Job job = new Job(conf, "word count");

                 job.setJarByClass(WordCount.class);

                 job.setMapperClass(TokenizerMapper.class);

                 job.setCombinerClass(IntSumReducer.class);

                 job.setReducerClass(IntSumReducer.class);

                 job.setOutputKeyClass(Text.class);

                 job.setOutputValueClass(IntWritable.class);

                 FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

                 FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

                 System.exit(job.waitForCompletion(true) ? 0 : 1);

         }

 }

WordCount.java

3. 编译 WordCount.java 程序

　　javac -d ~/files ~/files/WordCount.java

　　上述命令将 ~/files/WordCount.java 的 java 文件编译后结果存放在 -d 选项指定的目录下，java 文件中指定的 package 打包命令会使编译生成的字节码 class 文件放置在自动创建的包目录下，比如在本例程序开头 package test 命令，会使在 ~/files 目录下创建 test 子目录，里面包含编译生成的文件。

4. 将编译结果打包成 Jar 包

　　jar cvf wordcount.jar ~/files/test

　　上述命令将之前生产的 package 下的 class 文件进行打包，并对生成的 jar 包进行命名。

5. 在集群上运行 WordCount 程序，命令行指定参数

　　hadoop jar ~/files/wordcount.jar test.WordCount /wordcount_input /wordcount_output

　　上述命令需要指定 Jar 包的路径，同时还需要指定包含 package 路径的类名。

6. 查看输出结果

　　hadoop fs -cat /wordcount_output/part-r-00000

　　　　[lb@host98 ~/files]$hadoop fs -cat /wordcount_output/part-r-00000

　　　　17/06/28 15:49:09 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

　　　　hadoop 1

　　　　hello 3

　　　　mapreduce 1

　　　　world 1

MapReduce 应用实例的更多相关文章

MapReduce编程实例6
前提准备: 1.hadoop安装运行正常.Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装 2.集成开发环境正常.集成开发环境配置请参考 :Ubuntu 搭建Hadoop ...
MapReduce编程实例5
前提准备: 1.hadoop安装运行正常.Hadoop安装配置请参考:Ubuntu下 Hadoop 1.2.1 配置安装 2.集成开发环境正常.集成开发环境配置请参考 :Ubuntu 搭建Hadoop ...
MapReduce编程实例4
MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...
MapReduce编程实例3
MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...
MapReduce编程实例2
MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...
三、MapReduce编程实例
前文一.CentOS7 hadoop3.3.1安装(单机分布式.伪分布式.分布式二.JAVA API实现HDFS MapReduce编程实例 @ 目录前文 MapReduce编程实例前言注意 ...
hadoop2.2编程：使用MapReduce编程实例（转）
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大 ...
Mapreduce数据分析实例
数据包百度网盘链接:https://pan.baidu.com/s/1v9M3jNdT4vwsqup9N0mGOA提取码:hs9c 复制这段内容后打开百度网盘手机App,操作更方便哦 1. ...
Python实现MapReduce,wordcount实例，MapReduce实现两表的Join
Python实现MapReduce 下面使用mapreduce模式实现了一个简单的统计日志中单词出现次数的程序: from functools import reduce from multiproc ...
hadoop之mapreduce编程实例(系统日志初步清洗过滤处理)
刚刚开始接触hadoop的时候,总觉得必须要先安装hadoop集群才能开始学习MR编程,其实并不用这样,当然如果你有条件有机器那最好是自己安装配置一个hadoop集群,这样你会更容易理解其工作原理.我 ...

随机推荐

NFS服务基础
NFS服务部署: (一)NFS环境准备: 操作系统角色 IP地址 CentOS Linux release 7.3.1611 (Core) NFS服务端 192.168.152.138 CentOS ...
Python慢，为啥还有大公司用？
PyCon 是全世界最大的以 Python 编程语言为主题的技术大会,大会由 Python 社区组织,每年举办一次.在 Python 2017 上,Instagram 的工程师们带来了一个有关 Py ...
Flask视图函数与模板语法
1.Django中的CBV模式 2.Flask中的CBV和FBV def auth(func): def inner(*args, **kwargs): result = ...
html知识代码
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
git获取远程仓库代码
首先在本地创建一个目录“ MyProject”,用来存放工程文件,git进入该文件夹,执行 git clone 远程项目MyCode地址将代码克隆到本地然后进入“MyCode”文件夹下 cd MyC ...
SpringMVC的其他功能使用
一.SpringMVC支持在控制器的业务方法中写入参数作为传递过来的变量 @Controller @RequestMapping(value="/kaiye") public cl ...
推荐系统第6周--- SVD和基于标签的推荐系统
“隐语义”的真正背景 LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerweste ...
usr/bin/ld: cannot find 错误解决方法和 /etc/ld.so.conf
我makefile出现这个错误: HelloWorldServer.c:(.text+0xaa): undefined reference to `zmq_send'collect2: error: ...
iOS App 上架（Analysis 工具使用）
随着iOS开发的流行,针对iOS开发涉及的方方面面,早有一些公司提供了专门的解决方案或工具.这些解决方案或工具包括:用户行为统计工具(友盟,Flurry,Google Analytics等), App ...
Python（socket编程——2）
import socket ''' socket.socket(socket_family,socket_type,protocal=0) socket_family 可以是 AF_UNIX 或 AF ...

MapReduce 应用实例

MapReduce 应用实例的更多相关文章

随机推荐

热门专题