Hadoop学习笔记（五）：java开发MapReduce

1. MapReduce的流程图（摘自马士兵老师视频），我们开发的就是其中的这两个（红框）过程。简述一下这个图，input就是我们需要处理的文件（datanode上文件的一个分块）；Split就是将这个文件进行拆分，默认的就是按照行来拆分，拆分的结果是一个key-value对，key是这一行起始的位置，value就是这一行的内容；map是我们需要开发的内容，也就是对这一行数据的处理，产生的结果也是一个key-value对；shuffle是把上一步处理后的数据进行一个汇总，把同样的key合并到一起，把所有的value放到一个容器里；reduce缩减，就是将上一步容器里的值进行求和，也是一个key-value对；output就是输出。

2. 如果是在windows机器上进行开发，需要对环境进行一些配置：

a). 首先添加hadoop的环境变量HADOOP_HOME指向hadoop的安装目录：

b). 把HADOOP_HOME/bin加到PATH环境变量（非必要）

c). 覆盖HADOOP_HOME/bin（到此处https://github.com/srccodes/hadoop-common-2.2.0-bin下载bin文件）

d). 将hadoop.dll复制到c:\windows\system32目录下（重启电脑）

3. 新建java项目，引入相应的jar包，jar包都位于HADOOP_HOME目录下的share/hadoop中，以下是jar清单：

a). common下hadoop-common-2.7.3.jar，已经common/lib下所有jar包。

b). hdfs下所有jar包，以及hdfs/lib下所有jar包。

c). mapreduce下所有jar包，以及mapreduce/lib下所有jar包。

d). yarn下所有jar包，以及yarn/lib下所有jar包。

4. 编写map层代码，新建WordMapper.java类：

 import java.io.IOException;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 public class WordMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

     @Override

     protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {

         final IntWritable ONE = new IntWritable(1);

         String s = value.toString();

         String[] words = s.split(" ");

         for (String word : words) {

             context.write(new Text(word), ONE);

         }

     }

 }

5. 编写reduce层代码，新建WordReduce.java文件：

 import java.io.IOException;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 public class WordReduce extends Reducer<Text, IntWritable, Text, LongWritable> {

     @Override

     protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, LongWritable>.Context content) throws IOException, InterruptedException {

         long count = 0;

         for (IntWritable v : values) {

             count += v.get();

         }

         content.write(key, new LongWritable(count));

     }

 }

6. 编程测试层代码，新建Test.java（程序可以在windows独立运行，不用启动hadoop服务）

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class Test {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         Job job = Job.getInstance(conf);

         job.setMapperClass(WordMapper.class);

         job.setReducerClass(WordReduce.class);

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(LongWritable.class);

         FileInputFormat.setInputPaths(job, "E:/input.txt");

         FileOutputFormat.setOutputPath(job, new Path("E:/out/"));

         job.waitForCompletion(true);

     }

 }

7. 运行测试代码，去到输出目录进行查看：

8. 打开该文件，查看运行结果：

9. 下面将这个程序扔到hadoop中运行。

10. 首先在hadoop上准备一个需要处理文件

11. 修改测试代码，只要修改两行就好了，然后运行（记得启动hadoop和yarn）：

FileInputFormat.setInputPaths(job, "hdfs://192.168.74.100:9000/input");

FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.74.100:9000/output"));

12. 在hadoop中查看运行结果

13. 需要注意的是（观看Eclipse的控制台），这个任务仍然是在本地执行的，也就是说，这个程序需要先将需要处理的文件下载的本地，然后再进行处理，显而易见，如果文件很大，这是很不合适的。

14. 我们要做的是将程序给hadoop执行，而不是将datanode的文件下载到本地，然后用本地的程序执行。修改后测试代码如下，注意，这里需要进行两个配置，在windows的host文件中添加master的ip：

然后，将项目打成jar包放到项目根目录下：

运行的时候，右击测试文件，选择Run Configurations，在Arguments的VM arguments中输入-DHADOOP_USER_NAME=root，然后点击Run

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class Test {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS", "hdfs://192.168.74.100:9000/");

         conf.set("mapreduce.job.jar", "mr.jar");

         conf.set("mapreduce.framework.name", "yarn");

         conf.set("yarn.resourcemanager.hostname", "master");

         conf.set("mapreduce.app-submission.cross-platform", "true");

         Job job = Job.getInstance(conf);

         job.setMapperClass(WordMapper.class);

         job.setReducerClass(WordReduce.class);

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(LongWritable.class);

         FileInputFormat.setInputPaths(job, "/input/");

         FileOutputFormat.setOutputPath(job, new Path("/output2/"));

         job.waitForCompletion(true);

     }

 }

15. 查看该任务ID

16. 运行完上述代码，查看测试结果（自行查看），宿主机浏览器查看刚才的任务，发现刚才的任务是在slave3上执行的。

Hadoop学习笔记（五）：java开发MapReduce的更多相关文章

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World
Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclip ...
Java学习笔记二:Java开发工具Eclipse的安装与使用
Java开发工具Eclipse的安装与使用正如office一样我们在开发java语言过程中同样需要依款不错的开发工具,目前市场上的IDE很多,这里只演示Eclipse的安装: 一:下载软件: 1.下 ...
Hadoop 学习笔记（十一） MapReduce 求平均成绩
china:张三 78李四 89王五 96赵六 67english张三 80李四 82王五 84赵六 86math张三 88李四 99王五 66赵六 77 import java.io.IOEx ...
Hadoop 学习笔记（十） MapReduce实现排序全局变量
一些疑问:1 全排序的话,最后的应该sortJob.setNumReduceTasks(1);2 如果多个reduce task都去修改一个静态的 IntWritable ,IntWritable会 ...
Hadoop学习笔记五
一.uber(u:ber)模式 MapReduce以Uber模式运行时,所有的map,reduce任务都在一个jvm中运行,对于小的mapreduce任务,uber模式的运行将更为高效. uber模式 ...
Java学习笔记五:Java中常用的运算符
Java中常用的运算符运算符是一种“功能”符号,用以通知 Java 进行相关的运算.譬如,我们需要将变量 score 的值设置为 20 ,这时候就需要一个“=”,告诉程序需要进行赋值操作. Java ...
Java基础学习笔记五 Java基础语法之面向对象
面向对象理解什么是面向过程.面向对象面向过程与面向对象都是我们编程中,编写程序的一种思维方式.面向过程的程序设计方式,是遇到一件事时,思考“我该怎么做”,然后一步步实现的过程.例如:公司打扫卫生( ...
Java 学习笔记 (五) Java Compile\Build\Make的区别
以下内容引自: http://blog.51cto.com/lavasoft/436216 Compile.Make和Build的区别原创leizhimin2010-11-30 11:30:20评论 ...
Vue学习笔记(五)——配置开发环境及初建项目
前言在上一篇中,我们通过初步的认识,简单了解 Vue 生命周期的八个阶段,以及可以应用在之后的开发中,针对不同的阶段的钩子采取不同的操作,更好的实现我们的业务代码,处理更加复杂的业务逻辑. 而在这一 ...
【原】Java学习笔记001 - JAVA开发环境搭建
1.JDK下载并安装,以jdk-7u45-windows-i586.exe为例(注意JDK的安装和JRE的安装是分开的) 2.“我的电脑”右键属性,找到“高级系统设置”,找到“高级”tab下的“环境变 ...

随机推荐

CPDA-战略管理
战略管理-PEST分析-市场分析-竞争环境分析-SWOT分析-内/外部因素评价矩阵-国际化/多元化战略战略管理: 战略分析->战略制定->战略实施->战略评价->战略分析,四 ...
T-3-java核心API-基础类
一.API 现成的类(程序) Java API是java(Oracle)提供的系统标准API. 第三方的jar包API,如:JUnit.jar. 可以自己开发一些API. 一般情况下任何技术都有现成的 ...
7.地图随机装饰,与转化过程补充,与ai的设计思路
这两天本来只想实现地图的随机装饰,然后发现以前的bin格式设计存在不足,所以最后不得不去改地图,并去重制整个地图的阶段,此篇总结这个过程先描述下bin结构首先地图由无数六边形组合,一个六边形由两层 ...
Exp2后门原理与实践_20154305 _ 齐帅
Exp2后门原理与实践 20154305 _ 齐帅 2.1简单后门一.后门工具介绍 1.netcat(nc.ncat) 是一个底层工具,进行基本的TCP UDP数据收发.常被与其他工具结合使用,起 ...
排序算法（sorting algorithm）之冒泡排序（bubble sort）
http://www.algolist.net/Algorithms/ https://docs.oracle.com/javase/tutorial/collections/algorithms/ ...
2019浙大校赛--J--Extended Twin Composite Number（毒瘤水题）
毒瘤出题人,坑了我们好久,从基本的素数筛选,到埃氏筛法,到随机数快速素数判定,到费马小定理,好好的水题做成了数论题. 结果答案是 2*n=n+3*n,特判1,2. 以下为毒瘤题目: 题目大意: 输入一 ...
自我理解node.js相比java的优势
今天学习node.js,相比于之前学习过的java,node.js有一些优越之处.原因是它是一个基于Chrome v8引擎建立的JavaScript运行平台. (1)创建服务器:自行服务器来监听客户端 ...
Jmeter学习过程中遇到的那些坑
开个新帖,持续记录学习jmeter过程中遇到的坑... (1)出师不利由于公司的产品都是客户端模式,所以所有的接口测试都从获取access-token开始.妹的...上来就是一个坑... 一开始的配 ...
kvm-qcow2派生镜像的远程备份的方法！
在虚拟化环境中,关于虚拟机的远程备份是一个比较重要的环节,这个是有关于整个机房挂掉之后,仍然可以恢复的最后一招. 在kvm中这种情况可以通过直接备份虚拟机的镜像文件(qcow2)到远端存储解决. 但有 ...
tarjan算法总结
部分内容引自https://www.cnblogs.com/stxy-ferryman/p/7779347.html Tarjan算法不是一个算法而是一类算法 1.求取强连通分量强连通分量————有 ...

Hadoop学习笔记（五）：java开发MapReduce

Hadoop学习笔记（五）：java开发MapReduce的更多相关文章

随机推荐

热门专题