Hadoop-MR[会用]MR程序的运行模式
1.简介
现在很少用到使用MR计算框架来实现功能,通常的做法是使用hive等工具辅助完成。
但是对于其底层MR的原理还是有必要做一些了解。
2.MR客户端程序实现套路
这一小节总结归纳编写mr客户端程序的一般流程和套路。将以wordcount为例子进行理解。
运行一个mr程序有三种模式,分别为:本地模式,本地集群模式,命令行集群模式
3.代码实现
import java.io.IOException; import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner; /**
* 新API中对job提交类的建议写法
*
*/
public class WordCountDriver extends Configured implements Tool{ /**
* 在run方法中对job进行封装
*/
@Override
public int run(String[] args) throws Exception {
Configuration conf = new Configuration(); //先构造一个用来提交我们的业务程序的一个信息封装对象
Job job = Job.getInstance(conf); //指定本job所采用的mapper类
job.setMapperClass(WordCountMapper.class);
//指定本job所采用的reducer类
job.setReducerClass(WordCountReducer.class); //指定我们的mapper类输出的kv数据类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(LongWritable.class); //指定我们的reducer类输出的kv数据类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(LongWritable.class); //指定我们要处理的文件所在的路径
FileInputFormat.setInputPaths(job, new Path("/Users/apple/Desktop/temp/data/input/")); //指定我们的输出结果文件所存放的路径
FileOutputFormat.setOutputPath(job, new Path("/Users/apple/Desktop/temp/data/output")); return job.waitForCompletion(true)? :;
} public static void main(String[] args) throws Exception { int res = ToolRunner.run(new Configuration(), new WordCountDriver(), args);
System.exit(res); } //在hadoop中,普通的java类不适合做网络序列化传输,hadoop对java的类型进行了封装,以便于利用hadoop的序列化框架进行序列化传输
public static class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> { /**
* map方法是每读一行调用一次
*/
@Override
protected void map(LongWritable key, Text value,Context context)
throws IOException, InterruptedException { //拿到一行的内容
String line = value.toString();
//切分出一行中所有的单词
String[] words = line.split(" ");
//输出<word,1>这种KV对
for(String word:words){
//遍历单词数组,一对一对地输出<hello,1> <tom,1> .......
context.write(new Text(word), new LongWritable()); }
}
} public static class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
/**
* reduce方法是每获得一个<key,valueList>,执行一次
*/
//key : 某一个单词 ,比如 hello
//values: 这个单词的所有v, 封装在一个迭代器中,可以理解为一个list{1,1,1,1.....}
@Override
protected void reduce(Text key, Iterable<LongWritable> values,Context context)
throws IOException, InterruptedException { long count = ;
//遍历该key的valuelist,将所有value累加到计数器中去
for(LongWritable value:values){
count += value.get(); } context.write(key, new LongWritable(count));
} }
}
3. 本地模式运行
使用eclipse编完代码后直接即可运行,但是此种运行只发生在本地,并不会被提交到集群环境运行,换句话说在yarn的web上是无法查询到这个任务的。
这种模式的好处在于可以方便的debug。
在此种模式下输入和输出的路径可以指定为本地路径,也可以指定为hdfs路径。如果使用本地路径则上述代码即可执行。当指定为hdfs路且hdfs集群的配置为hadoop2.x的主备
模式的话则需要引入hdfs-site.xml文件(因为主备模式下hdfs的url是一个service,需要通过配置文件才能解析这个url):
下述例子为指定hdfs路径为输入输出源头,需要引入xml文件到classpath
//指定我们要处理的文件所在的路径
FileInputFormat.setInputPaths(job, new Path("hdfs://ns1/wordcountData/input")); //指定我们的输出结果文件所存放的路径
FileOutputFormat.setOutputPath(job, new Path("hdfs://ns1/wordcountData/output"));
input路径下的文件内容为:
[hadoop@xufeng- temp]$ hadoop fs -cat /wordcountData/input/words.txt
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
aaa bbb
ccc ddd
aaa ccc
ddd eee
eee
ggg ggg hhh
aaa
[hadoop@xufeng- temp]$
通过eclipse启动的时候会有权限问题,可以在vm中指定用户名:
启动程序,在日志中我们可以看到当前mr是通过本地模式执行的,在查看yarn的监控web,并没有这个任务的记录。
-- ::, INFO [Thread-] mapred.LocalJobRunner (LocalJobRunner.java:runTasks()) - Waiting for map tasks
在输出文件夹中查看结果:
[hadoop@xufeng- temp]$ hadoop fs -ls /wordcountData/output
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found items
-rw-r--r-- hadoop supergroup -- : /wordcountData/output/_SUCCESS
-rw-r--r-- hadoop supergroup -- : /wordcountData/output/part-r-
[hadoop@xufeng- temp]$ hadoop fs -cat /wordcountData/output/part-r-
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
aaa
bbb
ccc
ddd
eee
ggg
hhh
[hadoop@xufeng- temp]$
4. 本地集群模式运行
在eclipse中我们可以直接让程序在集群中运行(如yarn集群)上运行,免去打包等繁琐工作,要想让本地运行的关键需要引入mapred-site.xml 和yarn-site.xml文件
目的是让本地程序知道当前mr是在什么框架下执行的,并且要知道集群的信息。
由于如下原因暂未解决:
Diagnostics: File file:/tmp/hadoop-yarn/staging/apple/.staging/job_1469738198989_0009/job.splitmetainfo does not exist
java.io.FileNotFoundException: File file:/tmp/hadoop-yarn/staging/apple/.staging/job_1469738198989_0009/job.splitmetainfo does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:)
at org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:)
5. 命令行集群模式运行
这种模式的运行既是将程序打成jar文件后,放到集群环境上去,通过hadoop jar命令来运行,这模式下运行的任务将运行在集群上。
这种模式非常简单,但是需要在run()方法中指定:
job.setJarByClass(WordCountDriver.class);
否则会出现mapper类无法找到的错误。通过这个模式我们无需使用任何配置文件,在eclipse中将程序打包后传上集群主机。使用如下命令即可执行:
hadoop jar wordcount.jar WordCountDriver
运行日志:
// :: INFO mapreduce.Job: map % reduce %
// :: INFO mapreduce.Job: map % reduce %
// :: INFO mapreduce.Job: map % reduce %
// :: INFO mapreduce.Job: Job job_1469738198989_0014 completed successfully
// :: INFO mapreduce.Job: Counters:
File System Counters
FILE: Number of bytes read=
FILE: Number of bytes written=
FILE: Number of read operations=
FILE: Number of large read operations=
FILE: Number of write operations=
HDFS: Number of bytes read=
查看yarn上的监控web:

集中模式的介绍完毕。
Hadoop-MR[会用]MR程序的运行模式的更多相关文章
- Hadoop_20_MapReduce程序的运行模式
1.MapReduce程序的运行模式 1. Windows中运行MapReduce程序 (1)mapreduce程序是被提交给LocalJobRunner在本地以单进程的形式运行 (2)而处理的数据及 ...
- Qt- 图形界面应用程序的运行模式
main() 定义主窗口 ————>fd = DefineMainWindow() 创建主窗口————>win = CreateMainWindow() 创建主窗口中的元素-----> ...
- Hadoop集群搭建(七)~完全分布运行模式
我使用的是完全分布运行模式.上一篇安装了JDK,本篇记录Hadoop的安装,版本2.7.2 (一)配置文件 1,先将hadoop安装包解压到module目录下 2,配置hadoop-env.sh.vi ...
- C程序汇编运行模式简析
SJTUBEAR 原创作品转载请注明出处 /<Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 1. 汇编 ...
- Hadoop之运行模式
Hadoop运行模式包括:本地模式.伪分布式以及完全分布式模式. 一.本地运行模式 1.官方Grep案例 1)在hadoop-2.7.2目录下创建一个 input 文件夹 [hadoop@hadoop ...
- iOS7程序后台运行
介绍 这次 iOS7 对程序后台运行进行了加强,但是仅仅是加强而已,要想像 Android 程序那样自由当然就别想了,苹果这么做主要还是出于电池使用时间考虑,但是这次的加强对大部分程序基本够用. 在介 ...
- 3 weekend110的job提交的逻辑及YARN框架的技术机制 + MR程序的几种提交运行模式
途径1: 途径2: 途径3: 成功! 由此,可以好好比较下,途径1和途径2 和途径3 的区别. 现在,来玩玩weekend110的joba提交的逻辑之源码跟踪 原来如此,weekend110的job提 ...
- 2 weekend110的mapreduce介绍及wordcount + wordcount的编写和提交集群运行 + mr程序的本地运行模式
把我们的简单运算逻辑,很方便地扩展到海量数据的场景下,分布式运算. Map作一些,数据的局部处理和打散工作. Reduce作一些,数据的汇总工作. 这是之前的,weekend110的hdfs输入流之源 ...
- java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
执行Hive查询: Console是这样报错的 java.sql.SQLException: Error from org.apache.hadoop.hive.ql.exec.mr.MapRedTa ...
随机推荐
- lalala
<script type="text/javascript"> var a_idx = 0; var b_idx = 0; var a = new Array(&quo ...
- BZOJ4071 & 洛谷3644 & UOJ112:[APIO2015]巴邻旁之桥——题解
https://www.lydsy.com/JudgeOnline/problem.php?id=4071 https://www.luogu.org/problemnew/show/P3644 ht ...
- Kippo蜜罐的部署、诱捕节点的搭建以及自动告警
Kippo是一个中等交互的SSH蜜罐,提供了一个可供攻击者操作的shell,攻击者可以通过SSH登录蜜罐,并做一些常见的命令操作. 当攻击者拿下一台服务器的权限后,很可能会进行小范围的端口探测或者批量 ...
- IDEA中使用Docker: 图形化 or 命令行 ,你更稀罕那个??
Docker简介: Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化. 容器是完全使用沙箱机 ...
- warning: React does not recognize the xxx prop on a DOM element
这是React不能识别dom元素上的非标准attribute报出的警告,最终的渲染结果中React会移除这些非标准的attribute. 通常{...this.props}和cloneElement( ...
- bzoj 3673&3674 可持久化并查集&加强版(可持久化线段树+启发式合并)
CCZ在2015年8月25日也就是初三暑假要结束的时候就已经能切这种题了%%% 学习了另一种启发式合并的方法,按秩合并,也就是按树的深度合并,实际上是和按树的大小一个道理,但是感觉(至少在这题上)更好 ...
- 使用snmp4j实现Snmp功能(三)
相关链接:Snmp学习笔记使用snmp4j实现Snmp功能(一)使用snmp4j实现Snmp功能(二)使用snmp4j实现Snmp功能(三) 前两篇文章讲了如何使用Snmp4j实现Set.Get(使用 ...
- [freemarker篇]06.超级强大的自定义指令
Freemarker的自定义指令是很强大的,非常强大,在之后的教程中我会简单的做一个示例,让大家对其有所了解!如果做Freemarker编程,请好好看看API手册,可以说里面的内容很多!也是一门独立的 ...
- Android实现自动定位城市并获取天气信息
定位实现代码: <span style="font-size:14px;">import java.io.IOException; import java.util.L ...
- Spring Boot应用中的异常处理
在普通的单线程程序中,捕获异常只需要通过try ... catch ... finally ...代码块就可以了.那么,在并发情况下,比如在父线程中启动了子线程,如何正确捕获子线程中的异常,从而进行相 ...