马士兵hadoop第五课：java开发Map/Reduce（转）

配置系统环境变量HADOOP_HOME，指向hadoop安装目录（如果你不想招惹不必要的麻烦，不要在目录中包含空格或者中文字符）
把HADOOP_HOME/bin加到PATH环境变量（非必要，只是为了方便）
如果是在windows下开发，需要添加windows的库文件
把盘中共享的bin目录覆盖HADOOP_HOME/bin
如果还是不行，把其中的hadoop.dll复制到c:\windows\system32目录下，可能需要重启机器
建立新项目，引入hadoop需要的jar文件

代码WordMapper：

import java.io.IOException;


import org.apache.hadoop.io.IntWritable;


import org.apache.hadoop.io.LongWritable;


import org.apache.hadoop.io.Text;


import org.apache.hadoop.mapreduce.Mapper;


public class WordMapper extends Mapper<LongWritable,Text, Text, IntWritable> {


@Override</br>

</span><span style="color: #0000ff">protected</span> <span style="color: #0000ff">void</span> map(LongWritable key, Text value, Mapper&lt;LongWritable, Text, Text, IntWritable&gt;<span style="color: #000000">.Context context)</br>

        </span><span style="color: #0000ff">throws</span><span style="color: #000000"> IOException, InterruptedException {</br>

    String line </span>=<span style="color: #000000"> value.toString();</br>

    String[] words </span>= line.split(" "<span style="color: #000000">);</br>

    </span><span style="color: #0000ff">for</span><span style="color: #000000">(String word : words) {</br>

        context.write(</span><span style="color: #0000ff">new</span> Text(word), <span style="color: #0000ff">new</span> IntWritable(1<span style="color: #000000">));

    }</br>

}</br>


}

代码WordReducer:

import java.io.IOException;


import org.apache.hadoop.io.IntWritable;


import org.apache.hadoop.io.LongWritable;


import org.apache.hadoop.io.Text;


import org.apache.hadoop.mapreduce.Reducer;


public class WordReducer extends Reducer<Text, IntWritable, Text, LongWritable> {

@Override</br>

</span><span style="color: #0000ff">protected</span> <span style="color: #0000ff">void</span> reduce(Text key, Iterable&lt;IntWritable&gt;<span style="color: #000000"> values,</br>

        Reducer</span>&lt;Text, IntWritable, Text, LongWritable&gt;.Context context) <span style="color: #0000ff">throws</span><span style="color: #000000"> IOException, InterruptedException {</br>

    </span><span style="color: #0000ff">long</span> count = 0<span style="color: #000000">;</br>

    </span><span style="color: #0000ff">for</span><span style="color: #000000">(IntWritable v : values) {</br>

        count </span>+=<span style="color: #000000"> v.get();</br>

    }</br>

    context.write(key, </span><span style="color: #0000ff">new</span><span style="color: #000000"> LongWritable(count));</br>

}</br>


}

代码Test：

import org.apache.hadoop.conf.Configuration;


import org.apache.hadoop.fs.Path;


import org.apache.hadoop.io.IntWritable;


import org.apache.hadoop.io.LongWritable;


import org.apache.hadoop.io.Text;


import org.apache.hadoop.mapreduce.Job;


import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;


import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;



public class Test {



public static void main(String[] args) throws Exception {



Configuration conf = new Configuration();


    Job job </span>=<span style="color: #000000"> Job.getInstance(conf);</br></br>

    job.setMapperClass(WordMapper.</span><span style="color: #0000ff">class</span><span style="color: #000000">);</br>

    job.setReducerClass(WordReducer.</span><span style="color: #0000ff">class</span><span style="color: #000000">);</br>

    job.setMapOutputKeyClass(Text.</span><span style="color: #0000ff">class</span><span style="color: #000000">);</br>

    job.setMapOutputValueClass(IntWritable.</span><span style="color: #0000ff">class</span><span style="color: #000000">);</br>

    job.setOutputKeyClass(Text.</span><span style="color: #0000ff">class</span><span style="color: #000000">);</br>

    job.setOutputValueClass(LongWritable.</span><span style="color: #0000ff">class</span><span style="color: #000000">);</br></br>

    FileInputFormat.setInputPaths(job, </span>"c:/bigdata/hadoop/test/test.txt"<span style="color: #000000">);</br>

    FileOutputFormat.setOutputPath(job, </span><span style="color: #0000ff">new</span> Path("c:/bigdata/hadoop/test/out/"<span style="color: #000000">));</br></br>

    job.waitForCompletion(</span><span style="color: #0000ff">true</span><span style="color: #000000">);</br>

}</br>


}

把hdfs中的文件拉到本地来运行

FileInputFormat.setInputPaths(job, "hdfs://master:9000/wcinput/");

FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/wcoutput2/"));

注意这里是把hdfs文件拉到本地来运行，如果观察输出的话会观察到jobID带有local字样
同时这样的运行方式是不需要yarn的(自己停掉yarn服务做实验)
在远程服务器执行

conf.set("fs.defaultFS", "hdfs://master:9000/");

conf.set("mapreduce.job.jar", "target/wc.jar");



conf.set("mapreduce.framework.name", "yarn");



conf.set("yarn.resourcemanager.hostname", "master");



conf.set("mapreduce.app-submission.cross-platform", "true");


FileInputFormat.setInputPaths(job, "/wcinput/");



FileOutputFormat.setOutputPath(job, new Path("/wcoutput3/"));

如果遇到权限问题，配置执行时的虚拟机参数-DHADOOP_USER_NAME=root
也可以将hadoop的四个配置文件拿下来放到src根目录下，就不需要进行手工配置了，默认到classpath目录寻找
或者将配置文件放到别的地方，使用conf.addResource(.class.getClassLoader.getResourceAsStream)方式添加，不推荐使用绝对路径的方式

原文地址：http://www.cnblogs.com/yucongblog/p/6650872.html

马士兵hadoop第五课：java开发Map/Reduce（转）的更多相关文章

马士兵hadoop第五课：java开发Map/Reduce
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第三课：java开发hdfs
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第三课：java开发hdfs（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解(转)
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第一课：虚拟机搭建和安装hadoop及启动（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解
转自:http://blog.csdn.net/yczws1/article/details/21899007 纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Spl ...

随机推荐

JavaScript操作DOM
1.DOM对象简介: 什么是DOM:(Document Object Model) 译为文档对象模型,是 HTML 和 XML 文档的编程接口. 2.DOM HTML 节点树:指的是DOM中为操作 ...
php面试相关
22.描述一下大流量高并发量网站的解决方案答: 1.确认服务器硬件是否足够支持当前的流量. 2.使用memcache缓存技术,将动态数据缓存到内存中,动态网页直接调用这些文件,而不必在访问数据库. ...
Bootstrap历练实例：默认的列表组
Bootstrap 列表组本章我们将讲解列表组.列表组件用于以列表形式呈现复杂的和自定义的内容.创建一个基本的列表组的步骤如下: 向元素 <ul> 添加 class .list-grou ...
Bootstrap 缩略图
<!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...
destoon模块自定义字段的添加并让其支持搜索的方法
今天看了看模块设置里的自定义字段功能的用法,试着加了个新字段glry,设置了值,然后去数据库moduleid的article表看,字段成功加上了. 于是去template下article文件夹的lis ...
【linux】【磁盘分割】Linux磁盘分割
全部的磁盘阵列容量均给/cluster/raid目录,占有2TB的容量: 2 GB的swap容量: 分割出/, /usr, /var, /tmp等目录,避免程序错误造成系统的困扰: /home也独立出 ...
百度地图和高德地图的API视频教程
学习地址: http://www.houdunren.com/houdunren18_lesson_152?vid=10228 素材地址: https://gitee.com/houdunwang/v ...
day 37 MySQL行(记录)的详细操作
MySQL行(记录)的详细操作阅读目录一介绍二插入数据INSERT 三更新数据UPDATE 四删除数据DELETE 五查询数据SELECT 六权限管理一介绍 MySQL数据操 ...
PHP中文网学习阶段规划
1.第一阶段: 前端基础前端基础课程大纲教学内容教学重点 1.HTML5 HTML简介.HTML标签详解.字符编码的奥秘.Html5新特性与常用标签 2.CSS3 CSS简介.CSS的引入方式. ...
《Scrum实战》第1课【知易行难】全团课后任务汇总
1组孟帅(班长) kecyru 2017-7-5 http://kecyru.blog.163.com/blog/static/27416617320176411513013 htt ...

马士兵hadoop第五课：java开发Map/Reduce（转）

马士兵hadoop第五课：java开发Map/Reduce（转）的更多相关文章

随机推荐

热门专题