马士兵hadoop第五课：java开发Map/Reduce

配置系统环境变量HADOOP_HOME，指向hadoop安装目录（如果你不想招惹不必要的麻烦，不要在目录中包含空格或者中文字符）
把HADOOP_HOME/bin加到PATH环境变量（非必要，只是为了方便）
如果是在windows下开发，需要添加windows的库文件
把盘中共享的bin目录覆盖HADOOP_HOME/bin
如果还是不行，把其中的hadoop.dll复制到c:\windows\system32目录下，可能需要重启机器
建立新项目，引入hadoop需要的jar文件

代码WordMapper：

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class WordMapper extends Mapper<LongWritable,Text, Text, IntWritable> {

    @Override

    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)

            throws IOException, InterruptedException {

        String line = value.toString();

        String[] words = line.split(" ");

        for(String word : words) {

            context.write(new Text(word), new IntWritable(1));

        }

    }

}

代码WordReducer:

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class WordReducer extends Reducer<Text, IntWritable, Text, LongWritable> {

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values,

            Reducer<Text, IntWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {

        long count = 0;

        for(IntWritable v : values) {

            count += v.get();

        }

        context.write(key, new LongWritable(count));

    }

}

代码Test：

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class Test {

    public static void main(String[] args) throws Exception {

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        job.setMapperClass(WordMapper.class);

        job.setReducerClass(WordReducer.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job, "c:/bigdata/hadoop/test/test.txt");

        FileOutputFormat.setOutputPath(job, new Path("c:/bigdata/hadoop/test/out/"));

        job.waitForCompletion(true);

    }

}

把hdfs中的文件拉到本地来运行

FileInputFormat.setInputPaths(job, "hdfs://master:9000/wcinput/");

FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/wcoutput2/"));

注意这里是把hdfs文件拉到本地来运行，如果观察输出的话会观察到jobID带有local字样
同时这样的运行方式是不需要yarn的(自己停掉yarn服务做实验)
在远程服务器执行

conf.set("fs.defaultFS", "hdfs://master:9000/");

conf.set("mapreduce.job.jar", "target/wc.jar");

conf.set("mapreduce.framework.name", "yarn");

conf.set("yarn.resourcemanager.hostname", "master");

conf.set("mapreduce.app-submission.cross-platform", "true");

FileInputFormat.setInputPaths(job, "/wcinput/");

FileOutputFormat.setOutputPath(job, new Path("/wcoutput3/"));

如果遇到权限问题，配置执行时的虚拟机参数-DHADOOP_USER_NAME=root
也可以将hadoop的四个配置文件拿下来放到src根目录下，就不需要进行手工配置了，默认到classpath目录寻找
或者将配置文件放到别的地方，使用conf.addResource(.class.getClassLoader.getResourceAsStream)方式添加，不推荐使用绝对路径的方式

马士兵hadoop第五课：java开发Map/Reduce的更多相关文章

马士兵hadoop第五课：java开发Map/Reduce（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第三课：java开发hdfs
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第三课：java开发hdfs（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解(转)
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第二课：hdfs集群集中管理和hadoop文件操作（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第一课：虚拟机搭建和安装hadoop及启动（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
hadoop学习WordCount+Block+Split+Shuffle+Map+Reduce技术详解
转自:http://blog.csdn.net/yczws1/article/details/21899007 纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Spl ...

随机推荐

流媒体技术学习笔记之（十一）Windows环境运行EasyDarwin
流媒体平台框架下载安装 Github下载下载地址:https://github.com/EasyDarwin/EasyDarwin/releases 解压安装选择Windows 安装平台的安装包( ...
java关于图片处理修改图片大小
最近做了一个关于图片浏览的内容.因为图片都是一些证件的资料的扫描件所以比较大,对系统的影响也是非常之大的,有很大可能直接把系统干死.那么我是这么处理的,给大家分享一下.如果大家有好的方案的话一定要早点 ...
c语言.函数指针数组
函数指针: 一个指向函数的指针.一般用函数名表示. 函数指针数组:元素为函数指针的数组.转移表.c语言中函数不可以定义为数组,只能通过定义函数指针来操作. #include<stdio.h> ...
【腾讯云】自己搭建的腾讯云服务器JavaEE环境
0.安装SSH登录 1.生成公钥对 ssh-keygen -t rsa -P '' -P表示密码,-P '' 就表示空密码,也可以不用-P参数,这样就要三车回车,用-P就一次回车.它在/home/ch ...
tomcat报错：java.net.SocketException: Permission denied["http-nio-80"]
tomcat报错:java.net.SocketException: Permission denied["http-nio-80"] 问题:使用非root账户tomcat启动to ...
java虚拟机规范(se8)——java虚拟机结构(五)
2.10 异常 java虚拟机中的异常用Throwable类或者它的子类的实例来表示.抛出一个异常会导致立即非本地(an inmediate nolocal)的控制转移,从发生异常的地方跳到处理异常的 ...
js各种小知识
1.获取函数里面的参数个数 function test(x,y,z){} // 获取test参数的个数 console.log(test.length)
java采用zip方式实现String的压缩和解压缩CompressStringUtil类
CompressStringUtil类:不多说,直接贴代码: /** * 压缩 * * @param paramString * @return */ public static final byte ...
csu 1930 roads(DFS)
Description Once upon a time there was a strange kingdom, the kingdom had n cities which were connec ...
【洛谷】P4198 楼房重建
题解我们转而维护每个点的斜率,显然一个楼房能被看见它就是一个前缀最大值,斜率比较为了节约精度可以用向量替代我们每个区间维护被看到的楼房的个数,和楼房的最大值,叶子节点在有楼房时,值为1 那么考虑合 ...

马士兵hadoop第五课：java开发Map/Reduce

马士兵hadoop第五课：java开发Map/Reduce的更多相关文章

随机推荐

热门专题