MapReduce工程(IDEA)

hadoop

1. maven工程

1.1 创建maven工程

选择创建工程。

创建工程

选择Maven工程，不选模板。

maven选项

填好坐标，选择项目存放地址，创建工程。

坐标

1.2 修改配置文件

修改pom.xml，mainClass选择自己的入口类如下：

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>per.hao</groupId>

    <artifactId>MapReduceTest</artifactId>

    <version>1.0</version>

    <properties>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <java.version>1.8</java.version>

        <hadoop.version>2.7.2</hadoop.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>RELEASE</version>

        </dependency>

        <dependency>

            <groupId>org.apache.logging.log4j</groupId>

            <artifactId>log4j-core</artifactId>

            <version>2.8.2</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-hdfs</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

    </dependencies>

    <!-- 构建打包插件, mainClass选择自己的入口类 -->

    <build>

        <plugins>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.8.0</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                    <encoding>UTF-8</encoding>

                </configuration>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-jar-plugin</artifactId>

                <configuration>

                    <archive>

                        <manifest>

                            <addClasspath>true</addClasspath>

                            <!-- 指定入口函数 -->

                            <mainClass>per.hao.mapreduce.MRMainClass</mainClass>

                            <!-- 是否添加依赖的jar路径配置 -->

                            <addClasspath>false</addClasspath>

                            <!-- 依赖的jar包存放位置，和生成的jar放在同一级目录下 -->

                            <!--<classpathPrefix>lib/</classpathPrefix>-->

                        </manifest>

                    </archive>

                </configuration>

            </plugin>

            <plugin>

                <artifactId>maven-assembly-plugin</artifactId>

                <configuration>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                    <archive>

                        <manifest>

                            <mainClass>per.hao.mapreduce.MRMainClass</mainClass>

                        </manifest>

                    </archive>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

</project>

在项目的src/main/resources目录下，新建一个文件，命名为log4j.properties，在文件中填入

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

1.3 Mapper类

package per.hao.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**

 * 输入:

 *      行读取偏移量:LongWritable

 *      每行内容:Text

 * 输出:

 *      单词:Text

 *      单词计数:IntWritable

 * */

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    private Text k = new Text();

    private static final IntWritable ONE = new IntWritable(1);

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 获取一行数据

        String line = value.toString();

        // 切分

        String[] words = line.split("\\s");

        // 输出

        for (String word : words) {

            k.set(word);

            context.write(k, ONE);

        }

    }

}

1.4 Reduces类

package per.hao.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    private int sum;

    private IntWritable v = new IntWritable();

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        // 累加求和

        sum = 0;

        for (IntWritable count : values) {

            sum += count.get();

        }

        // 输出

        v.set(sum);

        context.write(key, v);

    }

}

1.5 Driver类

package per.hao.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // 获取配置并根据配置获取任务实例

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //设置jar加载路径

        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper、Reduce类

        job.setMapperClass(WordCountMapper.class);

        job.setReducerClass(WordCountReduce.class);

        // 设置Mapper输出

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        // 设置最终输出

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 设置输入输出路径

        if (args.length < 2) {

            System.out.println("需要指定输入输出路径");

            System.exit(1);

        } else {

            FileInputFormat.setInputPaths(job, new Path(args[0]));

            FileOutputFormat.setOutputPath(job, new Path(args[1]));

        }

        // 提交任务

        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);

    }

}

1.6 入口类

package per.hao.mapreduce;

import org.apache.hadoop.util.ProgramDriver;

import per.hao.mapreduce.wordcount.WordCountDriver;

public class MRMainClass {

    public static void main(String[] args) {

        int exitCode = -1;

        ProgramDriver pd = new ProgramDriver();

        try {

            pd.addClass("wordcount", WordCountDriver.class, "我的MapReduce测试程序-WordCount");

            exitCode = pd.run(args);

        } catch (Throwable throwable) {

            throwable.printStackTrace();

        }

        System.exit(exitCode);

    }

}

1.7 测试

打包jar包

mvn clean test package

打包好的jar

上传jar到服务器
创建文件word.txt，内容如下：

export	HADOOP_CLUSTER_NAME	myhadoop

export	HADOOP_TMP_DIR	hdata	hadoop

hdata	export

HADOOP_TMP_DIR	myhadoop	export

创建文件到指定路径

# 创建路径

/opt/cluster/hadoop/bin/hadoop fs -mkdir -p /mapreduce/test/input/20180702;

# 上传

/opt/cluster/hadoop/bin/hadoop fs -put ./word.txt /mapreduce/test/input/20180702;

测试运行wordcount

/opt/cluster/hadoop/bin/hadoop jar ./MapReduceTest-1.0.jar wordcount /mapreduce/test/input/20180702 /mapreduce/test/output/20180702;

结果

输出结果

2. 普通工程

注：相比maven的通过pom.xml配置文件配置依赖与打包；普通工程 手动添加依赖 与打包

2.1 添加依赖

点击File -> Project Structure
点击Modules -> 选择项目 -> Dependencies -> JARs or dir…

依赖添加界面

2.2 打包

点击File -> Project Structure。
依次点击图片所示蓝色部分。

添加打包

选择mainClass与依赖打包选项，点击OK。

打包选项

配置完成

选择打包，弹出窗口选择build，rebuild…

打包

输出目录

输出的jar

MapReduce工程(IDEA)的更多相关文章

实训任务03：使用Eclipse创建MapReduce工程
实训任务03: 使用Eclipse创建MapReduce工程实训1: win7中使用Eclipse创建MapReduce工程实训2:Centos 6.8系统中安装Eclipse 一.下载Eclip ...
intelij创建MapReduce工程
1.创建一个maven工程 2.POM文件 <?xml version="1.0" encoding="UTF-8"?><project xm ...
关于在eclipse下的mapreduce工程打包成jar包的问题（包含第三方jar包）
这个问题也是在开发项目中经常遇到的一个问题,网上提供了很多方法,但是我发现很多并不适用,这里推荐两种方法,一种肯定没问题,就是比较麻烦,另一种是适用FatJar来打包,但是我没成功,原因估计出在ubu ...
ubuntu14.04 Hadoop单机开发环境搭建MapReduce项目
Hadoop官网:http://hadoop.apache.org/ 目前最新的版本是Hadoop 3.0.0-alpha1前提:java 1.6 版本以上首先从官网下载压缩包(hadoop-3.0 ...
实训任务04 MapReduce编程入门
实训任务04 MapReduce编程入门 1.实训1:画图mapReduce处理过程使用有短句“A friend in need is a friend in deed”,画出使用MapReduce ...
指导手册05：MapReduce编程入门
指导手册05:MapReduce编程入门 Part 1:使用Eclipse创建MapReduce工程操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...
通过mapreduce把mysql的数据读取到hdfs
前面讲过了怎么通过mapreduce把mysql的一张表的数据放到另外一张表中,这次讲的是把mysql的数据读取到hdfs里面去具体怎么搭建环境我这里就不多说了.参考通过mapreduce把mys ...
Google MapReduce到底解决什么问题？
很多时候,定义清楚问题比解决问题更难. 什么是MapReduce? 它不是一个产品,而是一种解决问题的思路,它有多个工程实现,Google在论文中也给出了它自己的工程架构实现. MapReduce这个 ...
windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...

随机推荐

在非gnome系桌面环境下运行deepin-wine tim的错误解决
本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/deepin_wine_run_in_not_gnome_desk ...
ddns+ros(routeros)+centos7.6+nginx+php+dnspod
参考文章: http://www.myxzy.com/post-464.html https://www.cnblogs.com/crazytata/p/9686490.html php的源码下载: ...
【Gamma阶段】第七次Scrum Meeting
冰多多团队-Gamma阶段第七次Scrum会议工作情况团队成员已完成任务待完成任务卓培锦编辑器风格切换(添加夜间模式) UI界面手势切换牛雅哲语音输入shell应用:基于pytorch ...
怎么删除iOS模拟器上的应用程序？
怎么删除iOS模拟器上的应用程序: 和手机上一样,鼠标长按,点击删除 xcode 卸载模拟器 Simulator:删除目录/Library/Developer/CoreSimulator/Profil ...
使用MobaXterm配置ssh隧道(port forwarding)
背景描述:如图所示,本地与远程服务器之间存在防火墙,防火墙只允许SSH端口通过,为访问远程服务器,我们可以借助MobaXterm来与SSH服务器建立隧道,使得防火墙外的用户能够访问远程服务器具体配置 ...
| C语言I作业03
| C语言I作业03 标签: 18软件李煦亮问题答案这个作业属于那个课程 C语言程序设计I 这个作业要求在哪里 https://edu.cnblogs.com 我在这个课程的目标是学会和掌握 ...
不变(Immutable)模式
一个对象的状态在对象被创建之后就不再变化,这就是所谓的不变模式. 不变模式可增强对象的强壮性.不变模式允许多个对象共享一个对象,降低了对该对象进行并发访问时的同步化开销.如果需要修改一个不变对象的状态 ...
python selenium IE Firxfor pyinstaller
以前在python环境下selenium 主要用的是chromdriver,这次发现老是报错(Timeout), 实际又是正确的, 可能是和chrome版本不正确,再加上我程序蹦来就在windows环 ...
HDU校赛 | 2019 Multi-University Training Contest 2
2019 Multi-University Training Contest 2 http://acm.hdu.edu.cn/contests/contest_show.php?cid=849 100 ...
『Broken Robot 后效性dp 高斯消元』
Broken Robot Description 你作为礼物收到一个非常聪明的机器人走在矩形板上.不幸的是,你明白它已经破碎并且行为相当奇怪(随机).该板由N行和M列单元组成.机器人最初位于第i行和第 ...

MapReduce工程(IDEA)

MapReduce工程(IDEA)

1. maven工程

1.1 创建maven工程

1.2 修改配置文件

1.3 Mapper类

1.4 Reduces类

1.5 Driver类

1.6 入口类

1.7 测试

2. 普通工程

2.1 添加依赖

2.2 打包

MapReduce工程(IDEA)的更多相关文章

随机推荐

热门专题