MapReduce工程(IDEA)

hadoop

1. maven工程

1.1 创建maven工程

选择创建工程。

创建工程

选择Maven工程，不选模板。

maven选项

填好坐标，选择项目存放地址，创建工程。

坐标

1.2 修改配置文件

修改pom.xml，mainClass选择自己的入口类如下：

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>per.hao</groupId>

    <artifactId>MapReduceTest</artifactId>

    <version>1.0</version>

    <properties>

        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

        <java.version>1.8</java.version>

        <hadoop.version>2.7.2</hadoop.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>junit</groupId>

            <artifactId>junit</artifactId>

            <version>RELEASE</version>

        </dependency>

        <dependency>

            <groupId>org.apache.logging.log4j</groupId>

            <artifactId>log4j-core</artifactId>

            <version>2.8.2</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-common</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-hdfs</artifactId>

            <version>${hadoop.version}</version>

        </dependency>

    </dependencies>

    <!-- 构建打包插件, mainClass选择自己的入口类 -->

    <build>

        <plugins>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-compiler-plugin</artifactId>

                <version>3.8.0</version>

                <configuration>

                    <source>1.8</source>

                    <target>1.8</target>

                    <encoding>UTF-8</encoding>

                </configuration>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-jar-plugin</artifactId>

                <configuration>

                    <archive>

                        <manifest>

                            <addClasspath>true</addClasspath>

                            <!-- 指定入口函数 -->

                            <mainClass>per.hao.mapreduce.MRMainClass</mainClass>

                            <!-- 是否添加依赖的jar路径配置 -->

                            <addClasspath>false</addClasspath>

                            <!-- 依赖的jar包存放位置，和生成的jar放在同一级目录下 -->

                            <!--<classpathPrefix>lib/</classpathPrefix>-->

                        </manifest>

                    </archive>

                </configuration>

            </plugin>

            <plugin>

                <artifactId>maven-assembly-plugin</artifactId>

                <configuration>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                    <archive>

                        <manifest>

                            <mainClass>per.hao.mapreduce.MRMainClass</mainClass>

                        </manifest>

                    </archive>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

</project>

在项目的src/main/resources目录下，新建一个文件，命名为log4j.properties，在文件中填入

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

1.3 Mapper类

package per.hao.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**

 * 输入:

 *      行读取偏移量:LongWritable

 *      每行内容:Text

 * 输出:

 *      单词:Text

 *      单词计数:IntWritable

 * */

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    private Text k = new Text();

    private static final IntWritable ONE = new IntWritable(1);

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 获取一行数据

        String line = value.toString();

        // 切分

        String[] words = line.split("\\s");

        // 输出

        for (String word : words) {

            k.set(word);

            context.write(k, ONE);

        }

    }

}

1.4 Reduces类

package per.hao.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    private int sum;

    private IntWritable v = new IntWritable();

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        // 累加求和

        sum = 0;

        for (IntWritable count : values) {

            sum += count.get();

        }

        // 输出

        v.set(sum);

        context.write(key, v);

    }

}

1.5 Driver类

package per.hao.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // 获取配置并根据配置获取任务实例

        Configuration conf = new Configuration();

        Job job = Job.getInstance(conf);

        //设置jar加载路径

        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper、Reduce类

        job.setMapperClass(WordCountMapper.class);

        job.setReducerClass(WordCountReduce.class);

        // 设置Mapper输出

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(IntWritable.class);

        // 设置最终输出

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        // 设置输入输出路径

        if (args.length < 2) {

            System.out.println("需要指定输入输出路径");

            System.exit(1);

        } else {

            FileInputFormat.setInputPaths(job, new Path(args[0]));

            FileOutputFormat.setOutputPath(job, new Path(args[1]));

        }

        // 提交任务

        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);

    }

}

1.6 入口类

package per.hao.mapreduce;

import org.apache.hadoop.util.ProgramDriver;

import per.hao.mapreduce.wordcount.WordCountDriver;

public class MRMainClass {

    public static void main(String[] args) {

        int exitCode = -1;

        ProgramDriver pd = new ProgramDriver();

        try {

            pd.addClass("wordcount", WordCountDriver.class, "我的MapReduce测试程序-WordCount");

            exitCode = pd.run(args);

        } catch (Throwable throwable) {

            throwable.printStackTrace();

        }

        System.exit(exitCode);

    }

}

1.7 测试

打包jar包

mvn clean test package

打包好的jar

上传jar到服务器
创建文件word.txt，内容如下：

export	HADOOP_CLUSTER_NAME	myhadoop

export	HADOOP_TMP_DIR	hdata	hadoop

hdata	export

HADOOP_TMP_DIR	myhadoop	export

创建文件到指定路径

# 创建路径

/opt/cluster/hadoop/bin/hadoop fs -mkdir -p /mapreduce/test/input/20180702;

# 上传

/opt/cluster/hadoop/bin/hadoop fs -put ./word.txt /mapreduce/test/input/20180702;

测试运行wordcount

/opt/cluster/hadoop/bin/hadoop jar ./MapReduceTest-1.0.jar wordcount /mapreduce/test/input/20180702 /mapreduce/test/output/20180702;

结果

输出结果

2. 普通工程

注：相比maven的通过pom.xml配置文件配置依赖与打包；普通工程 手动添加依赖 与打包

2.1 添加依赖

点击File -> Project Structure
点击Modules -> 选择项目 -> Dependencies -> JARs or dir…

依赖添加界面

2.2 打包

点击File -> Project Structure。
依次点击图片所示蓝色部分。

添加打包

选择mainClass与依赖打包选项，点击OK。

打包选项

配置完成

选择打包，弹出窗口选择build，rebuild…

打包

输出目录

输出的jar

MapReduce工程(IDEA)的更多相关文章

实训任务03：使用Eclipse创建MapReduce工程
实训任务03: 使用Eclipse创建MapReduce工程实训1: win7中使用Eclipse创建MapReduce工程实训2:Centos 6.8系统中安装Eclipse 一.下载Eclip ...
intelij创建MapReduce工程
1.创建一个maven工程 2.POM文件 <?xml version="1.0" encoding="UTF-8"?><project xm ...
关于在eclipse下的mapreduce工程打包成jar包的问题（包含第三方jar包）
这个问题也是在开发项目中经常遇到的一个问题,网上提供了很多方法,但是我发现很多并不适用,这里推荐两种方法,一种肯定没问题,就是比较麻烦,另一种是适用FatJar来打包,但是我没成功,原因估计出在ubu ...
ubuntu14.04 Hadoop单机开发环境搭建MapReduce项目
Hadoop官网:http://hadoop.apache.org/ 目前最新的版本是Hadoop 3.0.0-alpha1前提:java 1.6 版本以上首先从官网下载压缩包(hadoop-3.0 ...
实训任务04 MapReduce编程入门
实训任务04 MapReduce编程入门 1.实训1:画图mapReduce处理过程使用有短句“A friend in need is a friend in deed”,画出使用MapReduce ...
指导手册05：MapReduce编程入门
指导手册05:MapReduce编程入门 Part 1:使用Eclipse创建MapReduce工程操作系统: Centos 6.8, hadoop 2.6.4 情景描述: 因为Hadoop本身 ...
通过mapreduce把mysql的数据读取到hdfs
前面讲过了怎么通过mapreduce把mysql的一张表的数据放到另外一张表中,这次讲的是把mysql的数据读取到hdfs里面去具体怎么搭建环境我这里就不多说了.参考通过mapreduce把mys ...
Google MapReduce到底解决什么问题？
很多时候,定义清楚问题比解决问题更难. 什么是MapReduce? 它不是一个产品,而是一种解决问题的思路,它有多个工程实现,Google在论文中也给出了它自己的工程架构实现. MapReduce这个 ...
windows下eclipse远程连接hadoop集群开发mapreduce
转载请注明出处,谢谢 2017-10-22 17:14:09 之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境.在 ...

随机推荐

[Usaco2012 Feb] Cow Coupons
[Usaco2012 Feb] Cow Coupons 一个比较正确的贪心写法(跑得贼慢...) 首先我们二分答案,设当前答案为mid 将序列按照用券之后能省掉的多少排序,那么我们对于两种情况 \(m ...
const 变量在多个文件共享，如何验证两种不同的方式下，编译器是否会在多个文件下建立多个副本
对于const变量多个文件共享,当我们不希望编译器为每个文件分别生成独立的变量,而是像非常量对象一个,一处定义,多处声明并使用. 解决办法是,对于const变量,不管是声明还是定义都添加extern关 ...
Redis读写分离技术解析
背景云数据库Redis版不管主从版还是集群规格,replica作为备库不对外提供服务,只有在发生HA的时候,replica提升为master后才承担读写流量.这种架构读写请求都在master上完成, ...
java并发编程（九）ThreadLocal & InheritableThreadLocal
参考文档: https://blog.csdn.net/u012834750/article/details/71646700 threadlocal内存泄漏:http://www.importnew ...
jQuery前端生成二维码
引用: <script src="assets/js/jquery.qrcode.min.js" charset="UTF-8"></scri ...
Solr7.x学习（4）-导入数据
导入配置可参考官网:http://lucene.apache.org/solr/guide,http://lucene.apache.org/solr/guide/7_7/ 1.数据准备(MySQL8 ...
EmotiW 历年竞赛冠军数据及论文信息
date Baseline paper Champion paper Model & Feature Test_acc 2013 [1] [2] EmoNets 41.03 2014 [3] ...
CentOS中使用FIO测试磁盘IO性能
$ yum install fio 0x02 命令随机读: $ fio -filename=/dev/sda1 -direct=1 -iodepth 1 -thread -rw=randread - ...
TestNG入门——注解之Before/After
注解是java 5新增的功能,可使用于类,方法,变量,testNG包提供的注解功能请见下表 1.@BeforeSuite or @AfterSuite 被注解的方法,将在整个测试套件之前 or 之后 ...
Python3注解+可变参数实现
一.说明 1.1 关于注解关于注解这个东西,最早是在大学学java的时候经常会看到某些方法上边@override之类的东西,一方面不知道其作用但另一方面似乎去掉也没什么影响,所以一直都不怎么在意. ...

MapReduce工程(IDEA)

MapReduce工程(IDEA)

1. maven工程

1.1 创建maven工程

1.2 修改配置文件

1.3 Mapper类

1.4 Reduces类

1.5 Driver类

1.6 入口类

1.7 测试

2. 普通工程

2.1 添加依赖

2.2 打包

MapReduce工程(IDEA)的更多相关文章

随机推荐

热门专题