一、为什么javaBean要继承Writable和WritableComparable接口？

1. 如果一个javaBean想要作为MapReduce的key或者value，就一定要实现序列化，因为在Map到Reduce阶段的时候，只能是传输二进制数据，不可能将字符流直接进行RPC传输，

只要一个javabean实现了序列化和反序列化，就可以做为key或者value

最简单的序列化和反序列化就是实现Writable接口

ps：javaBean在作为key的时候有点不同，除了要继承Writable接口还需要实现Comparable接口

因为在shuffle到Reduce阶段的合并阶段，需要根据key对数据进行排序，合并，如果不实现这个接口，运行时会出错

WritableComparable就是Writable接口和java.lang.Comparable<T>的一个子接口，所以将要作为key的javaBean直接继承WritableComparable就可以了

2. java序列化与Writable序列化的比较

2.1 java序列化不够灵活，为了更好的控制序列化的整个流程所以使用Writable

2.2 java序列化不符合序列化的标准，没有做一定的压缩，java序列化首先写类名，然后再是整个类的数据，而且成员对象在序列化中只存引用，成员对象的可以出现的位置很随机，既可以在序列化的对象前，也可以在其后面，这样就对随机访问造成影响，一旦出错，整个后面的序列化就会全部错误

2.3 Java序列化每次序列化都要重新创建对象，内存消耗大，而Writable是可以重用的

二、实现Writable和WritableComparable的UserBean

代码如下：

package com.qjx.serialize_8_2;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class UserBean implements WritableComparable<UserBean> {

    private int id;

    private String name ;

    private String age;

    public UserBean() {

    }

    public UserBean(int id,String name , String age) {

        this.id = id;

        this.name = name;

        this.age = age;

    }

    @Override

    public String toString() {

        return this.id + this.name + this.age;

    }

    //反序列化，将输入二进制反序列化为字符流

    @Override

    public void readFields(DataInput in) throws IOException {

        id = in.readInt();

        name = in.readUTF();

        age = in.readUTF();

    }

    //序列化，将字节转化为二进制输出

    @Override

    public void write(DataOutput out) throws IOException {

        out.writeInt(id);

        out.writeUTF(name);

        out.writeUTF(age);

    }

    @Override

    public int compareTo(UserBean o) {

         int thisValue = this.id;

         int thatValue = o.id;

         return (thisValue < thatValue ? -1 : (thisValue==thatValue ? 0 : 1));

    }

    public int getId() {

        return id;

    }

    public void setId(int id) {

        this.id = id;

    }

    public String getName() {

        return name;

    }

    public void setName(String name) {

        this.name = name;

    }

    public String getAge() {

        return age;

    }

    public void setAge(String age) {

        this.age = age;

    }

}

三、 MapReduce传递UserBean的一个简单例子

我们已经实现了可序列化的UserBean类，现在就做一个简单的例子，在MapReduce中传递UserBean

1. 准备一个文件user.txt，内容如下：

1 'tom' '22',2 'tom2' '22',3 'tom3' '22',4 'tom4' '22',5 'tom5' '22',6 'tom6' '22',7 'tom7' '22',8 'tom8' '22',9 'tom9' '22',10 'tom10' '22',11 'tom11' '22',12 'tom12' '22',13 'tom13' '22',1 'tom' '22',1 'tom' '22',2 'tom2' '22',2 'tom2' '22',

这个文件中有多个UserBean，我们的MapReduce就是要实现统计这些UserBean出现的次数

2. WCMapper.java的实现代码：

package com.qjx.serialize_8_2;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

/*

 * Writable接口是一个实现了序列化协议的序列化对象。

 * 在Hadoop中定义一个结构化对象都要实现Writable接口，使得该结构化对象可以序列化为字节流，字节流也可以反序列化为结构化对象。

 * LongWritable类型:Hadoop.io对Long类型的封装类型

 */  

public class WCMapper extends Mapper<LongWritable, Text, UserBean, LongWritable>{

	@Override

	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, UserBean, LongWritable>.Context context)

			throws IOException, InterruptedException {

        // 获得每行文档内容，并且进行折分

        String[] users = value.toString().split(",");

        // 遍历折份的内容

        System.out.println(users.length);

        for (String u1 : users) {

     		   //根据空格划分为三个属性

     		String[] u = u1.toString().split(" ");

     		System.out.println(u.length);

     		if(u!=null && u.length== 3) {

	     		UserBean u2 = new UserBean(Integer.parseInt(u[0]),u[1],u[2]);

		     	context.write(u2, new LongWritable(1));

	     	}

	     	else {

	     		System.out.println("user split false !");

	     	}

		}

	}

}

3. WCReducer.java实现代码：

package com.qjx.serialize_8_2;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import com.qjx.serialize_8_2.UserBean;

public class WCReducer extends Reducer<UserBean, LongWritable, UserBean, LongWritable>{

    @Override

    protected void reduce(UserBean key, Iterable<LongWritable> values,

            Reducer<UserBean, LongWritable, UserBean, LongWritable>.Context context) throws IOException, InterruptedException {

        long sum = 0;

            for (LongWritable i : values) {

                // i.get转换成long类型

                sum += i.get();

            }

            // 输出总计结果

            context.write(key, new LongWritable(sum));

    }

}

4. UserCount.java 的实现代码：

package com.qjx.serialize_8_2;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class UserCount {

    public static void main(String[] args) throws ClassNotFoundException, IOException, InterruptedException {

          // 创建job对象

        Job job = Job.getInstance(new Configuration());

        // 指定程序的入口

        job.setJarByClass(UserCount.class);  

        // 指定自定义的Mapper阶段的任务处理类

        job.setMapperClass(WCMapper.class);

        job.setMapOutputKeyClass(UserBean.class);

        job.setMapOutputValueClass(LongWritable.class);

        // 本地数据的输入路径

        FileInputFormat.setInputPaths(job, new Path("E:/trainingPack/serialize/input"));  

        // 指定自定义的Reducer阶段的任务处理类

        job.setReducerClass(WCReducer.class);

        // 设置最后输出结果的Key和Value的类型  x

        job.setOutputKeyClass(UserBean.class);

        job.setOutputValueClass(LongWritable.class);

        // 将计算的结果存到本地

        FileOutputFormat.setOutputPath(job, new Path("E:/trainingPack/serialize/output"));  

        // 执行提交job方法，直到完成，参数true打印进度和详情

        job.waitForCompletion(true);

        System.out.println("Finished");

    }

}

5. 执行结果，生成的output内容如下：

1'tom''22'    3

2'tom2''22'    3

3'tom3''22'    1

4'tom4''22'    1

5'tom5''22'    1

6'tom6''22'    1

7'tom7''22'    1

8'tom8''22'    1

9'tom9''22'    1

10'tom10''22'    1

11'tom11''22'    1

12'tom12''22'    1

13'tom13''22'    1

hadoop学习第四天-Writable和WritableComparable序列化接口的使用&&MapReduce中传递javaBean的简单例子的更多相关文章

Hadoop学习笔记四
一.fsimage,edits和datanode的block在本地文件系统中位置的配置 fsimage:hdfs-site.xml中的dfs.namenode.name.dir 值例如file:// ...
第四周之Hadoop学习（四）
上周已经成功完成了Hadoop的学习,这周则是搭建好Hadoop的安卓编程环境今天的学习根据这篇博客:https://blog.csdn.net/HcJsJqJSSM/article/details ...
hadoop 学习（四）之java操作hdfs
1.导入hadoop jar包将hadoop/share/common/目录.hadoop/share/common/lib/目录.hadoop/hdfs/目录.下的jar包加入eclipse. 2 ...
Hadoop学习（四） FileSystem Shell命令详解
FileSystem Shell中大多数命令都和unix命令相同,只是两者之间的解释不同,如果你对unix命令有基本的了解,那么对于FileSystem Shell的命令,你将会感到很亲切. appe ...
hadoop学习笔记(四)——eclipse+maven+hadoop2.5.2源代码
Eclipse同maven进口hadoop源代码 1) 安装和配置maven环境变量 M2_HOME: D:\profession\hadoop\apache-maven-3.3.3 PATH: % ...
Hadoop-wordCount实例代码编写（Hadoop学习第四天）
1.新建一个maven项目2.pom文件中引入以下jar包<dependency> <groupId>org.apache.hadoop</groupId> < ...
【Java学习笔记之二十二】解析接口在Java继承中的用法及实例分析
一.定义 Java接口(Interface),是一系列方法的声明,是一些方法特征的集合,一个接口只有方法的特征没有方法的实现,因此这些方法可以在不同的地方被不同的类实现,而这些实现可以具有不同的行为( ...
Java学习——方法中传递参数分简单类型与复杂类型（引用类型）编程计算100＋98＋96＋。。。＋4＋2+1的值，用递归方法实现
package hello; public class digui { public static void main(String[] args) { // TODO Auto-generated ...
大二暑假第五周总结--开始学习Hadoop基础（四）
简单学习MapReduce并进行WordCount实践分布式并行编程: MapReduce设计的一个理念就是“计算向数据靠拢”,将复杂的,运行于大规模集群上的并行计算过程高度地抽象到两个函数:Map ...

随机推荐

Spring Boot(五)：Spring Boot的启动器Starter大全及自定义Starter
现有启动器Starter目录 Spring Boot应用启动器基本的一共有44种,具体如下: 1)spring-boot-starter 这是Spring Boot的核心启动器,包含了自动配置.日志和 ...
Apache优化提高并发数量
问题: 我们用lvs做了负载均衡.使用了两台server做login的服务.以及二次资源下载服务.可是在推广过程中.陆续有人反映server登录困难. 解决过程: 1.首先我们查看流量日志以及serv ...
PHP 7安装使用体验，升级PHP要谨慎
一.发挥PHP 7高性能的几个要点 PHP 7相对于之前的PHP版本来说可以说性能有了质的飞跃,但是所谓“好马配好鞍,好车配风帆”,想要发挥PHP 7的性能优势,还需要从以下几个方面做准备:(此部分引 ...
MySQL获取Schema表名和字段信息
MySQL获取Schema表名和字段信息获取表名 select TABLE_NAME,TABLE_TYPE,ENGINE,TABLE_ROWS,TABLE_COMMENT,CREATE_TIME,U ...
Spring MVC文件上传处理
以下示例显示如何在使用Spring Web MVC框架的表单中上传文件和处理.首先使用Eclipse IDE来创建一个WEB工程,实现一个上传文件并保存的功能.并按照以下步骤使用Spring Web ...
Distinct powers (Project Euler 29 加强版)
题目大意: $2<=a,b<=n$ 求 $a^b$能表示多少不同的正整数. 原题中n=100,可以直接暴力求解,常见的两种解法是写高精度或者取对数判断相等. 直觉告诉我应该有更加优秀的解法 ...
ios -为什么用WKWebView加载相同的html文本，有时展示的内容却不一样。
如图: 红色框部分是WKWebView,左边的是正常显示情况,右边的异常显示.我是在网页加载完成回调里执行的webview高度自适应内容: // 页面加载完成之后调用 - (void)webVie ...
php读取xml的神器
<?xml version="1.0 encoding="UTF-8"?> <humans> <zhangying> <name ...
Python简单分布式爬虫
分布式爬虫采用主从模式.主从模式是指由一台主机作为控制节点,负责管理所有运行网络爬虫的主机(url管理器,数据存储器,控制调度器),爬虫只需要从控制节点哪里接收任务,并把新生成任务提交给控制节点.此次 ...
filter、map函数的区别
def even(num): if num%2==0: return True return False lis = [1,2,3,4,5,6,7,8,9] res = filter(even,lis ...

hadoop学习第四天-Writable和WritableComparable序列化接口的使用&&MapReduce中传递javaBean的简单例子

一、 为什么javaBean要继承Writable和WritableComparable接口？

二、 实现Writable和WritableComparable的UserBean

三、 MapReduce传递UserBean的一个简单例子

hadoop学习第四天-Writable和WritableComparable序列化接口的使用&&MapReduce中传递javaBean的简单例子的更多相关文章

随机推荐

热门专题

一、为什么javaBean要继承Writable和WritableComparable接口？

二、实现Writable和WritableComparable的UserBean