Hadoop序列化

遗留问题：

Hadoop序列化可以复用对象，是在哪里复用的?

介绍Hadoop序列化机制
Hadoop序列化机制详解
1. Hadoop序列化的核心
2. Hadoop序列化的比较接口
3. ObjectWritable类
参考
1. Comparable 和 Comparator
2. ConcurrentHashMap

介绍Hadoop序列化机制

JAVA的序列化机制是在对象流ObjectOutputStream对象上调用writeObject 方法。Hadoop的序列化机制是通过write函数将对象序列化到流中。Hadoop序列化可以复用对象，这样会节省系统开销。

Hadoop序列化机制详解

1.Hadoop序列化的核心

Hadoop序列化的核心是Writable接口，所有的实现这个接口的对象，都是可以序列化的。Writable有两个方法，一个是将序列化的对象写入流中，一个是从流中读取对象。

public interface Writable {

  /**

   * Serialize the fields of this object to <code>out</code>.

   *

   * @param out <code>DataOuput</code> to serialize this object into.

   * @throws IOException

   */

  void write(DataOutput out) throws IOException;

  /**

   * Deserialize the fields of this object from <code>in</code>.

   *

   * <p>For efficiency, implementations should attempt to re-use storage in the

   * existing object where possible.</p>

   *

   * @param in <code>DataInput</code> to deseriablize this object from.

   * @throws IOException

   */

  void readFields(DataInput in) throws IOException;

}

2.Hadoop序列化的比较接口

Hadoop中重要的比较接口有WritableComparable, RawComparator 和 WritableComparator。WritableComparable如下：

public interface WritableComparable<T> extends Writable, Comparable<T> {

}

该接口继承了Writable 和Comparable接口。所有实现WritableComparable的序列化类型都会实现CompareTo类型。例如IntWritable类型：

public class IntWritable implements WritableComparable<VIntWritable> {

/** Compares two IntWritables. */

@Override

public int compareTo(IntWritable o) {

  int thisValue = this.value;

  int thatValue = o.value;

  return (thisValue<thatValue ? -1 : (thisValue==thatValue ? 0 : 1));

}

}

RawComparator 继承了Comparator接口，该接口包含一个compare函数，用来从流中读取内容，并进行比较，避免了对象的创建。

public interface RawComparator<T> extends Comparator<T> {

  /**

   * Compare two objects in binary.

   * b1[s1:l1] is the first object, and b2[s2:l2] is the second object.

   *

   * @param b1 The first byte array.

   * @param s1 The position index in b1. The object under comparison's starting index.

   * @param l1 The length of the object in b1.

   * @param b2 The second byte array.

   * @param s2 The position index in b2. The object under comparison's starting index.

   * @param l2 The length of the object under comparison in b2.

   * @return An integer result of the comparison.

   */

  public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2);

}

WritableComparator 是 RawComparator 对 WritableComparable 类的一个通用实现。它有两个功能：

a.提供了一个compare的默认实现，从数据流中反序列化要比较的对象，然后调用Compare函数进行比较。

b.充当了RawComparator实例的一个工厂方法。

在所有的定长类型的类中都会有一个静态类继承WritableComparator ，并实现 compare 函数，然后通过define函数注册到WritableComparator类的 ConcurrentHashMap中。

@Override

public String toString() {

  return Integer.toString(value);

}

/** A Comparator optimized for IntWritable. */

public static class Comparator extends WritableComparator {

  public Comparator() {

    super(IntWritable.class);

  }

  @Override

  public int compare(byte[] b1, int s1, int l1,

                     byte[] b2, int s2, int l2) {

    int thisValue = readInt(b1, s1);

    int thatValue = readInt(b2, s2);

    return (thisValue<thatValue ? -1 : (thisValue==thatValue ? 0 : 1));

  }

}

static {                                        // register this comparator

  WritableComparator.define(IntWritable.class, new Comparator());

}

3. ObjectWritable类

ObjectWritable类对所有的序列化类型进行了封装，然后实现对象的序列化和反序列化。具体过程如下：

1.如果declaredClass是一个数组，对数组中的每个declaredClass对象调用WriteObject（）。

2.如果declaredClass对象是一个ArrayPrimitiveWritable类型的，调用Array类型的Write函数。

3.如果declaredClass是 PrimitiveWritable类型的，对不同的类型调用不同的write***函数。

4.如果declaredClass是enum类型的，写入enum的名字。

5.如果declaredClass是Writable类型的，写入对象实例的类名。

参考

1.comparable 和 comparator

http://www.cnblogs.com/sunflower627/p/3158042.html

2.ConcurrentHashMap

http://ifeve.com/concurrenthashmap/

Hadoop序列化的更多相关文章

Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
hadoop序列化机制与java序列化机制对比
1.采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法: Hadoop 序列化机制调用对象的write() 方法,带一个DataOu ...
Hadoop序列化与Java序列化
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象. 1.JDK的序列化只要实现了serial ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
Hadoop序列化机制及实例
序列化 1.什么是序列化?将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程.2.什么是反序列化?将字节流转换为一系列结构化对象的过程.序列化用途: 1.作为一种持久化格式. 2.作为一种 ...
Hadoop序列化与Writable接口(二)
Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口(一)介绍了Hadoop序列化,Hadoop Writable接口以及如何定制自己的Writable类 ...
Hadoop序列化与Writable接口(一)
Hadoop序列化与Writable接口(一) 序列化序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储:相对的反序列化(deserial ...
Hadoop Serialization（third edition）hadoop序列化详解(最新版) (1)
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...
Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...

随机推荐

Bash的脚本参数
$0:脚本名字.此变量包含地址,可以使用basename $0获得脚本名称.$1:第一个参数$2,$3,$4,$5,…一次类推. $# 传递到脚本的参数个数$* 以一个单字符串显示所有向脚本传递的参数 ...
分享一个安装PE到硬盘的软件
Ton8pe_v5.0下载地址:http://pan.baidu.com/share/link?shareid=424350&uk=4180312589 电脑是XP,有光驱,但是没win8.1 ...
李洪强iOS开发之【零基础学习iOS开发【01-前言】03-前景和难易度分析
一.iOS开发的前景 2012年3月份,苹果公司的市值已经突破5000亿美元,成为世界上市值最大的公司.5000亿是神马概念呢? 可以帮助陷入欧债危机的8个国家偿还债务可以买下35个天安门广场.34 ...
删除元素不存在 NO 存在输出余下元素
#include<stdio.h> #include<stdlib.h> #define N 5 #define NULL 0 #define OK 1 #define ERR ...
BeanFactory 和 ApplicationContext
Spring通过一个配置文件描述Bean及Bean直接的依赖关系,利用Java语言的反射功能实例化Bean并建立Bean之间的依赖关系.Sprig的IoC容器在完成这些底层工作的基础上,还提供了Bea ...
VS2012 开发SharePoint 2013 声明式workflow action(activity)之 HelloWorld
本文讲述VS2012 开发SharePoint 2013 声明式workflow action 之 HelloWorld. 使用VS2012开发客户化的workflow action是SharePoi ...
hadoop2 环境的搭建（手动HA）
1.手工切换ha的环境的搭建(比hadoop1多出来journalnode的配置) namenode:hadoop110和hadoop111 datanode:hadoop112.hadoop113. ...
Androidz之Activity概要学习
Androidz之Activity概要学习 1. Activity类概述 Activity(活动)是一个单独的.能获取焦点的,且能与用户交互的东西.所以我们通常在Activity类中的onCr ...
[POJ1330]Nearest Common Ancestors(LCA, 离线tarjan)
题目链接:http://poj.org/problem?id=1330 题意就是求一组最近公共祖先,昨晚学了离线tarjan,今天来实现一下. 个人感觉tarjan算法是利用了dfs序和节点深度的关系 ...
Redis安装教程
1. Linux下Redis安装教程 (1)安装 #tar xf redis-2.6.14.tar.gz #cd redis-2.6.14 #make #make install (2)配置修改re ...

Hadoop序列化

Hadoop序列化的更多相关文章

随机推荐

热门专题