Hadoop--序列化

序列化：

对象的序列化用于将一个对象编码成字节流，以及从字节流中重新构建对象。

将一个对象编码成一个字节流称为序列化该对象。

序列化三种主要的用途：

1.作为一种持久化格式。

2.作为一种通信的数据格式。

3.作为一种拷贝、克隆机制。

分布式处理中主要用了上面2种，持久化格式和通信数据格式。

Hadoop序列化机制：

Hadoop序列化机制是调用的write方法将对象序列化到流中，调用readFiles方法进行反序列化。

java序列化机制与Hadoop序列化机制区别：

java：反序列化过程中不断的创建新对象。

Hadoop：反序列化的工程中，可以服用对象，也就是说在同一个对象上得到多个反序列化的结果。

减少了java对象的分配和回收，提高了应用的效率。

Hadoop序列化机制的特征

1.紧凑：Hadoop中最稀缺的资源是宽带，所以紧凑的序列化机制可以充分的利用宽带。

2.快速：通信时大量使用序列化机制，因此，需要减少序列化和反序列化的开销。

3.可扩展：随着通信协议的升级而可升级。

4.互操作：支持不同开发语言的通信。

Hadoop Writable机制

Hadoop通过Writable接口实现的序列化机制。

接口提供连个方法，write和readFiles。

Hadoop还包含另外几个重要的序列化接口，WritableCompareable、RawComparator、WritableComparator。

Writable

类PersonWritable继承自WritableComparable，所以类中要实现write和readFiles两个方法。

代码来自私塾在线，TestCompression工程中。

代码：

package com.test;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.WritableComparable;

public class PersonWritable implements WritableComparable<PersonWritable> {

	Text name = new Text();

	Text sex = new Text();

	IntWritable age = new IntWritable();

	public PersonWritable() {

		set("tom", "man", 12);

	}

	public void set(String name, String sex, int age) {

		this.name = new Text(name);

		this.sex = new Text(sex);

		this.age = new IntWritable(age);

	}

	public PersonWritable(String name, String sex, int age) {

		set(name, sex, age);

	}

	@Override

	public String toString() {

		return "PersonWritable [name=" + name.toString() + ", sex="

				+ sex.toString() + ", age=" + age.get() + "]";

	}

	@Override

	public int hashCode() {

		final int prime = 31;

		int result = 1;

		result = prime * result + ((age == null) ? 0 : age.hashCode());

		result = prime * result + ((name == null) ? 0 : name.hashCode());

		result = prime * result + ((sex == null) ? 0 : sex.hashCode());

		return result;

	}

	@Override

	public boolean equals(Object obj) {

		if (this == obj)

			return true;

		if (obj == null)

			return false;

		if (getClass() != obj.getClass())

			return false;

		PersonWritable other = (PersonWritable) obj;

		if (age == null) {

			if (other.age != null)

				return false;

		} else if (!age.equals(other.age))

			return false;

		if (name == null) {

			if (other.name != null)

				return false;

		} else if (!name.equals(other.name))

			return false;

		if (sex == null) {

			if (other.sex != null)

				return false;

		} else if (!sex.equals(other.sex))

			return false;

		return true;

	}

	@Override

	public void readFields(DataInput arg0) throws IOException {

		name.readFields(arg0);

		sex.readFields(arg0);

		age.readFields(arg0);

	}

	@Override

	public void write(DataOutput arg0) throws IOException {

		name.write(arg0);

		sex.write(arg0);

		age.write(arg0);

	}

	@Override

	public int compareTo(PersonWritable o) {

		int result = name.compareTo(o.name);

		if (result != 0) {

			return result;

		}

		int result1 = sex.compareTo(o.sex);

		if (result1 != 0) {

			return result1;

		}

		int result2 = age.compareTo(o.age);

		if (result2 != 0) {

			return result2;

		}

		return result2;

	}

}

序列化与反序列化话工具类；

package com.test.myselfwritable;

import java.io.ByteArrayInputStream;

import java.io.ByteArrayOutputStream;

import java.io.DataInputStream;

import java.io.DataOutputStream;

import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class HadoopSerializationUtil {

	public static byte[] serialize(Writable writable) throws IOException {

		// create bytes ByteArrayOutputStream

		ByteArrayOutputStream out = new ByteArrayOutputStream();

		// create DataOutputStream

		DataOutputStream dataout = new DataOutputStream(out);

		// call write method

		writable.write(dataout);

		dataout.close();

		// bytes

		return out.toByteArray();

	}

	public static void deserialize(Writable writable, byte[] bytes)

			throws Exception {

		// create ByteArrayInputStream

		ByteArrayInputStream in = new ByteArrayInputStream(bytes);

		// create DataInputStream

		DataInputStream datain = new DataInputStream(in);

		// read fields

		writable.readFields(datain);

		datain.close();

	}

}

测试类：

package com.test;

import java.io.IOException;

import org.apache.hadoop.util.StringUtils;

import com.test.myselfwritable.HadoopSerializationUtil;

public class Test {

	public static void main(String[] args) throws Exception {

		// test serilizable

		System.out.println("test1");

		PersonWritable personWritable = new PersonWritable("tom", "man", 13);

		// begin serialztion

		byte[] result = HadoopSerializationUtil.serialize(personWritable);

		System.out.print(StringUtils.byteToHexString(result));

		System.out.println("test2");

		PersonWritable personWritable1 = new PersonWritable();

		HadoopSerializationUtil.deserialize(personWritable1, result);

		System.out.print(personWritable1.toString());

	}

}

内容来源：

《Hadoop 技术内幕》

Hadoop--序列化的更多相关文章

Hadoop阅读笔记（六）——洞悉Hadoop序列化机制Writable
酒,是个好东西,前提要适量.今天参加了公司的年会,主题就是吃.喝.吹,除了那些天生话唠外,大部分人需要加点酒来作催化剂,让一个平时沉默寡言的码农也能成为一个喷子!在大家推杯换盏之际,难免一些画面浮现脑 ...
Hadoop序列化
遗留问题: Hadoop序列化可以复用对象,是在哪里复用的? 介绍Hadoop序列化机制 Hadoop序列化机制详解 Hadoop序列化的核心 Hadoop序列化的比较接口 ObjectWrita ...
hadoop序列化机制与java序列化机制对比
1.采用的方法: java序列化机制采用的ObjectOutputStream 对象上调用writeObject() 方法: Hadoop 序列化机制调用对象的write() 方法,带一个DataOu ...
Hadoop序列化与Java序列化
序列化就是把内存中的对象的状态信息转换成字节序列,以便于存储(持久化)和网络传输反序列化就是就将收到的字节序列或者是硬盘的持久化数据,转换成内存中的对象. 1.JDK的序列化只要实现了serial ...
自定义排序及Hadoop序列化
自定义排序将两列数据进行排序,第一列按照升序排列,当第一列相同时,第二列升序排列. 在map和reduce阶段进行排序时,比较的是k2.v2是不参与排序比较的.如果要想让v2也进行排序,需要把k2和 ...
Hadoop序列化机制及实例
序列化 1.什么是序列化?将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程.2.什么是反序列化?将字节流转换为一系列结构化对象的过程.序列化用途: 1.作为一种持久化格式. 2.作为一种 ...
Hadoop序列化与Writable接口(二)
Hadoop序列化与Writable接口(二) 上一篇文章Hadoop序列化与Writable接口(一)介绍了Hadoop序列化,Hadoop Writable接口以及如何定制自己的Writable类 ...
Hadoop序列化与Writable接口(一)
Hadoop序列化与Writable接口(一) 序列化序列化(serialization)是指将结构化的对象转化为字节流,以便在网络上传输或者写入到硬盘进行永久存储:相对的反序列化(deserial ...
Hadoop Serialization（third edition）hadoop序列化详解(最新版) (1)
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...
Hadoop Serialization hadoop序列化详解(最新版) (1)【java和hadoop序列化比较和writable接口】
初学java的人肯定对java序列化记忆犹新.最开始很多人并不会一下子理解序列化的意义所在.这样子是因为很多人还是对java最底层的特性不是特别理解,当你经验丰富,对java理解更加深刻之后,你就会发 ...

随机推荐

转： AlphaImageLoader简介
Microsoft.AlphaImageLoader是IE滤镜的一种,其主要作用就是对图片进行透明处理.虽然FireFox和IE7以上的IE浏览器已经支持透明的PNG图片,但是就IE5-IE6而言还是 ...
转:Javascript的10个设计缺陷
作者: 阮一峰日期: 2011年6月30日前几篇文章,我经常说Javascript的设计不够严谨,有很多失误. 今天的这一篇,前半部分就谈为什么会这样,后半部分将列举Javascript的10个设 ...
Apache ab 使用说明
第一章简介 ab是Apache超文本传输协议(HTTP)的性能测试工具.其设计意图是描绘当前所安装的Apache的执行性能,主要是显示你安装的Apache每秒可以处理多少个请求. 第二章说明 ab ...
hdu 2757 Ocean Currents（优先队列+bfs）
小伙伴们真心被这道题惊呆了!刚开始是读题,题目都把小伙伴惊呆了,题目都读不懂! 在前面猴子小伙伴的帮助下,理解了一点点,又偷偷的在纸上写写画画,明白了题意! 后来,你懂的,果断拿下!在拿下的过程也经过 ...
Makefile学习(二)[第二版]
复杂实例 #演示样例1:在上一个演示样例的基础上再添加一个可运行文件03test[改动之处已标红] .PHONY: clean all CC = gcc CFLAGS = -Wall -g BIN = ...
HDU 4836 The Query on the Tree lca || 欧拉序列 || 动态树
lca的做法还是非常明显的.简单粗暴, 只是不是正解.假设树是长链就会跪,直接变成O(n).. 最后跑的也挺快,出题人还是挺阳光的.. 动态树的解法也是听别人说能ac的.预计就是放在splay上剖分一 ...
Eclipse 优化方法（经典收藏）
第一步: 取消自动validationvalidation有一堆,什么xml.jsp.jsf.js等等,我们没有必要全部都去自动校验一下,只是需要的时候才会手工校验一下! 取消方法:windows–& ...
QT的动态翻译功能，可能依赖于消息（事件）机制
QTranslator translator; bool b = translator.load(QString(":/qm/lang_en"));以后,无论使用QObject的t ...
./ . 和#!/bin/bash 辨析Linux如何选择当前执行脚本的shell
最近遇到一个有趣的问题,让我搞清楚Linux如何选择当前执行脚本的shell 执行cts的的 media stress test 需要安装 android-cts-media-1.0.zip 把这个文 ...
6个最佳的开源Python应用服务器
6个最佳的开源Python应用服务器首先,你知道什么是应用服务器吗?应用服务器通常被描述为是存在于服务器中心架构中间层的一个软件框架. AD: 首先,你知道什么是应用服务器吗?应用服务器通常被描述为 ...

Hadoop--序列化

Hadoop--序列化的更多相关文章

随机推荐

热门专题