hadoop的序列化格式

hadoop自身的序列化存储格式就是实现了Writable接口的类,他只实现了前面两点，压缩和快速。但是不容易扩展，也不跨语言。

我们先来看下Writable接口，Writable接口定义了两个方法：

1.将数据写入到二进制流中

2.从二进制数据流中读取数据

package org.apache.hadoop.io;
public interface Writable {
void write(java.io.DataOutput p1) throws java.io.IOException;
void readFields(java.io.DataInput p1) throws java.io.IOException;
}

我们再来看下Writable接口与序列化和反序列化是如何关联的：

package com.sweetop.styhadoop;
import junit.framework.Assert;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.StringUtils;
import org.junit.Before;
import org.junit.Test;
import java.io.*;
/**
* Created with IntelliJ IDEA.
* User: lastsweetop
* Date: 13-7-4
* Time: 下午10:25
* To change this template use File | Settings | File Templates.
*/
public class TestWritable {
byte[] bytes=null;
/**
* 初始化一个IntWritable实例，并且调用系列化方法
* @throws IOException
*/
@Before
public void init() throws IOException {
IntWritable writable = new IntWritable(163);
bytes = serialize(writable);
}
/**
* 一个IntWritable序列号后的四个字节的字节流
* 并且使用big-endian的队列排列
* @throws IOException
*/
@Test
public void testSerialize() throws IOException {
Assert.assertEquals(bytes.length,4);
Assert.assertEquals(StringUtils.byteToHexString(bytes),"000000a3");
}
/**
* 创建一个没有值的IntWritable对象，并且通过调用反序列化方法将bytes的数据读入到它里面
* 通过调用它的get方法，获得原始的值，163
*/
@Test
public void testDeserialize() throws IOException {
IntWritable newWritable = new IntWritable();
deserialize(newWritable,bytes);
Assert.assertEquals(newWritable.get(),163);
}
/**
* 将一个实现了Writable接口的对象序列化成字节流
* @param writable
* @return
* @throws IOException
*/
public static byte[] serialize(Writable writable) throws IOException {
ByteArrayOutputStream out = new ByteArrayOutputStream();
DataOutputStream dataOut = new DataOutputStream(out);
writable.write(dataOut);
dataOut.close();
return out.toByteArray();
}
/**
* 将字节流转化为实现了Writable接口的对象
* @param writable
* @param bytes
* @return
* @throws IOException
*/
public static byte[] deserialize(Writable writable,byte[] bytes) throws IOException {
ByteArrayInputStream in=new ByteArrayInputStream(bytes);
DataInputStream dataIn = new DataInputStream(in);
writable.readFields(dataIn);
dataIn.close();
return bytes;
}
}

WritableComparable和comparators

IntWritable实现了WritableComparable，接口看下源代码知道，WritableComparable是Writable接口和java.lang.Comparable<T>的一个子接口。

package org.apache.hadoop.io;
public interface WritableComparable <T> extends org.apache.hadoop.io.Writable, java.lang.Comparable<T> {
}

MapReduce在排序部分要根据key值的大小进行排序，因此类型的比较相当重要，RawComparator是Comparator的增强版

package org.apache.hadoop.io;
public interface RawComparator <T> extends java.util.Comparator<T> {
int compare(byte[] bytes, int i, int i1, byte[] bytes1, int i2, int i3);
}

它可以做到，不先反序列化就可以直接比较二进制字节流的大小:

package com.sweetop.styhadoop;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.RawComparator;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.io.WritableComparator;
import org.eclipse.jdt.internal.core.Assert;
import org.junit.Before;
import org.junit.Test;
import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;
import java.io.IOException;
/**
* Created with IntelliJ IDEA.
* User: lastsweetop
* Date: 13-7-5
* Time: 上午1:26
* To change this template use File | Settings | File Templates.
*/
public class TestComparator {
RawComparator<IntWritable> comparator;
IntWritable w1;
IntWritable w2;
/**
* 获得IntWritable的comparator,并初始化两个IntWritable
*/
@Before
public void init() {
comparator = WritableComparator.get(IntWritable.class);
w1 = new IntWritable(163);
w2 = new IntWritable(76);
}
/**
* 比较两个对象大小
*/
@Test
public void testComparator() {
Assert.isTrue(comparator.compare(w1, w2) > 0);
}
/**
* 序列号后进行直接比较
* @throws IOException
*/
@Test
public void testcompare() throws IOException {
byte[] b1 = serialize(w1);
byte[] b2 = serialize(w2);
Assert.isTrue(comparator.compare(b1, 0, b1.length, b2, 0, b2.length) > 0);
}
/**
* 将一个实现了Writable接口的对象序列化成字节流
*
* @param writable
* @return
* @throws java.io.IOException
*/
public static byte[] serialize(Writable writable) throws IOException {
ByteArrayOutputStream out = new ByteArrayOutputStream();
DataOutputStream dataOut = new DataOutputStream(out);
writable.write(dataOut);
dataOut.close();
return out.toByteArray();
}
}

Writable、WritableComparable和comparators的更多相关文章

hadoop中的序列化与Writable接口
本文地址:http://www.cnblogs.com/archimedes/p/hadoop-writable-interface.html,转载请注明源地址. 简介序列化和反序列化就是结构化对象 ...
Hadoop开发相关问题
总结自己在Hadoop开发中遇到的问题,主要在mapreduce代码执行方面.大部分来自日常代码执行错误的解决方法,还有一些是对Java.Hadoop剖析.对于问题,通过查询stackoverflow ...
分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
02Hadoop二次排序2
案例: 数据: 邮编 | 日期 |金额 ILMN,2013-12-05,97.65GOOD,2013-12-09,1078.14IBM,2013-12-09,177.46ILMN, ...
01Hadoop二次排序
我的目的: 示例: 2012,01,01,352011,12,23,-42012,01,01,432012,01,01,232011,12,23,52011,4,1,22011,4,1,56 结果: ...
解读：MultipleOutputs类
//MultipleOutputs类用于简化多文件输出The MultipleOutputs class simplifies writing output data to multiple outp ...
详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hi ...
二次排序问题（分别使用Hadoop和Spark实现）
不多说,直接上干货! 这篇博客里的算法部分的内容来自<数据算法:Hadoop/Spark大数据处理技巧>一书,不过书中的代码虽然思路正确,但是代码不完整,并且只有java部分的编程,我在它 ...
自定义Writable、RawComparatorWritable、comparators（转）
自定义Writable hadoop虽然已经实现了一些非常有用的Writable,而且你可以使用他们的组合做很多事情,但是如果你想构造一些更加复杂的结果,你可以自定义Writable来达到你的目的,我 ...

随机推荐

Java学习-023-Properties 类 XML 配置文件读取及写入源代码
之前的几篇 Properties 文章已经讲述过了 Java 配置文件类 Properties 的基本用法,查看 JDK 的帮助文档时,也可看到在 Properties 类中还有两个方法 loadFr ...
计算A+B及其结果的标准形式输出
题目: 代码链接解题思路: 首先,读懂题目,题目要求我们计算两个整型数a,b之和,这是简单的加法计算,与平常的题目一般无二.但是此题的不同在于要求我们输出的数必须是标准形式,题目也对标准形式做了相应 ...
js - 驼峰命名
1. // 驼峰命名 console.log(hump('border-bottom-color')) function hump( str) { if (typeof str != 'string' ...
LeetCode Meeting Rooms II
原题链接在这里:https://leetcode.com/problems/meeting-rooms-ii/ Given an array of meeting time intervals con ...
Linux就这个范儿第14章身在江湖
Linux就这个范儿第14章身在江湖 “有人的地方就有江湖”,如今的计算机世界就像一个“江湖”.且不说冠希哥有多么无奈,把微博当QQ的局长有多么失败,就说如此平凡的你我什么时候就成了任人摆布的羔羊 ...
解决 SVN cleanup 任务中断导致无法 update
解决 SVN cleanup 任务中断导致无法 update 今天在更新 svn 时, TortoiseSVN 一直在提示要进行 cleanup ,而执行 cleanup 时又提示: Cleanup ...
awk实现文本内的换行符为分隔符，输出变为逗号
awk实现文本内的换行符为分隔符,输出变为逗号 [liujianzuo@ow2 scripts]$ awk -F $ '{print $0}' ldap_member.log ruanshujun ...
EF Code First教程-01 创建一个简单的Code First程序
1 从nuget中搜索并添加EF 2 在app.config或web.config中添加数据库连接 <connectionStrings> <add name="conns ...
C#开发ActiveX插件-aspx中嵌入
刚到新的公司,第一周让我熟悉一下他们用的silverlight和arcgis.这周,也就是昨天分配了我一个小小的任务! 哪个项目的不知道,是让我实现一个在aspx中嵌入activeX插件! 在网上找了 ...
javascript实例学习之八——无缝切换效果
无缝切换在网站的很多地方都有涉及,比如轮播图等. 基本思路: 1)将可视窗当前的元素复制,依次添加为ul中的子元素 2)改变ul整体的left取值(负的窗口值),动画缓动至想要的位置 3)将原视窗(已 ...

Writable、WritableComparable和comparators

hadoop的序列化格式

WritableComparable和comparators

Writable、WritableComparable和comparators的更多相关文章

随机推荐

热门专题