框架简介

MapReduce仅仅可以支持Writable做key,value吗?答案是否定的。事实上,一切类型都是支持的,只需满足一个小小的条件:每个类型是以二进制流的形式传输。为此Hadoop提供了一个序列化框架来支持,他们在org.apache.hadoop.io.serializer包中,Writable可以作为MapReduce支持的类型也是因为实现了这个框架,类不多,我们从几个接口说起。

Serializer

定义了一组接口,打开流,序列化,关闭流
  1. public interface Serializer <T>  {
  2. void open(java.io.OutputStream outputStream) throws java.io.IOException;
  3. void serialize(T t) throws java.io.IOException;
  4. void close() throws java.io.IOException;
  5. }

Deserializer

定义了一组接口,打开流,反序列化,关闭流
  1. public interface Deserializer <T>  {
  2. void open(java.io.InputStream inputStream) throws java.io.IOException;
  3. T deserialize(T t) throws java.io.IOException;
  4. void close() throws java.io.IOException;
  5. }

Serialization

定义了一组接口,判断是否支持输入的类,根据输入的类给出序列化接口和反序列化接口
  1. public interface Serialization <T>  {
  2. boolean accept(java.lang.Class<?> aClass);
  3. org.apache.hadoop.io.serializer.Serializer<T> getSerializer(java.lang.Class<T> tClass);
  4. org.apache.hadoop.io.serializer.Deserializer<T> getDeserializer(java.lang.Class<T> tClass);
  5. }

WritableSerialization

如果你想自己定义一个类似Writable这样的框架,那么你首先需要的就是实现上面三个接口,那么我们先来看下Writable是如何实现的。
  1. <pre style="word-wrap: break-word; white-space: pre-wrap; ">public class WritableSerialization extends Configured
  2. implements Serialization<Writable> {
  3. static class WritableDeserializer extends Configured
  4. implements Deserializer<Writable> {
  5. private Class<?> writableClass;
  6. private DataInputStream dataIn;
  7. public WritableDeserializer(Configuration conf, Class<?> c) {
  8. setConf(conf);
  9. this.writableClass = c;
  10. }
  11. public void open(InputStream in) {
  12. if (in instanceof DataInputStream) {
  13. dataIn = (DataInputStream) in;
  14. } else {
  15. dataIn = new DataInputStream(in);
  16. }
  17. }
  18. public Writable deserialize(Writable w) throws IOException {
  19. Writable writable;
  20. if (w == null) {
  21. writable
  22. = (Writable) ReflectionUtils.newInstance(writableClass, getConf());
  23. } else {
  24. writable = w;
  25. }
  26. writable.readFields(dataIn);
  27. return writable;
  28. }
  29. public void close() throws IOException {
  30. dataIn.close();
  31. }
  32. }
  33. static class WritableSerializer implements Serializer<Writable> {
  34. private DataOutputStream dataOut;
  35. public void open(OutputStream out) {
  36. if (out instanceof DataOutputStream) {
  37. dataOut = (DataOutputStream) out;
  38. } else {
  39. dataOut = new DataOutputStream(out);
  40. }
  41. }
  42. public void serialize(Writable w) throws IOException {
  43. w.write(dataOut);
  44. }
  45. public void close() throws IOException {
  46. dataOut.close();
  47. }
  48. }
  49. public boolean accept(Class<?> c) {
  50. return Writable.class.isAssignableFrom(c);
  51. }
  52. public Deserializer<Writable> getDeserializer(Class<Writable> c) {
  53. return new WritableDeserializer(getConf(), c);
  54. }
  55. public Serializer<Writable> getSerializer(Class<Writable> c) {
  56. return new WritableSerializer();
  57. }
  58. }</pre>

两个内部静态类分别实现Serializer和Deserializer接口,然后getSerializer和getDeserializer分别实例化WritableSerializer和WritableDeserializer,

accept方法仅仅是判断输入类是否是Writable的子类。
通过io.serializations指定已实现Serialization,各个类之间通过逗号隔开,默认的Serialization有WritableSerialization和Avro中Serialization,
这也就是说默认情况下,只有Writable和Avro里的对象可以在MapReduce中使用。
那么你可能有疑问了,hadoop是如何知道一个类该交给哪个Serialization呢,答案也在这个包中,请看

SerializationFactory

先看他的构造器
  1. public SerializationFactory(Configuration conf) {
  2. super(conf);
  3. for (String serializerName : conf.getStrings("io.serializations",
  4. new String[]{"org.apache.hadoop.io.serializer.WritableSerialization"})) {
  5. add(conf, serializerName);
  6. }
  7. }

可知他是从io.serializations属性指定的实现了Serialization的类,然后再看他是如何知道选哪个Serialization的

  1. public <T> Serialization<T> getSerialization(Class<T> c) {
  2. for (Serialization serialization : serializations) {
  3. if (serialization.accept(c)) {
  4. return (Serialization<T>) serialization;
  5. }
  6. }
  7. return null;
  8. }

好吧,就是这么简单,判断一下是否是对应的子类而已。

这个包里还实现了JavaSerialization,其实就是Java对象的序列化,很多人觉得,这个好简单的,我只要实现java中的序列化接口就可以了,
不用那么费事搞什么Writable和Avro,但是,千万别这么想,非常不推荐使用java对象的序列化,并且详尽的解释为什么不推荐:

为什么不使用java序列化

1.java序列化不够灵活,为了更好的控制序列化的整个流程所以使用Writable

2.java序列化不符合序列化的标准,没有做一定的压缩,java序列化首先写类名,然后再是整个类的数据,而且成员对象在序列化中只存引用,成员对象的可以出现的位置很随机,既可以在序列化的对象前,也可以在其后面,这样就对随机访问造成影响,一旦出错,整个后面的序列化就会全部错误,但是
Writable完美的弥补了这一点,因为Writable中每一条纪录间是相互独立的
3.Java序列化每次序列化都要重新创建对象,内存消耗大,而Writable是可以重用的。

序列化IDL

为了和其他语言交互,必须定义序列化的IDL,原先定义的IDL在org.apache.hadoop.record包里,但是后来一直没用起来就淘汰掉了,现在比较常用的就是Avro,后面我们会重点着墨讲解。
Apache的Thrift和Google的Protocol Buffer也是比较流行的序列化框架,但是在Hadoop里使用是有限的,只用于RPC和数据交互,不过有一个开源项目elephant-bird可以把他们使用在MapReduce上。

Mapreduce之序列化框架(转自http://blog.csdn.net/lastsweetop/article/details/9376495)的更多相关文章

  1. 转:Java面试题集(51-70) http://blog.csdn.net/jackfrued/article/details/17403101

    Java面试题集(51-70) Java程序员面试题集(51-70) http://blog.csdn.net/jackfrued/article/details/17403101 摘要:这一部分主要 ...

  2. http://blog.csdn.net/luoshengyang/article/details/6651971

    文章转载至CSDN社区罗升阳的安卓之旅,原文地址:http://blog.csdn.net/luoshengyang/article/details/6651971 在Android系统中,提供了独特 ...

  3. http://blog.csdn.net/v_july_v/article/details/6543438

    本文转载至: http://blog.csdn.net/v_july_v/article/details/6543438 算法 程序员面试.算法研究.编程艺术.红黑树.数据挖掘5大经典原创系列集锦与总 ...

  4. http://blog.csdn.net/baimafujinji/article/details/10931621

    书接上文,本文章是该系列的第二篇,按照总纲中给出的框架,本节介绍三个中值定理,包括它们的证明及几何意义.这三个中值定理是高等数学中非常基础的部分,如果读者对于高数的内容已经非常了解,大可跳过此部分.当 ...

  5. [Android Pro] https://blog.csdn.net/gaugamela/article/details/79143309

    原文地址:https://blog.csdn.net/gaugamela/article/details/79143309 最近遇到这样一个问题: 第三方的SDK除了Jar包外,还提供了对应的so文件 ...

  6. RedHat如何关闭防火墙 : http://blog.csdn.net/chongxin1/article/details/76072758

    版本号:RedHat6.5   JDK1.8   Hadoop2.7.3 hadoop  说明:从版本2开始加入了Yarn这个资源管理器,Yarn并不需要单独安装.只要在机器上安装了JDK就可以直接安 ...

  7. 转-spring-boot 注解配置mybatis+druid(新手上路)-http://blog.csdn.net/sinat_36203615/article/details/53759935

    spring-boot 注解配置mybatis+druid(新手上路) 转载 2016年12月20日 10:17:17 标签: sprinb-boot / mybatis / druid 10475 ...

  8. mybaits入门(含实例教程和源码) http://blog.csdn.net/u013142781/article/details/50388204

    前言:mybatis是一个非常优秀的存储过程和高级映射的优秀持久层框架.大大简化了,数据库操作中的常用操作.下面将介绍mybatis的一些概念和在eclipse上的实际项目搭建使用. 一.mybati ...

  9. http://blog.csdn.net/LANGXINLEN/article/details/50421988

    GitHub上史上最全的Android开源项目分类汇总 今天在看博客的时候,无意中发现了 @Trinea在GitHub上的一个项目 Android开源项目分类汇总, 由于类容太多了,我没有一个个完整地 ...

随机推荐

  1. Magento Service Temporarily Unavailable解决方法

    插件升级错误或安装失败时 会出现Service Temporarily Unavailable错误,使网站前台后台都无法显示. 在操作完成的情况下,仍然出现这个错误时可以采用以下方法: 1.删除网站站 ...

  2. 史上最用心的iOS App上架流程【转】

    转:http://www.jianshu.com/p/16fa56eacb5e 题记 麻痹起来嗨!看网上那么多的教程,依然在我心爱的爱屁屁在上架的时候遇到各种 J8 问题,最大的问题就是:Xcode ...

  3. Android调用WCF

    http://www.cnblogs.com/davidgu/archive/2012/05/16/2504182.html

  4. JSONModel 遇见关键字为id或者description

    像id.description这样的,都是系统自带的,要解析它,得特殊处理一下.我用的是JSONModel { "contentList": [ { "id": ...

  5. Selenium2学习-027-WebUI自动化实战实例-025-JavaScript 在 Selenium 自动化中的应用实例之三(页面滚屏,模拟鼠标拖动滚动条)

    日常的 Web UI 自动化测试过程中,get 或 navigate 到指定的页面后,若想截图的元素或者指定区域范围不在浏览器的显示区域内,则通过截屏则无法获取相应的信息,反而浪费了无畏的图片服务器资 ...

  6. Asp.Net MVC 使用Entity Framework创建模型类

    先来说说LINQ to SQL和Entity Framework的区别: LINQ to SQL和Entity Framework都是一种包含LINQ功能的对象关系映射技术.他们之间的本质区别在于EF ...

  7. 微信公众平台自定义菜单及高级接口PHP SDK

    本文介绍介绍微信公众平台自定义菜单及高级接口的PHP SDK及使用方法. 作者 方倍工作室 修正记录: 2014.05.03 v1.0 方倍工作室 http://www.cnblogs.com/txw ...

  8. 浅析 Linux 初始化 init 系统,第 1 部分: sysvinit 第 2 部分: UpStart 第 3 部分: Systemd

    浅析 Linux 初始化 init 系统,第 1 部分: sysvinit  第 2 部分: UpStart 第 3 部分: Systemd http://www.ibm.com/developerw ...

  9. PHP回调函数的几种用法

    PHP回调函数的实现方法 目录 前言      全局函数的回调      类静态函数的回调      对象的方法的回调      PHP事件模型(观察者模式)的实现思路    前言 最近在开发一个PH ...

  10. PHP受保护的类和私有类什么区别

    受保护的继承后可以访问,私有的只能在该类中访问,不会被继承访问class Man{ protected $name='lee';//受保护 private $age=123;//私有 function ...