Hadoop序列化与Java序列化

序列化就是把内存中的对象的状态信息转换成字节序列，以便于存储（持久化）和网络传输

反序列化就是就将收到的字节序列或者是硬盘的持久化数据，转换成内存中的对象。

1.JDK的序列化

　　只要实现了serializable接口就能实现序列化与反序列化，一定要加上序列化版本ID serialVersionUID，这个是用来识别序列化的之前的类到底是哪一个。比如希望类的不同版本对序列化兼容，需要确保类的不同版本具有相同的serialVersionUID；

　　Java序列化算法需要考虑：

　　将对象实例相关的类元数据输出。

　　递归地输出类的超类描述直到不再有超类。

　　类元数据完了之后，开始从最顶层的超类开始输出对象实例的实际数据值

　　从上至下递归输出实例的数据

　　所以java序列化很强大，序列化得到的信息很详细，但是序列化后很占内存。

2.Hadoop序列化

　　相对于JDK比较简洁，在急群众信息的传递主要就是靠这些序列化的字节楼来传递的，所以更快速度，容量更小。

　　hadoop序列化特点：

　　1.紧凑：带宽是集群中信息传递的最宝贵的资源所以我们必须想法设法缩小传递信息的大小　。

　　 java序列化不够灵活，为了更好的控制序列化的整个流程所以使用Writable　

　　　java序列化会保存类的所有信息依赖等，hadoop序列化不需要

　　2.对象可重用：JDK的反序列化会不断地创建对象，这肯定会造成一定的系统开销，但是在hadoop的反序列化中，能重复的利用一个对象的readField方法来重新产生不同的对象。

　　 java序列化每次序列化都要重新创建对象，内存消耗大。Writable可以重用。

　　3.可拓展性

　　 hadoop自己写序列化很容易，可以利用实现hadoop的Writable接口实现了直接比较字符流以确定两个Writable对象的大小。

　　　而java不是，java的序列化机制在每个类的对象第一次出现的时候保存了每个类的信息, 比如类名, 第二次出现的类对象会有一个类的reference, 导致空间的浪费

　　可以使用开源的序列化框架protocol Buffers，Avro等框架

　　 hadoop原生的序列化类需要实现一个叫Writeable的接口，类似于serializable接口

　　实现Writable接口必须实现两个方法：write(DataOutputStream out);readField(DataInputStream in)方法。

　　YARN的序列化就是用Google开发的序列化框架protocol Buffers，proto目前支持支持三种语言C++，java，Python所以RPC这一层我们就可以利用其他语言来做文章

　　Apache的Thrift和Google的Protocol Buffer也是比较流行的序列化框架，但是在Hadoop里使用是有限的，只用于RPC和数据交互

Hadoop序列化与Java序列化的更多相关文章

Protocol Buffer序列化对比Java序列化.
初识 Protocol Buff是谷歌推出的一种序列化协议. 而Java序列化协议也是一种协议. 两者的目的是, 将对象序列化成字节数组, 或者说是二进制数据, 那么他们之间有什么差异呢. proto ...
hadoop深入研究:(十三)——序列化框架
hadoop深入研究:(十三)--序列化框架 Mapreduce之序列化框架(转自http://blog.csdn.net/lastsweetop/article/details/9376495) 框 ...
Java 序列化和反序列化（二）Serializable 源码分析 - 1
目录 Java 序列化和反序列化(二)Serializable 源码分析 - 1 1. Java 序列化接口 2. ObjectOutputStream 源码分析 2.1 ObjectOutputSt ...
各种Java序列化性能比较
转载:http://www.jdon.com/concurrent/serialization.html 这里比较Java对象序列化 XML JSON Kryo POF等序列化性能比较. 很多人以 ...
简述java序列化
1. 什么是Java对象序列化 Java平台允许我们在内存中创建可复用的Java对象,但一般情况下,只有当JVM处于运行时,这些对象才可能存在,即,这些对象的生命周期不会比JVM的生命周期 ...
透过byte数组简单分析Java序列化、Kryo、ProtoBuf序列化
序列化在高性能网络编程.分布式系统开发中是举足轻重的之前有用过Java序列化.ProtocolBuffer等,在这篇文章这里中简单分析序列化后的byte数组观察各种序列化的差异与性能,这里主要分析Ja ...
Java序列化的机制和原理
Java序列化的机制和原理本文讲解了Java序列化的机制和原理.从文中你可以了解如何序列化一个对象,什么时候需要序列化以及Java序列化的算法. 有关Java对象的序列化和反序列化也算是Java基础 ...
Java 序列化对象序列化和反序列化
Java 序列化对象序列化和反序列化 @author ixenos 对象序列化是什么 1.对象序列化就是把一个对象的状态转化成一个字节流. 我们可以把这样的字节流存储为一个文件,作为对这个对象的复制 ...
Java序列化机制和原理及自己的理解
Java序列化算法透析 Serialization(序列化)是一种将对象以一连串的字节描述的过程:反序列化deserialization是一种将这些字节重建成一个对象的过程.Java序列化API提供一 ...

随机推荐

spark-shell 显示乱码
用spark shell 进入console环境查看字符集 scala> System.getProperty("file.encoding") res5: String ...
java IO(二)：字节流
*/ .hljs { display: block; overflow-x: auto; padding: 0.5em; color: #333; background: #f8f8f8; } .hl ...
MongoDB 基本操作学习笔记
// 查看所有数据库 show dbs // amdin 0.000GB // local 0.000GB // 使用数据库 use admin // switched to db admin // ...
系统uid在1-499的原因
1.因为是保留给系统使用的UID,为了与用户设置的账户区分,防止冲突. 2.并没有其他特别的意义, 3.也叫作虚拟用户,除了0之外,所有的UID在使用上并没有任何区别. 4.linux中文件和程序都要 ...
VUE 框架
一.什么是vue 它是一个构建用户界面的JAVASCRITPO框架二.怎么使用VUE (1).引入vue.js 如:<script src='vue.js'>&l ...
Vue.js根据列表某列值更新filter
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
oracle学习（一）
作为一个入门选手,怕忘记,所以所有东西都尽量写下来.(省略oracle11g的安装过程) 一.sqlpuls用sys账户登录 (sqlplus是客户端连上服务器的一个工具) 1.使用cmd控制台登录 ...
已知有两个水杯，一个11L一个7L，水可以任意使用，求怎么得到2L 的详细解法
问题:有两个水杯,一个是11L一个是7L,水可以随便用,怎么得到2L 1.了解问题的本质问题中给出了两个杯子,只有这两个杯子有量度,所以只能让杯中的水满进满出才能确定杯子中最后有多少水. 现在问题要 ...
HTTP协议篇(一)：多工、数据流
管道机制.多工管道机制(Pipelining) HTTP 1.1 引入了管道机制(Pipelining),即客户端可通过同一个TCP连接同时发送多个请求.如果客户端需要请求两个资源,以前的做法是在同 ...
SpringMVC源码情操陶冶-AbstractUrlHandlerMapping
承接前文SpringMVC源码情操陶冶-AbstractHandlerMapping,前文主要讲解了如何获取handler处理对象,本文将针对beanName注册为handler对象作下解析 Abst ...

Hadoop序列化与Java序列化

Hadoop序列化与Java序列化的更多相关文章

随机推荐

热门专题