《Hadoop权威》学习笔记四：Hadoop的I/O

一、数据完整性

二、压缩

三、序列化

基本概念

序列化指的是将结构化对象转化为字节流以便于通过网络进行传输或写入持久化存储的过程
反序列化指的是将字节流转为一系列结构化对象的过程。
进程间通信和持久存储--分布式数据处理过程，出现序列化和反序列两个动作
RPC是hadoop用于节点之间的进程间的通信，RPC协议使用序列化将消息编码转为二进制流，将其发送到远程节点，此后，二进制流被反序列化为原始消息。RPC序列化格式特点：紧凑（网络带宽充分利用）、快速(序列化和反序列化开销尽可能小)、可扩展性(协议随时间可变)、互操作性(不同语言)
数据持久性存储的特点：紧凑(高效使用存储空间)、快速(读取或写入TB级数据的开销变得极小)、可扩展(可以使用透明的方式读取用旧格式写入的数据)、互操作性(使用不同语言读取或写入持久化数据)
Hadoop的序列化格式为Writables，MapReduce程序使用它来序列化键值对

Writable接口

接口定义

 public interface Writable {

     void write(DataOutput out) throw IOException;//用于将状态写入二进制格式的DataOutput流中

     void readFields(DataInput in) throw IOException;//用于从二进制格式的DataInput流中读取状态

 }

类型的比较对MapReduce至关重要，键与键之间的比较是在排序阶段完成的，Hadoop提供了一个从Java Comparator接口优化的方法，RawComparator接口，该接口允许执行者比较从流中读取的未被反序列化为对象的记录，从而省去了创建对象的所有开销。
```
 package org.apache.hadoop.io;

 import java.util.Comparator;

 public interface RawComparator<T> extends Comparator<T>{

     public int compare(byte [] b1,int s1,int l1,btye []b2,int s2,int l2);

 }
```

WritableComparator是RawComparator对WritableComparable类的一个通用实现。它提供了一个默认的对原始函数compare()函数的调用，对从数据流对要比较的对象进行反序列化，然后调用对象的compare方法。另外一个功能就是RawComparator实例的一个工厂方法。

RawComparator<IntWritable> comparator = WritableComparator.get(IntWritable.class);

IntWritable w1 =  new IntWritable(163);

IntWritable w2 = new IntWritable(67);

assertThat(comparator.compare(w1,w2),greaterThan(0));

byte[] b1 = serialize(w1);

byte[] b2 = serialize(w2);

assertThat(comparator.compare(b1,0,b1.length,b2,0,b2.length),greaterThan(0));

Writable类

org.apache.hadoop.io
Writable类层次图
Writable基本类型的封装
Writable的Text类：Text类是一种UTF-8格式的Writable。可以理解为一种与java.lang.String相似的Writable。Text类代替了UTF8类。UTF8类编码不支持编码大于32767个字节的字符，使用了Java的改进过的UTF-8。而Text类使用的是标准的UTF-8,使其更易于与理解的UTF-8的其他工具协同工作，故String与Text之间存在差异。Text类使用整型（使用一个可变长度的编码方案）在字符串编码中存储字节数，最大值为2GB。String类与Text类的区别如下：
- 索引
- Unicode
- 遍历(迭代)：将Tet对象变成java.nio.ByteBuffer，然后对缓冲区的Text反复调用bytesToCodePoint()静态方法，这个方法提取下一个代码点作为int然后更新缓冲中的位置，当bytesToCodePoint()返回-1时，检测到字符串结束。
```
 public class TextIterator {

     public static void main(String[] arg){

       Text t = new Text("\u0041\u00DF\u6771\uD801\uDC00");

       ByteBuffer buf = ByteBuffer.wrap(t.getBytes(),0,t.getLength());

       int cp;

       while(buf.hashRemaining()&&(cp=

       Text.bytesToCodePoint(buf)) != -1){

           System.out.println(Integer.toHexString(cp));

       }

     }

 }
```
- 可修改性，通过set()方法改变
```
Text t = new Text("hadoop");

t.set(new Text("pig"));
```
- Text类常用ToString方法转化为String类，因为String类具有丰富的API
```
Text t = new Text("hadoop");

String s = t.toString();
```
ByteWritable类是一个二进制数据数组封装。它将序列化格式是一个int字段，指定的是字节数及其字节本身。
NullWritable类是一种特殊的Writable类型，因为它的序列化是零长度的。没有字节被写入流或流中读取，它常被作为占位符使用。
ObjectWritable类和GenericWritable类：适用于字段可以使用多种类型，其为一种多用途的封装，用于Hadoop的RPC来封送和反封送方法参数和返回类型

Writable集合

Writable集合类型：ArrayWritable，TwoDArrayWritable，MapWritable和SortedMapWritable
- ArrayWritable:数组
- TwoDArrayWritable:二维数组
- MapWritable
- SortedMapWritable

序列化框架

API：Hadoop提供了一个简单的序列化框架API。序列化框架由Serialization实现（在org.apache.hadoop.io.serializer包）来表示。Serialization定义了从类型到Serializer实例(一个对象转为一个字节流)和Deserializer实例(从一个字节流转为一个对象)的映射
IDL：接口描述语言，通过语言中立、声明式来定义它们。Apache Thrift和Google Protocol Buffers

四、基于文件的数据结构

SequenceFile类

假设一个日志文件中的每一个日志记录都是一行新的文本。如果想记录二进制类型，纯文本并不是一个合适的格式。Hadoop的SequenceFile类很适用这种情况，其做法是为二进制键/值提供一个持久化的数据结构，当时SequenceFile类用于日志，需要一个键和一个值。

创建SequenceFile类

 public class SequenceFileWriteDemo {

     private static final String[] DATA ={

         "One,two,buckle my shoe",

         "Three,four,shut the door",

         "Five,six,pick up sticks",

         "Seven,eight,lay them straight",

         "Nine,ten,a big fat hen"

     };

     public static void main(String[] args) throws IOException {

         String uri = args[0];

         Configuration conf = new Configuration();

         FileSystem fs = FileSystem.get(URI.create(uri),conf);

         IntWritable key = new IntWritable();

         Text value = new Text();

         SequenceFile.Writer writer = null;

         try{

             writer = SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());

             for(int i = 0; i < 100;i++){

                 key.set(100-i);

                 value.set(DATA[i%DATA.length]);

                 System.out.println("[%s]\t%s\t%s\n",writer.getLength(),key,value);

             }

         }finally{

             IOUtils.closeStream(writer);

         }

     }

 }

读取SequeceFile类

MapFile类

写入MapFile类
读取MapFile类

《Hadoop权威》学习笔记四：Hadoop的I/O的更多相关文章

Hadoop入门学习笔记---part1
随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力, ...
Hadoop入门学习笔记---part4
紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...
Hadoop入门学习笔记---part3
2015年元旦,好好学习,天天向上.良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果.继续学习Hadoop.冰冻三尺,非一日之寒! 经过Hadoop的伪分布集群环境的搭建,基本对Hado ...
Hadoop入门学习笔记---part2
在<Hadoop入门学习笔记---part1>中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱.不够系统化,不够简洁.经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建ha ...
[转帖]hadoop学习笔记：hadoop文件系统浅析
hadoop学习笔记:hadoop文件系统浅析 https://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式 ...
C#可扩展编程之MEF学习笔记(四)：见证奇迹的时刻
前面三篇讲了MEF的基础和基本到导入导出方法,下面就是见证MEF真正魅力所在的时刻.如果没有看过前面的文章,请到我的博客首页查看. 前面我们都是在一个项目中写了一个类来测试的,但实际开发中,我们往往要 ...
IOS学习笔记(四)之UITextField和UITextView控件学习
IOS学习笔记(四)之UITextField和UITextView控件学习(博客地址:http://blog.csdn.net/developer_jiangqq) Author:hmjiangqq ...
java之jvm学习笔记四(安全管理器)
java之jvm学习笔记四(安全管理器) 前面已经简述了java的安全模型的两个组成部分(类装载器,class文件校验器),接下来学习的是java安全模型的另外一个重要组成部分安全管理器. 安全管理器 ...
Learning ROS for Robotics Programming Second Edition学习笔记(四) indigo devices
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
Typescript 学习笔记四：回忆ES5 中的类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...

随机推荐

fabric自动化部署django
使用fabric部署django应用使用fabric部署django应用本文是我的网站易读中文网自动化部署的脚本实现,以下代码在ubuntu和debian中测试通过由于网站使用的是python技 ...
IOS之动画
IOS之动画 15.1 动画介绍 15.2 Core Animation基础 15.3 隐式动画 15.4 显式动画 15.5 关键帧显式动画 15.6 UIView级别动画 15.1 动画介绍 ...
d3可视化实战02：理解d3数据驱动的真正含义
前文中已经提到,SVG从诞生之初起就可以非常方便地使用javascript脚本语言来进行其DOM对象的控制.当然,控制的方法有很多,有直接控制SVG对象的方法,例如使用原生js:有帮你封装一下图形接口 ...
jquery-qrcode在线生成二维码
通过bower进行获取: y@y:ydkt$ bower install jquery-qrcode --save bower not-cached git://github.com/gcusnieu ...
Entity Framework with MySQL 学习笔记一(继承)
基本上sql中要表示继承关系有3中方式. 分别是,1表继承(TPH),2表继承(TPC),3表继承(TPT) 1表 : Person id type name classroom office 1 s ...
在keil中使用printf()函数的要点
在keil中printf默认是向串口中发送数据的,所以,如果应用该函数,必须先初始化串口,否则可能引起死机的情况,并且在printf之前应该先将TI置位,摘抄原因如下: 1.printf函数是调用pu ...
Android 自定义View(button)
很多的Android入门程序猿来说对于Android自定义View,可能都是比较恐惧的,但是这又是高手进阶的必经之路,所有准备在自定义View上面花一些功夫,多写一些文章.先总结下自定义View的步骤 ...
2012高校GIS论坛
江苏省会议中心南京·钟山宾馆(2012年4月21-22日) 以"突破与提升"为主题的"2012高校GIS论坛"将于4月在南京举行,由南京大学和工程中心共同承办 ...
HDU_2045——RPG问题,递推
Problem Description 人称“AC女之杀手”的超级偶像LELE最近忽然玩起了深沉,这可急坏了众多“Cole”(LELE的粉丝,即"可乐"),经过多方打探,某资深Co ...
CCF 送货 + 欧拉路模板
#include <bits/stdc++.h> using namespace std; stack<int> st; vector<]; ][]; ],cp[]; i ...

《Hadoop权威》学习笔记四：Hadoop的I/O

《Hadoop权威》学习笔记四：Hadoop的I/O的更多相关文章

随机推荐

热门专题