《Hadoop权威》学习笔记四：Hadoop的I/O

一、数据完整性

二、压缩

三、序列化

基本概念

序列化指的是将结构化对象转化为字节流以便于通过网络进行传输或写入持久化存储的过程
反序列化指的是将字节流转为一系列结构化对象的过程。
进程间通信和持久存储--分布式数据处理过程，出现序列化和反序列两个动作
RPC是hadoop用于节点之间的进程间的通信，RPC协议使用序列化将消息编码转为二进制流，将其发送到远程节点，此后，二进制流被反序列化为原始消息。RPC序列化格式特点：紧凑（网络带宽充分利用）、快速(序列化和反序列化开销尽可能小)、可扩展性(协议随时间可变)、互操作性(不同语言)
数据持久性存储的特点：紧凑(高效使用存储空间)、快速(读取或写入TB级数据的开销变得极小)、可扩展(可以使用透明的方式读取用旧格式写入的数据)、互操作性(使用不同语言读取或写入持久化数据)
Hadoop的序列化格式为Writables，MapReduce程序使用它来序列化键值对

Writable接口

接口定义

 public interface Writable {

     void write(DataOutput out) throw IOException;//用于将状态写入二进制格式的DataOutput流中

     void readFields(DataInput in) throw IOException;//用于从二进制格式的DataInput流中读取状态

 }

类型的比较对MapReduce至关重要，键与键之间的比较是在排序阶段完成的，Hadoop提供了一个从Java Comparator接口优化的方法，RawComparator接口，该接口允许执行者比较从流中读取的未被反序列化为对象的记录，从而省去了创建对象的所有开销。
```
 package org.apache.hadoop.io;

 import java.util.Comparator;

 public interface RawComparator<T> extends Comparator<T>{

     public int compare(byte [] b1,int s1,int l1,btye []b2,int s2,int l2);

 }
```

WritableComparator是RawComparator对WritableComparable类的一个通用实现。它提供了一个默认的对原始函数compare()函数的调用，对从数据流对要比较的对象进行反序列化，然后调用对象的compare方法。另外一个功能就是RawComparator实例的一个工厂方法。

RawComparator<IntWritable> comparator = WritableComparator.get(IntWritable.class);

IntWritable w1 =  new IntWritable(163);

IntWritable w2 = new IntWritable(67);

assertThat(comparator.compare(w1,w2),greaterThan(0));

byte[] b1 = serialize(w1);

byte[] b2 = serialize(w2);

assertThat(comparator.compare(b1,0,b1.length,b2,0,b2.length),greaterThan(0));

Writable类

org.apache.hadoop.io
Writable类层次图
Writable基本类型的封装
Writable的Text类：Text类是一种UTF-8格式的Writable。可以理解为一种与java.lang.String相似的Writable。Text类代替了UTF8类。UTF8类编码不支持编码大于32767个字节的字符，使用了Java的改进过的UTF-8。而Text类使用的是标准的UTF-8,使其更易于与理解的UTF-8的其他工具协同工作，故String与Text之间存在差异。Text类使用整型（使用一个可变长度的编码方案）在字符串编码中存储字节数，最大值为2GB。String类与Text类的区别如下：
- 索引
- Unicode
- 遍历(迭代)：将Tet对象变成java.nio.ByteBuffer，然后对缓冲区的Text反复调用bytesToCodePoint()静态方法，这个方法提取下一个代码点作为int然后更新缓冲中的位置，当bytesToCodePoint()返回-1时，检测到字符串结束。
```
 public class TextIterator {

     public static void main(String[] arg){

       Text t = new Text("\u0041\u00DF\u6771\uD801\uDC00");

       ByteBuffer buf = ByteBuffer.wrap(t.getBytes(),0,t.getLength());

       int cp;

       while(buf.hashRemaining()&&(cp=

       Text.bytesToCodePoint(buf)) != -1){

           System.out.println(Integer.toHexString(cp));

       }

     }

 }
```
- 可修改性，通过set()方法改变
```
Text t = new Text("hadoop");

t.set(new Text("pig"));
```
- Text类常用ToString方法转化为String类，因为String类具有丰富的API
```
Text t = new Text("hadoop");

String s = t.toString();
```
ByteWritable类是一个二进制数据数组封装。它将序列化格式是一个int字段，指定的是字节数及其字节本身。
NullWritable类是一种特殊的Writable类型，因为它的序列化是零长度的。没有字节被写入流或流中读取，它常被作为占位符使用。
ObjectWritable类和GenericWritable类：适用于字段可以使用多种类型，其为一种多用途的封装，用于Hadoop的RPC来封送和反封送方法参数和返回类型

Writable集合

Writable集合类型：ArrayWritable，TwoDArrayWritable，MapWritable和SortedMapWritable
- ArrayWritable:数组
- TwoDArrayWritable:二维数组
- MapWritable
- SortedMapWritable

序列化框架

API：Hadoop提供了一个简单的序列化框架API。序列化框架由Serialization实现（在org.apache.hadoop.io.serializer包）来表示。Serialization定义了从类型到Serializer实例(一个对象转为一个字节流)和Deserializer实例(从一个字节流转为一个对象)的映射
IDL：接口描述语言，通过语言中立、声明式来定义它们。Apache Thrift和Google Protocol Buffers

四、基于文件的数据结构

SequenceFile类

假设一个日志文件中的每一个日志记录都是一行新的文本。如果想记录二进制类型，纯文本并不是一个合适的格式。Hadoop的SequenceFile类很适用这种情况，其做法是为二进制键/值提供一个持久化的数据结构，当时SequenceFile类用于日志，需要一个键和一个值。

创建SequenceFile类

 public class SequenceFileWriteDemo {

     private static final String[] DATA ={

         "One,two,buckle my shoe",

         "Three,four,shut the door",

         "Five,six,pick up sticks",

         "Seven,eight,lay them straight",

         "Nine,ten,a big fat hen"

     };

     public static void main(String[] args) throws IOException {

         String uri = args[0];

         Configuration conf = new Configuration();

         FileSystem fs = FileSystem.get(URI.create(uri),conf);

         IntWritable key = new IntWritable();

         Text value = new Text();

         SequenceFile.Writer writer = null;

         try{

             writer = SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());

             for(int i = 0; i < 100;i++){

                 key.set(100-i);

                 value.set(DATA[i%DATA.length]);

                 System.out.println("[%s]\t%s\t%s\n",writer.getLength(),key,value);

             }

         }finally{

             IOUtils.closeStream(writer);

         }

     }

 }

读取SequeceFile类

MapFile类

写入MapFile类
读取MapFile类

《Hadoop权威》学习笔记四：Hadoop的I/O的更多相关文章

Hadoop入门学习笔记---part1
随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力, ...
Hadoop入门学习笔记---part4
紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操 ...
Hadoop入门学习笔记---part3
2015年元旦,好好学习,天天向上.良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果.继续学习Hadoop.冰冻三尺,非一日之寒! 经过Hadoop的伪分布集群环境的搭建,基本对Hado ...
Hadoop入门学习笔记---part2
在<Hadoop入门学习笔记---part1>中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱.不够系统化,不够简洁.经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建ha ...
[转帖]hadoop学习笔记：hadoop文件系统浅析
hadoop学习笔记:hadoop文件系统浅析 https://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html 1.什么是分布式 ...
C#可扩展编程之MEF学习笔记(四)：见证奇迹的时刻
前面三篇讲了MEF的基础和基本到导入导出方法,下面就是见证MEF真正魅力所在的时刻.如果没有看过前面的文章,请到我的博客首页查看. 前面我们都是在一个项目中写了一个类来测试的,但实际开发中,我们往往要 ...
IOS学习笔记(四)之UITextField和UITextView控件学习
IOS学习笔记(四)之UITextField和UITextView控件学习(博客地址:http://blog.csdn.net/developer_jiangqq) Author:hmjiangqq ...
java之jvm学习笔记四(安全管理器)
java之jvm学习笔记四(安全管理器) 前面已经简述了java的安全模型的两个组成部分(类装载器,class文件校验器),接下来学习的是java安全模型的另外一个重要组成部分安全管理器. 安全管理器 ...
Learning ROS for Robotics Programming Second Edition学习笔记(四) indigo devices
中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...
Typescript 学习笔记四：回忆ES5 中的类
中文网:https://www.tslang.cn/ 官网:http://www.typescriptlang.org/ 目录: Typescript 学习笔记一:介绍.安装.编译 Typescrip ...

随机推荐

CentOS6.4 GOOGLE chrome install
yum install http://people.centos.org/hughesjr/chromium/6/i386/RPMS/chromium-28.0.1500.45-205727.i686 ...
Nginx源码研究三：Epoll在NGINX中的使用
Web服务器在面对高并发的情况下,网络的IO一般选择IO复用,像apache选择的Select/poll.Nginx在linux 2.6后选择Epoll做网路IO,提高了WEB服务的并发能力. 在本章 ...
利用shell脚本函数实现网络连通性的检测
通常情况下,linux系统网络连通性的检测有两种方法: 1.通过“ping指令 + 目标IP” 或者 “ping指令 + 目标IP域名” 注意针对IPv6地址的IP网络检测需要试用ping6,同时pi ...
winform中WebBrowser控件执行脚本
在实际应用中我们可能需要WebBrowser控件主动执行我们需要的脚本,执行脚本现在有两种方法. 1.WebBrowser控件加载脚本,简单方便,适用于简短的脚本,无法执行复杂操作. webBrows ...
SVM的点滴
SVM 1. 普通SVM的分类函数可表示为: 其中ai为待优化参数,物理意义即为支持向量样本权重,yi用来表示训练样本属性,正样本或者负样本,为计算内积的核函数,b为待优化参数. 其优化目标函数为: ...
剑指offer之关于整数的处理
首先是整数次方的处理在这处理的时候有几个细节主义处理 1.当指数是负数的时候 2.当指数式0的时候 3.当不满足条件的时候要抛出异常再一个就是常用的将一个树化为二进制的形式,或者是求整数的幂或者矩 ...
github使用入门之GIT GUI Windows版
申明下是原创. 这二天网上也看了不少关于github使用的文章,github对代码管理也开始用起来了.这篇给github新手看,大牛们请跳过. github说白了就是版本管理库,最常用的就是程序代码管 ...
ural 1180 Stone Game
http://acm.timus.ru/problem.aspx?space=1&num=1180 #include <cstdio> #include <cstring&g ...
COJ 0138 NOIP201108计算系数
NOIP201108计算系数难度级别:A: 运行时间限制:1000ms: 运行空间限制:51200KB: 代码长度限制:2000000B 试题描述给定一个多项式(ax + by)^k,请求出多项式 ...
BeanstalkClient学习
针对BeanstalkClient-1.4.6.jar 生产者示例代码: package com.lky.test; import java.io.UnsupportedEncodingExcept ...

《Hadoop权威》学习笔记四：Hadoop的I/O

《Hadoop权威》学习笔记四：Hadoop的I/O的更多相关文章

随机推荐

热门专题