Hadoop之SequenceFile

Hadoop序列化文件SequenceFile能够用于解决大量小文件（所谓小文件：泛指小于black大小的文件）问题，SequenceFile是Hadoop API提供的一种二进制文件支持。这样的二进制文件直接将<key,value>对序列化到文件里，一般对小文件能够使用这样的文件合并，即将文件名称作为key。文件内容作为value序列化到大文件里。

hadoop Archive也是一个高效地将小文件放入HDFS块中的文件存档文件格式，详情请看：hadoop Archive

可是SequenceFile文件不能追加写入，适用于一次性写入大量小文件的操作。

SequenceFile的压缩基于CompressType，请看源代码：

  /**

   * The compression type used to compress key/value pairs in the

   * {@link SequenceFile}.

   * @see SequenceFile.Writer

   */

public static enum CompressionType {

    /** Do not compress records. */

    NONE, //不压缩

    /** Compress values only, each separately. */

    RECORD,  //仅仅压缩values

    /** Compress sequences of records together in blocks. */

    BLOCK //压缩非常多记录的key/value组成块

}

SequenceFile读写演示样例：

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.SequenceFile.CompressionType;

import org.apache.hadoop.io.SequenceFile.Reader;

import org.apache.hadoop.io.SequenceFile.Writer;

import org.apache.hadoop.io.Text;

/**

 * @version 1.0

 * @author Fish

 */

public class SequenceFileWriteDemo {

	private static final String[] DATA = { "fish1", "fish2", "fish3", "fish4" };

	public static void main(String[] args) throws IOException {

		/**

		 * 写SequenceFile

		 */

		String uri = "/test/fish/seq.txt";

		Configuration conf = new Configuration();

		Path path = new Path(uri);

		IntWritable key = new IntWritable();

		Text value = new Text();

		Writer writer = null;

		try {

			/**

			 * CompressionType.NONE 不压缩<br>

			 * CompressionType.RECORD 仅仅压缩value<br>

			 * CompressionType.BLOCK 压缩非常多记录的key/value组成块

			 */

			writer = SequenceFile.createWriter(conf, Writer.file(path), Writer.keyClass(key.getClass()),

					Writer.valueClass(value.getClass()), Writer.compression(CompressionType.BLOCK));

			for (int i = 0; i < 4; i++) {

				value.set(DATA[i]);

				key.set(i);

				System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key, value);

				writer.append(key, value);

			}

		} finally {

			IOUtils.closeStream(writer);

		}

		/**

		 * 读SequenceFile

		 */

		SequenceFile.Reader reader = new SequenceFile.Reader(conf, Reader.file(path));

		IntWritable key1 = new IntWritable();

		Text value1 = new Text();

		while (reader.next(key1, value1)) {

			System.out.println(key1 + "----" + value1);

		}

		IOUtils.closeStream(reader);// 关闭read流

		/**

		 * 用于排序

		 */

//		SequenceFile.Sorter sorter = new SequenceFile.Sorter(fs, comparator, IntWritable.class, Text.class, conf);

	}

}

以上程序运行多次。并不会出现数据append的情况，每次都是又一次创建一个文件。且文件里只唯独四条数据。

究其原因。能够查看SequenceFile.Writer类的构造方法源代码：

out = fs.create(p, true, bufferSize, replication, blockSize, progress);

第二个參数为true，表示每次覆盖同名文件，假设为false会抛出异常。

这样设计的目的可能是和HDFS一次写入多次读取有关，不提倡追加现有文件，所以构造方法写死了true。

SequenceFile文件的数据组成形式：

一，Header

写入头部的源代码：

    /** Write and flush the file header. */

    private void writeFileHeader()

      throws IOException {

      out.write(VERSION);//版本

      Text.writeString(out, keyClass.getName());//key的Class

      Text.writeString(out, valClass.getName());//val的Class

      out.writeBoolean(this.isCompressed());//是否压缩

      out.writeBoolean(this.isBlockCompressed());//是否是CompressionType.BLOCK类型的压缩

      if (this.isCompressed()) {

        Text.writeString(out, (codec.getClass()).getName());//压缩类的名称

      }

      this.metadata.write(out);//写入metadata

      out.write(sync);                       // write the sync bytes

      out.flush();                           // flush header

    }

版本：

  private static byte[] VERSION = new byte[] {

    (byte)'S', (byte)'E', (byte)'Q', VERSION_WITH_METADATA

  };

同步标识符的生成方式：

    byte[] sync;                          // 16 random bytes

    {

      try {

        MessageDigest digester = MessageDigest.getInstance("MD5");

        long time = Time.now();

        digester.update((new UID()+"@"+time).getBytes());

        sync = digester.digest();

      } catch (Exception e) {

        throw new RuntimeException(e);

      }

    }

二，Record

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

Writer有三个实现类，分别相应CompressType的NONE。RECOR，BLOCK。以下逐一介绍一下（结合上面的图看）：

1，NONE SequenceFile

Record直接存Record 的长度，KEY的长度，key值，Value的值

2, BlockCompressWriter

/** Append a key/value pair. */

    @Override

    @SuppressWarnings("unchecked")

    public synchronized void append(Object key, Object val)

      throws IOException {

      if (key.getClass() != keyClass)

        throw new IOException("wrong key class: "+key+" is not "+keyClass);

      if (val.getClass() != valClass)

        throw new IOException("wrong value class: "+val+" is not "+valClass);

      // Save key/value into respective buffers

      int oldKeyLength = keyBuffer.getLength();

      keySerializer.serialize(key);

      int keyLength = keyBuffer.getLength() - oldKeyLength;

      if (keyLength < 0)

        throw new IOException("negative length keys not allowed: " + key);

      WritableUtils.writeVInt(keyLenBuffer, keyLength);//每调一次，都会累加keyLength

      int oldValLength = valBuffer.getLength();

      uncompressedValSerializer.serialize(val);

      int valLength = valBuffer.getLength() - oldValLength;

      WritableUtils.writeVInt(valLenBuffer, valLength);//每调一次，都会累加valLength

      // Added another key/value pair

      ++noBufferedRecords;

      // Compress and flush?

      int currentBlockSize = keyBuffer.getLength() + valBuffer.getLength();

      if (currentBlockSize >= compressionBlockSize) {

      //compressionBlockSize =  conf.getInt("io.seqfile.compress.blocksize", 1000000);

      //超过1000000就会写一个Sync

        sync();

      }

超过compressionBlockSize的大小。就会调用sync()方法，以下看看sync的源代码（和上面的图对比）：

会写入和图中所画的各个数据项。

/** Compress and flush contents to dfs */

    @Override

    public synchronized void sync() throws IOException {

      if (noBufferedRecords > 0) {

        super.sync();

        // No. of records

        WritableUtils.writeVInt(out, noBufferedRecords);

        // Write 'keys' and lengths

        writeBuffer(keyLenBuffer);

        writeBuffer(keyBuffer);

        // Write 'values' and lengths

        writeBuffer(valLenBuffer);

        writeBuffer(valBuffer);

        // Flush the file-stream

        out.flush();

        // Reset internal states

        keyLenBuffer.reset();

        keyBuffer.reset();

        valLenBuffer.reset();

        valBuffer.reset();

        noBufferedRecords = 0;

      }

    }

2。RecordCompressWriter

/** Append a key/value pair. */

    @Override

    @SuppressWarnings("unchecked")

    public synchronized void append(Object key, Object val)

      throws IOException {

      if (key.getClass() != keyClass)

        throw new IOException("wrong key class: "+key.getClass().getName()

                              +" is not "+keyClass);

      if (val.getClass() != valClass)

        throw new IOException("wrong value class: "+val.getClass().getName()

                              +" is not "+valClass);

      buffer.reset();

      // Append the 'key'

      keySerializer.serialize(key);

      int keyLength = buffer.getLength();

      if (keyLength < 0)

        throw new IOException("negative length keys not allowed: " + key);

      // Compress 'value' and append it

      deflateFilter.resetState();

      compressedValSerializer.serialize(val);

      deflateOut.flush();

      deflateFilter.finish();

      // Write the record out

      checkAndWriteSync();                                // sync

      out.writeInt(buffer.getLength());                   // total record length record的长度

      out.writeInt(keyLength);                            // key portion length key的长度

      out.write(buffer.getData(), 0, buffer.getLength()); // data 数据

    }

写入Sync：

synchronized void checkAndWriteSync() throws IOException {

      if (sync != null &&

          out.getPos() >= lastSyncPos+SYNC_INTERVAL) { // time to emit sync

        sync();

      }

    }

SYNC_INTERVAL的定义：

  private static final int SYNC_ESCAPE = -1;      // "length" of sync entries

  private static final int SYNC_HASH_SIZE = 16;   // number of bytes in hash

  private static final int SYNC_SIZE = 4+SYNC_HASH_SIZE; // escape + hash

  /** The number of bytes between sync points.*/

  public static final int SYNC_INTERVAL = 100*SYNC_SIZE;

每2000个byte，就会写一个Sync。

总结：

Record：存储SequenceFile通用的KV数据格式，Key和Value都是二进制变长的数据。Record表示Key和Value的byte的总和。

Sync：主要是用来扫描和恢复数据的，以至于读取数据的Reader不会迷失。

Header：存储了例如以下信息：文件标识符SEQ，key和value的格式说明。以及压缩的相关信息，metadata等信息。

metadata：包括文件头所须要的数据：文件标识、Sync标识、数据格式说明(含压缩)、文件元数据(时间、owner、权限等)、检验信息等

Hadoop之SequenceFile的更多相关文章

Hadoop 写SequenceFile文件源代码
package com.tdxx.hadoop.sequencefile; import java.io.IOException; import org.apache.hadoop.conf.Conf ...
Hadoop中SequenceFile的使用
1.对于某些应用而言,须要特殊的数据结构来存储自己的数据. 对于基于MapReduce的数据处理.将每一个二进制数据的大对象融入自己的文件里并不能实现非常高的可扩展性,针对上述情况,Hadoop开发了 ...
Hadoop基础-SequenceFile的压缩编解码器
Hadoop基础-SequenceFile的压缩编解码器作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Hadoop压缩简介 1>.文件压缩的好处第一:较少存储文件占用 ...
hadoop基础-SequenceFile详解
hadoop基础-SequenceFile详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.SequenceFile简介 1>.什么是SequenceFile 序列文件 ...
Hadoop SequenceFile数据结构介绍及读写
在一些应用中,我们需要一种特殊的数据结构来存储数据,并进行读取,这里就分析下为什么用SequenceFile格式文件. Hadoop SequenceFile Hadoop提供的SequenceFil ...
大数据学习笔记——Hadoop编程之SequenceFile
SequenceFile(Hadoop序列文件)基础知识与应用上篇编程实战系列中本人介绍了基本的使用HDFS进行文件读写的方法,这一篇将承接上篇重点整理一下SequenceFile的相关知识及应用 ...
Hadoop平台常用配置及优化建议
当发现作业运行效率不理想时,需要对作业执行进行性能监测,以及对作业本身.集群平台进行优化.优化后的集群可能最大化利用硬件资源,从而提高作业的执行效率.本文记录了在hadoop集群平台搭建以及作业运行过 ...
[大牛翻译系列]Hadoop（17）MapReduce 文件处理：小文件
5.1 小文件大数据这个概念似乎意味着处理GB级乃至更大的文件.实际上大数据可以是大量的小文件.比如说,日志文件通常增长到MB级时就会存档.这一节中将介绍在HDFS中有效地处理小文件的技术. 技术2 ...
MapReduce中使用SequenceFile的方式上传文件到集群中
如果有很多的小文件,上传到HDFS集群,每个文件都会对应一个block块,一个block块的大小默认是128M,对于很多的小文件来说占用了非常多的block数量,就会影响到内存的消耗, MapRedu ...

随机推荐

Python-数据类型-转摘
1.数字 2 是一个整数的例子.长整数不过是大一些的整数.3.23和52.3E-4是浮点数的例子.E标记表示10的幂.在这里,52.3E-4表示52.3 * 10-4.(-5+4j)和(2.3-4. ...
MongoDB的mongos实例因无法分配mlock内存挂掉
问题版本 mongodb-v3.4.4 问题描述 mongos两天死了两次,死前遗言只有日志: 2017-11-01T11:25:27.135+0800 F - [NetworkInterfaceAS ...
C:\WINDOWS\system32\wmp.dll”受到“Windows 系统文件保护”
在VC# 2005 中,要是打包的程序中包含了Windows Media Player 这个组件的话,在生成解决方案的过程中会提示出错: "错误1,应将“wmp.dll”排除,原因是其源文 ...
Spring MVC体系结构和处理请求控制器
Spring MVC体系结构和处理请求控制器一:MVC设计模式: (1.)数据访问接口:DAO层 (2.)处理业务逻辑层:Service层 (3.)数据实体:POJO (4.)负责前段请求接受并处理 ...
[转载] Java安全体系简介
转载自http://blog.csdn.net/jbossweek/article/details/1458468 一.设计原则独立性安全服务独立于具体的应用,应用不需要单独实现,只需通过请求就可 ...
深入理解Postgres中的cache
众所周知,缓存是提高数据库性能的一个重要手段.本文着重讲一讲PostgreSQL中的缓存相关的东西.当然万变不离其宗,原理都是共同的,理解了这些,你也很容易把它运用到其它数据库中. What is a ...
2）C语言的基本知识（C自考学习）
字符集在C语言程序中允许出现的所有基本字符的组合称为C语言的字符集.C语言的字符集就是ASCII字符集.主要包含一下几类: 1)大小写英文字母A~Z,a~z(52个) 2)数字0-9(10个) 3) ...
re部分
0x01.Writeup-RE-CM_2 题目: 解题思路: 1.这个是经过xor的,王老师提示说用xortool,于是放进kali,装好之后执行 xortool CM_2.exe -b, 0.out ...
MySQL的安装(比较详细的安装步骤，包括客户端和服务端的安装，还有环境变量的配置以及使用Windows service启动MySQL)
1.MySQL官网下载操作系统对应的MySQL安装包,解压之后就可以直接使用(免安装). MySQL安装包,一种是MySQL Enterprise Edition (commercial)企业版,还有 ...
在使用ajax实现三级联动调用数据库数据并通过调出的数据进行二级表单查询
在使用ajax实现三级联动查询数据库数据后再使用ajax无刷新方式使用三级联动调出的数据进行二级查询但是现在遇到问题,在二级查询的时候期望是将数据以表格的形式展示在三级联动的下方,但是现在在查询后会 ...

Hadoop之SequenceFile

Hadoop之SequenceFile的更多相关文章

随机推荐

热门专题