Hadoop SequenceFile数据结构介绍及读写

　　在一些应用中，我们需要一种特殊的数据结构来存储数据，并进行读取，这里就分析下为什么用SequenceFile格式文件。

Hadoop SequenceFile

　　Hadoop提供的SequenceFile文件格式提供一对key,value形式的不可变的数据结构。同时，HDFS和MapReduce job使用SequenceFile文件可以使文件的读取更加效率。

SequenceFile的格式

　　SequenceFile的格式是由一个header 跟随一个或多个记录组成。前三个字节是一个Bytes SEQ代表着版本号，同时header也包括key的名称，value class , 压缩细节，metadata，以及Sync markers。Sync markers的作用在于可以读取任意位置的数据。

　　在recourds中，又分为是否压缩格式。当没有被压缩时，key与value使用Serialization序列化写入SequenceFile。当选择压缩格式时，record的压缩格式与没有压缩其实不尽相同，除了value的bytes被压缩，key是不被压缩的。

　　在Block中，它使所有的信息进行压缩，压缩的最小大小由配置文件中，io.seqfile.compress.blocksize配置项决定。

SequenceFile的MapFile

　　一个MapFile可以通过SequenceFile的地址，进行分类查找的格式。使用这个格式的优点在于，首先会将SequenceFile中的地址都加载入内存，并且进行了key值排序，从而提供更快的数据查找。

写SequenceFile文件:

　　将key按100-1以IntWritable object进行倒叙写入sequence file,value为Text objects格式。在将key和value写入Sequence File前，首先将每行所在的位置写入(writer.getLength())

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;

import java.io.IOException;
import java.net.URI;


public class SequenceFileWriteDemo {

  private static final String[] DATA = {

    "One, two, buckle my shoe",

    "Three, four, shut the door",

    "Five, six, pick up sticks",

    "Seven, eight, lay them straight",

    "Nine, ten, a big fat hen"

  };

  public static void main(String[] args) throws IOException {

    String uri = args[0];

    Configuration conf = new Configuration();

    FileSystem fs = FileSystem.get(URI.create(uri), conf);

    Path path = new Path(uri);

    IntWritable key = new IntWritable();

    Text value = new Text();

    SequenceFile.Writer writer = null;

    try {

      writer = SequenceFile.createWriter(fs, conf, path,

          key.getClass(), value.getClass());

      for (int i = 0; i < 100; i++) {

        key.set(100 - i);

        value.set(DATA[i % DATA.length]);

        System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key, value);

        writer.append(key, value);

      }

    } finally {

      IOUtils.closeStream(writer);

    }

  }

}

读取SequenceFile文件:

　　首先需要创建SequenceFile.Reader实例，随后通过调用next()函数进行每行结果集的迭代(需要依赖序列化).

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.util.ReflectionUtils;

import java.io.IOException;
import java.net.URI;


public class SequenceFileReadDemo {

  public static void main(String[] args) throws IOException {

    String uri = args[0];

    Configuration conf = new Configuration();

    FileSystem fs = FileSystem.get(URI.create(uri), conf);

    Path path = new Path(uri);

    SequenceFile.Reader reader = null;

    try {

      reader = new SequenceFile.Reader(fs, path, conf);

      Writable key = (Writable)

        ReflectionUtils.newInstance(reader.getKeyClass(), conf);

      Writable value = (Writable)

        ReflectionUtils.newInstance(reader.getValueClass(), conf);

      long position = reader.getPosition();

      while (reader.next(key, value)) {
　　　　 //同步记录的边界

        String syncSeen = reader.syncSeen() ? "*" : "";

        System.out.printf("[%s%s]\t%s\t%s\n", position, syncSeen, key, value);

        position = reader.getPosition(); // beginning of next record

      }

    } finally {

      IOUtils.closeStream(reader);

    }

  }

}

参考文献: 《Hadoop:The Definitive Guide, 4th Edition》

Hadoop SequenceFile数据结构介绍及读写的更多相关文章

Java基础-JAVA中常见的数据结构介绍
Java基础-JAVA中常见的数据结构介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.什么是数据结构答:数据结构是指数据存储的组织方式.大致上分为线性表.栈(Stack) ...
Python pandas 0.19.1 Intro to Data Structures 数据结构介绍文档翻译
官方文档链接http://pandas.pydata.org/pandas-docs/stable/dsintro.html 数据结构介绍我们将以一个快速的.非全面的pandas的基础数据结构概述来 ...
BCM芯片FP原理及相关SDK数据结构介绍
BCM芯片有几个大的模块: VLAN.L2.L3和FP等几个,其中FP的使用也最为灵活,能解析匹配数据包文的前128字节比特级的内容,动作包括转发.丢弃.结合qos修改相应字段.分配vid.流镜像.流 ...
redis学习（二） redis数据结构介绍以及常用命令
redis数据结构介绍我们已经知道redis是一个基于key-value数据存储的数据结构数据库,这里的key指的是string类型,而对应的value则可以是多样的数据结构.其中包括下面五种类型: ...
Hadoop生态圈-hbase介绍-完全分布式搭建
Hadoop生态圈-hbase介绍-完全分布式搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
大数据之路week06--day07（Hadoop生态圈的介绍）
Hadoop 基本概念一.Hadoop出现的前提环境随着数据量的增大带来了以下的问题 (1)如何存储大量的数据? (2)怎么处理这些数据? (3)怎样的高效的分析这些数据? (4)在数据增长的情况 ...
读书笔记一、pandas数据结构介绍
pandas数据结构介绍主要两种数据结构:Series和DataFrame. Series Series是一种类似于一维数组的对象,由一组数据(各种NumPy数据类型)+数据标签(即索引)组 ...
Hadoop以及组件介绍
一.背景介绍在接触过大数据相关项目的时候常常都会听到Hadoop这个东西,简单来说,他是一个用分布式计算来处理大数据的开源软件,下面包含了许多的组件和子项目,这篇文章将会介绍Hadoop的原理以及一 ...

随机推荐

Nginx 支持 CI 框架的配置并禁止使用 ip 访问
#CIserver { listen 80; server_name www.ci.com; index index.php index ...
配置jdk
java_home :D:\apps\common\jdk\jdk8\jdk18045\jdk1.8.0_45 classpath: .;%JAVA_HOME%\lib\dt.jar;%JAVA_HO ...
[转]Jenkins Xcode打包ipa
本地打包. 如果Mac 上没有安装brew.先安装:ruby -e "$(curl -fsSL https://raw.github.com/Homebrew/homebrew/go/ins ...
redhat6.4上安装mysql
1.挂载操作系统介质 [root@server- ~]# mkdir -p /media/dvd [root@server- ~]# -20130130.0-Server-x86_64-DVD1.is ...
Android通过HttpURLConnection链接到网络，并获取网络数据
1.判断网络是否连接 private void networkIsconnected(String str){ ConnectivityManager connMgr = (ConnectivityM ...
php超全局数组变量
(1)$_SERVER 服务器的相关信息 (2)$_GET 接收用户通过url向服务器传的参数 $POST 接收用户通过http协议向服务器传递的参数发送get请求 <a href=&quo ...
Android Listview & Adapter
Listview主要有两个职责: 将数据填充到布局处理用户的选择点击等操作列表的显示需要三个元素: ListVeiw 用来展示列表的View 适配器(Adapter) 用来把数据映射到ListVi ...
animate.css总结
本文对animate.css的各个效果进行总结 bounce 从上掉落,在地上小幅度跳起 <!DOCTYPE html> <meta charset="utf-8" ...
上载android应用的apk文件变成了zip-网下转载的解决方案
下载android应用的apk文件变成了zip--网上转载的解决方案下载android应用的apk文件变成了zip--网上转载的解决方案解决方案一. 最近把开发的android应用放在公司网站上, ...
Unity3D 发布无边框exe
关于:Unity3D 发布无边框exe,Unity3D Build exe无边框 Unity发布windows版本总是带着边框,很想给它去掉,笔者在网上查了一番,常见的有3中. 1:通过unity3 ...

Hadoop SequenceFile数据结构介绍及读写

Hadoop SequenceFile数据结构介绍及读写的更多相关文章

随机推荐

热门专题