最近仔细研究了以下公司中使用的SequenceFile文件格式，SequenceFile的格式比较紧凑，实现了从中间读取文件内容（便于hadoop将文件进行适当地切分），同时也可以支持仅读取文件的元数据功能。

概述

经过总结后的文件格式图大概如下：

其中进入到SequenceFile的所有记录，都需要根据一定的hash规则确定一个HashKey。相对而言，记录块是比较简单的，每个记录块中仅包含块的大小，以及该块的数据；元数据就相对而言比较复杂，其中Metadata size是总体的记录数，每个HashKey均可以直接定位到记录的位置(offset, length, number记载着这些信息)。

其中需要注意的是，记录是严格有序的，写文件需要按照HashKey的顺序进行写入，也就是说，不能向该文件中append一条HashKey在当前Key之前的数据，一旦文件写完成，可能不能再更改。

实现的类图大概如下：

其中Writer负责写入文件，最重要的方法就是append，注意append的key顺序要保证；Reader负责读取文件，遍历next直到没有可用数据。

文件的写入

写入是由多次append执行的，每次append仅仅会写入其中的RecordBlock数据，而将元数据放在内存中：

 if (length < 0) {

            throw new IOException("negative length values not allowed: " + length);

        }

        this.out.write(val, offset, length);

        ++this.number;

等到最后所有数据都已经写入完成后，执行writeTailer写入尾部的文件特征码，版本，元数据和元数据长度等信息：

private void writeTailer() throws IOException {

        this.lastPos = this.out.getPos();

        this.out.write(XXSequenceFile.VERSION, 0, XXSequenceFile.VERSION.length);

        Text.writeString(this.out, valClass.getName());

        this.metadata.write(this.out);

        long currentPos = this.out.getPos();

        this.out.writeInt((int) (currentPos - this.lastPos));

    }

经过测试，我们向其中写入3条String数据:{“A”, “BA”, “Cba”}（其hash值分别为1，63，2）的结果为：

0000000: 0141 0343 6261 0242 414d 5a53 4551 0119  .A.Cba.BAXXSEQ..

0000010: 6f72 672e 6170 6163 6865 2e68 6164 6f6f  org.apache.hadoo

0000020: 702e 696f 2e54 6578 7400 0000 0003 0000  p.io.Text.......

0000030: 0001 3100 0000 0000 0000 0000 0000 0000  ..1.............

0000040: 0000 0200 0000 0000 0000 0100 0000 0132  ...............2

0000050: 0000 0000 0000 0002 0000 0000 0000 0004  ................

0000060: 0000 0000 0000 0001 0000 0002 3633 0000  ............63..

0000070: 0000 0000 0006 0000 0000 0000 0003 0000  ................

0000080: 0000 0000 0001 0000 007d 0a              .........}.

文件的读取

那么这种类型的文件，读取从哪里开始？就是从最后面的length（int格式），我们直接跳转到最后4个字节：

this.in.seek(this.length - 4);

int tailLength = this.in.readInt();

this.contentEnd = this.length - 4 - tailLength;

this.in.seek(this.contentEnd);

这样可以直接定位到元数据的位置，然后将读取元数据至内存：

this.metadata.readFields(this.in);

最后通过setMeta()方法，设置key要读取的位置，其中参数就为HashKey，根据HashKey已经能够查找到对应的offset偏移量，定位到记录的所在：

 XXSequenceFileMeta smeta = this.metadata.get(meta);

            if (smeta != null) {

                this.partIn = new XXSequenceFile.PartInputStream(this.in, smeta.getOffset(),

                        smeta.getOffset() + smeta.getLength());

                this.number = smeta.getNumber();

            } else {

                this.partIn = new MzSequenceFile.PartInputStream(this.in);

                this.number = 0;

            }

这样就实现了一整套SequenceFile文件写入/读取的功能，文件格式紧凑，并且可以从任意地方开始读取。

一种SequenceFile的格式研究的更多相关文章

几种web字体格式
目前,文字信息仍是网站最主要的内容,随着CSS3技术的不断成熟,Web字体逐渐成为话题,这项让未来Web更加丰富多彩的技术拥有多种实现方案,其中之一是通过@font-face属性在网页中嵌入自定义字体 ...
Java学习-013-文本文件读取实例源代码（两种数据返回格式）
此文源码主要为应用 Java 读取文本文件内容实例的源代码.若有不足之处,敬请大神指正,不胜感激! 1.读取的文本文件内容以一维数组[LinkedList<String>]的形式返回,源代 ...
JSON——IT技术人员都必须要了解的一种数据交换格式
JSON作为目前Web主流的数据交换格式,是每个IT技术人员都必须要了解的一种数据交换格式.尤其是在Ajax和REST技术的大行其道的当今,JSON无疑成为了数据交换格式的首选! 今天大家就和猪哥一起 ...
【转载】总结：几种生成HTML格式测试报告的方法
总结:几种生成HTML格式测试报告的方法写自动化测试时,一个很重要的任务就是生成漂亮的测试报告. 1.用junit或testNg时,可以用ant辅助生成html格式: <target name ...
常用两种数据交换格式之XML和JSON的比较
目前,在web开发领域,主要的数据交换格式有XML和JSON,对于XML相信每一个web developer都不会感到陌生: 相比之下,JSON可能对于一些新步入开发领域的新手会感到有些陌生,也可能你 ...
XML和JSON两种数据交换格式的比较
在web开发领域,主要的数据交换格式有XML和JSON,对于在 Ajax开发中,是选择XML还是JSON,一直存在着争议,个人还是比较倾向于JSON的.一般都输出Json不输出xml,原因就是因为 x ...
多媒体开发之h264的三种字节流格式---annexb 哥伦布/mp4 以及还有一种rtp传输流格式
------------------------------------author:pkf ------------------------------------------time:2015-1 ...
U盘的几种分类及格式
u盘常见的几种分类: 1.按u盘材质来分,可以分为金属u盘.塑料u盘.软胶u盘.皮革u盘.木质u盘.珠宝u盘等.这些主要是考虑u盘本身外壳所用材质的. 2.从u盘容量来分,就是8GB.16GB.32G ...
总结：几种生成html格式测试报告的方法
写自动化测试时,一个很重要的任务就是生成漂亮的测试报告. 1.用junit或testNg时,可以用ant辅助生成html格式: <target name="report" d ...

随机推荐

SpringInAction--Spring Web应用之SpringMvc 注解配置
Spring MVC 是当前Web服务器中常用的结构,今天就来学习这相关的知识,首先上图——Spring请求的时候所经历的坎坷之路: (书上原话,算是解释..) 在请求离开浏览器时① ,会带有用户所请 ...
关于HslCommunication组件的双模式客户端的说明，此说明适用于所有的派生类客户端，包括三菱，西门子，欧姆龙，modbustcp，机器人，simplifyNet客户端等等
前言本文主要是答疑文章,针对广大网友非常频繁的提问而总结的问题 nuget地址:https://www.nuget.org/packages/HslCommunication/ ...
自己手写一个SpringMVC框架
前端框架很多,但没有一个框架称霸,后端框架现在Spring已经完成大一统.所以学习Spring是Java程序员的必修课. Spring框架对于Java后端程序员来说再熟悉不过了,以前只知道它用的反射实 ...
OPEN(SAP) UI5 学习入门系列之二：最佳实践练习（上）
这篇博文难产了很久,原来是打算一周更新一篇的,上周原计划写MVC,但是写了一半,发现带入了太多的细节,不太符合这个入门系列的主题. 当我们学习一个新的技能的时候,如果一开始就面对大量的细节,很容易陷入 ...
我个人所有的独立博客wordpress都被挂马
晕,所有的独立博客都中了这个,难怪访问有点慢,今天使用谷歌浏览器来自知名恶意软件散布者 ***.net 的内容已经插入此网页.现在访问此网页很可能会导致您的计算机受到恶意软件入侵. 恶意软件是一种不 ...
Linux服务器运行环境搭建（三）——MySQL数据库安装
官网:http://www.mysql.com/ 官网下载地址:http://dev.mysql.com/downloads/mysql/ 说明:官网下载页面的“Select Platform” 选择 ...
native 方法列表说明
方法列表说明关于static const JNINativeMethod method_table[]方法列表的原型如下: typedef struct { const char* name; co ...
HDU - 6172:Array Challenge (BM线性递推)
题意:给出,三个函数,h,b,a,然后T次询问,每次给出n,求sqrt(an); 思路:不会推,但是感觉a应该是线性的,这个时候我们就可以用BM线性递推,自己求出前几项,然后放到模板里,就可以求了. ...
tensorflow图像基本处理
tensorflow库提供的专门的图片处理库,以下只是部分示例,更多函数请参照源码'\tensorflow_api\v1\image__init__.py' 加载图像方式1: 使用tf.gfile. ...
每天一个linux命令（目录文件操作）：【转载】linux文件属性详解
Linux 文件或目录的属性主要包括:文件或目录的节点.种类.权限模式.链接数量.所归属的用户和用户组.最近访问或修改的时间等内容.具体情况如下: 命令: ls -lih 输出: [root@loc ...

一种SequenceFile的格式研究

概述

文件的写入

文件的读取

一种SequenceFile的格式研究的更多相关文章

随机推荐

热门专题