MR之SequenceFile具体解释

package com.leaf.hadoop.second;

import java.util.Random;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.Text;

//$ hadoop jar SequenceWriteSample.jar SequenceWriteSample

public class SequenceWriteSample {

	private static String meg = "hello world";

	public static void main(String[] args) throws Exception{

		Configuration conf = new Configuration();//获取环境变量

		FileSystem fs = FileSystem.get(conf);//获取文件系统

		Path path = new Path("sequenceFile");//定义路径

		Random rand = new Random();

		SequenceFile.Writer write = new SequenceFile.Writer(fs, conf, path, IntWritable.class, Text.class);

		for(int i=0;i<100;i++){

			write.append(new IntWritable(rand.nextInt(100)), new Text(meg));//写操作,隐藏的为每一行加入一个偏移量

			//System.out.println(write.getLength());

		}

		IOUtils.closeStream(write);//将写出流关闭

	}

	/*

	 * createWriter()方法的源代码；

	 * public static Writer createWriter(FileSystem fs,Configuration conf,Path name,Class keyClass,Class valClass)throws IOException{

		return createWriter(fs,conf,name,keyClass,valClass,getCompressionType(conf));

	}

	*CompressionType类用以对SequenceFile写入的文件设定是否进行压缩处理

	*

	*CompressionType.NONE:表示不正确不论什么数据进行压缩从而直接进行存储

	*CompressionType.RECORD:表示只压缩key而对value不进行压缩

	*CompressionType.BLOCK:表示对全部的key与value都进行压缩

	*/

	/**

	 * write实例还隐藏的为每一行加入一个偏移量,用于获取当前文件的移动位置。

	 * 并按一定顺序生成相应的"同步位置"(Sync position),同步位置是

	 * 生成在SequenceFile文件的内部划分位置处。同步位置详细使用方法见SequenceFile.Reader

	 */

}

class SequenceReaderSample{//执行命令:$ hadoop jar SequenceReaderSample.jar SequenceReaderSample

	public static void main(String[] args)throws Exception{

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(conf);//获取文件系统

		Path path = new Path("cool.txt");//定义输出路径

		SequenceFile.Reader reader = new SequenceFile.Reader(fs, path, conf);//创建实例

		IntWritable key = new IntWritable();//创建待读入Key实例

		Text value = new Text();//创建待读入value实例

		while(reader.next(key,value)){

			System.out.println(key+"======"+value);//打印已读取键值对

		}

		IOUtils.closeStream(reader);//关闭读入流

	}

	/**

	 * 相对于SequenceFile.Writer方法

	 * SequenceFile.Reader提供了查找同步位置的方法,通过返回一个布尔值确认是否已经读取到偏移位置

	 * public boolean syncSeen(){return syncSeen}

	 *

	 * 同步位置(Sync Position)的作用:

	 *

	 *

	 */

	/*

	 * reader中源代码

	 * public synchronized boolean next(Writable key, Writable val)

			throws IOException {

			boolean more = next(key);                //推断下一个值是否存在

			if (more)                        //存在则进行操作

			getCurrentValue(val);                  //获得相应的值

			return more;

			}

			keyIn = new DataInputStream(keyInFilter);            //创建输入流

			public synchronized boolean next(Writable key) throws IOException {

			…

			key.readFields(keyIn);                    //用读方法进行数据读取

			…

			}

			*

			*/

	/**

	 * 继续查看reader方法:

	 * …

	 *key.readFields(valBuffer);                    //通过 key 读入数据

	 *valBuffer.mark(0);                      //标记

	 *if (valBuffer.getPosition() != keyLength)              //推断已读取位置

	 *throw  new  IOException(key  +  "  read  "  +  valBuffer.getPosition()   +  "  bytes,  should  read  " +

	 *keyLength);                        //抛出异常

	 *}

	 *…

	 *解析:首先key的对象读取一个偏移位置,依据其二进制生成详细事例,然后将位置归零,

	 *	假设此时偏移位置与key的长度不同样则抛出错误。

注:next进行键值读取的时候,必须有一个给定偏移量。

	 *	而同一时候假设偏移量大于key的长度则产生异常。

而解决的方法是通过获取文件的偏移位置后。从偏移的边界

	 *	開始读取。然后将整个值读入key中。

	 *

	 *	Reader同一时候还提供了一个sync(long position)方法,将位置定位到当前位置的下一个同步位置開始读取。

	 *	案例代码例如以下：

	 */

}

class SyncPositionSample{

	public static void main(String[] args)throws Exception{

		Configuration conf = new Configuration();//获取环境变量

		FileSystem fs = FileSystem.get(conf);//获取文件系统

		Path path = new Path("leaf.txt");//获取路径

		SequenceFile.Reader reader = new SequenceFile.Reader(fs,path,conf);//创建reader实例

		IntWritable key = new IntWritable();//设置存放实例

		Text value = new Text();

		reader.sync(0);//读取同步点

		while(reader.next(key,value)){//将数据读入实例中

			System.out.println(key+"-"+value);

		}

	}

}

MR之SequenceFile具体解释的更多相关文章

MR案例：输出/输入SequenceFile
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File).在SequenceFile文件中,每一个key-value对被看做是一条记 ...
Hadoop基础-MapReduce的常用文件格式介绍
Hadoop基础-MapReduce的常用文件格式介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MR文件格式-SequenceFile 1>.生成SequenceF ...
使用2个MR计算
转载:http://www.cnblogs.com/sharpxiajun/p/5205496.html 最近做了一个小的mapreduce程序,主要目的是计算环比值最高的前5名,本来打算使用spar ...
Shell脚本编程具体解释
第12章 Shell脚本编程 l Shell命令行的执行 l 编写.改动权限和运行Shell程序的步骤 l 在Shell程序中使用參数和变量 l 表达式比較.循环结构语句和条件结构语句 l ...
xsd的解释说明
schema教程 XML Schema是以XML语言为基础的,它用于可替代DTD.一份XML schema文件描写叙述了XML文档的结构XML Schema语言也被称为XML Schema Defin ...
Hadoop Hive sql 语法详细解释
Hive 是基于Hadoop 构建的一套数据仓库分析系统.它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,能够将结构化的数据文件映射为一张数据库表,并提供完整的SQL查 ...
国内首家MR头显公司于CES惊艳亮相
在刚刚过去的CES2017大会上,我们看到了许多较为优秀的VR产品,而在这里面,有一家名不见经传的中国公司易瞳发布了一款兼具VR和AR功能的头显VMG-MARK.它的外观与联想VR和骁龙VR820等产 ...
Hadoop基础-SequenceFile的压缩编解码器
Hadoop基础-SequenceFile的压缩编解码器作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Hadoop压缩简介 1>.文件压缩的好处第一:较少存储文件占用 ...
MR中使用sequnceFIle输入文件
转换原始数据为块压缩的SequenceFIle import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.C ...

随机推荐

CSU-2221 假装是区间众数(ST表模版题)
题目链接题目 Description 给定一个非递减数列Ai,你只需要支持一个操作:求一段区间内出现最多的数字的出现次数. Input 第一行两个整数N,Q 接下来一行有N个整数,表示这个序列. 接 ...
LFTP下载远程文件
拓展阅读: https://linux.cn/article-5460-1.html
谷歌插件请求ci 解决CI框架的Disallowed Key Characters错误提示
用CI框架时,有时候会遇到这么一个问题,打开网页,只显示 Disallowed Key Characters 错误提示.有人说 url 里有非法字符.但是确定 url 是纯英文的,问题还是出来了.但清 ...
[luoguP2224] [HNOI2001]产品加工（背包DP）
传送门 f[i][j]表示第一个机器耗时j,第二个机器耗时f[i][j] 第一维可以滚掉 #include <cstdio> #include <cstring> #inclu ...
BZOJ3129 [Sdoi2013]方程【扩展Lucas】
题目给定方程 X1+X2+. +Xn=M 我们对第l..N1个变量进行一些限制: Xl < = A X2 < = A2 Xn1 < = An1 我们对第n1 + 1..n1+n2个 ...
个人环境搭建——搭建JDK环境
搭建JDK环境开始之初先提醒两点: ①java是在bash环境下面的,虽然我也在.cshrc下面添加了环境变量,好像有点问题,需要继续改进: ②查看linux版本信息命令:cat /etc/issu ...
codechef May Challenge 2016 FORESTGA: Forest Gathering 二分
Description All submissions for this problem are available. Read problems statements in Mandarin Chi ...
BJOI2019退役记
update:不想更这个游记……感觉更了只能说明自己菜得只会打嘴炮……那就让这个污痕一直残缺吧太菜了,就不发具体分数了…… 被北师大附中的高一选手们吊打致死,退役了 4.6 4.7 4.13 4.1 ...
[暑假集训--数论]poj2909 Goldbach's Conjecture
For any even number n greater than or equal to 4, there exists at least one pair of prime numbers p1 ...
【03】node 之作用域
1.什么是作用域作用域:规定了一个变量和函数可使用的范围,作用域分为两种:全局作用域.局部作用域(函数作用域) 2.NodeJS作用域 NodeJs中一个文件就是一个模块,模块中使用var定义的变量 ...

MR之SequenceFile具体解释

MR之SequenceFile具体解释的更多相关文章

随机推荐

热门专题