读取和反序列化Hadoop二进制文件

问题描述
反序列化代码
- 1. 反序列化单数据文件
- 2. 反序列化Key-Value类型的数据文件

问题描述

Hadoop在运行MR时，经常要将一些中间结果存到本地，为了节省存储空间，Hadoop采用序列化机制（Hadoop的序列化机制和Java的有所不同）将数据保存为二进制文件，此时若需要观察中间结果文件进行调试，就需要将二进制文件进行反序列化为可读的字符。此篇文章只展示反序列化的代码流程，不分析其中原理。

反序列化代码

因为Hadoop采用的序列化机制是独有的，所以在编写反序列化代码之前需要导入hadoop/share/hadoop/common下的jar包。

1. 反序列化单数据文件

当序列化文件里只包含一种数据类型的数据时，用以下代码。

注：反序列化前需要知道该数据反序列化前的数据类型

package readHadoopFile;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.SequenceFile.Reader;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.util.ReflectionUtils;

import org.apache.mahout.common.HadoopUtil;

import org.apache.mahout.math.Vector;

import org.apache.mahout.math.hadoop.similarity.cooccurrence.Vectors;

public class transformFile {

	public static void main(String[] args) throws IllegalArgumentException, IOException {

		String path = null;

		//numUsers.bin只包含一个int型的数据

    	path = "~\\temp\\preparePreferenceMatrix\\numUsers.bin";

		int num = HadoopUtil.readInt(new Path(path), new Configuration());

		System.out.println(num); #2487348

		//maxValues.bin包含的数据类型是向量

		path = "C:\\Users\\User\\Desktop\\推荐算法\\分布式推荐\\temp\\maxValues.bin";

		Vector maxValues = Vectors.read(new Path(path), new Configuration());

		System.out.println(maxValues);

	}

}

2. 反序列化Key-Value类型的数据文件

当序列化文件里的数据是Key-Value类型时，此时可以不必知晓序列化前的数据类型，代码如下。

package readHadoopFile;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.SequenceFile;

import org.apache.hadoop.io.SequenceFile.Reader;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.util.ReflectionUtils;

import org.apache.mahout.common.HadoopUtil;

import org.apache.mahout.math.Vector;

import org.apache.mahout.math.hadoop.similarity.cooccurrence.Vectors;

public class transformFile {

	public static void main(String[] args) throws IllegalArgumentException, IOException {

		String path = null;

		//读取Hadoop上的序列化文件

		path = "~\\temp\\partialMultiply2";

		FileSystem fs=FileSystem.get(new Configuration());

		Reader reader=new SequenceFile.Reader(fs.getConf(), Reader.file(new Path(path)));

		Writable key = (Writable) ReflectionUtils.newInstance(reader.getKeyClass(), fs.getConf());

		Writable value = (Writable) ReflectionUtils.newInstance(reader.getValueClass(), fs.getConf());

		System.out.println(key);

		File file = new File("~\\temp\\partialMultiply2.trans");

		FileWriter fw = new FileWriter(file);

		String kv = null;

		//将反序列化后的值写到另一个文件里

		while(reader.next(key,value)) {

			kv=key.toString()+"="+value.toString()+"\n";

			fw.write(kv);

		}

		fw.close();

	}

}

读取和反序列化Hadoop二进制文件的更多相关文章

《程序设计基础》实验题目2 c文件读取（反序列化？）链表排序
题目: 每个学生的信息卡片包括学号.姓名和成绩三项.定义存储学生信息的单向链表的结点类型:编写函数,由文件依次读入 n(n≥0)个学生的信息,创建一个用于管理学生信息的单向链表:编写函数,对该链表 ...
Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
Java反序列化测试
前言:有没有想过,如何将对象进行“加密”后写入磁盘?序列化帮你实现! 1.概念序列化 (Serialization)将对象的状态信息转换为可以存储或传输的形式的过程.在序列化期间,对象将其当前状态写 ...
[大牛翻译系列]Hadoop（9）MapReduce 性能调优：理解性能瓶颈，诊断map性能瓶颈
6.2 诊断性能瓶颈有的时候作业的执行时间会长得惊人.想靠猜也是很难猜对问题在哪.这一章中将介绍如何界定问题,找到根源.涉及的工具中有的是Hadoop自带的,有的是本书提供的. 系统监控和Hadoo ...
Sqoop安装与使用(sqoop-1.4.5 on hadoop 1.0.4)
1.什么是Sqoop Sqoop即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今 ...
第3章:Hadoop分布式文件系统(1)
当数据量增大到超出了单个物理计算机存储容量时,有必要把它分开存储在多个不同的计算机中.那些管理存储在多个网络互连的计算机中的文件系统被称为"分布式文件系统".由于这些计算机是基于网 ...
hadoop中的序列化
此文已由作者肖凡授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 最近在学习hadoop,发现hadoop的序列化过程和jdk的序列化有很大的区别,下面就来说说这两者的区别都有 ...
6.3.1 使用 pickle 模块读写二进制文件
Python 标准库 pickle 提供的 dump() 方法用于将数据进行序列化并写入文件(dump() 方法的protocol 参数为True 时可以实现压缩的效果),而load() 用于读取二 ...
大数据之路week07--day03（Hadoop深入理解，JAVA代码编写WordCount程序，以及扩展升级）
什么是MapReduce 你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃. MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几 ...

随机推荐

java 8 日期api
//localdatetime -> string LocalDateTime now = LocalDateTime.now(); String format = now.format(Dat ...
idea常用实用快捷键
Ctrl+Alt+方向键(左键,右键),返回上次查看的位置.(这个快捷键和window本身快捷键冲突,需要关闭windows 对应快捷键功能,参考博客:https://blog.csdn.net/u0 ...
如何判断SSD盘
1.判断cat /sys/block/*/queue/rotational的返回值.如果返回1则表示磁盘可旋转,可以判断是HDD:反之,如果返回0,则表示磁盘不可以旋转,就有可能是SSD. 注意:/s ...
解决Jenkins权限配置错误，导致登录时出现没有Overall/read权限
问题由于初次接触jenkins,于是在搭建好jenkins以后,想要对用户进行管理,于是乎开始在系统管理->configure Global Security里设置用户的权限. 在启用安全-& ...
CAM350对比两个gerber之间的差异
今天客供的gerber 版本更新,要检查区别. 参考: https://wenku.baidu.com/view/a154028c19e8b8f67d1cb93f.html 这个更加详细: https ...
Multiple Object Tracking using K-Shortest Paths Optimization简要
参考文献:Multiple Object Tracking using K-Shortest Paths Optimization 核心步骤: 两步:一.detection 二.link detect ...
python将字符转换为字典
参考文章Python 如何将字符串转为字典注意: 使用json的时候一定要注意是loads而不是load 即:user_dict = json.loads(user_info) 注意: 用eval( ...
数据库数据——>文件xml
xml文件格式 <smss> <sms> <data> </data> </sms> </smss> 这里面的意思是将数据库里面 ...
ubuntu下的wps office for linux
今天修改老师给的论文,也没备份,悲剧的一幕发生了,原来用的word在ubuntu里打开,结果图片显示不出来,也不知怎么修复,哭死... 网上搜索答案,一位热心的网页推荐我用wps office for ...
Luogu2435 染色【状压qwq】【轮廓线DP】
LINK 题目大意有一个 n 行 m 列的格点图,你需要给每个点上染上 k 种颜色中的一种,要求没有两个相邻点颜色相同.给定第一行与最后一行的染色,试求总染色方案数. 思路暴力预处理状态暴力转移可 ...