Hadoop I/O操作原理整理

I/O操作中的数据检查

　　校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况，如果两者不同则说明数据已经损坏。比如，在传输数据前生成了一个校验和，将数据传输到目的主机时再次计算校验和，如果两次的校验结果不同，则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统，因此具有两方面的数据完整性。

1、本地文件I/O的检查

　本地文件系统的数据完整性由客户端负责，重点是在存储和读取文件时进行校验和的处理。每当Hadoop创建文件a时，Hadoop就会同时在同一文件夹下创建隐藏文件a.crc,这个文件记录了文件a的校验和。针对数据文件的大小，每512字节Hadoop就会生成一个32位的校验和(4字节）。

2、对HDFS的I/O数据进行检查

　　DataNode接收数据后，存储数据前。它接收数据一般有两种情况：一是用户从客户端上传数据；二是DataNode从其他DataNode上接收数据。Hadoop不会在数据每流动到一个DataNode时都检查校验和，它只会在数据流动到最后一个节点时检验校验和。

3、在MapReduce程序中使用压缩

　　设置Map处理后数据的压缩代码示例如下：

JobConf conf = new JobConf();

conf.setBoolean("mapred.compree.map.output",true);

//设置output输出压缩

conft.setBoolean("mapred.output.compress",true);

conf.setClass("mapred.output.compression.codec",GzipCodec.class,CompressionCodec.class);

4、数据的I/O中序列化操作

　　序列化是将对象转化为字节流的方法，或者说用字节流描述对象的方法。与序列化相对的是反序列化，反序列化是将字节流转化为对象的方法。序列化有两个目的：进程间通信；数据持久性存储。

Hadoop采用RPC来实现进程间通信，一般而言，RPC的序列化机制有以下特点：

　　紧凑：紧凑的格式可以充分利用带宽，加快传输速度。

　　快速：能减少序列化和反序列化的开销，这会有效减少进程间通信的时间。

　　可扩展：可以逐步改变。

　　在Hadoop中，并没有采用JAVA提供的序列化机制，而是自己重新写了一个序列化机制Writables。Writables具有紧凑、快速的优点。但不易拓展。

Text

　　这是Hadoop中对string类型的重写，但是又与其有一些不同。Text使用标准的UTF-8编码，同时Hadoop使用变长类型VInt来存储字符串，其存储上线是2GB。Text类型与String类型的主要差别在于：

　　1、 Stirng的长度定义为String包含的字符个数；Text的长度定义为UTF-8编码的字节数。

　　2、String内的indexOf()方法返回的是char类型字符的索引。Text的find()方法返回的是字节偏移量。

　　3、String的charAt()方法返回的是指定位置的char字符；而Text的charAT()方法需要指定偏移量。

SequenceFile类

　　SequenceFile记录的是key/value对的列表，是序列化之后的二进制文件，因此是不能直接查看的。可通过:hadoop fs -text mySequenceFile查看

参考:《Hadoop实战》

Hadoop I/O操作原理整理的更多相关文章

Hadoop每日一讨论整理版
这是我在几个QQ群发起的Hadoop每日一讨论小活动,每天中午2点左右发出一个关于Hadoop的知识片段,在此做一个整理. [每日一讨论]之计算框架(2013-5-21) 就计算框架而言,Hadoop ...
安装hadoop多节点各种整理
ubuntu烧制usb启动盘链接: 点击打开链接https://help.ubuntu.com/community/Installation/FromUSBStick ubuntu磁盘分区: 点击打开 ...
hadoop面试题(自己整理版)
1. hadoop 运行原理2. mapreduce 原理3. mapreduce 的优化4.举一个简单的例子说下 mapreduce 是怎么运行的5. hadoop 中 combiner 的作用6. ...
hadoop的文件操作整理java
package dada; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; im ...
Hadoop是什么？一句话理解
Hadoop(MapReduce&HDFS) 1.学习目的(前言) 在从业了六年IT生涯里,做个实施顾问.业务顾问.BA需求分析师.项目经理,现在重新定位自己,在新公司做起了开发顾问,虽然经历 ...
Hadoop入门学习笔记---part1
随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力, ...
Hadoop HDFS 设计随想
目录引言 HDFS 数据块的设计数据块应该设置成多大? 抽象成数据块有哪些好处? 操作块信息的命令 HDFS 中节点的设计有几种节点类型? 用户如何访问 HDFS? 如何对 namenode 容 ...
【hadoop】hadoop3.2.0应用环境搭建与使用指南
下面列出我搭建hadoop应用环境的文章整理在一起,不定期更新,供大家参考,互相学习!!! 杂谈篇: [英语学习]Re-pick up English for learning big data (n ...
zookeeper会话超时链接超时的排查
1.会话概述在ZooKeeper中,客户端和服务端建立连接后,会话随之建立,生成一个全局唯一的会话ID(Session ID).服务器和客户端之间维持的是一个长连接,在SESSION_TIMEOUT ...

随机推荐

iOS开发UI篇—ios应用数据存储方式（XML属性列表-plist）
iOS开发UI篇—ios应用数据存储方式(XML属性列表-plist) 一.ios应用常用的数据存储方式 1.plist(XML属性列表归档) 2.偏好设置 3.NSKeydeArchiver归档(存 ...
CTSC&&APIO 2015 酱油记
在北京待了一周多,还是写点记录吧. 人民大学校园还是挺不错的,不过伙食差评. CTSC的题目太神,根本不会搞,一试20二试10分..本来都寄希望于提交答案题的..结果就悲剧了. 然后是听大爷们的论文答 ...
SSH(2)
1.用户登录 index页面跳转到登录页面 <% String path = request.getContextPath(); String basePath = request.getSch ...
JSP相关
1.javax.servlet.jsp这个包两个接口,六个类 2.先说两个接口,分别是HttpJspPage,JspPage(JspPage是HttpJspPage的父类,JspPage 它自己继承至 ...
GPS模块启动模式说明
1.启动方式 GPS开机定位分为冷启动、温启动和热启动三种：　　1、冷启动：以下几种情况开机均属冷启动。初次使用时；电池耗尽导致星历信息丢失时；关机状态下将接收机移动1000公里以上距离。　　2、温 ...
Java中的泛型
1:泛型(掌握) (1)泛型概述是一种把明确类型的工作推迟到创建对象或者调用方法的时候才去明确的特殊的类型. (2)格式: <数据类型> 注意:该数据类型只能是引用类型. (3)好处: ...
带优先级的队列 - PHP实现
很久以前写的一个功能,当时需要一个优先级的队列,特用新学的swoole写了一个简单的demo,仅满足当时的需求. 功能说明: 完全参考httpsqs增加优先级参数level 例: ...
使用PHP处理文本小技巧
PHP的Cli模式使用:http://www.php.net/manual/zh/features.commandline.php PHP命令行部分参数:-B 在处理 stdin 之前先执行 ...
Android FM模块学习之三 FM手动调频
前一章主要是FM的自动调频, 接下来我们就看看FM手动调频是如何进行的.如果不清楚FM自动调频的过程,请打开超链接查看FM搜索频率流程. 首先来看一下流程图: 2.滑动刻度盘HorizontalNum ...
修改mysql用户名密码和 PHPmysqlAdmin对应密码修改
本地的mysql运行时,可能会用到修改用户名密码: mysql> SET PASSWORD FOR 'root'@'localhost' = PASSWORD('输入新密码');不存在修改用户啊 ...

Hadoop I/O操作原理整理

Hadoop I/O操作原理整理的更多相关文章

随机推荐

热门专题