Hadoop点滴-Hadoop的IO

Hadoop自带一套原子操作用于数据的I/O操作。
如果系统中需要处理的数据量达到Hadoop的处理极限时，数据被损害的概率还是很高的
检测数据是否被损害的常见措施是，在数据第一次被引进系统时，计算校验和（checksum），并在数据通过一个不可靠的通道进行传输时，再次计算校验和。
校验和也是可能损坏的，但由于校验和比数据小得多，所以损坏的可能性非常小
HDFS会对写入的所有数据计算校验和，并在读取数据时验证校验和。
默认情况下为512个字节计算校验和，由于CRC-32校验和是4个字节，所以存储校验和的额外开销低于1%
datanode负责在收到数据后存储该数据及其校验和之前对数据进行验证，它在收到客户端的数据或复制其他datanode的数据时执行这个操作。
正在写数据的客户端将数据及其校验和发送到有一些列datanode组成的管线，管线中最后一个datanode负责验证校验和。如果datanode检测到错误，客户端便会厚道一个IOException异常的一个子类。
客户端读取datanode数据时，也会验证校验和。
每个datanode中均持久保存有一个用于验证校验和日志（persistent log of checksum verification)，所有他知道每个数据块的最后一次验证时间。保存这些统计信息对于检测损坏的磁盘很有价值
不只是客户端在读取数据块时，会验证校验和，每个datanode也会在一个后台线程中运行一个DataBlockScanner。该措施是解决物理存储媒体上损坏的有力措施。
由于HDFS存储着每个数据块的副本（replica），因此它可以通过副本来修复损害的数据块，进而得到一个新的、完好无损的副本。基本思路是：客户端读取数据块时，如果检测到错误，首先向namenode报告已损坏的数据块及其正在尝试读操作的这个datanode，在抛出ChecksumException。namenode将这个数据块副本标记为已损坏，这样它不再将客户端处理请求直接发送到这个节点，或者尝试将这个复本复制到另一个datanode，如此一来，数据块的副本以腻子（replication factor）又回到期望的水平。
如果在使用open（）方法读取文件之前，将false值传递给FileSystem对象的setVerfiChecksum()方法，即可禁用校验和验证
可以使用hadoop fs -checksum 来检查一个文件的校验和
校验和的计算代价是相当低的，java中使用的是本地代码实现的
压缩：有两大好处，减少存储文件所需要的磁盘空间，并加速数据在网络和磁盘上的传输。这两大好处在处理大量数据时相当重要。
序列化：用于分布式数据处理的两大领域：进程间通信和永久存储
Hadoop为什么不使用java自带的序列化功能，反而要单独实现一套呢。java自带序列化与编程语言紧密相关，且太负责。hadoop需要一套至精至简、可以精确控制对象读写。
Hadoop为什么不使用RMI，而要使用RPC呢：RPC更高效，且可以精确控制连接、延迟、缓冲。
基于文件的数据结构：SequenceFile、MapFile

Hadoop点滴-Hadoop的IO的更多相关文章

Hadoop点滴-Hadoop分布式文件系统
Hadoop自带HDFS,即 Hadoop Distributed FileSystem(不是HaDoop FileSystem 的简称) 适用范围超大文件:最新的容量达到PB级流式数据访问:H ...
org.apache.hadoop.ipc.RemoteException(java.io.IOException)
昨晚突然之间mr跑步起来了 jps查看进程都在的,但是在reduce任务跑了85%的时候会抛异常异常情况如下: 2016-09-21 21:32:28,538 INFO [org.apache.h ...
运行基准测试hadoop集群中的问题：org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /benchmarks/TestDFSIO/io_data/test_
在master(即:host2)中执行 hadoop jar hadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 10240 - ...
hive运行query语句时提示错误：org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:
hive> select product_id, track_time from trackinfo limit 5; Total MapReduce jobs = 1 Launching Jo ...
HBase中此类异常解决记录org.apache.hadoop.ipc.RemoteException(java.io.IOException):
ERROR: Can't get master address from ZooKeeper; znode data == null 一定注意这只是问题的第一层表象,真的问题是: File /hb ...
hadoop报错java.io.IOException: Bad connect ack with firstBadLink as 192.168.1.218:50010
[root@linuxmain hadoop]# bin/hadoop jar hdfs3.jar com.dragon.test.CopyToHDFS Java HotSpot(TM) Client ...
hadoop报错java.io.IOException: Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured
不多说,直接上干货! 问题详情问题排查 spark@master:~/app/hadoop$ sbin/start-all.sh This script is Deprecated. Instead ...
Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{S ...
idea 提示：ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException解决方法
Windows系统中的IDEA链接Linux里面的Hadoop的api时出现的问题提示:ERROR util.Shell: Failed to locate the winutils binary ...

随机推荐

Ubuntu16.04中用yolov3训练自己的数据集
一.配置yolo v3 参考yolo v3官网https://pjreddie.com/darknet/yolo/ 下载darknet后进行编译: git clone https://github.c ...
Delphi - 获取文件大小
GetFileSize获取文件大小封装成如下函数,可以直接使用: ///函数功能:获取文件大小,单位取KB,小数自动进位 ///参数:sFilePath文件全路径 ///Result: 成功是返回文 ...
如何封装springboot的starter
--为啥要封装starter --如何封装 --测试为啥要封装starter springboot的starter开箱即用,只需要引入依赖,就可以帮你自动装配bean,这样可以让开发者不需要过多的关 ...
Eclipse Paho MQTT Utility
下载地址: https://repo.eclipse.org/content/repositories/paho-releases/org/eclipse/paho/org.eclipse.paho. ...
探索JAVA并发 - 终于搞懂了sleep/wait/notify/notifyAll
> sleep/wait/notify/notifyAll分别有什么作用?它们的区别是什么?wait时为什么要放在循环里而不能直接用if? ## 简介首先对几个相关的方法做个简单解释,Obje ...
【Offer】[60] 【n个骰子的点数】
题目描述思路分析测试用例 Java代码代码链接题目描述把n个骰子扔在地上,所有骰子朝上一面的点数之和为S.输入n,打印出s的所有可能的值出现的概率. [牛客网刷题地址]无思路分析递归的方 ...
Python基础：Python运行的两种基本方式
完成Python的安装之后,我们可以开始编写Python代码以及运行Python程序了.我们来看一下运行Python具体有哪几种方式 1.REPL 所谓REPL即read.eva.print.loop ...
Hello, OpenWrite
目录 Markdown For Typora Overview Block Elements Paragraph and line breaks Headers Blockquotes Lists T ...
【LeetCode】62-不同路径
题目描述一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为"Start" ). 机器人每次只能向下或者向右移动一步.机器人试图达到网格的右下角(在下图中标记为& ...
Elasticsearch之更新
public class UpdateElasticAPI { private static RestClient restClient; static { restClient=RestClient ...

Hadoop点滴-Hadoop的IO

Hadoop点滴-Hadoop的IO的更多相关文章

随机推荐

热门专题