Hadoop点滴-Hadoop的IO
- Hadoop自带一套原子操作用于数据的I/O操作。
- 如果系统中需要处理的数据量达到Hadoop的处理极限时,数据被损害的概率还是很高的
- 检测数据是否被损害的常见措施是,在数据第一次被引进系统时,计算校验和(checksum),并在数据通过一个不可靠的通道进行传输时,再次计算校验和。
- 校验和也是可能损坏的,但由于校验和比数据小得多,所以损坏的可能性非常小
- HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和。
- 默认情况下为512个字节计算校验和,由于CRC-32校验和是4个字节,所以存储校验和的额外开销低于1%
- datanode负责在收到数据后存储该数据及其校验和之前对数据进行验证,它在收到客户端的数据或复制其他datanode的数据时执行这个操作。
- 正在写数据的客户端将数据及其校验和发送到有一些列datanode组成的管线,管线中最后一个datanode负责验证校验和。如果datanode检测到错误,客户端便会厚道一个IOException异常的一个子类。
- 客户端读取datanode数据时,也会验证校验和。
- 每个datanode中均持久保存有一个用于验证校验和 日志(persistent log of checksum verification),所有他知道每个数据块的最后一次验证时间。保存这些统计信息对于检测损坏的磁盘很有价值
- 不只是客户端在读取数据块时,会验证校验和,每个datanode也会在一个后台线程中运行一个DataBlockScanner。该措施是解决物理存储媒体上损坏的有力措施。
- 由于HDFS存储着每个数据块的副本(replica),因此它可以通过副本来修复损害的数据块,进而得到一个新的、完好无损的副本。基本思路是:客户端读取数据块时,如果检测到错误,首先向namenode报告已损坏的数据块及其正在尝试读操作的这个datanode,在抛出ChecksumException。namenode将这个数据块副本标记为已损坏,这样它不再将客户端处理请求直接发送到这个节点,或者尝试将这个复本复制到另一个datanode,如此一来,数据块的副本以腻子(replication factor)又回到期望的水平。
- 如果在使用open()方法读取文件之前,将false值传递给FileSystem对象的setVerfiChecksum()方法,即可禁用校验和验证
- 可以使用hadoop fs -checksum 来检查一个文件的校验和
- 校验和的计算代价是相当低的,java中使用的是本地代码实现的
- 压缩:有两大好处,减少存储文件所需要的磁盘空间,并加速数据在网络和磁盘上的传输。这两大好处在处理大量数据时相当重要。
- 序列化:用于分布式数据处理的两大领域:进程间通信和永久存储
- Hadoop为什么不使用java自带的序列化功能,反而要单独实现一套呢。java自带序列化与编程语言紧密相关,且太负责。hadoop需要一套至精至简、可以精确控制对象读写。
- Hadoop为什么不使用RMI,而要使用RPC呢:RPC更高效,且可以精确控制连接、延迟、缓冲。
- 基于文件的数据结构:SequenceFile、MapFile
Hadoop点滴-Hadoop的IO的更多相关文章
- Hadoop点滴-Hadoop分布式文件系统
Hadoop自带HDFS,即 Hadoop Distributed FileSystem(不是HaDoop FileSystem 的简称) 适用范围 超大文件:最新的容量达到PB级 流式数据访问:H ...
- org.apache.hadoop.ipc.RemoteException(java.io.IOException)
昨晚突然之间mr跑步起来了 jps查看 进程都在的,但是在reduce任务跑了85%的时候会抛异常 异常情况如下: 2016-09-21 21:32:28,538 INFO [org.apache.h ...
- 运行基准测试hadoop集群中的问题:org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /benchmarks/TestDFSIO/io_data/test_
在master(即:host2)中执行 hadoop jar hadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 10240 - ...
- hive运行query语句时提示错误:org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:
hive> select product_id, track_time from trackinfo limit 5; Total MapReduce jobs = 1 Launching Jo ...
- HBase中此类异常解决记录org.apache.hadoop.ipc.RemoteException(java.io.IOException):
ERROR: Can't get master address from ZooKeeper; znode data == null 一定注意这只是问题的第一层表象,真的问题是: File /hb ...
- hadoop报错java.io.IOException: Bad connect ack with firstBadLink as 192.168.1.218:50010
[root@linuxmain hadoop]# bin/hadoop jar hdfs3.jar com.dragon.test.CopyToHDFS Java HotSpot(TM) Client ...
- hadoop报错java.io.IOException: Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured
不多说,直接上干货! 问题详情 问题排查 spark@master:~/app/hadoop$ sbin/start-all.sh This script is Deprecated. Instead ...
- Spark- ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
运行 mport org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.{S ...
- idea 提示:ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException解决方法
Windows系统中的IDEA链接Linux里面的Hadoop的api时出现的问题 提示:ERROR util.Shell: Failed to locate the winutils binary ...
随机推荐
- RabbitMQ消息丢失问题和保证消息可靠性-消费端不丢消息和HA(二)
继续上篇文章解决RabbitMQ消息丢失问题和保证消息可靠性(一) 未完成部分,我们聊聊MQ Server端的高可用和消费端如何保证消息不丢的问题? 回归上篇的内容,我们知道消息从生产端到服务端,为了 ...
- Leetcode之回溯法专题-212. 单词搜索 II(Word Search II)
Leetcode之回溯法专题-212. 单词搜索 II(Word Search II) 给定一个二维网格 board 和一个字典中的单词列表 words,找出所有同时在二维网格和字典中出现的单词. 单 ...
- canvas 的基本使用
一.canvas的介绍 canvas是html5出现的新标签,像所有的DOM对象一样它有自己本身 的属性.方法和事件,其中就有绘图的方法,js能够调用它来进行绘图.canvas只有两个属性,而且是可选 ...
- ThreadLocal可以解决并发问题吗?
前言 到底什么是线程的不安全?为什么会存在线程的不安全?线程的不安全其实就是多个线程并发的去操作同一共享变量没用做同步所产生意料之外的结果.那是如何体现出来的呢?我们看下面的一个非常经典的例子:两个操 ...
- Nginx入门(二):镜像和容器
0.docker常用命令 #镜像名 版本标签 镜像id 创建时间 镜像大小 REPOSITORY TAG IMAGE ID CREATED SIZE hello-world latest fce289 ...
- ASP.NET Core on K8S深入学习(9)Secret & Configmap
本篇已加入<.NET Core on K8S学习实践系列文章索引>,可以点击查看更多容器化技术相关系列文章. 一.Secret 1.1 关于Secret 在应用启动过程中需要一些敏感信息, ...
- Windows 7 sometimes breaks FTP connections on Java 7 if firewall is enabled.
Solution: 用管理员身份,在cmd命令行输入: netsh advfirewall set global StatefulFTP disable 会关闭防火墙,从而解决问题.
- 洛谷P1169 [ZJOI2007]棋盘制作 悬线法 动态规划
P1169 [ZJOI2007]棋盘制作 (逼着自己做DP 题意: 给定一个包含0,1的矩阵,求出一个面积最大的正方形矩阵和长方形矩阵,要求矩阵中相邻两个的值不同. 思路: 悬线法. 用途: 解决给定 ...
- UVA1486 Transportation 费用流 拆边。
#include <iostream> #include <cstdio> #include <cmath> #include <queue> #inc ...
- codeforces 798 D. Mike and distribution(贪心+思维)
题目链接:http://codeforces.com/contest/798/problem/D 题意:给出两串长度为n的数组a,b,然后要求长度小于等于n/2+1的p数组是的以p为下表a1-ap的和 ...