HDFS-Could not obtain block

MapReduce Total cumulative CPU time: 33 seconds 380 msec

Ended Job = job_201308291142_4635 with errors

Error during job, obtaining debugging information...

Job Tracking URL: http://xxx /jobdetails.jsp?jobid=job_201308291142_4635

Examining task ID: task_201308291142_4635_m_000019 (and more) from job job_201308291142_4635

Examining task ID: task_201308291142_4635_m_000007 m(and more) from job job_201308291142_4635

Examining task ID: task_201308291142_4635_m_000009 (and more) from job job_201308291142_4635

Task with the most failures(5):

-----

Task ID:

task_201308291142_4635_m_000009

URL:

http://xxxxxxx:50030/taskdetails.jsp?jobid=job_201308291142_4635&tipid=task_201308291142_4635_m_000009

-----

Diagnostic Messages for this Task:

java.io.IOException: java.io.IOException: org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1555036314-10.115.5.16-1375773346340:blk_-2678705702538243931_541142 file=/user/hive/warehouse/playtime/dt=20131119/access_pt.log.2013111904.log

at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.java:121)

at org.apache.hadoop.hive.io.HiveIOExceptionHandlerUtil.handleRecordReaderNextException(HiveIOExceptionHandlerUtil.java:77)

at org.apache.hadoop.hive.shims.HadoopShimsSecure$CombineFileRecordReader.doNextWithExceptionHandler(HadoopShimsSecure.java:330)

at org.apache.hadoop.hive.shims.HadoopShimsSecure$CombineFileRecordReader.next(HadoopShimsSecure.java:246)

at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.moveToNext(MapTask.java:215)

at org.apache.hadoop.mapred.MapTask$TrackedRecordReader.next(MapTask.java:200)

at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:48)

at org.apache.hadoop.mapred.MapTask.runOldMa

Reson
Solution

　HDFS FILE

- If HDFS block is missing

1. confirm status

Confirm missing block is exit or not.

If missing block is over 1, file is not able to read.

$ hadoop dfsadmin -report

Configured Capacity: 411114887479296 (373.91 TB)

Present Capacity: 411091477784158 (373.89 TB)

DFS Remaining: 411068945908611 (373.87 TB)

DFS Used: 22531875547 (20.98 GB)

DFS Used%: 0.01%

Under replicated blocks: 0

Blocks with corrupt replicas: 0

Missing blocks: 0

-------------------------------------------------

Datanodes available: 20 (20 total, 0 dead)

2. detail block file

hadoop fsck

hadoop fsck / -files -blocks

...

Status: HEALTHY

Total size: 4056908575 B (Total open files size: 3505453 B)

Total dirs: 533

Total files: 15525 (Files currently being written: 2)

Total blocks (validated): 15479 (avg. block size 262091 B) (Total open file blocks (not validated): 2)

Minimally replicated blocks: 15479 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 3.0094967

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 20

Number of racks: 1

FSCK ended at Tue Nov 19 10:17:19 KST 2013 in 351 milliseconds

The filesystem under path '/' is HEALTHY

3. remove corrupted file

$ hadoop fsck -delete

.....

.........................Status: HEALTHY

Total size: 4062473881 B (Total open files size: 3505453 B)

Total dirs: 533

Total files: 15525 (Files currently being written: 2)

Total blocks (validated): 15479 (avg. block size 262450 B) (Total open file blocks (not validated): 2)

Minimally replicated blocks: 15479 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 3.0094967

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 20

Number of racks: 1

FSCK ended at Tue Nov 19 10:21:41 KST 2013 in 294 milliseconds

The filesystem under path '/' is HEALTHY

HIVE FILE

- If hive block is missing

alter table drop partition

hadoop 突然断电数据丢失问题的更多相关文章

Hadoop的由来、Block切分、进程详解
Hadoop的由来.Block切分.进程详解一.hadoop的由来 Google发布了三篇论文: GFS(Google File System) MapReduce(数据计算方法) BigTable ...
Linux实战教学笔记02:计算机系统硬件核心知识
标签(空格分隔):Linux实战教学笔记-陈思齐第1章互联网企业常见服务器介绍 1.1 互联网公司服务器品牌 - DELL(大多数公司,常用) - HP - IBM(百度在用) 浪潮联想航天联 ...
【Python全栈笔记】00 12-14 Oct Linux 和 Python 基础
Linux 基础认识更加稳定,安全,开源设置好ssh协议后可以通过windows系统连接Linux,基于ssh协议进行通信 '/' 为根目录 cd / -> 切换到根目录 ls -lh 列出 ...
Day1 - 服务器硬件基础
1.1 关于运维人员 1.1.1 运维的职责 1.保证服务器7*24小时运行 2.保证数据不能丢 3.提高用户的体验(网站打开的速度) 1.1.2 运维原则简单.易用.高效 === 简单.粗暴 ...
Ceph: A Scalable, High-Performance Distributed File System译文
原文地址:陈晓csdn博客 http://blog.csdn.net/juvxiao/article/details/39495037 论文概况论文名称:Ceph: A Scalable, High ...
memcached 缓存数据库应用实践
1.1 数据库对比缓存: 将数据存储到内存中,只有当磁盘胜任不了的时候,才会启用缓存缺点:断电数据丢失(双电),用缓存存储数据的目的只是为了应付大并发的业务. 数据库: mysql(关系型数据 ...
DDMS和程序打包过程
1. Android版本对应api级别 2.3~~~~~10 3.0~~~~~11 4.0~~~~~14 4.1.2~~~16 2.3和4.1.2是最稳定的 2.Android手机常见分辨率 320* ...
python编程基础--计算机原理之硬件基础
一.寄存器:寄存器是CPU内部用来存放数据的一些小型存储区域,用来暂时存放参与运算的数据和运算结果. 1.寄存器的特性: 1)寄存器位于CPU内部,数量很少,仅十四个: 2)寄存器所能存储的数据不一定 ...
Python--day01（计算机基础）
Python: python 是一门面向后台的编程语言,在大数据,数据分析,机器学习,人工智能,爬虫,自动化运维,web等方面具有强大功能. 基础阶段学习内容:基本语法,文件处理,函数,模块,面向对象 ...

随机推荐

select、epoll、twisted网络编程
select.poll和epoll的区别 select select最早于1983年出现在4.2BSD中,它通过一个select()系统调用来监视多个文件描述符的数组,当select()返回后,该数组 ...
delegate事件绑定
为了代码的健壮性,绑定事件之前先解绑再进行绑定. var _$div = $("#id");_$div.undelegate("click mouseover mouse ...
WebForm 简单控件、复合控件
简单控件: Label:被编译成span 样式表里设置lable的高度: display:inline-block; Text --文本 ForeColor --字体颜色 Visible -- ...
poj 2337 有向图输出欧拉路径
Catenyms Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 10186 Accepted: 2650 Descrip ...
BackgroundWorker控件
在我们的程序中,经常会有一些耗时较长的运算,为了保证用户体验,不引起界面不响应,我们一般会采用多线程操作,让耗时操作在后台完成,完成后再进行处理或给出提示,在运行中,也会时时去刷新界面上的进度条等显示 ...
window的git extensions保存密码
git extensions每次pull与push均要输入密码,为解决该问题,执行以下操作: win+r,在运行中输入:%USERPROFILE% 找到其中的.gitconfig文件,找到[crede ...
SQLServer语句汇总
SQL Server语句序号功能语句 1 创建数据库(创建之前判断该数据库是否存在) if exists (select * from sysdatabases where name='data ...
AngularJS学习--- AngularJS中的模板template和迭代器过滤filter step2 step3
1.AngularJS 模板---step2: mvc(Model-View-Controller)模式在后端用的比较多,在前端也是一样的常用; 在AngularJS中,一个视图是模型通过HTML模板 ...
github 项目版本控制
1.申请github账号 2.安装github for windows工具安装后就可以使用Git Bash打开特制的终端,在里面用来命令行了.喜欢Git命令行方式的朋友到这里就够了. 打开Git B ...
python py生成为pyc文件
生成单个pyc文件 python就是个好东西,它提供了内置的类库来实现把py文件编译为pyc文件,这个模块就是 py_compile 模块. 使用方法非常简单,如下所示,直接在idle中,就可以把一个 ...

hadoop 突然断电数据丢失问题

HDFS-Could not obtain block

hadoop 突然断电数据丢失问题的更多相关文章

随机推荐

热门专题