HDFS 分布式写入问题 AlreadyBeingCreatedException

进行追加文件时出现AlreadyBeingCreatedException错误

堆栈信息大致如下：

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException): Failed to create file [/secsight/log2//p0001] for [DFSClient_NONMAPREDUCE_200580206_1756] for client [192.168.10.117], because this file is already being created by [DFSClient_NONMAPREDUCE_-2109133545_2516] on [192.168.10.117]

    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.recoverLeaseInternal(FSNamesystem.java:)

    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.appendFileInternal(FSNamesystem.java:)

    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.appendFileInt(FSNamesystem.java:)

    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.appendFile(FSNamesystem.java:)

    at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.append(NameNodeRpcServer.java:)

    at org.apache.hadoop.hdfs.server.namenode.AuthorizationProviderProxyClientProtocol.append(AuthorizationProviderProxyClientProtocol.java:)

    at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.append(ClientNamenodeProtocolServerSideTranslatorPB.java:)

    at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$.callBlockingMethod(ClientNamenodeProtocolProtos.java)

    at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:)

    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:)

    at org.apache.hadoop.ipc.Server$Handler$.run(Server.java:)

    at org.apache.hadoop.ipc.Server$Handler$.run(Server.java:)

    at java.security.AccessController.doPrivileged(Native Method)

    at javax.security.auth.Subject.doAs(Subject.java:)

    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:)

    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:)

    at org.apache.hadoop.ipc.Client.call(Client.java:)

    at org.apache.hadoop.ipc.Client.call(Client.java:)

    at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:)

    at com.sun.proxy.$Proxy9.append(Unknown Source)

    at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.append(ClientNamenodeProtocolTranslatorPB.java:)

    at sun.reflect.GeneratedMethodAccessor27.invoke(Unknown Source)

    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:)

    at java.lang.reflect.Method.invoke(Method.java:)

    at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:)

    at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:)

    at com.sun.proxy.$Proxy10.append(Unknown Source)

    at org.apache.hadoop.hdfs.DFSClient.callAppend(DFSClient.java:)

    at org.apache.hadoop.hdfs.DFSClient.append(DFSClient.java:)

    at org.apache.hadoop.hdfs.DFSClient.append(DFSClient.java:)

    at org.apache.hadoop.hdfs.DistributedFileSystem$.doCall(DistributedFileSystem.java:)

    at org.apache.hadoop.hdfs.DistributedFileSystem$.doCall(DistributedFileSystem.java:)

    at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:)

    at org.apache.hadoop.hdfs.DistributedFileSystem.append(DistributedFileSystem.java:)

    at org.apache.hadoop.fs.FileSystem.append(FileSystem.java:)

    at com.ultrapower.hdfs.HdfsUtils.appendFile(HdfsUtils.java:)

    at com.ultrapower.secsight.Runner.lambda$main$(Runner.java:)

    at java.lang.Thread.run(Thread.java:)

目前得到的可能原因：

　　多进程进行同一文件的写入在HDFS中是可能引发这种错误的。

　　hadoop 的dfs里边有个lease manager 维护了文件path －> lease和 DFSClient name -> lease -> path (多个) 的映射关系，我估计是这个lease的问题，看下是不是被close（），而未来的及释放的lease造成的。

可能引起该错误的代码：https://www.programcreek.com/java-api-examples/index.php?api=org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException

/** Test two consecutive appends on a file with a full block. */

@Test

public void testAppendTwice() throws Exception {

  Configuration conf = new HdfsConfiguration();

  MiniDFSCluster cluster = new MiniDFSCluster.Builder(conf).build();

  final FileSystem fs1 = cluster.getFileSystem();

  final FileSystem fs2 = AppendTestUtil.createHdfsWithDifferentUsername(conf);

  try {

    final Path p = new Path("/testAppendTwice/foo");

    final int len =  << ;

    final byte[] fileContents = AppendTestUtil.initBuffer(len);

    {

      // create a new file with a full block.

      FSDataOutputStream out = fs2.create(p, true, , (short), len);

      out.write(fileContents, , len);

      out.close();

    }

    //1st append does not add any data so that the last block remains full

    //and the last block in INodeFileUnderConstruction is a BlockInfo

    //but not BlockInfoUnderConstruction.

    fs2.append(p);

    //2nd append should get AlreadyBeingCreatedException

    fs1.append(p);

    Assert.fail();

  } catch(RemoteException re) {

    AppendTestUtil.LOG.info("Got an exception:", re);

    Assert.assertEquals(AlreadyBeingCreatedException.class.getName(),

        re.getClassName());

  } finally {

    fs2.close();

    fs1.close();

    cluster.shutdown();

  }

}

https://issues.apache.org/jira/browse/HDFS-11367

https://issues.apache.org/jira/browse/HDFS-7203

HDFS 分布式写入问题 AlreadyBeingCreatedException的更多相关文章

【使用时发生的意外】HDFS 分布式写入问题 AlreadyBeingCreatedException
进行追加文件时出现AlreadyBeingCreatedException错误堆栈信息大致如下: org.apache.hadoop.ipc.RemoteException(org.apache.h ...
Hadoop HDFS分布式文件系统设计要点与架构
Hadoop HDFS分布式文件系统设计要点与架构 Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析
通过Thrift访问HDFS分布式文件系统的性能瓶颈分析引言 Hadoop提供的HDFS布式文件存储系统,提供了基于thrift的客户端访问支持,但是因为Thrift自身的访问特点,在高并发的访问情 ...
Hadoop HDFS分布式文件系统常用命令汇总
引言:我们维护hadoop系统的时候,必不可少需要对HDFS分布式文件系统做操作,例如拷贝一个文件/目录,查看HDFS文件系统目录下的内容,删除HDFS文件系统中的内容(文件/目录),还有HDFS管理 ...
认识HDFS分布式文件系统
1.设计基础目标 (1) 错误是常态,需要使用数据冗余 (2)流式数据访问.数据批量读而不是随机速写,不支持OLTP,hadoop擅长数据分析而不是事物处理. (3)文件采用一次性写多次读的模型, ...
我理解中的Hadoop HDFS分布式文件系统
一,什么是分布式文件系统,分布式文件系统能干什么在学习一个文件系统时,首先我先想到的是,学习它能为我们提供什么样的服务,它的价值在哪里,为什么要去学它.以这样的方式去理解它之后在日后的深入学习中才能 ...
大数据基础总结---HDFS分布式文件系统
HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metad ...
hdfs(分布式文件系统)优缺点
hdfs(分布式文件系统) 优点支持超大文件支持超大文件.超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件.一般来说hadoop的文件系统会存储TB级别或者PB级别的数据.所以在企业的应 ...
02 HDFS 分布式环境实战
HDFS的主要设计理念 1.存储超大文件这里的“超大文件”是指几百MB.GB甚至TB级别的文件. 2.最高效的访问模式是一次写入.多次读取(流式数据访问)3.运行在普通廉价的服务器上 HDFS设计 ...

随机推荐

ASP.NET MVC5+EF6+EasyUI 后台管理系统（86）-日程管理-fullcalendar插件用法
前言本文分享fullcalendar用法,最后面提供代码下载说到日程管理,基于JQuery的插件FullCalendar当之无愧,完整的API稳定和调用方式,非常易于扩展!可以用于系统的个人历程管 ...
TOMCAT闪退。cmd执行startup.bat保错：the CATALINA_HOME environment variable is not defined correctly
从上图可以看出是我们没有设置CATALINA_HOME变量于是我设置了这个变量之后 ,再次重启,ok了
C# 爬虫 Jumony html解析
前言前几天写了个爬虫,然后认识到了自己的不足.感谢 "倚天照海- -" ,我通过你推荐的文章,意外的发现了html解析的类库——Jumony. 研究了2天,我发现这个东西简单粗暴 ...
MongoDB三节点高可用模式安装
设备: 三个1G.20G.1核的虚拟机,系统是SentOS7 min 清除原始自数据目录: rm -fr /home/mongosingle/ 创建目录: mkdir -p /home/mongosi ...
Linux io Model
socket阻塞与非阻塞,同步与异步作者:huangguisu 1. 概念理解在进行网络编程时,我们常常见到同步(Sync)/异步(Async),阻塞(Block)/非阻塞(Unblock)四种调 ...
九九乘法表实现---基于python
# coding:utf-8"""九九乘法表"""for k in range(1,10): for i in range(1,k+1 ...
JavaScript: 使用 atan2 来绘制箭头和曲线
最近搞Canvas绘图,知道了JavaScript中提供了atan2(y,x)这样一个三角函数.乍眼一看,不认识,毕竟在高中时,学过的三角函数有:sin,cos,arcsin,arccos,tan,a ...
2017 ACM-ICPC（乌鲁木齐赛区）网络赛 H.Skiing 拓扑排序＋最长路
H.Skiing In this winter holiday, Bob has a plan for skiing at the mountain resort. This ski resort h ...
关于JS正则——你知道多少？
正则表达式 1. 使用正则创建正则表达式有两种方式,一种是以字面量方式创建,另一种是使用RegExp构造函数来创建. var expression = / pattern / flags; var ...
yum的初步了解与使用
什么是yum Yum(Yellow dog Updater,Modified)是一个基于RPM包管理的字符前端软件包管理器.能够从指定的服务器自动下载RPM包并且安装,可解决软件包相关依赖性,并且一次 ...

HDFS 分布式写入问题 AlreadyBeingCreatedException

HDFS 分布式写入问题 AlreadyBeingCreatedException的更多相关文章

随机推荐

热门专题