hdfs的FileSystem实例化

前言

在spark中通过hdfs的java接口并发写文件出现了数据丢失的问题，一顿操作后发现原来是FileSystem的缓存机制。补一课先

FileSystem实例化

FileSystem.get(config)是如何创建一个hadoop的FileSystem。

分为3个步骤。

1.  初始化所有支持的FileSystem（没有实例话，只是缓存类）

2.  通过uri的scheme拿到相应FileSystem

3.  缓存机制（如果不关闭的话，默认是开启）

下面详细分析一下各步骤流程

1.   初始化

通过java提供的ServiceLoader来录入所有可能的FileSystem，就像这样

ServiceLoader<FileSystem> serviceLoader = ServiceLoader.load(FileSystem.class);

for (FileSystem fs : serviceLoader) {

  SERVICE_FILE_SYSTEMS.put(fs.getScheme(), fs.getClass());

}

待初始化的类通过配置文件声明，配置可以在hadoop-hdfs.jar里找到

捎带一嘴，java提供的ServiceLoader有点像乞丐版spring的依赖反转。

2.scheme

通过对Uri的解析来判断创建一个什么FileSystem，

例如

hdfs://master:9200/test的scheme就是hdfs。

然后通过scheme和已经缓存好的FileSystem映射，找到需要实例化的类。

例如scheme是hdfs，那么就会创建一个DistributedFileSystem。

3. 缓存

FileSystem类中有一个Cache内部类，用于缓存已经被实例化的FileSystem。注意这个跟连接池还是有区别的，Cache中的缓存只是一个map，可以被多个线程拿到。这就会有一个问题，当你多线程同时get FileSystem的时候，可能返回的是同一个对象。所以切记，在多线程场景中，不要随意调用FileSystem.close，你关的连接可能会影响到其他正在使用的线程。

注意：当你在其他框架上拿fileSystem对象需要额外注意，例如在spark上进行 FileSystem.get()，如果你想自定义某些配置，设置hdfs的副本数(dfs.replication) 之类，你必须在configuration中关闭FileSystem的缓存机制，也就是设置

configuration.set("fs.hdfs.impl.disable.cache","true")

这很重要，因为你不确定spark是否在你之前创建了一个FileSystem，而你得到的可能不是你想要的。

参考资料

// 遇到的相同问题

https://www.darkal.cn/2017/03/filesystem-get%E4%BB%8E%E7%BC%93%E5%AD%98cache%E4%B8%AD%E8%8E%B7%E5%BE%97%E8%BF%9E%E6%8E%A5%E5%AF%BC%E8%87%B4%E7%9A%84%E9%97%AE%E9%A2%98/

hdfs的FileSystem实例化的更多相关文章

FileSystem实例化过程
HDFS案例代码 Configuration configuration = new Configuration(); FileSystem fileSystem = FileSystem.get(n ...
4、记录1----获取hdfs上FileSystem的方法记录2：正则匹配路径：linux、hdfs
/** * 获取hadoop相关配置信息 * @param hadoopConfPath 目前用户需要提供hadoop的配置文件路径 * @return */ public static Config ...
HDFS之FileSystem
package cn.hx.test; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; impo ...
kafka-connect-hdfs连接hadoop hdfs时候，竟然是单点的，太可怕了。。。果断改成HA
2017-08-16 11:57:28,237 WARN [org.apache.hadoop.hdfs.LeaseRenewer][458] - <Failed to renew lease ...
Hadoop（五）：HDFS的JAVA API基本操作
HDFS的JAVA API操作 HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 主 ...
HDFS中Java的API使用测试
import java.io.IOException; import java.util.Arrays; import java.util.Date; import java.util.Scanner ...
Hadoop HDFS编程 API入门系列之从本地上传文件到HDFS（一）
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs5; import java.io.IOException; import ja ...
HDFS文件系统基本文件命令、编程读写HDFS
基本文件命令: 格式为:hadoop fs -cmd <args> cmd的命名通常与unix对应的命令名相同.例如,文件列表命令: hadoop fs -ls 1.添加目录和文件 HDF ...
HDFS操作--文件上传/创建/删除/查询文件信息
1.上传本地文件到HDFS //上传本地文件到HDFS public class CopyFile { public static void main(String[] args) { try { C ...

随机推荐

Spring整合JUnit4进行AOP单元测试的时候，报："C:\Program Files\Java\jdk1.8.0_191\bin\java.exe" -ea -Didea.test.cyclic.buffer.size=1048576 "-javaagent:C:\Program Files\JetBrains\IntelliJ IDEA 2018.3\lib\idea_rt.jar=64
错误代码 "C:\Program Files\Java\jdk1.8.0_191\bin\java.exe" -ea -Didea.test.cyclic.buffer.size= ...
Websocket - Websocket原理（握手、解密、加密）、基于Python实现简单示例
一.Websocket原理(握手.解密.加密) WebSocket协议是基于TCP的一种新的协议.WebSocket最初在HTML5规范中被引用为TCP连接,作为基于TCP的套接字API的占位符.它实 ...
具体解释linux下的串口通讯开发
串行口是计算机一种经常使用的接口,具有连接线少.通讯简单,得到广泛的使用.经常使用的串口是RS-232-C接口(又称EIA RS-232-C)它是在1970年由美国电子工业协会(EIA)联合贝尔系统. ...
windows 最大支持线程数
WINDOWS操作系统中可以允许最大的线程数默认情况下,一个线程的栈要预留1M的内存空间而一个进程中可用的内存空间只有2G,所以理论上一个进程中最多可以开2048个线程但是内存当然不可能完全拿来 ...
查看Oracle的表中有哪些索引及其禁用索引
查看Oracle中表的索引是否存在用user_indexes和user_ind_columns系统表查看已经存在的索引对于系统中已经存在的索引我们可以通过以下的两个系统视图(user_indexe ...
wordpress 自己制作子主题 child theme
使用 WordPress 的子主题(Child Themes)功能快速制作自己的主题在了解子主题功能之前,先来看一下你在使用 WordPress 的时候是否是这样:不会自己制作主题,只好从网上下载一 ...
SIP UserAgent (B2BUA client)——linphonec
1.linphone编译 linphone一般用在android/ios/windows/mobile上,但是没有图形界面的linphonec命令行程序用在资源紧张的硬件平台上也跟pjsip命令行一样 ...
Jmeter(八)Jmeter监控tomcat
1.配置tomcat的配置文件conf/tomcat-users.xml 2. 在“线程组”上右键“添加”--“配置元件”--“HTTP授权管理器”,这里主要是让JMeter能够通过Tomcat的基本 ...
SDUT3143:Combinatorial mathematics(组合数学）
题意:传送门题目描述 As you know, shadow95 is pretty good at maths, especially combinatorial mathematics. Now ...
推荐系统第6周--- SVD和基于标签的推荐系统
“隐语义”的真正背景 LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerweste ...

hdfs的FileSystem实例化

前言

FileSystem实例化

hdfs的FileSystem实例化的更多相关文章

随机推荐

热门专题