掌握HDFS的Java API接口访问

HDFS设计的主要目的是对海量数据进行存储，也就是说在其上能够存储很大量文件（可以存储TB级的文件）。HDFS将这些文件分割之后，存储在不同的DataNode上， HDFS 提供了两种访问接口：Shell接口和Java API 接口，对HDFS里面的文件进行操作，具体每个Block放在哪台DataNode上面，对于开发者来说是透明的。

1、获取文件系统

 1 /**

 2  * 获取文件系统

 3  *

 4  * @return FileSystem

 5  */

 6 public static FileSystem getFileSystem() {

 7     //读取配置文件

 8     Configuration conf = new Configuration();

 9     // 文件系统

10     FileSystem fs = null;

11

12     String hdfsUri = HDFSUri;

13     if(StringUtils.isBlank(hdfsUri)){

14         // 返回默认文件系统  如果在 Hadoop集群下运行，使用此种方法可直接获取默认文件系统

15         try {

16             fs = FileSystem.get(conf);

17         } catch (IOException e) {

18             logger.error("", e);

19         }

20     }else{

21         // 返回指定的文件系统,如果在本地测试，需要使用此种方法获取文件系统

22         try {

23             URI uri = new URI(hdfsUri.trim());

24             fs = FileSystem.get(uri,conf);

25         } catch (URISyntaxException | IOException e) {

26             logger.error("", e);

27         }

28     }

29

30     return fs;

31 }

2、创建文件目录

 1 /**

 2  * 创建文件目录

 3  *

 4  * @param path

 5  */

 6 public static void mkdir(String path) {

 7     try {

 8         // 获取文件系统

 9         FileSystem fs = getFileSystem();

10

11         String hdfsUri = HDFSUri;

12         if(StringUtils.isNotBlank(hdfsUri)){

13             path = hdfsUri + path;

14         }

15

16         // 创建目录

17         fs.mkdirs(new Path(path));

18

19         //释放资源

20         fs.close();

21     } catch (IllegalArgumentException | IOException e) {

22         logger.error("", e);

23     }

24 }

3、删除文件或者文件目录

 1 /**

 2  * 删除文件或者文件目录

 3  *

 4  * @param path

 5  */

 6 public static void rmdir(String path) {

 7     try {

 8         // 返回FileSystem对象

 9         FileSystem fs = getFileSystem();

10

11         String hdfsUri = HDFSUri;

12         if(StringUtils.isNotBlank(hdfsUri)){

13             path = hdfsUri + path;

14         }

15

16         // 删除文件或者文件目录  delete(Path f) 此方法已经弃用

17         fs.delete(new Path(path),true);

18

19         // 释放资源

20         fs.close();

21     } catch (IllegalArgumentException | IOException e) {

22         logger.error("", e);

23     }

24 }

3、根据filter获取目录下的文件

 1 /**

 2  * 根据filter获取目录下的文件

 3  *

 4  * @param path

 5  * @param pathFilter

 6  * @return String[]

 7  */

 8 public static String[] ListFile(String path,PathFilter pathFilter) {

 9     String[] files = new String[0];

10

11     try {

12         // 返回FileSystem对象

13         FileSystem fs = getFileSystem();

14

15         String hdfsUri = HDFSUri;

16         if(StringUtils.isNotBlank(hdfsUri)){

17             path = hdfsUri + path;

18         }

19

20         FileStatus[] status;

21         if(pathFilter != null){

22             // 根据filter列出目录内容

23             status = fs.listStatus(new Path(path),pathFilter);

24         }else{

25             // 列出目录内容

26             status = fs.listStatus(new Path(path));

27         }

28

29         // 获取目录下的所有文件路径

30         Path[] listedPaths = FileUtil.stat2Paths(status);

31         // 转换String[]

32         if (listedPaths != null && listedPaths.length > 0){

33             files = new String[listedPaths.length];

34             for (int i = 0; i < files.length; i++){

35                 files[i] = listedPaths[i].toString();

36             }

37         }

38         // 释放资源

39         fs.close();

40     } catch (IllegalArgumentException | IOException e) {

41         logger.error("", e);

42     }

43

44     return files;

45 }

4、文件上传至 HDFS

 1 /**

 2  * 文件上传至 HDFS

 3  *

 4  * @param delSrc

 5  * @param overwrite

 6  * @param srcFile

 7  * @param destPath

 8  */

 9 public static void copyFileToHDFS(boolean delSrc, boolean overwrite,String srcFile,String destPath) {

10     // 源文件路径是Linux下的路径，如果在 windows 下测试，需要改写为Windows下的路径，比如D://hadoop/djt/weibo.txt

11     Path srcPath = new Path(srcFile);

12

13     // 目的路径

14     String hdfsUri = HDFSUri;

15     if(StringUtils.isNotBlank(hdfsUri)){

16         destPath = hdfsUri + destPath;

17     }

18     Path dstPath = new Path(destPath);

19

20     // 实现文件上传

21     try {

22         // 获取FileSystem对象

23         FileSystem fs = getFileSystem();

24         fs.copyFromLocalFile(srcPath, dstPath);

25         fs.copyFromLocalFile(delSrc,overwrite,srcPath, dstPath);

26         //释放资源

27         fs.close();

28     } catch (IOException e) {

29         logger.error("", e);

30     }

31 }

5、从 HDFS 下载文件

 1 /**

 2  * 从 HDFS 下载文件

 3  *

 4  * @param srcFile

 5  * @param destPath

 6  */

 7 public static void getFile(String srcFile,String destPath) {

 8     // 源文件路径

 9     String hdfsUri = HDFSUri;

10     if(StringUtils.isNotBlank(hdfsUri)){

11         srcFile = hdfsUri + srcFile;

12     }

13     Path srcPath = new Path(srcFile);

14

15     // 目的路径是Linux下的路径，如果在 windows 下测试，需要改写为Windows下的路径，比如D://hadoop/djt/

16     Path dstPath = new Path(destPath);

17

18     try {

19         // 获取FileSystem对象

20         FileSystem fs = getFileSystem();

21         // 下载hdfs上的文件

22         fs.copyToLocalFile(srcPath, dstPath);

23         // 释放资源

24         fs.close();

25     } catch (IOException e) {

26         logger.error("", e);

27     }

28 }

6、获取 HDFS 集群节点信息

 1 /**

 2  * 获取 HDFS 集群节点信息

 3  *

 4  * @return DatanodeInfo[]

 5  */

 6 public static DatanodeInfo[] getHDFSNodes() {

 7     // 获取所有节点

 8     DatanodeInfo[] dataNodeStats = new DatanodeInfo[0];

 9

10     try {

11         // 返回FileSystem对象

12         FileSystem fs = getFileSystem();

13

14         // 获取分布式文件系统

15         DistributedFileSystem hdfs = (DistributedFileSystem)fs;

16

17         dataNodeStats = hdfs.getDataNodeStats();

18     } catch (IOException e) {

19         logger.error("", e);

20     }

21     return dataNodeStats;

22 }

7、查找某个文件在 HDFS集群的位置

 1 /**

 2  * 查找某个文件在 HDFS集群的位置

 3  *

 4  * @param filePath

 5  * @return BlockLocation[]

 6  */

 7 public static BlockLocation[] getFileBlockLocations(String filePath) {

 8     // 文件路径

 9     String hdfsUri = HDFSUri;

10     if(StringUtils.isNotBlank(hdfsUri)){

11         filePath = hdfsUri + filePath;

12     }

13     Path path = new Path(filePath);

14

15     // 文件块位置列表

16     BlockLocation[] blkLocations = new BlockLocation[0];

17     try {

18         // 返回FileSystem对象

19         FileSystem fs = getFileSystem();

20         // 获取文件目录

21         FileStatus filestatus = fs.getFileStatus(path);

22         //获取文件块位置列表

23         blkLocations = fs.getFileBlockLocations(filestatus, 0, filestatus.getLen());

24     } catch (IOException e) {

25         logger.error("", e);

26     }

27     return blkLocations;

28 }

8、文件重命名

 1 /**

 2  * 文件重命名

 3  *

 4  * @param srcPath

 5  * @param dstPath

 6  */

 7 public boolean rename(String srcPath, String dstPath){

 8     boolean flag = false;

 9     try    {

10         // 返回FileSystem对象

11         FileSystem fs = getFileSystem();

12

13         String hdfsUri = HDFSUri;

14         if(StringUtils.isNotBlank(hdfsUri)){

15             srcPath = hdfsUri + srcPath;

16             dstPath = hdfsUri + dstPath;

17         }

18

19         flag = fs.rename(new Path(srcPath), new Path(dstPath));

20     } catch (IOException e) {

21         logger.error("{} rename to {} error.", srcPath, dstPath);

22     }

23

24     return flag;

25 }

9、判断目录是否存在

 1 /**

 2  * 判断目录是否存在

 3  *

 4  * @param srcPath

 5  * @param dstPath

 6  */

 7 public boolean existDir(String filePath, boolean create){

 8     boolean flag = false;

 9

10     if (StringUtils.isEmpty(filePath)){

11         return flag;

12     }

13

14     try{

15         Path path = new Path(filePath);

16         // FileSystem对象

17         FileSystem fs = getFileSystem();

18

19         if (create){

20             if (!fs.exists(path)){

21                 fs.mkdirs(path);

22             }

23         }

24

25         if (fs.isDirectory(path)){

26             flag = true;

27         }

28     }catch (Exception e){

29         logger.error("", e);

30     }

31

32     return flag;

33 }

10 查看HDFS文件的最后修改时间

public void testgetModifyTime() throws Exception {
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);
Path dst = new Path(hdfsPath);
FileStatus files[] = hdfs.listStatus(dst);
for (FileStatus file : files) {
System.out.println(file.getPath() + "\t"
+ file.getModificationTime());
System.out.println(file.getPath() + "\t"
+ new Date(file.getModificationTime()));
}

// 查看HDFS文件是否存在
public void testExists() throws Exception {
Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);
Path dst = new Path(hdfsPath + "file01.txt");
boolean ok = hdfs.exists(dst);
System.out.println(ok ? "文件存在" : "文件不存在");
}

// 获取HDFS集群上所有节点名称
public void testGetHostName() throws Exception {
Configuration conf = new Configuration();
DistributedFileSystem hdfs = (DistributedFileSystem) FileSystem
.get(conf);
DatanodeInfo[] dataNodeStats = hdfs.getDataNodeStats();
for (DatanodeInfo dataNode : dataNodeStats) {
System.out.println(dataNode.getHostName() + "\t"
+ dataNode.getName());
}
}

掌握HDFS的Java API接口访问的更多相关文章

熟练掌握HDFS的Java API接口访问
HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件).HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:She ...
Hadoop之HDFS（三）HDFS的JAVA API操作
HDFS的JAVA API操作 HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS ...
Hadoop（五）：HDFS的JAVA API基本操作
HDFS的JAVA API操作 HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 主 ...
HDFS中JAVA API的使用
HDFS中JAVA API的使用 HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的 ...
HDFS的Java API
HDFS Java API 可以用于任何Java程序与HDFS交互,该API使我们能够从其他Java程序中利用到存储在HDFS中的数据,也能够使用其他非Hadoop的计算框架处理该数据为了以编程方式 ...
API接口访问频次限制 / 网站恶意爬虫限制 / 网站恶意访问限制方案
API接口访问频次限制 / 网站恶意爬虫限制 / 网站恶意访问限制方案采用多级拦截,后置拦截的方式体系化解决 1 分层拦截 1.1 第一层商业web应用防火墙(WAF) 直接用商业服务传统的F ...
将JAVA API接口改写成 Python
AsinSeedApi 不写注释的程序员-加密将JAVA API接口改写成 Python JAVA import com.alibaba.fastjson.JSON; import com.ali ...
Postman如何通过xmysql工具的Restful API 接口访问MySQL
GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源. 导语有时候用 Postman 接口测试需要获取MySQL的查询结果做接口输出的校验,这里介绍下 Postman 通过 R ...
Hadoop HDFS Basic JAVA API
org.apache.hadoop.fs.FileSystem 是HDFS的文件系统抽象,在分布式系统中管理HDFS文件和目录.文件内容存储在由多个相同大小的块(如64M)构成的datanode节 ...

随机推荐

[算法]打印N个数组的整体最大Top K
题目: 有N个长度不一的数组,所有的数组都是有序的,请从大到小打印这N个数组整体最大的前K个数. 例如: 输入含有N行元素的二维数组代表N个一维数组. 219,405,538,845,971 148, ...
Mysql视图使用总结
视图View使用总结: 视图可以看作为“虚拟表”,因为它返回的结果集格式与实体数据表返回的数据集格式类似,并且引用视图的方式与引用数据表的方式相同.每次查询使用视图时,DBMS会动态生成视图结果集所需 ...
linux 软件包的命名规则
linux软件包的命名规则 eg:主包 bind-9.7.1-1.el7.i586.rpm 子包 bind-libs-9.7.1-1.el7.i586.rpm bind-utils-9. ...
计算机_网络_01_配置IE代理
一.配置代理 1.打开代理设置打开chrome浏览器设置->高级设置->系统->打开代理设置 2.打开局域网设置 Internet属性->连接->局域网设置 3.配置代 ...
SQL的CASE表达式用法
case 表达式从SQL-92标准开始引入,因此是不依赖于具体的数据库技术,可提高SQL代码的可移植性. case表达式注意事项: 1. 统一各个分支返回数据类型,并保证各个when字句的排他性,因为 ...
log4j No appenders could be found for logger
在main中加一句:BasicConfigurator.configure();
设计模式之《建造者模式（Builder）》
#ifndef __BUILDER_MODEL__ #define __BUILDER_MODEL__ #include <string> #include <vector> ...
xml字符串转xml对象,xml对象转json对象
xml字符串转xml对象: function loadXml(str) { if (str == null) { return null; } var doc = str; try{ doc = cr ...
python suds 调用webservice 缓存
在linux系统中如果webservice更新了字段 suds调用有可能缓存以前的字段或方法,对新的字段报找不到类型 TypeNotFound,或者对新加的方法找不到该方法的错误. 当更新或添加w ...
bzoj1208Splay
Splay查前驱后继小tips:在bzoj上while(scanf)这种东西可以让程序多组数据一起跑反正没加我就t了 #include<cstdio> #include<iost ...

掌握HDFS的Java API接口访问

掌握HDFS的Java API接口访问的更多相关文章

随机推荐

热门专题