Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　fs.listFiles方法，返回LocatedFileStatus的迭代器，自带递归。但是它是继承于FileStatus的，而且构建函数是FileStatus的文件版，即LocaledFileStatus只能列出文件。接下来我我们一起看看这两个方法的用法。

一.listStatus方法

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.day01.note1;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FSDataInputStream;

 import org.apache.hadoop.fs.FileStatus;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IOUtils;

 import java.io.FileOutputStream;

 import java.io.IOException;

 public class HdfsDemo2 {

     public static void main(String[] args) throws IOException {

         list();

         System.out.println("======  我是分割线  ========");

         tree("/shell");

     }

     //查看指定路径的树形结构，类似于Linux的tree命令。

     private static void tree(String srcPath) throws IOException {

         //由于我的Hadoop完全分布式根目录对yinzhengjie以外的用户(尽管是root用户也没有写入权限哟！因为是hdfs系统，并非Linux系统！)没有写入

         // 权限，所以需要手动指定当前用户权限。使用“HADOOP_USER_NAME”属性就可以轻松搞定！

         System.setProperty("HADOOP_USER_NAME","yinzhengjie");

         //实例化一个Configuration，它会自动去加载本地的core-site.xml配置文件的fs.defaultFS属性。(该文件放在项目的resources目录即可。)

         Configuration conf = new Configuration();

         //代码的入口点，初始化HDFS文件系统，此时我们需要把读取到的fs.defaultFS属性传给fs对象。

         FileSystem fs = FileSystem.get(conf);

         //这个path是指是需要在文件系统中写入的数据,里面的字符串可以写出“hdfs://s101:8020/shell”，但由于core-site.xml配置

         // 文件中已经有“hdfs://s101:8020”字样的前缀，因此我们这里可以直接写相对路径即可

         Path path = new Path(srcPath);

         //通过fs的listStatus方法获取一个指定path的所有文件信息(status)，因此我们需要传入一个hdfs的路径，返回的是一个filStatus数组

         FileStatus[] fileStatuses = fs.listStatus(path);

         for (FileStatus fileStatus : fileStatuses) {

             //判断当前迭代对象是否是目录

             if (fileStatus.isDirectory()){

                 String dirPath = fileStatus.getPath().toString();

                 System.out.println("文件夹名:" + fileStatus.getPath());

                 tree(dirPath);

             }else {

                 System.out.println("文件名:" + fileStatus.getPath());

             }

         }

     }

     //查看指定路径下的所有文件

     private static void list() throws IOException {

         //由于我的Hadoop完全分布式根目录对yinzhengjie以外的用户(尽管是root用户也没有写入权限哟！因为是hdfs系统，并非Linux系统！)没有写入

         // 权限，所以需要手动指定当前用户权限。使用“HADOOP_USER_NAME”属性就可以轻松搞定！

         System.setProperty("HADOOP_USER_NAME","yinzhengjie");

         //实例化一个Configuration，它会自动去加载本地的core-site.xml配置文件的fs.defaultFS属性。(该文件放在项目的resources目录即可。)

         Configuration conf = new Configuration();

         //代码的入口点，初始化HDFS文件系统，此时我们需要把读取到的fs.defaultFS属性传给fs对象。

         FileSystem fs = FileSystem.get(conf);

         //这个path是指是需要在文件系统中写入的数据,里面的字符串可以写出“hdfs://s101:8020/shell”，但由于core-site.xml配置

         // 文件中已经有“hdfs://s101:8020”字样的前缀，因此我们这里可以直接写相对路径即可

         Path path = new Path("/shell");

         //通过fs的listStatus方法获取一个指定path的所有文件信息(status)，因此我们需要传入一个hdfs的路径，返回的是一个filStatus数组

         FileStatus[] fileStatuses = fs.listStatus(path);

         for (FileStatus fileStatus : fileStatuses) {

             //判断当前迭代对象是否是目录

             boolean isDir = fileStatus.isDirectory();

             //获取当前文件的绝对路径

             String fullPath = fileStatus.getPath().toString();

             System.out.println("isDir:" + isDir + ",Path:" + fullPath);

         }

     }

 }

 /*

 以上代码执行结果如下：

 isDir:true,Path:hdfs://s101:8020/shell/awk

 isDir:true,Path:hdfs://s101:8020/shell/grep

 isDir:true,Path:hdfs://s101:8020/shell/sed

 isDir:false,Path:hdfs://s101:8020/shell/yinzhengjie.sh

 ======  我是分割线  ========

 文件夹名:hdfs://s101:8020/shell/awk

 文件名:hdfs://s101:8020/shell/awk/keepalive.sh

 文件名:hdfs://s101:8020/shell/awk/nginx.conf

 文件夹名:hdfs://s101:8020/shell/grep

 文件名:hdfs://s101:8020/shell/grep/1.txt

 文件名:hdfs://s101:8020/shell/grep/2.txt

 文件夹名:hdfs://s101:8020/shell/sed

 文件名:hdfs://s101:8020/shell/sed/nagios.sh

 文件名:hdfs://s101:8020/shell/sed/zabbix.sql

 文件名:hdfs://s101:8020/shell/yinzhengjie.sh

  */

二.listFiles方法

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.day01.note1;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.*;

 import org.apache.hadoop.io.IOUtils;

 import java.io.FileOutputStream;

 import java.io.IOException;

 public class HdfsDemo3 {

     public static void main(String[] args) throws IOException {

         autoList("/shell");

     }

     //定义方法下载文件到本地

     private static void autoList(String path) throws IOException {

         //实例化一个Configuration，它会自动去加载本地的core-site.xml配置文件的fs.defaultFS属性。(该文件放在项目的resources目录即可。)

         Configuration conf = new Configuration();

         //代码的入口点，初始化HDFS文件系统，此时我们需要把读取到的fs.defaultFS属性传给fs对象。

         FileSystem fs = FileSystem.get(conf);

         //通过fs的listFiles方法可以自动实现递归(自带递归)列出文件类型，返回的是一个远程可迭代对象,需要传入两个参数，第一个参数是服务器路径，第二个参数是否递归

         RemoteIterator<LocatedFileStatus> iterator = fs.listFiles(new Path(path), true);

         while (iterator.hasNext()){

             LocatedFileStatus fileStatus = iterator.next();

             Path fullPath = fileStatus.getPath();

             System.out.println(fullPath);

         }

     }

 }

 /*

 以上代码执行结果如下：

 hdfs://s101:8020/shell/awk/keepalive.sh

 hdfs://s101:8020/shell/awk/nginx.conf

 hdfs://s101:8020/shell/grep/1.txt

 hdfs://s101:8020/shell/grep/2.txt

 hdfs://s101:8020/shell/sed/nagios.sh

 hdfs://s101:8020/shell/sed/zabbix.sql

 hdfs://s101:8020/shell/yinzhengjie.sh

  */

Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法的更多相关文章

pytorch基础（4）-----搭建模型网络的两种方法
方法一:采用torch.nn.Module模块 import torch import torch.nn.functional as F #法1 class Net(torch.nn.Module): ...
Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
Hadoop基础-HDFS的API常见操作
Hadoop基础-HDFS的API常见操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记, 方便自己以后查看.在调用API ...
Hadoop基础-HDFS集群中大数据开发常用的命令总结
Hadoop基础-HDFS集群中大数据开发常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...
Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
Hadoop基础-HDFS的读取与写入过程剖析
Hadoop基础-HDFS的读取与写入过程剖析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客会简要介绍hadoop的写入过程,并不会设计到源码,我会用图和文字来描述hdf ...
Hadoop基础-HDFS的API实现增删改查
Hadoop基础-HDFS的API实现增删改查作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客开发IDE使用的是Idea,如果没有安装Idea软件的可以去下载安装,如何安装 ...
Hadoop基础-HDFS安全管家之Kerberos实战篇
Hadoop基础-HDFS安全管家之Kerberos实战篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们都知道hadoop有很多不同的发行版,比如:Apache Hadoop ...
Hadoop基础-HDFS的读取与写入过程
Hadoop基础-HDFS的读取与写入过程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 为了了解客户端及与之交互的HDFS,NameNode和DataNode之间的数据流是什么样 ...

随机推荐

VirtualBox安装增强功能
一.安装依赖包 #yum install kernel-headers #yum install kernel-devel #yum install gcc* #yum install make 二. ...
Leetcode题库——9.回文数
@author: ZZQ @software: PyCharm @file: HuiWenShu.py @time: 2018/9/16 16:51 要求:判断一个整数是否是回文数.回文数是指正序(从 ...
经验分享（Android开发）
以前对于Android开发一点了解都没有,当然,以前觉得是一件很高大上的事情,而且是我没有能力去做的工作,但是在这个小组合作开发Android后,我觉得我有了很大的进步,当然我的进步也是Android ...
Alpha 冲刺报告3
队名 massivehard 组员一(组长:晓辉) 今天完成了哪些任务 .整理昨天的两个功能,补些bug 写了一个初步的loyaut github 还剩哪些任务: 后台的用来处理自然语言的服务器还没架 ...
C# 正则提取字符串（提取一个或多个）
实例一:string result = ""; string str = "大家好! <User EntryTime='2010-10-7' Email='zhan ...
Selenium_IDE的基本使用及脚本解析
Selenium确实还是很强大的.根据我以往的经验,这个东西在web测试里的作用还是相当大的.经过近期研究,暂时对基本运作方式有了一定了解,依旧找个实例记录一下.本段脚本实现的是网易返现个人中心登录 ...
[转帖]从HTTP/0.9到HTTP/2：一文读懂HTTP协议的历史演变和设计思路
从HTTP/0.9到HTTP/2:一文读懂HTTP协议的历史演变和设计思路 http://www.52im.net/thread-1709-1-2.html 本文原作者阮一峰,作者博客:r ...
springboot学习笔记-3 整合redis&mongodb
一.整合redis 1.1 建立实体类 @Entity @Table(name="user") public class User implements Serializable ...
NOI2017 退役记
OI生涯最后一篇游记写点不开心的让大家开心一下 Day -2(7.16) 上午的模拟赛奥妙重重. 下午也没怎么改题,看了一些新题,发现都不会,都看了下题解,发现大部分没看懂,好慌. 发现板子还没怎么复 ...
使用SQLyog连接MySQL数据库
[学习笔记]使用SQLyog连接MySQL数据库一.使用SQLyog创建数据库用来管理学生信息复制代码 1 #创建数据库student 2 DROP DATABASE IF EXISTS Mys ...

Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法

Hadoop基础-HDFS递归列出文件系统-FileStatus与listFiles两种方法的更多相关文章

随机推荐

热门专题