使用hadoop命令:hadoop fs -ls /hdfsapi/test  我们能够查看HDFS文件系统/hdfsapi/test目录下的所有文件信息

那么使用代码怎么写呢?直接先上代码:(这之后贴上去的代码怎么就全灰色了?....)

public class HDFSApp {

    public static final String HDFS_PATH = "hdfs://hadoop000:8020";
    FileSystem fileSystem = null;
    Configuration configuration = null;     @Before
    public void setUp() throws Exception{
        System.out.println("setUp-----------");
        configuration = new Configuration();
        configuration.set("dfs.replication","1");         /**
         * 构造一个访问制定HDFS系统的客户端对象
         * 第一个参数:HDFS的URI
         * 第二个参数:客户端制定的配置参数
         * 第三个参数:客户端的身份,说白了就是用户名
         */
        fileSystem = FileSystem.get(new URI(HDFS_PATH),configuration,"hadoop");
    }
  /**
* 查看目标文件夹下的所有文件
* @throws Exception
*/
@Test
public void listFiles() throws Exception{
FileStatus[] statuses = fileSystem.listStatus(new Path("/hdfsapi/test"));
for(FileStatus file : statuses){
String isDir = file.isDirectory() ? "文件夹" : "文件";
String permission = file.getPermission().toString();
short replication = file.getReplication();
long length = file.getLen();
String path = file.getPath().toString();
System.out.println(isDir + "\t" + permission + "\t" + replication + "\t" + length + "\t" + path);
}
}
   @After
    public void tearDown(){
        configuration = null;
        fileSystem = null;
        System.out.println("----------tearDown------");
    }
} 运行测试类:
setUp-----------
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
文件    rw-r--r--    3    14    hdfs://hadoop000:8020/hdfsapi/test/a.txt
文件    rw-r--r--    1    28    hdfs://hadoop000:8020/hdfsapi/test/c.txt
文件    rw-r--r--    1    181367942    hdfs://hadoop000:8020/hdfsapi/test/jdk.zip
文件    rw-r--r--    1    2732    hdfs://hadoop000:8020/hdfsapi/test/t.txt
文件夹    rwxr-xr-x    0    0    hdfs://hadoop000:8020/hdfsapi/test/testdir
----------tearDown------

首先我们找到fileSystem的listStatus方法,这个方法怎么用?还是那句话:哪里不会Ctrl点哪里。我们点进去能看到方法的源码信息,能够知道该方法的返回值是一个FileStatus[]数组类型,所要传入的参数是目标目录Path:

 /**
* List the statuses of the files/directories in the given path if the path is
* a directory.
* <p>
* Does not guarantee to return the List of files/directories status in a
* sorted order.
*列出给定路径中文件/目录的状态(如果路径为目录。不保证返回排序顺序。
* @param f given path
* @return the statuses of the files/directories in the given patch
* @throws FileNotFoundException when the path does not exist;
* IOException see specific implementation
*/
public abstract FileStatus[] listStatus(Path f) throws FileNotFoundException,
IOException;

既然返回的是一个数组类型,我们自然会想到用循环来遍历,但是FileStatus 这个又是什么呢?Ctrl点进去:

/** Interface that represents the client side information for a file.
*表示文件的客户端信息的接口。
*/
@InterfaceAudience.Public
@InterfaceStability.Stable
public class FileStatus implements Writable, Comparable { private Path path;
private long length;
private boolean isdir;
private short block_replication;
private long blocksize;
private long modification_time;
private long access_time;
private FsPermission permission;
private String owner;
private String group;
private Path symlink;

FileStatus这是一个表示文件的客户端信息的接口,贴上了一些类的成员变量,我们能从中知道这个里面包含了文件的这么多信息接口。自然就能够使用类里的方法进行访问取得文件的相关信息了。

测试成功,但是我们发现一个问题,就是这个方法就如hadoop fs -ls /hdfsapi/test 一样用户只能查看到当前目录下的文件信息,倘若文件夹test下还有文件夹testdir,testdir文件夹里还有文件就无法显示了,所以我们来看看怎么进行递归查看目标文件夹下的所有文件。

首先通过hadoop命令递归查看: hadoop fs -ls -R /hdfsapi/test    (赶紧试试去 recursive 递归)

那么通过代码怎么实现呢?

我们之前使用的是fileSystem下的listStatus方法,那么我们继续查看API有没有能够使用的,我们看到有一个方法是listFiles:

 /**
* List the statuses and block locations of the files in the given path.
* Does not guarantee to return the iterator that traverses statuses
* of the files in a sorted order.
*
* If the path is a directory,
* if recursive is false, returns files in the directory;
* if recursive is true, return files in the subtree rooted at the path.
* If the path is a file, return the file's status and block locations.
*
* @param f is the path
* @param recursive if the subdirectories need to be traversed recursively
*
* @return an iterator that traverses statuses of the files
*
* @throws FileNotFoundException when the path does not exist;
* IOException see specific implementation
*/
public RemoteIterator<LocatedFileStatus> listFiles(
final Path f, final boolean recursive)
throws FileNotFoundException, IOException {}

所以需要我们不仅善于查看API还要善于查找API。

于是递归查看目标文件夹下的所有文件代码这么写:

/**
* 递归查看目标文件夹下的所有文件
* @throws Exception
*/
@Test
public void listFilesRecursive() throws Exception{ RemoteIterator<LocatedFileStatus> files = fileSystem.listFiles(new Path("/hdfsapi/test"),true); while (files.hasNext()){
LocatedFileStatus file = files.next();
String isDir = file.isDirectory() ? "文件夹" : "文件";
String permission = file.getPermission().toString();
short replication = file.getReplication();
long length = file.getLen();
String path = file.getPath().toString();
System.out.println(isDir + "\t" + permission + "\t" + replication + "\t" + length + "\t" + path);
}
} 运行测试类:
setUp-----------
log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
文件 rw-r--r-- 3 14 hdfs://hadoop000:8020/hdfsapi/test/a.txt
文件 rw-r--r-- 1 28 hdfs://hadoop000:8020/hdfsapi/test/c.txt
文件 rw-r--r-- 1 181367942 hdfs://hadoop000:8020/hdfsapi/test/jdk.zip
文件 rw-r--r-- 1 2732 hdfs://hadoop000:8020/hdfsapi/test/t.txt
文件 rw-r--r-- 1 11 hdfs://hadoop000:8020/hdfsapi/test/testdir/h.txt
----------tearDown------

【HDFS API编程】查看目标文件夹下的所有文件、递归查看目标文件夹下的所有文件的更多相关文章

  1. 【HDFS API编程】jUnit封装-改写创建文件夹

    首先:什么是jUnit  回顾: https://www.cnblogs.com/Liuyt-61/p/10374732.html 上一节我们知道: /** * 使用Java API操作HDFS文件系 ...

  2. 【HDFS API编程】查看HDFS文件内容、创建文件并写入内容、更改文件名

    首先,重点重复重复再重复: /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)创建 Configuration * 2)获取 FileSystem * 3)...剩下的就是 ...

  3. 【HDFS API编程】第一个应用程序的开发-创建文件夹

    /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)创建 Configuration * 2)获取 FileSystem * 3)...剩下的就是 HDFS API的操作了*/ ...

  4. 【HDFS API编程】从本地拷贝文件,从本地拷贝大文件,拷贝HDFS文件到本地

    接着之前继续API操作的学习 CopyFromLocalFile: 顾名思义,从本地文件拷贝 /** * 使用Java API操作HDFS文件系统 * 关键点: * 1)create Configur ...

  5. HDFS API编程

    3.1常用类        3.1.1Configuration Hadoop配置文件的管理类,该类的对象封装了客户端或者服务器的配置(配置集群时,所有的xml文件根节点都是configuration ...

  6. 【HDFS API编程】开发环境搭建

    使用HDFS API的方式来操作HDFS文件系统 IDEA Java 使用Maven来管理项目 先打开IDEA,New Project 创建GAV然后next 默认使用的有idea内置的Maven,可 ...

  7. 【HDFS API编程】查看文件块信息

    现在我们把文件都存在HDFS文件系统之上,现在有一个jdk.zip文件存储在上面,我们想知道这个文件在哪些节点之上?切成了几个块?每个块的大小是怎么样?先上测试类代码: /** * 查看文件块信息 * ...

  8. 【HDFS API编程】删除文件

    所有操作都是以fileSystem为入口进行,我们使用fileSystem下的delete方法进行删除文件操作,删除的时候必须慎重. 直接上代码: /** * 删除文件 * @throws Excep ...

  9. 【HDFS API编程】图解客户端写文件到HDFS的流程

随机推荐

  1. tp3.2 D 和 M 的区别

    ThinkPHP 中M方法和D方法都用于实例化一个模型类,M方法 用于高效实例化一个基础模型类,而 D方法 用于实例化一个用户定义模型类. 使用M方法 如果是如下情况,请考虑使用 M方法: 对数据表进 ...

  2. Matlab rgb2hsv

    >> im = imread('lake.jpg');>> imshow(im)>> hsv_im = rgb2hsv(im);>> imshow(hs ...

  3. 认识Applet

    一.Applet 1.Applet的定义:Applet是采用Java编程语言编写的小应用程序,该程序可以包含在HTML(标准通用标记语言的一个应用)页中,与在页中包含图像的方式大致相同. Java写出 ...

  4. mysql5.7在windwos下的安装

    1. 下载mysql5.7的安装包 下载地址:https://dev.mysql.com/downloads/mysql/ 选择“Windows (x86, 64-bit), ZIP Archive” ...

  5. 文件及文件夹操作- File类、Directory 类、FileInfo 类、DirectoryInfo 类

    文件及文件夹操作: C/S:WinForm可以操作客户端文件 Client ServerB/S:Brower Server 命名空间:using system .IO; 1. File类: 创建:Fi ...

  6. Python变量和常量

    1.什么是变量 变量:核心在于变和量儿字,变->变化,量->状态如何定义? x=1 变量名 变量赋值符号:= 变量值:1 其中变量名又称为标识符: 1. 可以是字母,数字,下划线的任意组合 ...

  7. 【学习】C++多态机制

    多态:静态(早绑定) 在编译阶段和链接就能确定功能调用的函数.     动态(晚绑定) 在程序运行时根据需要的功能确定调用的函数. 实现晚绑定就要定义虚函数,使用虚函数则会用到基类指针. 继承基类虚成 ...

  8. CF300E. Empire Strikes Back

    题目链接(是的我越来越懒了..) 题目大意及数据范围: 数据范围很大.“最小”二字让我们考虑二分,但是上界...不会爆long long让你写高精吧? 我们可以发现,∑ai一定满足条件,所以上界是1e ...

  9. 做web开发的时候老是把颜色码忘记了,特地来写个博客,以后方便找。

    对照表 英文代码 形像颜色 HEX格式 RGB格式 LightPink 浅粉色 #FFB6C1 255,182,193 Pink 粉红 #FFC0CB 255,192,203 Crimson 猩红 # ...

  10. 运维wiki

    意识 1.责任心 要有 owner 意识.运维是线上产品的首要负责人,出现故障都默认是运维的故障,要推动改进. 2.细心 要有敏感的风险意识,稳定和安全是运维的最高责任 3.上进心 要善于学习,不断反 ...