Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

查询文件系统

文件元数据:FileStatus

FileStatus类封装了文件系统中文件和目录的元数据包括文件长度,块大小,副本,修改时间,所有者,权限信息
FileSystem的getFileStatus方法用于获取文件或目录的FileStatus对象
使用exists()方法检查文件或者目录是否存在

列出文件

使用FileSystem的listStatus()方法

public FileStatus[] listStatus(Path f) throws IOException

public FileStatus[] listStatus(Path f, PathFilter filter) throws IOException

public FileStatus[] listStatus(Path[] files) throws IOException

public FileStatus[] listStatus(Path[] files, PathFilter filter) throws IOException

传入的Path参数可以是一个文件,也可以是一个目录
允许使用PathFilter来限制匹配的文件和目录

显示Hadoop文件系统中一组路径的文件信息

代码

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.FileUtil;

import org.apache.hadoop.fs.Path;

import java.io.IOException;

import java.net.URI;

public class ListStatus {

    public static void main(String[] args) throws IOException {

        String uri = args[0];

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(URI.create(uri), conf);

        Path[] paths = new Path[args.length];

        for (int i=0; i < paths.length; ++i) {

            paths[i] = new Path(args[i]);

        }

        FileStatus[] status = fs.listStatus(paths);

        // stat2Path2方法将一个FileStatus对象数组转换为一个Path对象数组

        Path[] listedPaths = FileUtil.stat2Paths(status);

        for (Path p : listedPaths) {

            System.out.println(p);

        }

    }

}

编译

javac ListStatus.java

运行

hadoop ListStatus hdfs://localhost:9000/user/hadoop/input hdfs://localhost:9000/user/hadoop/output

文件模式

Hadoop为执行通配^[1]提供了两个FileSystem方法

public FileStatus[] globStatus(Path pathPattern) throws IOException

public FileStatus[] globStatus(Path pathPattern, PathFilter filter) throws IOException

globStatus()方法返回与其路径匹配于指定模式的所有文件的FileStatus对象数组,并按路径排序
PathFilter命令作为可选项可以进一步对匹配结果进行限制

Hadoop支持的通配符与Unix bash的相同

通配符	名称	匹配
*	星号	匹配0或多个字符
?	问号	匹配单一字符
[ab]	字符类	匹配{a,b}集合中的一个字符
[^ab]	非字符类	匹配非{a,b}集合中的一个字符
[a-b]	字符范围	匹配一个在a-b范围内的字符(包括a,b),a在字典顺序上要小于或等于b
[^a-b]	非字符范围	匹配一个不在a-b范围内的字符(包括a,b),a在字典顺序上要小于或等于b
{a,b}	或选择	匹配包含a或b中的一个的表达式
\c	转义字符	匹配元字符c

PathFilter对象

通配符模式并不总能描述我们想要访问的文件集
FileSystem中的listStatus() 和 globStatus() 方法提供了可选的 PathFilter 对象, 以编程方式控制通配符

  package org.apache.hadoop.fs;

  public interface PathFilter {

    boolean accept(Path path);

  }

pathFilter 和 java.io.FileFilter 一样,是 Path 对象, 而不是 File 对象

PathFilter用于排除匹配正则表达式的路径

代码

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.fs.PathFilter;

public class RegexExcludePathFilter implements PathFilter {

    private final String regex;

    public RegexExcludePathFilter(String regex) {

        this.regex = regex;

    }

    @Override

    public boolean accept(Path path) {

        return !path.toString().matches(regex);

    }

}

删除数据

使用 FileSystem 的 delete() 方法可以永久性删除文件或目录

public boolean delete(Path f, boolean recursive) throws IOException

如果f是一个文件或空目录, 那么 recursive 的值会被忽略
只有在 recursive 值为 true 时,非空目录及其内容才会被删除, 否则会抛出IOException异常

在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举每个文件和目录来指定输入,该操作称为"通配" ↩︎

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件的更多相关文章

Hadoop权威指南:数据完整性
Hadoop权威指南:数据完整性 [TOC] 常用的错误检测码是CRC-32(循环冗余校验) HDFS的数据完整性 HDFS会对写入的所有数据计算校验和,并在读取数据时验证校验和 datanode负责 ...
Hadoop权威指南:压缩
Hadoop权威指南:压缩 [TOC] 文件压缩的两个好处: 减少储存文件所需要的磁盘空间加速数据在网络和磁盘上的传输压缩格式总结: 压缩格式工具算法文件扩展名是否可切分 DEFLATE ...
Hadoop权威指南(中文版-带目录索引)pdf电子书
Hadoop权威指南(中文版-带目录索引)pdf电子书下载地址:百度网盘点击下载:链接:https://pan.baidu.com/s/1E-8eLaaqTCkKESNPDqq0jw 提取码:g6 ...
Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...
Hadoop权威指南:HDFS-写入数据
Hadoop权威指南:HDFS-写入数据 FileSystem类有一系列的新建文件的方法.最简单的方法是给准备建的文件指定一个Path对象,然后返回一个用于写入数据的输出流: public FSDat ...
Hadoop权威指南学习笔记三
HDFS简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考.有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.net/my ...
Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
Hadoop权威指南:从Hadoop URL读取数据
[TOC] Hadoop权威指南:从Hadoop URL读取数据使用java.net.URL对象从Hadoop文件系统读取文件实现类似linux中cat命令的程序文件名 HDFSCat.java ...
Hadoop权威指南:HDFS-数据流
Hadoop权威指南:HDFS-数据流 [TOC] 剖析文件读取客户端通过调用FileSystem对象的open()方法来打开希望读取的文件,对于HDFS来说, 这个对象是分布式文件系统的一个实例 ...

随机推荐

A tutorial that will show you how to build an instant messaging app with Sinch.
http://stackoverflow.com/questions/26247986/unsatisfiedlinkerror-couldnt-load-sinch-android-rtc-from ...
margin 相关 bug 系列
原文地址:margin系列之bug巡演 by @doyoe IE6浮动双倍margin bug 这当是IE6最为经典的bug之一. 触发方式元素被设置浮动元素在与浮动一致的方向上设置margin值 ...
常见的Js
//根据单独的值切换所有复选框 $("input[type='checkbox']").prop("checked", function( i, val ) { ...
mustache.js基本使用（一）
作者:zccst 模板已是第二次接触,第一次使用模板记得是在十分系统里渲染页面时使用,当时已做到熟练使用,但实际上仍不知道原因. 再次学习模板已不是从0开始,所以还算顺手,但毕竟还只限于使用,今天继续 ...
在阿里云ECS（CentOS6.5）上安装ftp
安装vsftpd 命令: yum install vsftpd –y 结果: 创建ftp存取文件的目录,用户名,密码命令: useradd -d /home/ftp -g ftp -s /sbin/ ...
iOS开发——设备信息小结（未完待续...）
1.获取设备的信息 UIDevice *device = [[UIDevice alloc] init]; NSString *name = device.name; //获取设备所有者 ...
ucos任务优先级从64到256,任务就绪表的改变
Ucos在任务调度中经常使用的技术为任务就绪表,在之前的文章中使用的例子是低于64个优先级的任务就绪表查找方法,现在ucos将任务扩展到256优先级之后,任务就绪表的查找也做了一定的修改,今天来讲讲 ...
js格式化时间戳
//js格式化时间戳,转换为时间格式 2017-1-15 4:10:15 function getLocalTime(nS) { var time = new Date(parseInt(nS) * ...
Delphi 内存与指针
源:Delphi 内存与指针 Delphi 的内存操作函数(1): 给字符指针分配内存 Delphi 的内存操作函数(2): 给数组指针分配内存 Delphi 的内存操作函数(3): 给结构体指针分配 ...
linux java.net.UnknownHostException异常
异常场景: 使用InetAddress.getLocalHost().getAddress(); 获取address byte数组.在windows上开发的时候,没有问题.部署到linux时报 jav ...

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件

目录

查询文件系统

文件元数据:FileStatus

列出文件

显示Hadoop文件系统中一组路径的文件信息

代码

编译

运行

文件模式

PathFilter对象

PathFilter用于排除匹配正则表达式的路径

代码

删除数据

Hadoop权威指南:HDFS-目录,查询文件系统,删除文件的更多相关文章

随机推荐

热门专题