HDFS Java API 可以用于任何Java程序与HDFS交互,该API使我们能够从其他Java程序中利用到存储在HDFS中的数据,也能够使用其他非Hadoop的计算框架处理该数据
为了以编程方式与HDFS进行交互,首先需要得到当前配置文件系统的句柄,实例化一个Configuration对象,并获得一个Hadoop环境中的FileSystem句柄,它将指向当前环境的HDFS NameNode
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);

FileSystem.create(filepath);方法会在指定的路径创建一个新的文件,并提供一个到新创建的文件的FSDataOutputStream对象;FSDataOutputStream封装了java.io.DataOutputStream,并允许程序向文件中写入基本Java数据类型;如果该文件存在FileSystem.create()方法会覆盖该文件

Path file = new Path("demo.txt");
FSDataOutputStream outStream = fs.create(file);
outStream.writeUTF("Welcome to HDFS Java API !!!");
outStream.close();

在该例子中,该文件将在HDFS中相对于用户的主目录进行创建,产生类似/user/user_name/demo.txt的路径
FileSyste.open(filePath)打开给定文件的FSDataInputStream,FSDataInputStream封装了java.io.DataInputStream,允许程序从文件中读取基本Java数据类型

FSDataInputStream inStream = fs.open(file);
String data = inStream.readUTF();
System.out.println(data);
inStream.close();

配置文件系统对象

可以在Hadoop的环境之外使用HDFS的Java API,这样做必须显示配置HDFS的NameNode和端口,以下是几种进行该项配置的方法:
在获得FileSystem对象之前加载Configuration对象的配置文件,需要确保所有的Hadoop和依赖库都添加在类路径中

Configuration conf = new Configuration();
conf.addResource(new Path(".../hadoop/conf/core-site.xml"));
conf.addResource(new Path(".../hadoop/conf/hdfs-site.xml"));
FileSystem fs = FileSystem.get(conf);

通过指定NameNode和端口,将NAMENODE_HOSTNAME和PORT替换为HDFS安装的NameNode的主机名和端口

Configuration conf = new Configuration();
conf.set("fs.default.name","hdfs://NAMENODE_HOSTNAME:PORT");
FileSystem fs = FileSystem.get(conf);

HDFS的文件系统API是一种支持多个文件系统的抽象,如果上述程序无法找到有效的HDFS配置,它将会指向本地文件系统,而不是HDFS,可以使用getUri()函数识别FileSystem对象的当前文件系统,在使用正确的HDFS配置文件的情况下,返回hdfs://your_namenode:port,在使用本地文件系统的情况下,则返回file:///

FileSystem fs = FileSystem.get(conf);
fs.getUri();

获取文件的数据块列表

FileSystem对象的getFileBlockLocations()函数,可以用来获取存储在HDFS中的文件数据块的列表,同时可以获取存储块的主机名和块的偏移量,如果计划使用Hadoop MapReduce之外的其他框架执行文件数据的任何数据本地化操作,那么这些信息非常有用

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path file = new Path("demo.txt");
FileStatus fileStatus = fs.getFileStatus(file);
eBlockLocations[]= blocks = fs.getFileBlockLocations(fileStatus,,fileStatus.getLen());

HDFS的Java API的更多相关文章

  1. HDFS中JAVA API的使用

    HDFS中JAVA API的使用   HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的 ...

  2. Hadoop之HDFS(三)HDFS的JAVA API操作

    HDFS的JAVA API操作 HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS ...

  3. Hadoop(五):HDFS的JAVA API基本操作

    HDFS的JAVA API操作 HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 主 ...

  4. [转]HDFS中JAVA API的使用

    HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的 ...

  5. Sample: Write And Read data from HDFS with java API

    HDFS: hadoop distributed file system 它抽象了整个集群的存储资源,可以存放大文件. 文件采用分块存储复制的设计.块的默认大小是64M. 流式数据访问,一次写入(现支 ...

  6. 熟练掌握HDFS的Java API接口访问

    HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件).HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:She ...

  7. 使用HDFS客户端java api读取hadoop集群上的信息

    本文介绍使用hdfs java api的配置方法. 1.先解决依赖,pom <dependency> <groupId>org.apache.hadoop</groupI ...

  8. HDFS的java api操作

    hdfs在生产应用中主要是针对客户端的开发,从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 搭建开发环境 方式一(windows环境下 ...

  9. IDEA 创建HDFS项目 JAVA api

    1.创建quickMaven 1.在properties中写hadoop 的版本号并且通过EL表达式的方式映射到dependency中 2.写一个repostory将依赖加载到本地仓库中 这是加载完成 ...

随机推荐

  1. VS2010属性表的建立与灵活运用

    问题引入:在VS2010当中,进行opencv.QT等的编程时,总是需要配置很多属性还有依赖项等,为了减少每次都重复配置属性的工作量,现在可以运行属性表这个东西来简化配置.opencv也可以这样建立使 ...

  2. Credential

    https://www.cnblogs.com/Hawk-Hong/p/4293651.html 在项目开发,我们经常会使用WebService,但在使用WebService时我们经常会考虑以下问题: ...

  3. JavaScript------自定义string.replaceAll()方法

    代码:: 注意:原始的replace()方法只能替换第一个字符串check String.prototype.replaceAll = function (s1, s2) { return this. ...

  4. Ext3.4--TreeGridDemo

    <%@ Page Language="C#" AutoEventWireup="true" CodeBehind="CategoryProper ...

  5. laravel 模版引擎使用

    laravel 模版引擎以 @标签 开头,以 @end标签 结尾,常用有 foreach foreachelse if for while等 1)foreach 和 foreachelse 差不到,区 ...

  6. Python 进阶(三)面向对象编程基础

    aaarticlea/png;base64,iVBORw0KGgoAAAANSUhEUgAAAkMAAAFGCAIAAADmfgziAAAgAElEQVR4nOx993vT1v7/93/5EEt2Eg

  7. Triton调试记录

    先编译Release版本 先从下拉列表选择Release-MT-DLL,然后选中Triton-vc14工程, 修改项目属性配置为Release-MT-DLL-NODX,NODX的意思是不使用Direc ...

  8. 编写一个读写倾斜测量数据.s3c文件格式的OSG插件osgdb_s3c

    VS新建一个空的DLL工程 ReaderWriterS3C.cpp源文件 #include <osg/Notify> #include <osgDB/FileNameUtils> ...

  9. MongoDB复制集原理

    版权声明:本文由孔德雨原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/136 来源:腾云阁 https://www.qclo ...

  10. 微信Android热补丁实践演进之路

    版权声明:本文由张绍文原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/81 来源:腾云阁 https://www.qclou ...