HDFS的Java API
HDFS Java API 可以用于任何Java程序与HDFS交互,该API使我们能够从其他Java程序中利用到存储在HDFS中的数据,也能够使用其他非Hadoop的计算框架处理该数据
为了以编程方式与HDFS进行交互,首先需要得到当前配置文件系统的句柄,实例化一个Configuration对象,并获得一个Hadoop环境中的FileSystem句柄,它将指向当前环境的HDFS NameNode
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
FileSystem.create(filepath);方法会在指定的路径创建一个新的文件,并提供一个到新创建的文件的FSDataOutputStream对象;FSDataOutputStream封装了java.io.DataOutputStream,并允许程序向文件中写入基本Java数据类型;如果该文件存在FileSystem.create()方法会覆盖该文件
Path file = new Path("demo.txt");
FSDataOutputStream outStream = fs.create(file);
outStream.writeUTF("Welcome to HDFS Java API !!!");
outStream.close();
在该例子中,该文件将在HDFS中相对于用户的主目录进行创建,产生类似/user/user_name/demo.txt的路径
FileSyste.open(filePath)打开给定文件的FSDataInputStream,FSDataInputStream封装了java.io.DataInputStream,允许程序从文件中读取基本Java数据类型
FSDataInputStream inStream = fs.open(file);
String data = inStream.readUTF();
System.out.println(data);
inStream.close();
配置文件系统对象
可以在Hadoop的环境之外使用HDFS的Java API,这样做必须显示配置HDFS的NameNode和端口,以下是几种进行该项配置的方法:
在获得FileSystem对象之前加载Configuration对象的配置文件,需要确保所有的Hadoop和依赖库都添加在类路径中
Configuration conf = new Configuration();
conf.addResource(new Path(".../hadoop/conf/core-site.xml"));
conf.addResource(new Path(".../hadoop/conf/hdfs-site.xml"));
FileSystem fs = FileSystem.get(conf);
通过指定NameNode和端口,将NAMENODE_HOSTNAME和PORT替换为HDFS安装的NameNode的主机名和端口
Configuration conf = new Configuration();
conf.set("fs.default.name","hdfs://NAMENODE_HOSTNAME:PORT");
FileSystem fs = FileSystem.get(conf);
HDFS的文件系统API是一种支持多个文件系统的抽象,如果上述程序无法找到有效的HDFS配置,它将会指向本地文件系统,而不是HDFS,可以使用getUri()函数识别FileSystem对象的当前文件系统,在使用正确的HDFS配置文件的情况下,返回hdfs://your_namenode:port,在使用本地文件系统的情况下,则返回file:///
FileSystem fs = FileSystem.get(conf);
fs.getUri();
获取文件的数据块列表
FileSystem对象的getFileBlockLocations()函数,可以用来获取存储在HDFS中的文件数据块的列表,同时可以获取存储块的主机名和块的偏移量,如果计划使用Hadoop MapReduce之外的其他框架执行文件数据的任何数据本地化操作,那么这些信息非常有用
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path file = new Path("demo.txt");
FileStatus fileStatus = fs.getFileStatus(file);
eBlockLocations[]= blocks = fs.getFileBlockLocations(fileStatus,,fileStatus.getLen());
HDFS的Java API的更多相关文章
- HDFS中JAVA API的使用
HDFS中JAVA API的使用 HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的 ...
- Hadoop之HDFS(三)HDFS的JAVA API操作
HDFS的JAVA API操作 HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS ...
- Hadoop(五):HDFS的JAVA API基本操作
HDFS的JAVA API操作 HDFS在生产应用中主要是客户端的开发,其核心步骤是从HDFS提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 主 ...
- [转]HDFS中JAVA API的使用
HDFS是一个分布式文件系统,既然是文件系统,就可以对其文件进行操作,比如说新建文件.删除文件.读取文件内容等操作.下面记录一下使用JAVA API对HDFS中的文件进行操作的过程. 对分HDFS中的 ...
- Sample: Write And Read data from HDFS with java API
HDFS: hadoop distributed file system 它抽象了整个集群的存储资源,可以存放大文件. 文件采用分块存储复制的设计.块的默认大小是64M. 流式数据访问,一次写入(现支 ...
- 熟练掌握HDFS的Java API接口访问
HDFS设计的主要目的是对海量数据进行存储,也就是说在其上能够存储很大量文件(可以存储TB级的文件).HDFS将这些文件分割之后,存储在不同的DataNode上, HDFS 提供了两种访问接口:She ...
- 使用HDFS客户端java api读取hadoop集群上的信息
本文介绍使用hdfs java api的配置方法. 1.先解决依赖,pom <dependency> <groupId>org.apache.hadoop</groupI ...
- HDFS的java api操作
hdfs在生产应用中主要是针对客户端的开发,从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件. 搭建开发环境 方式一(windows环境下 ...
- IDEA 创建HDFS项目 JAVA api
1.创建quickMaven 1.在properties中写hadoop 的版本号并且通过EL表达式的方式映射到dependency中 2.写一个repostory将依赖加载到本地仓库中 这是加载完成 ...
随机推荐
- mysql中什么是逻辑备份
需求描述: mysql中,或者说关系型数据库中逻辑备份到底指的是什么呢,主要还是对于 概念的理解,在此记录下. 概念解释: 逻辑备份:主要指的是保存数据库的逻辑结构(比如:create dattaba ...
- 50个Android开发技巧(03 自己定义ViewGroup)
问题:怎样创建一个例如以下图所看到的的布局? 图1 (原文地址:http://blog.csdn.net/vector_yi/article/details/244155 ...
- Messages: java.lang.NullPointerExceptionFile: org/apache/jsp/test_jsp.javaLine number: 23
Messages: java.lang.NullPointerExceptionFile: org/apache/jsp/test_jsp.javaLine number: 23 . . . Caus ...
- C语言编程基础学习字符型数据的ASCII码值为何是负数?
C语言是面向过程的,而C++是面向对象的 C和C++的区别: C是一个结构化语言,它的重点在于算法和数据结构.C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现 ...
- ubuntu下code::blocks设置运行窗口为gnome命令行
code::blocks编译运行C++程序(F9)默认出现的运行串口在有鼠标的情况下进行粘贴还是很方便的,只要按下鼠标滑轮,位与剪切板中的数据就能粘贴到运行串口中.但是对于用笔记本而且没有鼠标地童鞋这 ...
- u盘装系统,u盘安装win7系统教程
http://www.upanboot.com/tool/anzhuang_win7.html 可以用本教程给笔记本.台式机.上网本和组装电脑通过U盘安装Win7系统. 步骤一.首先要准备一个至少8G ...
- ASP.NET 4.0尚未在Web服务器注册 解决
http://www.cnblogs.com/lvxiouzi/p/3511446.html 安装asp.net 4.0.30319.0版本 命令: %windir%\Microsoft.NET\Fr ...
- c++11——type_traits 类型萃取
一. c++ traits traits是c++模板编程中使用的一种技术,主要功能: 把功能相同而参数不同的函数抽象出来,通过traits将不同的参数的相同属性提取出来,在函数中利用这些用tr ...
- AVL 平衡树
AVL是一种平衡二叉树,它通过对二叉搜索树中的节点进行旋转使得二叉搜索树达到平衡.AVL在所有的平衡二叉搜索树中具有最高的平衡性. 定义 平衡二叉树或者为空树或者为满足如下性质的二叉搜索树: 左右子树 ...
- 解决报错:scandir() has been disabled for security reasons
服务器环境: LNMP 在服务器部署代码时候.遇到了这个问题. 蛋疼啊! 2 解决办法: 打开phpinfo.php , 搜索: scandir 找到disabled_function,确认此函数未 ...