使用Java API操作HDFS文件系统
使用Junit封装HFDS
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import java.net.URI;
/**
* 使用Java API操作HDFS文件系统
*/
public class HDFSApp {
public static final String HDFS_PATH = "hdfs://localhost:9000";
Configuration conf = null;
FileSystem fs = null;
@Before
public void open() throws Exception{
System.out.println("连接HDFS...");
conf = new Configuration();
// 副本系数为1,配置文件只对shell生效
conf.set("dfs.replication","1");
/**
* 构造一个访问指定HDFS文件系统的客户端对象
* 第一个参数: HDFS的URI
* 第二个参数: 客户端指定的配置参赛
* 第三个参数: 客户端的身份,说白了就是用户名
*/
fs = FileSystem.get(new URI(HDFS_PATH),conf,"hadoop");
}
@After
public void close() throws Exception{
conf = null;
fs = null;
System.out.println("注销连接...");
}
}
创建HDFS文件夹
/**
* 创建HDFS文件夹
*/
@Test
public void mkdir() throws Exception{
fs.mkdirs(new Path("input"));
}
文件上传
/**
* 文件上传
*/
@Test
public void copyFromLocalFile() throws Exception{
fs.copyFromLocalFile(new Path("/home/hadoop/word.txt"),
new Path("input/word.txt"));
}
文件下载
/**
* 文件下载
*/
@Test
public void copyToLocalFile() throws Exception{
fs.copyToLocalFile(new Path("input/word.txt"),
new Path("/home/hadoop/word2.txt"));
}
查看HDFS文件内容
/**
* 查看HDFS文件内容
*/
@Test
public void catFileText() throws Exception{
FSDataInputStream in = fs.open(new Path("input/word.txt"));
IOUtils.copyBytes(in,System.out,1024);
}
列出指定文件夹下的所有内容
/**
* 列出指定文件夹下的所有内容
*/
@Test
public void listFile() throws Exception{
FileStatus[] listStatus = fs.listStatus(new Path("input"));
for (FileStatus file : listStatus) {
String isDir = file.isDirectory()?"文件夹":"文件";
String permission = file.getPermission().toString();
short replication = file.getReplication();
long len = file.getLen();
String path = file.getPath().toString();
// 输出信息
System.out.println(isDir+"\t"+permission+"\t"+
replication+"\t"+len+"\t"+path);
}
}
递归列出指定文件夹下的所有文件(夹)信息
/**
* 递归列出指定文件夹下的所有文件(夹)信息
*/
@Test
public void listAllFiles() throws Exception{
RemoteIterator<LocatedFileStatus> files = fs.listFiles(new Path("input"),true);
while (files.hasNext()){
LocatedFileStatus file = files.next();
// 获取信息
String isDir = file.isDirectory()?"文件夹":"文件";
String permission = file.getPermission().toString();
short replication = file.getReplication();
long len = file.getLen();
String path = file.getPath().toString();
// 输出信息
System.out.println(isDir+"\t"+permission+"\t"+
replication+"\t"+len+"\t"+path);
}
}
创建HDFS文件,并写入内容
/**
* 创建HDFS文件,并写入内容
*/
@Test
public void create() throws Exception{
FSDataOutputStream out = fs.create(new Path("input/a.txt"));
out.writeUTF("Hello,HDFS!");
out.flush();
out.close();
}
刪除文件/文件夾
/**
* 刪除文件/文件夾
*/
@Test
public void deleteFile() throws Exception{
// true递归删除文件夹,false不删除文件夹,文件则无所谓
fs.delete(new Path("input"),true);
}
HDFS重命名
/**
* HDFS重命名
*/
@Test
public void rename() throws Exception{
fs.rename(new Path("input/word.txt"),new Path("input/input.txt"));
}
列出文件块信息
/**
* 列出文件块信息
*/
@Test
public void getFileBlockLocations() throws Exception{
FileStatus fileStatus = fs.getFileStatus(new Path("input/word.txt"));
BlockLocation[] blocks = fs.getFileBlockLocations(fileStatus, 0,
fileStatus.getLen());
for (BlockLocation block : blocks) {
// 获取文件块名字(多个,被切分)
for (String name:block.getNames()) {
System.out.println(name+":"+block.getOffset()+":"+block.getLength());
}
}
}
使用Java API操作HDFS文件系统的更多相关文章
- Hadoop Java API操作HDFS文件系统(Mac)
1.下载Hadoop的压缩包 tar.gz https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/stable/ 2.关联jar包 在 ...
- 使用Java Api 操作HDFS
如题 我就是一个标题党 就是使用JavaApi操作HDFS,使用的是MAVEN,操作的环境是Linux 首先要配置好Maven环境,我使用的是已经有的仓库,如果你下载的jar包 速度慢,可以改变Ma ...
- hadoop学习笔记(五):java api 操作hdfs
HDFS的Java访问接口 1)org.apache.hadoop.fs.FileSystem 是一个通用的文件系统API,提供了不同文件系统的统一访问方式. 2)org.apache.hadoop. ...
- 使用java api操作HDFS文件
实现的代码如下: import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import ...
- Hadoop之HDFS(三)HDFS的JAVA API操作
HDFS的JAVA API操作 HDFS 在生产应用中主要是客户端的开发,其核心步骤是从 HDFS 提供的 api中构造一个 HDFS 的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS ...
- HDFS 05 - HDFS 常用的 Java API 操作
目录 0 - 配置 Hadoop 环境(Windows系统) 1 - 导入 Maven 依赖 2 - 常用类介绍 3 - 常见 API 操作 3.1 获取文件系统(重要) 3.2 创建目录.写入文件 ...
- JAVA API 实现hdfs文件操作
java api 实现hdfs 文件操作会出现错误提示: Permission denied: user=hp, access=WRITE, inode="/":hdfs:supe ...
- Java API实现Hadoop文件系统增删改查
Java API实现Hadoop文件系统增删改查 Hadoop文件系统可以通过shell命令hadoop fs -xx进行操作,同时也提供了Java编程接口 maven配置 <project x ...
- 大数据-09-Intellij idea 开发java程序操作HDFS
主要摘自 http://dblab.xmu.edu.cn/blog/290-2/ 简介 本指南介绍Hadoop分布式文件系统HDFS,并详细指引读者对HDFS文件系统的操作实践.Hadoop分布式文件 ...
随机推荐
- Nginx部署静态页
简答说一下如何用Nginx部署静态网页,并绑定域名访问 1.通过FTP上传静态页到服务器指定目录 2.编写nginx的.conf文件 3.重启nginx 如图,这是centos上传文件路径 nginx ...
- Monkey参数介绍
monkey 参数 参数分类 常规类参数 事件类参数 约束类参数 调试类参数 常规类参数 常规类参数包括帮助参数和日志信息参数.帮助参数用于输出Monkey命令使用指导:日志信息参数将日志分为三个级别 ...
- 清北学堂part1
睡眠质量相当高的一天(滑稽) 整一整都学了啥 1:高精度(相当水,毕竟学过) 2:模运算(?! 这还要讲?) 3:快速幂(还要谢一位学习高数时间为我们讲解的同学...不得不说真的有效,快速幂已经是随手 ...
- CSS伪类整理笔记
0 伪元素 虚拟的一个元素,用于向已有的元素添加特殊效果,可用标签元素实现该效果. css3中规定:伪元素的由两个冒号::开头,然后是伪元素的名称.用两个冒号::是为了区别伪类和伪元素(CSS2中并没 ...
- 使用Flink实现索引数据到Elasticsearch
使用Flink实现索引数据到Elasticsearch 2018-07-28 23:16:36 Yanjun 使用Flink处理数据时,可以基于Flink提供的批式处理(Batch Proce ...
- Oracle Database 快捷版 安装 连接
Oracle Database 快捷版 11g 第 2 版 下载地址:http://www.oracle.com/technetwork/cn/database/database-technologi ...
- 分享4个运维平台工具OSSIM、Ansible的学习思路
对于当今企业安全来说,真正价值不在于亡羊补牢,也不在于一个或多个高危漏洞.企业在乎的是如何防患于未然,如何快速定位攻击,如何快速解决安全问题.OSSIM作为开源的安全信息管理平台,对于企业的需求来说毋 ...
- python实现加密
1.md5加密 hashlib 库中包括如SHA1.SHA224.SHA256.SHA384.SHA512和MD5算法等 >>> import hashlib>>> ...
- openstack项目【day23】:keystone组件基础
本节内容 一 什么是keystone 二 为何要有keystone 三 keystone的功能 四 keystone概念详解 五 keystone内包含的组件 六 keystone与openstack ...
- java BIO/NIO/AIO 学习
一.了解Unix网络编程5种I/O模型 1.1.阻塞式I/O模型 阻塞I/O(blocking I/O)模型,进程调用recvfrom,其系统调用直到数据报到达且被拷贝到应用进程的缓冲区中或者发生错误 ...