HDFS的API操作

之前时用Shell的一写相关操作,集群内部操作。

我们希望在Windows环境对远程的集群进行一个客户端访问,现在就在Windows环境上写代码,写HDFS客户端代码,远程连接上集群,对它们进行增删改查相关操作。

客户端环境准备

1.下载windows支持的hadoop

2.配置环境变量

验证Hadoo环境变量是否正常,双击winutils.exe,没有报错就成功了。

3 在IDEA中创建一个Maven工程

Maven安装与配置

1.创建一个maven工程

2.setting设置maven

3.添加相关依赖

日志(打印日志时控制级别)、单元测试、hadoop(版本号一定要和集群中的一样)

 <dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.30</version>
</dependency>
</dependencies>

4.在项目的 src/main/resources 目录下,新建一个文件,命名为“log4j.properties”,为了打印日志,添加如下代码

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

5.在src/main/java下创建包名:com.ranan.hdfs

6.在该类下创建HdfsClient类

创建好了客户端类,接下来写代码操作远程的服务器集群

7.客户端去操作HDFS时,默认采用windows默认用户去访问HDFS,会报权限异常错误。所以在访问 HDFS 时,一定要配置用户。

org.apache.hadoop.security.AccessControlException: Permission denied: user=NINGMEI, access=WRITE, inode="/":ranan:supergroup:drwxr-xr-x

HDFS的API实例

1.获取一个客服端对象

2.执行相关的操作命令

3.关闭资源

用客户端远程创建目录

@Test
public void testmkdir() throws IOException, URISyntaxException, InterruptedException {
//连接集群的nn内部地址
URI uri = new URI("hdfs://hadoop102:8020");
//创建一个配置文件
Configuration configuration = new Configuration();
//用户
String user = "ranan";
//1.获取客户端对象 FileSystem抽象类
FileSystem fs = FileSystem.get(uri, configuration,user);
//2.执行相关操作 创建的文件路径
fs.mkdirs(new Path("/xiyou/huaguoshan"));
//3.关闭资源
fs.close();
}

下面会频繁的初始化、获取客服端对象以及关闭资源。所以把封装起来。

//因为是测试方法,所以使用befor,after。先执行befor在执行test最后after
public class HdfsClient {
private FileSystem fs;
@Before
public void init() throws URISyntaxException, IOException, InterruptedException {
//连接集群的nn内部地址
URI uri = new URI("hdfs://hadoop102:8020");
//创建一个配置文件
Configuration configuration = new Configuration();
//用户
String user = "ranan";
//1.获取客户端对象
fs = FileSystem.get(uri, configuration,user);
} @After
public void close() throws IOException {
//3.关闭资源
fs.close();
}
@Test
public void testmkdir() throws IOException { //2.执行相关操作
fs.mkdirs(new Path("/xiyou/huaguoshan")); }
}

HDFS用客户端上传文件copyFromLocalFile

@Test
public void testPut() throws IOException {
//2.执行相关操作
/*
参数1:删除原文件
参数2:HDFS上是否允许覆盖
参数3:原数据路径
参数4:目的路径
*/
fs.copyFromLocalFile(false,false,new Path("D:\\test.txt"),new Path("/")); }

参数优先级

优先级由低到高

hdfs-default.xml -> hdfs-site.xml -> 在项目资源目录下的配置文件 -> 代码里的配置

测试案例1

在resources下新建一个file——hdfs-site.xml

在hdfs-site.xml中修改副本数为1

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

副本数变成1了,说明 resources 资源目录下的hdfs-site.xml 优先级更高

测试案例2

在客户端代码中配置副本数

configuration.set("dfs.replication","2");

副本数变成2,说明代码里的配置优先级更高。

HDFS用客户端下载文件copyToLocalFile

编写代码

@Test
public void testGet() throws IOException {
//2.执行相关操作
/*
参数1:是否删除HDFS上的原文件
参数2:HDFS上原文件的路径
参数3:目的路径
参数4:是否开启本地文件的校验,在传输的过程中验证文件是否完整传输
*/
fs.copyToLocalFile(false,new Path("hdfs://hadoop102/test.txt"),new Path("D:"),true);
}

执行结果

HDFS用客户端删除文件delete

编写代码

@Test
public void testDel() throws IOException {
//2.执行相关操作
/*
参数1:HDFS上要删除的路径
参数2:是否递归删除 非空目录需要递归删除
*/
fs.delete(new Path("/xiyou"),true);
}

HDFS用客户端更名和移动文件rename

重命名代码

@Test
public void testMv() throws IOException {
//2.执行相关操作
/*
参数1:要修改的文件路径
参数2:移动的目的地,如果和原文件一个路径则修改名称
*/
fs.rename(new Path("/test.txt"),new Path("/test1.txt"));
}

移动代码

@Test
public void testMv() throws IOException {
//2.执行相关操作
/*
参数1:要修改的文件路径
参数2:移动的目的地,如果和原文件一个路径则修改名称
*/
fs.rename(new Path("/test1.txt"),new Path("/tmp/test.txt"));
}

HDFS用客服端查看文件详情listFiles

查看文件名称、权限、长度、块信息

代码

 @Test
public void fileDetail() throws IOException {
//2.执行相关操作
/*
参数1:查看文件的路径
参数2:递归
*/
// 获取所有文件信息,返回迭代器
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
// 遍历文件
while (listFiles.hasNext()) {
//每个文件相关信息
LocatedFileStatus fileStatus = listFiles.next();
//每个文件的路径
System.out.println("==========" + fileStatus.getPath() + "=========");
//每个文件的权限
System.out.println(fileStatus.getPermission());
//每个文件的所有者
System.out.println(fileStatus.getOwner());
//所属组
System.out.println(fileStatus.getGroup());
//文件大小
System.out.println(fileStatus.getLen());
//上次修改时间
System.out.println(fileStatus.getModificationTime());
//副本数
System.out.println(fileStatus.getReplication());
//块大小
System.out.println(fileStatus.getBlockSize());
//文件名称
System.out.println(fileStatus.getPath().getName()); // 获取块信息 [0(第一块数据从哪开始读),30(第一块数据读到哪里结束),hadoop102,hadoop103,hadoop104] 每个块的存储位置
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
System.out.println(Arrays.toString(blockLocations)); }
}

HDFS文件和文件夹判断listStatus

案例

循环遍历文件夹,判断该文件夹里的内容是文件还是目录

@Test
public void testFile() throws IOException {
//2.执行相关操作
/*
参数1:遍历的文件夹
*/
//得到/下的内容
FileStatus[] listStatus = fs.listStatus(new Path("/"));
for (FileStatus status : listStatus) {
//getPath().getName()获得文件/目录名
if (status.isFile()) {
System.out.println("文件:" + status.getPath().getName());
} else {
System.out.println("目录:" + status.getPath().getName());
} }
}

HDFS03 HDFS的API操作的更多相关文章

  1. 【Hadoop离线基础总结】HDFS的API操作

    HDFS的API操作 创建maven工程并导入jar包 注意 由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我 ...

  2. 客户端操作 2 HDFS的API操作 3 HDFS的I/O流操作

    2 HDFS的API操作 2.1 HDFS文件上传(测试参数优先级) 1.编写源代码 // 文件上传 @Test public void testPut() throws Exception { Co ...

  3. hadoop hdfs java api操作

    package com.duking.util; import java.io.IOException; import java.util.Date; import org.apache.hadoop ...

  4. HDFS常用API操作 和 HDFS的I/O流操作

    前置操作 创建maven工程,修改pom.xml文件: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xs ...

  5. 大数据学习之HDFS基本API操作(下)06

    hdfs文件流操作方法一: package it.dawn.HDFSPra; import java.io.BufferedReader; import java.io.FileInputStream ...

  6. 大数据学习之HDFS基本API操作(上)06

    package it.dawn.HDFSPra; import java.io.FileNotFoundException; import java.io.IOException; import ja ...

  7. HDFS Java API 常用操作

    package com.luogankun.hadoop.hdfs.api; import java.io.BufferedInputStream; import java.io.File; impo ...

  8. Hadoop学习记录(3)|HDFS API 操作|RPC调用

    HDFS的API操作 URL方式访问 package hdfs; import java.io.IOException; import java.io.InputStream; import java ...

  9. 三、hdfs的JavaAPI操作

    下文展示Java的API如何操作hdfs,在这之前你需要先安装配置好hdfs https://www.cnblogs.com/lay2017/p/9919905.html 依赖 你需要引入依赖如下 & ...

随机推荐

  1. DeWeb 与 Unigui的区别

    DeWeb 与 Unigui 相同: 都是采用Delphi开发网页的平台 不同: 1 DeWeb不需要安装控件, 而Unigui需要安装自己的控件 2 DeWeb无需要学习HTML/CSS/JavaS ...

  2. centos 下安装docker

    官方文档比较累赘,简化就三步 1.安装依赖 yum -y install gcc gcc-c++ yum-utils device-mapper-persistent-data lvm2 2.添加re ...

  3. SVN错误:Attempted to lock an already-locked dir svn: Working copy locked

    VN错误:Attempted to lock an already-locked dir update D:/workspace20/SC_200/metadata -r 3398 --force   ...

  4. 第二周PTA笔记 均等笔+旋转骰子+两个日期相差天数

    均等笔 n个人围成一圈,每人有ai支笔.每人可以向左右相邻的人传递笔,每人每次传递一支笔消耗的能量为1.求使所有人获得均等数量的笔的最小能量. 输入格式: 第一行一个整数n ,表示人的个数(30%的数 ...

  5. 菜鸡的Java笔记 java数据库编程(JDBC)

    java数据库编程(JDBC)        介绍 JDBC 的基本功能            content (内容)        现在几乎所有的项目开发过程之中都不可能离开数据库,所以在java ...

  6. Linux下编译tinyxml生成动态库

    首先去到sourceforge下载tinyxml的源码,https://sourceforge.net/projects/tinyxml/?source=dlp,最新版本是2.6.2. 将下载成功的t ...

  7. [hdu6984]Tree Planting

    构造一个01矩阵,其中格子$(i,j)$​​​​​对应于第$ik+j$​​个​​​的位置(其中$0\le i<\lceil\frac{n}{k}\rceil,0\le j<k$​​​,位置 ...

  8. [cf700D]Huffman Coding on Segment

    令$tot_{i}$为区间$[l,r]$中满足$a_{j}=i$的$j$的个数,将所有非0的$tot_{i}$取出,得到可重集$S$ 显然,有以下贪心:不断取出$S$中最小的两个元素,删除这两个元素并 ...

  9. [bzoj4652]循环之美

    对于一个分数x/y(x和y互素),在k进制下为纯循环当且仅当y和k互素证明:任意一个分数都可以写成0.abbbbbbbb的形式(不妨假设a尽量短),设a的位数为l1,b的位数为l2,那么原分数即$\f ...

  10. Electron快速入门

    node -v npm -v 安装node环境 my-electron-app/ ├── package.json ├── main.js └── index.html 为您的项目创建一个文件夹并安装 ...