Hadoop基础-HDFS的API常见操作

　　　　　　　　　　　　　　　　　　　　Hadoop基础-HDFS的API常见操作

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　本文主要是记录一写我在学习HDFS时的一些琐碎的学习笔记，方便自己以后查看。在调用API的时候，可能会需要maven依赖，添加依赖的包如下：

 <?xml version="1.0" encoding="UTF-8"?>

 <project xmlns="http://maven.apache.org/POM/4.0.0"

          xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

          xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <parent>

         <artifactId>HADOOP</artifactId>

         <groupId>yinzhengjie.org.cn</groupId>

         <version>1.0-SNAPSHOT</version>

     </parent>

     <modelVersion>4.0.0</modelVersion>

     <artifactId>HDFS</artifactId>

     <dependencies>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-common</artifactId>

             <version>2.6.0</version>

         </dependency>

         <dependency>

             <groupId>org.apache.hadoop</groupId>

             <artifactId>hadoop-client</artifactId>

             <version>2.6.0</version>

         </dependency>

         <dependency>

             <groupId>junit</groupId>

             <artifactId>junit</artifactId>

             <version>4.11</version>

             <scope>test</scope>

         </dependency>

     </dependencies>

 </project>

一.HDFS获取文件系统

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import java.io.IOException;

public class HdfsClient {

    public static void main(String[] args) throws IOException {

        initHDFS();

    }

    //获取文件系统

    public static  void initHDFS() throws IOException{

        //创建Configuration对象

        Configuration conf = new Configuration();

//获取文件系统

        FileSystem fs = FileSystem.get(conf);

        //打印文件系统到控制台

        System.out.println(fs);

    }

}

二.HDFS文件上传

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        putFileToHDFSinitHDFS();

    }

    //文件上传

    public static  void putFileToHDFSinitHDFS() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //在代码中配置副本数,优先级最高，其次是配置文件的优先级，最后才是hdfs集群默认的副本数

        conf.set("dfs.replication","2");

        //获取文件系统，注意传入的三个参数对应的是hdfs的链接地址（需要将集群的客户端配置文件放在RESOURCES目录下！），配置对象，以及提交权限的用户名称。

        FileSystem fs = FileSystem.get(new URI("hdfs://yinzhengjie-hdfs-ha"),conf,"hdfs");

        /**

         * 当然，传入hdfs的url也可以指定主机名,当然你得在操作系统的hosts文件中指定对应的IP地址信息！

         *    FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

         */

        //上传文件到hdfs路径中

        fs.copyFromLocalFile(new Path("D:\\yinzhengjie\\data\\yinzhengjie.txt"),new Path("/yinzhengjie/yinzhengjie.blog"));

    }

}

三.HDFS文件下载

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        getFileFromHDFS();

    }

    //下载文件

    public static void getFileFromHDFS() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

        FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        /**

         * 指定下载操作，下面是对该copyToLocalFile的参数说明

         *      第一个参数：boolean delSrc    -------> 指是否将源文件删除

         *      第二个参数：Path src     -------> 指定下载的文件路径

         *      第三个参数：Path dst     -------> 指定文件下载到的路径

         *      第四个参数： boolean useRawLocalFileSystem -------> 指是否开启文件校验

         */

        fs.copyToLocalFile(false,new Path("/yinzhengjie/yinzhengjie.blog"),new Path("D:\\yinzhengjie\\data"),true);

        //关闭链接，释放资源

        fs.close();

    }

}

四.HDFS目录创建

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        mkdirAtHDFS();

    }

    //在hdfs中创建文件夹

    public static void mkdirAtHDFS() throws Exception{

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

         System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

         //创建Configuration对象

         Configuration conf = new Configuration();

         //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

         FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

         //创建目录

        fs.mkdirs(new Path("/yinzhengjie/2018/11/04"));

        //释放资源

        fs.close();

    }

}

五.HDFS文件夹删除

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        deleteAtHDFS();

    }

    //删除文件或者文件夹

    public static void deleteAtHDFS() throws Exception{

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

         FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //执行删除操作，第一个参数指定的是删除路径，第二个参数表示是否递归删除。要注意的是，如果是目录的必须设置为true，否则会抛异常！

        fs.delete(new Path("/yinzhengjie/2018"),true);

        //关闭资源

        fs.close();

    }

}

六.HDFS文件名更改

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        renameAtHDFS();

    }

    //给文件或者目录进行重命名操作

    public static void renameAtHDFS() throws Exception{

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

        System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

        //创建Configuration对象

        Configuration conf = new Configuration();

        //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

         FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //修改文件名称

        fs.rename(new Path("/yinzhengjie/yinzhengjie.blog2"),new Path("/yinzhengjie/yinzhengjie.blog-2018-11-04"));

        //关闭资源

        fs.close();

    }

}

七.HDFS文件详情查看

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        readListFiles();

    }

    public static void readListFiles() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

       System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

       //创建配置信息对象

       Configuration conf = new Configuration();

         //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

        FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //获取文件详情（注意：返回的是迭代器，而不是List之类的容器。），第一个参数指定的想要在hdfs获取的路径，第二个参数是否递归获取，改参数一般针对目录有效！

        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

        while (listFiles.hasNext()) {

            //调用迭代器listFiles的next()方法获取文件详细信息

            LocatedFileStatus fileStatus = listFiles.next();

            //输出文件名称

            System.out.println(fileStatus.getPath().getName());

            //输出块大小的信息

            System.out.println(fileStatus.getBlockSize());

            //输出权限信息

            System.out.println(fileStatus.getPermission());

            //输出长度信息

            System.out.println(fileStatus.getLen());

            //输出组的信息

            System.out.println(fileStatus.getGroup());

            //获取到块的位置信息

            BlockLocation[] blockLocations = fileStatus.getBlockLocations();

            for (BlockLocation bl : blockLocations) {

                System.out.println("block-offset:" + bl.getOffset());

                //获取该快在哪个节点上

                String[] hosts = bl.getHosts();

                for (String host : hosts) {

                    //打印获取到的主机信息

                    System.out.println(host);

                }

            }

            System.out.println("<--------------尹正杰的分割线------------->");

        }

    }

}

8>.HDFS文件和文件夹

/*

@author :yinzhengjie

Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

EMAIL:y1053419035@qq.com

*/

package hdfs.yinzhengjie.org.cn;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import java.net.URI;

public class HdfsClient {

    public static void main(String[] args) throws Exception {

        findAtFiles();

    }

    public static void findAtFiles() throws Exception {

        //配合Hadoop的环境变量，如果没有配置可能会抛异常：“ERROR util.Shell: Failed to locate the winutils binary in the hadoop binary path”，还有一件事就是你的HADOOP_HOME的bin目录下必须得有winutils.exe

       System.setProperty("hadoop.home.dir", "D:\\yinzhengjie\\softwares\\hadoop-2.7.3");

       //创建配置信息对象

       Configuration conf = new Configuration();

         //获取文件系统，需要传入hdfs的链接地址，conf对象，以及操作的用户名

        FileSystem fs = FileSystem.get(new URI("hdfs://node105.yinzhengjie.org.cn:8020"),conf,"hdfs");

        //获取查询路径下的文件状态信息

        FileStatus[] listStatus = fs.listStatus(new Path("/"));

        //便利所有的文件状态

        for (FileStatus status : listStatus) {

            //判断是文件还是文件夹

            if (status.isFile()){

                //如果是文件就在打印的时候加上指定的字符串前添加"file ------->"

                System.out.println("file ------->" + status.getPath().getName());

            }else {

                //如果是文件夹就在打印的时候加上特定的字符串前添加"directories ------->"

                System.out.println("directories ------->"+ status.getPath().getName());

            }

        }

    }

}

Hadoop基础-HDFS的API常见操作的更多相关文章

Hadoop基础-HDFS的API实现增删改查
Hadoop基础-HDFS的API实现增删改查作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客开发IDE使用的是Idea,如果没有安装Idea软件的可以去下载安装,如何安装 ...
Hadoop生态圈-Hbase的API常见操作
Hadoop生态圈-Hbase的API常见操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop基础-HDFS分布式文件系统的存储
Hadoop基础-HDFS分布式文件系统的存储作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HDFS数据块 1>.磁盘中的数据块每个磁盘都有默认的数据块大小,这个磁盘 ...
Hadoop基础-HDFS集群中大数据开发常用的命令总结
Hadoop基础-HDFS集群中大数据开发常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...
Hadoop基础-HDFS安全管家之Kerberos实战篇
Hadoop基础-HDFS安全管家之Kerberos实战篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我们都知道hadoop有很多不同的发行版,比如:Apache Hadoop ...
Hadoop基础-Hdfs各个组件的运行原理介绍
Hadoop基础-Hdfs各个组件的运行原理介绍作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.NameNode工作原理(默认端口号:50070) 1>.什么是NameN ...
Hadoop基础-HDFS的读取与写入过程
Hadoop基础-HDFS的读取与写入过程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 为了了解客户端及与之交互的HDFS,NameNode和DataNode之间的数据流是什么样 ...
Hadoop基础-HDFS的读取与写入过程剖析
Hadoop基础-HDFS的读取与写入过程剖析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客会简要介绍hadoop的写入过程,并不会设计到源码,我会用图和文字来描述hdf ...
Hadoop基础-HDFS数据清理过程之校验过程代码分析
Hadoop基础-HDFS数据清理过程之校验过程代码分析作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 想称为一名高级大数据开发工程师,不但需要了解hadoop内部的运行机制,还需 ...

随机推荐

Python学习笔记 -- 第一章
本笔记参考廖雪峰的Python教程简介 Python是一种计算机高级程序设计语言. 用Python可以做什么? 可以做日常任务,比如自动备份你的MP3:可以做网站,很多著名的网站包括YouTube就 ...
Linux入门笔记
1.Linux常用快捷键按键作用 Ctrl+d 键盘输入结束或退出终端 Ctrl+s 暂停当前程序,暂停后按下任意键恢复运行 Ctrl+z 将当前程序放到后台运行,恢复到前台为命令fg Ctrl ...
Balanced Ternary String CodeForces - 1102D （贪心+思维）
You are given a string ss consisting of exactly nn characters, and each character is either '0', '1' ...
基础-Math.floor与parseInt区别
Math.floor只能对一个数向下取整,不能解析字符串如: Math.floor(1.5) // 1 Math.floor(-2.1) // -3 Math.floor("3" ...
[转帖]召冠总的 Oracle常用的性能诊断语句. --保存学习备查
Copyfrom https://www.cnblogs.com/zhaoguan_wang --1.阻塞及等待事件信息查询-- 查询所有会话的状态.等待类型及当前正在执行的SQL脚本select t ...
剑指offer：滑动窗口的最大值
滑动窗口的最大值题目描述给定一个数组和滑动窗口的大小,找出所有滑动窗口里数值的最大值.例如,如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3,那么一共存在6个滑动窗口,他们的最大值 ...
git 在局域网新建远程库及本地开发常用命令
git 版本直接在官网下载即可:https://git-scm.com/downloads 安装后有git bash与git gui可以用. 1.在远程服务器上新建裸仓库 git init --ba ...
wamp下php报错session_start(): open(d:/wamp/tmp\sess_ku776hvb06ko4lv9d11e7mnfj1, O_RDWR) failed: No such file or directory
报错提示 session_start(): open(d:/wamp/tmp\sess_ku776hvb06ko4lv9d11e7mnfj1, O_RDWR) failed: No such file ...
jQuery之制作简单的轮播图效果
[源代码] 链接:https://pan.baidu.com/s/1XpZ66D9fmSwWX3pCnGBqjA 密码:w104 [整体构思] 这个轮播图使用的是jQuery,所以Js的整体代量比较少 ...
EF 更新删除
为了避免先查询后更新或删除的问题可以使用如下语句 Entities db = new Entities(); Orders o = new Orders(); o.id = 6; o.name = ...

Hadoop基础-HDFS的API常见操作

Hadoop基础-HDFS的API常见操作的更多相关文章

随机推荐

热门专题