hadoop学习(五)----HDFS的java操作

前面我们基本学习了HDFS的原理，hadoop环境的搭建，下面开始正式的实践，语言以java为主。这一节来看一下HDFS的java操作。

1 环境准备

上一篇说了windows下搭建hadoop环境，开始之前先启动hadoop。我本地的编译器是idea。搭建maven工程：

pom.xml文件：

<dependencies>

    <dependency>

      <groupId>junit</groupId>

      <artifactId>junit</artifactId>

      <version>4.12</version>

      <scope>test</scope>

    </dependency>

    <dependency>

      <groupId>org.apache.hadoop</groupId>

      <artifactId>hadoop-common</artifactId>

      <version>2.7.3</version>

    </dependency>

    <dependency>

      <groupId>org.apache.hadoop</groupId>

      <artifactId>hadoop-hdfs</artifactId>

      <version>2.7.3</version>

    </dependency>

    <dependency>

      <groupId>org.apache.hadoop</groupId>

      <artifactId>hadoop-mapreduce-client-core</artifactId>

      <version>2.7.3</version>

    </dependency>

    <dependency>

      <groupId>org.apache.hadoop</groupId>

      <artifactId>hadoop-mapreduce-client-jobclient</artifactId>

      <version>2.7.3</version>

    </dependency>

    <dependency>

      <groupId>log4j</groupId>

      <artifactId>log4j</artifactId>

      <version>1.2.17</version>

    </dependency>

</dependencies>

新建测试类：FileOperator.java

import org.apache.commons.compress.utils.IOUtils;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import org.apache.hadoop.fs.permission.FsPermission;

import org.apache.hadoop.hdfs.DistributedFileSystem;

import org.junit.Before;

import org.junit.Test;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.net.URI;

import java.text.SimpleDateFormat;

import java.util.Date;

/**

 * Created by Administrator on 2017/12/3.

 */

public class FileOperator {

    private static final Logger logger = LoggerFactory.getLogger(FileOperator.class);

    public static DistributedFileSystem dfs=null;

    public static String nameNodeUri="hdfs://localhost:9000";

    @Before

    public void initFileSystem() throws Exception{

        logger.info("initial hadoop env----");

        dfs=new DistributedFileSystem();

        dfs.initialize(new URI(nameNodeUri), new Configuration());

        logger.info("connection is successful");

        Path workingDirectory = dfs.getWorkingDirectory();

        System.out.println("current workspace is ："+workingDirectory);

    }

    /**

     * 创建文件夹

     * @throws Exception

     */

    @Test

    public void testMkDir() throws Exception{

        boolean res = dfs.mkdirs(new Path("/test/aaa/bbb"));

        System.out.println("目录创建结果："+(res?"创建成功":"创建失败"));

    }

    /**

     * 删除目录/文件

     * @throws Exception

     */

    @Test

    public void testDeleteDir() throws Exception{

        dfs.delete(new Path("/test/aaa/bbb"), false);

    }

    /**

     * 获取指定目录下所有文件(忽略目录)

     * @throws Exception

     * @throws IllegalArgumentException

     */

    @Test

    public void testFileList() throws Exception{

        RemoteIterator<LocatedFileStatus> listFiles = dfs.listFiles(new Path("/"), true);

        SimpleDateFormat sdf=new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS");

        while (listFiles.hasNext()) {

            LocatedFileStatus fileStatus = (LocatedFileStatus) listFiles.next();

            //权限

            FsPermission permission = fileStatus.getPermission();

            //拥有者

            String owner = fileStatus.getOwner();

            //组

            String group = fileStatus.getGroup();

            //文件大小byte

            long len = fileStatus.getLen();

            long modificationTime = fileStatus.getModificationTime();

            Path path = fileStatus.getPath();

            System.out.println("-------------------------------");

            System.out.println("permission:"+permission);

            System.out.println("owner:"+owner);

            System.out.println("group:"+group);

            System.out.println("len:"+len);

            System.out.println("modificationTime:"+sdf.format(new Date(modificationTime)));

            System.out.println("path:"+path);

        }

    }

    /**

     * 【完整】文件上传

     * 注意：文件上传在Window开发环境下，使用apache-common提供的<code>org.apache.commons.io.IOUtils.copy</code>可能存在问题

     */

    @Test

    public void testUploadFullFile() throws Exception{

        FSDataOutputStream out = dfs.create(new Path("/test/aaa/testFile.txt"), true);

        InputStream in = new FileInputStream("F:\\test\\cluster\\input\\testFile.txt");

        IOUtils.copy(in, out);

        System.out.println("上传完毕");

    }

    /**

     * 【分段|部分】文件上传

     * 注意：文件上传在Window开发环境下，使用apache-common提供的<code>org.apache.commons.io.IOUtils.copy</code>可能存在问题

     */

    @Test

    public void testUploadFile2() throws Exception{

        FSDataOutputStream out = dfs.create(new Path("/test/aaa/testFile1.txt"), true);

        InputStream in = new FileInputStream("F:\\test\\cluster\\input\\testFile.txt");

        org.apache.commons.io.IOUtils.copyLarge(in, out, 6, 12);

        System.out.println("上传完毕");

    }

    /**

     * 【完整】下载文件

     * 注意：windows开发平台下，使用如下API

     */

    @Test

    public void testDownloadFile() throws Exception{

        //使用Java API进行I/O,设置useRawLocalFileSystem=true

        dfs.copyToLocalFile(false,new Path("/test/aaa/testFile.txt"),

                new Path("E:/"),true);

        System.out.println("下载完成");

    }

    /**

     * 【部分】下载文件

     */

    @Test

    public void testDownloadFile2() throws Exception{

        //使用Java API进行I/O,设置useRawLocalFileSystem=true

        FSDataInputStream src = dfs.open(new Path("/test/aaa/testFile.txt"));

        FileOutputStream des = new FileOutputStream(new File("E:/","download_testFile.txt"));

        src.seek(6);

        org.apache.commons.io.IOUtils.copy(src, des);

        System.out.println("下载完成");

    }

}

代码如上，如要使用请调整相关目录。

hadoop学习(五)----HDFS的java操作的更多相关文章

hadoop学习(六)----HDFS的shell操作
HDFS所有命令: [uploaduser@rickiyang ~]$ hadoop fs Usage: hadoop fs [generic options] [-appendToFile < ...
马士兵hadoop第五课：java开发Map/Reduce
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
马士兵hadoop第五课：java开发Map/Reduce（转）
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
Hadoop学习笔记1 - 使用Java API访问远程hdfs集群
转载请标注原链接 http://www.cnblogs.com/xczyd/p/8570437.html 2018年3月从新司重新起航了.之前在某司过了的蛋疼三个月,也算给自己放了个小假了. 第一个小 ...
大数据学习之HDFS基本API操作（下）06
hdfs文件流操作方法一: package it.dawn.HDFSPra; import java.io.BufferedReader; import java.io.FileInputStream ...
[b0014] HDFS 常用JAVA 操作实战
目的: 学习用java进行的常用hdfs操作参考: [b0002] Hadoop HDFS cmd常用命令练手环境: hadoop2.6.4 win7 下的eclipse环境调试已经配置好,参考前 ...
Hadoop学习笔记—HDFS
目录搭建安装三个核心组件安装配置环境变量配置各上述三组件守护进程的相关属性启停监控和性能 Hadoop Rack Awareness yarn的NodeManagers监控命令 hdf ...
Hadoop学习笔记-HDFS命令
进入 $HADOOP/bin 一.文件操作文件操作类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this scr ...
Hadoop学习笔记---HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐 ...

随机推荐

POJ 2914：Minimum Cut（全局最小割Stoer-Wagner算法）
http://poj.org/problem?id=2914 题意:给出n个点m条边,可能有重边,问全局的最小割是多少. 思路:一开始以为用最大流算法跑一下,然后就超时了.后来学习了一下这个算法,是个 ...
微信小程序 CSS border-radius元素 overflow:hidden失效问题 iPhone ios 苹果兼容问题伪类元素
同事找我解决一个问题说安卓圆角没问题苹果上失效了我一看其实就是没做兼容上图给你们看看有没有看出来其实就是父级设置圆角属性失效父元素使用border-radius和overflow:hid ...
tomcat 启动窗口名称中文乱码
easyui datagrid 单元格编辑时事件修改另一单元格
//datagrid 列数据 $('#acc').datagrid({ columns : [ [ { field : 'fee_lend', title : '收费A', width : 100, ...
django基础知识之ORM简介:
ORM简介 MVC框架中包括一个重要的部分,就是ORM,它实现了数据模型与数据库的解耦,即数据模型的设计不需要依赖于特定的数据库,通过简单的配置就可以轻松更换数据库 ORM是“对象-关系-映射”的简称 ...
django执行mysql恢复的时候出现“The request's session was deleted before the request completed. The user may have logged out in a concurrent request, for example.”
版本: django:2.1.7 python:3.7 mysql:5.7.25 今天在用django做mysql备份和恢复的时候,备份没问题,恢复时出现如下错误提示: The request's s ...
c++书籍推荐《C++编码规范》下载
百度云及其他网盘下载地址:点我编辑推荐 <C++编程规范:101条规则.准则与实践>:良好的编程规范可以改善软件质量,缩短上市时间,提升团队效率,简化维护工作.在<C++编程规范 ...
akka 集群分片
akka 集群 Sharding分片分片上下级结构集群(多台节点机) —> 每台节点机(1个片区) —> 每个片区(多个分片) —> 每个分片(多个实体) 实体: 分片管理的 A ...
thread学习笔记--BackgroundWorker 类
背景: 在 WinForms 中,有时要执行耗时的操作,比如统计某个磁盘分区的文件夹或者文件数目,如果分区很大或者文件过多的话,处理不好就会造成“假死”的情况,或者报“线程间操作无效”的异常,或者在该 ...
pyqt 主程序运行中处理其他事件（多线程的一种代替方式）
一.实验环境 1.Windows7x64_SP1 2.Anaconda2.5.0 + python2.7(anaconda集成,不需单独安装) 3.pyinstaller3.0 4.通过Anacond ...

hadoop学习(五)----HDFS的java操作

1 环境准备

hadoop学习(五)----HDFS的java操作的更多相关文章

随机推荐

热门专题