Hadoop 之 HDFS API操作

1. 文件上传

@Slf4j

public class HDFSClient {

      @Test

      public void testCopyFromLocalFile() throws Exception{

        // 1. 获取fs对象

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(new URI("hdfs://服务器IP地址:9000"), conf, "root");

        // 2. 执行上传API

        fs.copyFromLocalFile(new Path("D:\\yase.txt"), new Path("/0526/noodles/testUpload.txt"));

        // 3.关闭资源

        fs.close();

        // 4. 程序结束

        log.info("文件上传成功！");

      }

}

2. 操作过程中遇到的BUG

"File /0526/noodles/testUpload.txt could only be replicated to 0 nodes instead of minReplication (=1). There are 1 datanode(s) running and 1 node(s) are excluded in this operation."

### 将log4j.properties的级别更改为DEBUG

java.net.ConnectException: Connection timed out: no further information

	at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)

	at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)

	at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)

	at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531)

	at org.apache.hadoop.hdfs.DataStreamer.createSocketForPipeline(DataStreamer.java:259)

	at org.apache.hadoop.hdfs.DataStreamer.createBlockOutputStream(DataStreamer.java:1692)

	at org.apache.hadoop.hdfs.DataStreamer.nextBlockOutputStream(DataStreamer.java:1648)

	at org.apache.hadoop.hdfs.DataStreamer.run(DataStreamer.java:704)

原因：放置Hadoop的服务器，无法访问DataNode服务
- 可以使用以下语句测试：telnet 192.168.1.102 8020
修改方法：

## hdfs-site.xml中配置 或者更换服务器

<property>

    <name>dfs.datanode.address</name>

    <value>0.0.0.0:可用端口</value>

</property>

3. 文件下载/文件夹删除/文件重命名

@Slf4j

public class HDFSClient {

      @Test

      public void testCopyToLocalFile() throws Exception{

        // 1. 获取fs对象

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

        // 2. 执行下载操作

        // 参数说明：

        //        1. boolean delSrc 是否将原文件删除

        //        2. Path  src 要下载的文件路径

        //        3. Path  dst 将文件下载到的路径

        //        4. boolean useRawLocalFileSystem  是否开启文件校验

        fs.copyToLocalFile(false, new Path("/0526/noodles/testUpload.txt"), new Path("D:\\\\download.txt"), true);

        // 2.1 文件夹删除

        // fs.delete(new Path("/0526/"), true);

        // 2.2 文件重命名

        // fs.rename(new Path("/0526/noodles/testUpload.txt"), new Path("/0526/noodles/abc.txt"));

        // 3.关闭资源

        fs.close();

        // 4. 程序结束

        log.info("文件下载成功！");

      }

}

4. 查看文件详情

查看文件名称，权限，长度，块信息

@Slf4j

public class HDFSClient {

      @Test

      public void testListFiles() throws Exception{

        // 1. 获取fs对象

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

        // 2. 查看文件详情

        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);

        while(listFiles.hasNext()) {

          LocatedFileStatus status = listFiles.next();

          // 查看文件名称，权限，长度，块信息

          log.info(status.toString());

        }

        // 3.关闭资源

        fs.close();

      }

}

5. 判断是文件还是文件夹

  @Test

	public void testListStatus() throws Exception{

		// 1. 获取fs对象

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

		// 2. 判断是文件还是文件夹

		FileStatus[] listStatus = fs.listStatus(new Path("/"));

		for (FileStatus fileStatus : listStatus) {

			// 如果是文件

			if (fileStatus.isFile()) {

				System.out.println("f:" + fileStatus.getPath().getName());

			} else {

				System.out.println("d:" + fileStatus.getPath().getName());

			}

		}

		// 3.关闭资源

		fs.close();

	}

6.文件IO流操作

  // 文件上传

  @Test

	public void testPutFileToHDFS() throws Exception{

		// 1. 获取fs对象

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

		// 2. 创建输入流

		FileInputStream fis = new FileInputStream(new File("D:\\ddd.txt"));

		// 3. 获取输出流

		FSDataOutputStream fos = fs.create(new Path("/IOPut.txt"));

		// 4.流拷贝

		IOUtils.copyBytes(fis, fos, conf);

		// 3.关闭资源

		IOUtils.closeStream(fos);

		IOUtils.closeStream(fis);

		fs.close();

	}

  // 文件下载

  @Test

	public void testGetFileToHDFS() throws Exception{

		// 1. 获取fs对象

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

		// 2. 创建输入流

		FSDataInputStream fis = fs.open(new Path("/IOPut.txt"));

		// 3. 获取输出流

		FileOutputStream fos = new FileOutputStream(new File("D:\\eee.txt"));

		// 4.流拷贝

		IOUtils.copyBytes(fis, fos, conf);

		// 3.关闭资源

		IOUtils.closeStream(fos);

		IOUtils.closeStream(fis);

		fs.close();

	}

7. 定位文件读取

需求：分块读取HDFS上的大文件，比如根目录下的/hadoop-2.8.5.tar.gz;

// 下载第一块

  @Test

	public void testReadFirstBlock() throws Exception{

		// 1. 获取fs对象

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

		// 2. 创建输入流

		FSDataInputStream fis = fs.open(new Path("/hadoop-2.8.5.tar.gz"));

		// 3. 获取输出流

		FileOutputStream fos = new FileOutputStream(new File("D:\\hadoop-2.8.5.tar.gz.part1"));

		// 4.流拷贝(只拷贝128M)

		byte[] buf = new byte[1024];

		for (int i = 0; i < 1024 * 128; i++) {

			fis.read(buf);

			fos.write(buf);

		}

		// 3.关闭资源

		IOUtils.closeStream(fos);

		IOUtils.closeStream(fis);

		fs.close();

	}

// 下载第二块

  @Test

	public void testReadSecondBlock() throws Exception{

		// 1. 获取fs对象

		Configuration conf = new Configuration();

		FileSystem fs = FileSystem.get(new URI("hdfs://10.110.147.193:9000"), conf, "root");

		// 2. 创建输入流

		FSDataInputStream fis = fs.open(new Path("/hadoop-2.8.5.tar.gz"));

		// 3. 设置指定读取的起点（128M以后）

		fis.seek(1024*1024*128);

		// 4. 获取输出流

		FileOutputStream fos = new FileOutputStream(new File("D:\\hadoop-2.8.5.tar.gz.part2"));

		// 5.流拷贝

		IOUtils.copyBytes(fis, fos, conf);

		// 6.关闭资源

		IOUtils.closeStream(fos);

		IOUtils.closeStream(fis);

		fs.close();

	}

参考资料

Hadoop 之 HDFS API操作的更多相关文章

Hadoop之HDFS文件操作常有两种方式（转载）
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件命令行 Java API HD ...
Hadoop之HDFS文件操作
摘要:Hadoop之HDFS文件操作常有两种方式.命令行方式和JavaAPI方式.本文介绍怎样利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件命令行 Java API HD ...
Hadoop学习记录（3）|HDFS API 操作|RPC调用
HDFS的API操作 URL方式访问 package hdfs; import java.io.IOException; import java.io.InputStream; import java ...
hadoop的hdfs文件操作实现上传文件到hdfs
这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下hdfs文件操作操作示例,包括上传文件到 ...
Hadoop JAVA HDFS客户端操作
JAVA HDFS客户端操作通过API操作HDFS org.apache.logging.log4jlog4j-core2.8.2org.apache.hadoophadoop-common${ha ...
HDFS API操作实践
本文提供几个简单的实例,来说明如何使用hadoop的java API针对HDFS进行文件上传.创建.重命名.删除操作本文地址:http://www.cnblogs.com/archimedes/p/ ...
Hadoop之HDFS客户端操作
1. HDFS 客户端环境准备 1.1 windows 平台搭建 hadoop 2.8.5 2. 创建Maven工程 # pom.xml <dependencies> <depend ...
HDFS api操作
import java.net.URI;import java.util.Iterator;import java.util.Map.Entry; import org.apache.hadoop.c ...
Java 封装 HDFS API 操作
代码下载地址:点击下载一:环境介绍 hadoop:2.6 Ubuntu:15.10 eclipse:3.8.1 二:操作包含推断某个目录是否存在 isExist(fold ...

随机推荐

SIGAI深度学习第四集深度学习简介
讲授机器学习面临的挑战.人工特征的局限性.为什么选择神经网络.深度学习的诞生和发展.典型的网络结构.深度学习在机器视觉.语音识别.自然语言处理.推荐系统中的应用大纲: 机器学习面临的挑战特征工程的 ...
007_linuxC++之_构造函数的初级应用
(一)构造函数:用来在创建对象时初始化对象, 即为对象成员变量赋初始值 (二)构造函数的命名必须和类名完全相同 (三)更对具体的查看:构造函数 (四)直接分析程序运行结果解析上面程序: 1. 当程 ...
Activiti服务类- RuntimeService服务类
一共89个接口1.启动流程实例(20个方法)//使用给定的键在流程定义的最新版本中启动一个新的流程实例.ProcessInstance startProcessInstanceByKey(String ...
git 从某一版本拉取新分支，并在新分支合并某几个commit
场景:需要回退至红框中的那个版本,并且只添加“缓存逻辑优化,增加加载中的状态”这一次commit,其他的commit不添加. 步骤: 1) 切换到指定分支 dev git checkout dev 2 ...
MySQL 5.7 OOM问题诊断——就是这么简单
转载自:http://www.sohu.com/a/114903225_487483 Inside君最近把金庸先生的笑傲江湖重看了三遍,感慨良多.很多工作.管理.生活.学习上的问题都能在其中一窥究竟, ...
百度ueditor中复制word图文时图片转存任然保持灰色不可用
官网地址http://ueditor.baidu.com Git 地址 https://github.com/fex-team/ueditor 参考博客地址 http://blog.ncmem.com ...
wangEditor实现ctrl+v粘贴word图片并上传
很多时候我们用一些管理系统的时候,发布新闻.公告等文字类信息时,希望能很快的将word里面的内容直接粘贴到富文本编辑器里面,然后发布出来.减少排版复杂的工作量. 下面是借用百度doc 来快速实现这个w ...
[2]windows内核情景分析--系统调用
Windows的地址空间分用户模式与内核模式,低2GB的部分叫用户模式,高2G的部分叫内核模式,位于用户空间的代码不能访问内核空间,位于内核空间的代码却可以访问用户空间一个线程的运行状态分内核态与用 ...
this关键字的用法小结
1.this :指它所在函数所属对象的引用. 简单说:哪个对象调用this所在的函数,this就指哪个对象. 主要是为了区分:成员变量和局部变量 2.构造函数之间的调用用this关键字,如,this( ...
Js 之移动端图片上传插件mbUploadify
一.下载 https://pan.baidu.com/s/1NEL4tkHoK4ydqdMi_hgWcw 提取码:vx7e 二.Demo示例 <div class="weui_uplo ...

Hadoop 之 HDFS API操作

1. 文件上传

2. 操作过程中遇到的BUG

3. 文件下载/文件夹删除/文件重命名

4. 查看文件详情

5. 判断是文件还是文件夹

6.文件IO流操作

7. 定位文件读取

Hadoop 之 HDFS API操作的更多相关文章

随机推荐

热门专题