HDFS操作

HDFS操作

1.shell

	1.1 创建目录

		hadoop fs -mkdir 目录名(其中/为根目录)

	1.2 遍历目录

		hadoop fs -ls  目录名

	1.3 删除目录

		hadoop fs -rmr 目录名

	1.4 修改目录

		hadoop fs -mv  原目录   目标目录

	1.5 上传文件

		hadoop fs -put 文件原路径  文件HDFS路径

	1.6 查看文件

		hadoop fs -cat 文件名（需包含目录）

	1.7 删除文件

		hadoop fs -rmr 文件名

	1.8 修改文件

		hadoop fs -mv 源文件  目标文件

2.javaAPI

	2.1 FileSystem类

		1.1 写文件————create方法

		1.2 读取文件————open方法

		1.3 删除文件————delete方法

		1.4 创建目录————mkdir方法

		1.5 列出目录内容————listStatus方法

		1.6 显示目录和文件元数据信息————getFileStatus方法

	2.2 使用步骤

		2.1 导入相关jar

		2.2 得到Configuration对象

		2.3 得到hdfs的URI对象

		2.4 得到FileSystem对象

		2.5 调用filesystem的相关方法

	示例：

		package testHadoop;

		import java.io.File;

		import java.io.FileInputStream;

		import java.io.FileNotFoundException;

		import java.io.FileOutputStream;

		import java.io.IOException;

		import java.net.URI;

		import org.apache.hadoop.conf.Configuration;

		import org.apache.hadoop.fs.FSDataInputStream;

		import org.apache.hadoop.fs.FSDataOutputStream;

		import org.apache.hadoop.fs.FileStatus;

		import org.apache.hadoop.fs.FileSystem;

		import org.apache.hadoop.fs.Path;

		import org.apache.hadoop.io.IOUtils;

		public class testJavaAPI {

			public static void main(String[] args) throws Exception{

				String url = "hdfs://hadoop:9000";

				Configuration conf = new Configuration();

				URI uri = new URI(url);

				FileSystem fs = FileSystem.get(uri, conf);

				listPath(url, fs,"/");//遍历目录

				fs.mkdirs(new Path("/input/test"));//创建目录

				System.out.println("创建文件夹成功！");

				listPath(url, fs,"/input/test");

				fs.delete(new Path("/input/test"));//删除目录

				listPath(url, fs, "/input");

				//创建文件

				FSDataOutputStream out = fs.create(new Path("/input/test.ini"));

				out.writeUTF("This is first test data!");

				out.flush();

				out.close();

				System.out.println("创建文件成功！");

				listPath(url, fs, "/input");

				//读取文件

				FSDataInputStream in = fs.open(new Path("/input/test.ini"));

				IOUtils.copyBytes(in, System.out, 1024);

				IOUtils.closeStream(in);

				System.out.println("读取文件成功！");

				//删除文件

				fs.delete(new Path("/input/test.ini"));

				System.out.println("删除文件成功！");

				listPath(url, fs, "/input");

				//本地文件上传到服务器

				File file = new File("d:/data.txt");

				FileInputStream in_local = new FileInputStream(file);

				FSDataOutputStream out_local = fs.create(new Path("/input/data.ini"));

				int i;

				while ((i=in_local.read())!= -1){

					out_local.write(i);

				}

				out_local.flush();

				in_local.close();

				out_local.close();

				listPath(url, fs, "/input");

			}

			private static void listPath(String url, FileSystem fs ,String path) throws FileNotFoundException, IOException {

				FileStatus[] status = fs.listStatus(new Path(path));

				for(FileStatus s : status){

					String isDir = s.isDir()?"目录":"文件";

					System.out.println(s.getPath().getName() + " " + isDir);

				}

				System.out.println("遍历文件夹成功");

			}

		}

HDFS操作的更多相关文章

python基础操作以及hdfs操作
目录前言基础操作 hdfs操作总结一.前言作为一个全栈工程师,必须要熟练掌握各种语言...HelloWorld.最近就被"逼着"走向了python开发之路, ...
Azkaban实战，Command类型单一job示例，任务中执行外部shell脚本，Command类型多job工作flow,HDFS操作任务，MapReduce任务，HIVE任务
本文转载自:https://blog.csdn.net/tototuzuoquan/article/details/73251616 1.Azkaban实战 Azkaba内置的任务类型支持comman ...
假期学习【三】HDFS操作及spark的安装/使用
1．安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完成 Hadoop 伪分布式模式的安装.完成 Hadoop 的安装以后 ...
HDFS追本溯源：HDFS操作的逻辑流程与源码解析
本文主要介绍5个典型的HDFS流程,这些流程充分体现了HDFS实体间IPC接口和stream接口之间的配合. 1. Client和NN Client到NN有大量的元数据操作,比如修改文件名,在给定目录 ...
Tutorial 02_熟悉常用的HDFS操作
Shell命令实现: (1)向HDFS 中上传任意文本文件,如果指定的文件在HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件: (2) 从HDFS 中下载指定文件,如果本地文 ...
熟悉常用的HDFS操作
编程实现以下指定功能,并利用Hadoop提供的Shell命令完成相同任务: 在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件 ...
第三章熟悉常用的HDFS操作
一.Hadoop提供的Shell命令完成相同任务: 1.在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. mkdir hadoop 在本地查 ...
HDFS操作及小文件合并
小文件合并是针对文件上传到HDFS之前这些文件夹里面都是小文件参考代码 package com.gong.hadoop2; import java.io.IOException; import j ...
第4章 HDFS操作
目录 4.1 命令行操作 4.2 Java API操作 4.2.1 创建Java工程 4.2.2 读取数据 4.2.3 创建目录 4.2.4 创建文件 4.2.5 删除文件 4.2.6 遍历文件和目录 ...

随机推荐

leetcode笔记
82. Remove Duplicates from Sorted List II https://leetcode.com/problems/remove-duplicates-from-sorte ...
Oracle函数组的使用
--1.组函数--COUNT():用来统计记录的条数如果没有记录,返回 0--COUNT函数可以根据一列或多列进行计算,没有排重功能--统计EMP表一共有多少条记录select count(empn ...
(转载)GDI+双缓冲
双缓冲在GDI+里可以有效的提高描画效率.改善显示的质量. 下面的代码是一个最简单的双缓冲的模板.可以根据需要,做简单的修改即可. Bitmap CacheImage( [Width], [Heigh ...
Maven的环境搭建及新建web项目
第一次接触maven,做一个简单的记录一.下载maven及环境变量的配置下载地址 http://maven.apache.org/download.cgi 配置其环境变量 MAVEN_HOME= ...
【bzoj1700】Problem Solving 解题
题目描述过去的日子里,农夫John的牛没有任何题目. 可是现在他们有题目,有很多的题目. 精确地说,他们有P (1 <= P <= 300) 道题目要做. 他们还离开了农场并且象普通人一 ...
【bzoj1231】[Usaco2008 Nov]mixup2 混乱的奶牛
题目描述混乱的奶牛[Don Piele, 2007]Farmer John的N(4 <= N <= 16)头奶牛中的每一头都有一个唯一的编号S_i (1 <= S_i <= ...
web自动化工具-Browsersync
web自动化工具-Browsersync browser-sync才是神器中的神器,和livereload一样支持监听所有文件.可是和livereload简单粗暴的F5刷新相比,browsersync ...
AM335x kernel 4.4.12 i2c eeprom AT24c02驱动移植
kernel 4.4.12 i2c eeprom AT24c02驱动移植在kernel make menuconfig ARCH=ARM 中打开: Device Drivers ---> Mi ...
python基础八
面向对象的好处更容易扩展.提高代码使用效率,使你的代码组织性更强, 更清晰,更适合复杂项目的开发封装把功能的实现细节封装起来,只暴露调用接口继承多态接口的继承定义类 ===> ...
WhatsApp的Erlang世界
rick 的两个ppt整理下载:2012 2013 ,使用半年erlang后,重新看这两个ppt才发现更多值的学习的地方,从ppt中整理如下: - Prefer os:timestamp to e ...

HDFS操作

HDFS操作的更多相关文章

随机推荐

热门专题