Hadoop HelloWord Examples -对Hadoop FileSystem进行操作

我之前对hadoop的各种文件操作都是基于命令行的，但是进阶后，经常需要直接从java的代码中对HDFS进行修改。今天来练习下。

一个简单的demo，将hdfs的一个文件的内容拷贝到另外hdfs一个文件。

import java.util.*;

import java.io.*;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import org.apache.hadoop.mapreduce.lib.input.*;

import org.apache.hadoop.mapreduce.lib.output.*;

import org.apache.hadoop.io.IOUtils;

public class ShortestPath {

	public static void main(String[] args) throws Exception

	{

		Configuration conf = new Configuration();

		conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml")); 

		//The two lines' code below is quite useful when debugging Configuration, see reference[3].

		//System.out.println(conf.getRaw("fs.default.name"));

		//System.out.println(conf.toString());

		FileSystem fs = FileSystem.get(conf);

		FSDataInputStream in= fs.open(new Path(fs.getWorkingDirectory()+"/input/data"));

		BufferedReader br = new BufferedReader(new InputStreamReader(in));

		FSDataOutputStream out = fs.create(new Path(fs.getWorkingDirectory() +"/testInput/copyData.txt"));

		String str = br.readLine();

		while(str!=null)

		{

			out.writeBytes(str);

			out.writeBytes("\n");

			str = br.readLine();

		}

		out.close();

		br.close();

	}

}

以上的拷贝操作也可以通过IOUtils来完成，例如：

import java.util.*;

import java.io.*;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.*;

import org.apache.hadoop.mapreduce.lib.input.*;

import org.apache.hadoop.mapreduce.lib.output.*;

import org.apache.hadoop.io.IOUtils;

public class ShortestPath {

	public static void main(String[] args) throws Exception

	{

		Configuration conf = new Configuration();

		conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml")); 

		//System.out.println(conf.getRaw("fs.default.name"));

		//System.out.println(conf.toString());

		FileSystem fs = FileSystem.get(conf);

		FSDataInputStream in= fs.open(new Path(fs.getWorkingDirectory()+"/input/data"));

		FSDataOutputStream out = fs.create(new Path(fs.getWorkingDirectory() +"/testInput/copyData.txt"));

		IOUtils.copyBytes(in, out, conf);

		in.close();

		out.close();

	}

}

上面的

  conf.addResource(new Path("/usr/local/hadoop/conf/core-site.xml"));

这行代码让我挺困惑的，我一直以为Configuration是自己在构造函数的时候就自动载入这些默认的core-site.xml之类，但是看来不是。而且调用Configuration的toString()函数后显示它载入了多个core-site.xml，更加困惑。菜鸟对配置文件不熟悉，知道的兄弟讲讲。。

System.out.println(conf.toString());

其他更多的文件操作，比如删除等，可以参考reference[1,2]，基本大同小异。

Reference

(1) Hadoop - the definitive guide

(2)http://eclipse.sys-con.com/node/1287801/mobile

(3)http://www.opensourceconnections.com/2013/03/24/hdfs-debugging-wrong-fs-expected-file-exception/

Hadoop HelloWord Examples -对Hadoop FileSystem进行操作 - 基于Java的更多相关文章

Hadoop入门进阶课程4--HDFS原理及操作
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...
Hadoop系列006-HDFS概念及命令行操作
本人微信公众号,欢迎扫码关注! HDFS概念及命令行操作一.HDFS概念 1.1 概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其 ...
Hadoop HDFS的shell(命令行客户端)操作实例
HDFS的shell(命令行客户端)操作实例 3.2 常用命令参数介绍 -help 功能:输出这个命令参数手册 -ls 功能:显示目录信息示例: hadoop fs ...
hadoop运行wordcount实例，hdfs简单操作
1.查看hadoop版本 [hadoop@ltt1 sbin]$ hadoop version Hadoop -cdh5.12.0 Subversion http://github.com/cloud ...
Hadoop学习笔记—3.Hadoop RPC机制的使用
一.RPC基础概念 1.1 RPC的基础概念 RPC,即Remote Procdure Call,中文名:远程过程调用: (1)它允许一台计算机程序远程调用另外一台计算机的子程序,而不用去关心底层的网 ...
hadoop系列二：HDFS文件系统的命令及JAVA客户端API
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
大数据实操2 - hadoop集群访问——Hadoop客户端访问、Java API访问
上一篇中介绍了hadoop集群搭建方式,本文介绍集群的访问.集群的访问方式有两种:hadoop客户端访问,Java API访问. 一.集群客户端访问 Hadoop采用C/S架构,可以通过客户端对集群进 ...
一脸懵逼加从入门到绝望学习hadoop之 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr报错
1:初学hadoop遇到各种错误,这里贴一下,方便以后脑补吧,报错如下: 主要是在window环境下面搞hadoop,而hadoop部署在linux操作系统上面:出现这个错误是权限的问题,操作hado ...
Hadoop 系列文章(二) Hadoop配置部署启动HDFS及本地模式运行MapReduce
接着上一篇文章,继续我们 hadoop 的入门案例. 1. 修改 core-site.xml 文件 [bamboo@hadoop-senior hadoop-2.5.0]$ vim etc/hadoo ...

随机推荐

Opencv学习笔记3：边缘检测算子的实现方法
一.边缘检测概念图像的边缘检测的原理是检测出图像中所有灰度值变化较大的点,而且这些点连接起来就构成了若干线条,这些线条就可以称为图像的边缘.效果如图: 接下来介绍一下边缘提取的几种算子,具体证明过程 ...
redis的原子性
什么是原子性操作在多进程(线程)访问共享资源时,能够确保所有其他的进程(线程)都不在同一时间内访问相同的资源,(要么完全执行,要么完全不执行) 简单描述有个变量X=0,要进行+1操作,步骤如下: ...
某DP题目3
题意: 一根数轴上有n只怪物,第i个怪物所在的位置为ai,另有m个特殊点,第i个特殊点所在的位置为bi.你可以对怪物进行移动,若两怪物相邻,那么你不能把他们分开,移动时要看作一个整体.你可以选择向左或 ...
【转】2012年7月12 – 腾讯公司 WEB高级应用开发工程师最新面试题
腾讯面试(WEB高级应用开发工程师<PHP>)非答案啊!!! 开始正题之前,容博主啰嗦两句吧,呵呵.(你也可跳过直接到红色字体看题!) 腾讯一直是我很敬重的企业,尽管小企鹅在战略上饱受争议 ...
spring boot配置springMVC拦截器
spring boot通过配置springMVC拦截器配置拦截器比较简单, spring boot配置拦截器, 重写preHandle方法. 1.配置拦截器: 2重写方法这样就实现了拦截器. 其中 ...
MySQL 一个库中表数量是否有限制？
在网上找了一下,有说几乎没有限制的,也有说表多了肯定会影响性能的,综合起来应该讲: 1)一个库中表数是有限制的, 按照 UNSIGNED 类型,最多42亿多一点,正常应用根本达不到. 2)文件系统 ...
小道消息：CSDN社区产品重大更新
Hi,小伙伴们: 悄悄给大家透露个消息:CSDN社区将要有重大更新. 都有哪些呢?各自是:新极客头条.Ink.博乐是不是后面两个比較眼生?不要着急,那但是我们的重中之重.我来给大家一一道来-- 先来 ...
crm使用soap分配记录
//样例 function demo() { //操作记录的id var targetId = "A8A46444-BA10-E411-8A04-00155D002F02&q ...
Ubuntu OS应用Runtime Enviroment
在这篇文章中.我们将介绍Ubuntu OS的Runtime Environment.在文章"App confinement: Security policy for click packag ...
轻量级java开发(一)-Hibernate 安装
1.从http://hibernate.org/orm/downloads/下载Hibernate 目前最新版是4.3.0.Final 支持JPA 2.1 support 2.解压下载的压缩文件,导 ...

Hadoop HelloWord Examples -对Hadoop FileSystem进行操作 - 基于Java

Hadoop HelloWord Examples -对Hadoop FileSystem进行操作 - 基于Java的更多相关文章

随机推荐

热门专题