HDFS常用的Java Api详解

转自：http://blog.csdn.net/michaelwubo/article/details/50879832

一、使用Hadoop URL读取数据

package hadoop;

import java.io.InputStream;

import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;

import org.apache.hadoop.io.IOUtils;

public class URLCat {

    static {

        URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

    }

    public static void readHdfs(String url) throws Exception {

        InputStream in = null;

        try {

            in = new URL(url).openStream();

            IOUtils.copyBytes(in, System.out, 4096, false);

        } finally {

            IOUtils.closeStream(in);

        }

    }

    public static void main(String[] args) throws Exception {

        readHdfs("hdfs://192.168.49.131:9000/user/hadoopuser/input20120828/file01");

    }

}

其中，我使用到的jar包有：

hadoop-core的版本一定要和分布式环境上安装的hadoop版本保持一致，不然会报错：

12/09/11 14:18:59 INFO security.UserGroupInformation: JAAS Configuration already set up for Hadoop, not re-installing.
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/thirdparty/guava/common/collect/LinkedListMultimap
at org.apache.hadoop.hdfs.SocketCache.<init>(SocketCache.java:48)
at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:240)

分布式环境上安装的hadoop版本如下：

运行main方法，输出：hello world bye world 和hdfs中存储的文件信息是保持一致的：

二、使用FileSystem API 读取数据

package hadoop;

import java.io.IOException;

import java.io.InputStream;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

public class FileSystemCat {

    public static void readHdfs(String url) throws IOException {

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(URI.create(url), conf);

        InputStream in = null;

        try {

            in = fs.open(new Path(url));

            IOUtils.copyBytes(in, System.out, 4096, false);

        } finally {

            IOUtils.closeStream(in);

        }

    }

    public static void main(String[] args) throws IOException {

        readHdfs("hdfs://192.168.49.131:9000/user/hadoopuser/output20120828/part-00000");

    }

}

执行输出：

bye   2
hadoop   2
hello   2
world   2

三、创建目录

3.1 写数据 public boolean mkdirs(Path f) throws IOException 会按照客户端请求创建未存在的父目录

package hadoop;

import java.io.BufferedInputStream;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IOUtils;

import org.apache.hadoop.util.Progressable;

public class FileCopyWithProgress {

    public static void fileCopy(String localFile, String hdfsFile) throws IOException{

        InputStream in = new BufferedInputStream(new FileInputStream(localFile));

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(URI.create(hdfsFile),conf);

        OutputStream out  = fs.create(new Path(hdfsFile),new Progressable(){

            public void progress(){

                System.out.println("*");

            }

        });

        IOUtils.copyBytes(in, out, 4096,true);

    }

    public static void main(String[] args) throws IOException {

        fileCopy("D://heat2.txt", "hdfs://192.168.49.131:9000/user/hadoopuser/output20120911/");

    }

}

执行后会报错如下:

Exception in thread "main" org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=libininfo, access=WRITE, inode="/user/hadoopuser":hadoopuser:supergroup:drwxr-xr-x

因为往hadoop写文件是权限不容许的，

解决方法：在hdfs-site.xml 中取消权限校验，即加入以下配置:

到服务器上修改hadoop的配置文件：conf/hdfs-core.xml, 找到 dfs.permissions 的配置项 , 将value值改为 false

再次运行，如果有以下报错：

Exception in thread "main" org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create file/user/hadoopuser/output20120911. Name node is in safe mode.
The reported blocks 6 has reached the threshold 0.9990 of total blocks 6. Safe mode will be turned off automatically in 5 seconds.

说明Hadoop的NameNode处在安全模式下，那什么是Hadoop的安全模式呢？
在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。
现在就清楚了，那现在要解决这个问题，我想让Hadoop不处在safe mode 模式下，能不能不用等，直接解决呢？
答案是可以的，只要在Hadoop的目录下输入：
bin/hadoop dfsadmin -safemode leave
也就是关闭Hadoop的安全模式，这样问题就解决了。如果不这么操作，我们可以等待几秒，然后再次执行程序，可以看到程序正常执行，有以下输出：

*
*
*
*
*
"*"，即上传进度，没写入64KB即输出一个"*"
然后查看hdfs的目录发现文件已经存在。

3.2 文件系统查询列出目录文件信息

package hadoop;

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.FileUtil;

import org.apache.hadoop.fs.Path;

public class ListStatus {

    public static void readStatus(String url) throws IOException {

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(URI.create(url), conf);

        Path[] paths = new Path[1];

        paths[0] = new Path(url);

        FileStatus[] status = fs.listStatus(paths);

        Path[] listedPaths = FileUtil.stat2Paths(status);

        for (Path p : listedPaths) {

            System.out.println(p);

        }

    }

    public static void main(String[] args) throws IOException {

        readStatus("hdfs://192.168.49.131:9000/user/hadoopuser/output20120828/");

    }

}

输出：

hdfs://192.168.49.131:9000/user/hadoopuser/output20120828/_SUCCESS
hdfs://192.168.49.131:9000/user/hadoopuser/output20120828/_logs
hdfs://192.168.49.131:9000/user/hadoopuser/output20120828/part-00000

HDFS常用的Java Api详解的更多相关文章

Hadoop框架：HDFS读写机制与API详解
本文源码:GitHub·点这里 || GitEE·点这里一.读写机制 1.数据写入客户端访问NameNode请求上传文件: NameNode检查目标文件和目录是否已经存在: NameNode响应客 ...
Java数据持久层框架 MyBatis之API学习八（Java API详解）
对于MyBatis的学习而言,最好去MyBatis的官方文档:http://www.mybatis.org/mybatis-3/zh/index.html 对于语言的学习而言,马上上手去编程,多多练习 ...
HDFS 05 - HDFS 常用的 Java API 操作
目录 0 - 配置 Hadoop 环境(Windows系统) 1 - 导入 Maven 依赖 2 - 常用类介绍 3 - 常见 API 操作 3.1 获取文件系统(重要) 3.2 创建目录.写入文件 ...
ElasticSearch Java api 详解_V1.0
/×××××××××××××××××××××××××××××××××××××××××/ Author:xxx0624 HomePage:http://www.cnblogs.com/xxx0624/ ...
Hbase Java API详解
HBase是Hadoop的数据库,能够对大数据提供随机.实时读写访问.他是开源的,分布式的,多版本的,面向列的,存储模型. 在讲解的时候我首先给大家讲解一下HBase的整体结构,如下图: HBase ...
Java 8 Streams API 详解
流式编程作为Java 8的亮点之一,是继Java 5之后对集合的再一次升级,可以说Java 8几大特性中,Streams API 是作为Java 函数式的主角来设计的,夸张的说,有了Streams A ...
Java 8 Stream API详解--转
原文地址:http://blog.csdn.net/chszs/article/details/47038607 Java 8 Stream API详解一.Stream API介绍 Java8引入了 ...
转】Mahout推荐算法API详解
原博文出自于: http://blog.fens.me/mahout-recommendation-api/ 感谢! Posted: Oct 21, 2013 Tags: itemCFknnMahou ...
Java 正则表达式详解_正则表达式
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

随机推荐

HTTP学习笔记01-URL
URI URL语法相对URL和绝对URL 相对URL URL的常用协议 http https mailto ftp rtsprtspu file news telnet 展望美好的未来 1.URI ...
display:inline-block 间隙
IE6/7是不支持display:inline-block属性,只是让其表现的跟inline-block一样,尤其对于inline水平的元素,其表现度可以用perfect一词来形容了. 对于IE8+以 ...
centos 下安装python3.6.2
具体详情: http://www.cnblogs.com/vurtne-lu/p/7068521.html
iOS上架被拒原因及解决办法
简单的记录一下,近期APP上架所遇到的坑爹事儿吧!! 第一次提交: 第二天给了回复,内容如下: .Guideline - Performance - Software Requirements You ...
Go bufio库
bufio.Scanner bufio包使处理输入和输出方便又高效.Scanner类型是该包最有用的特性之一,它读取输入并将其拆成行或单词:通常是处理行形式的输入最简单的方法.该变量从程序的标准输入中 ...
MongoDB快速入门（一）
MongoDB是一个跨平台,面向文档的数据库,提供高性能,高可用性和易于扩展.MongoDB是工作在集合和文档上一种概念. 数据数数据库是一个集合的物理容器.每个数据库获取其自己设定在文件系统上的文 ...
Android SDK组件：webview笔记
1.安卓手机中内置了一款webkit内核的浏览器,在SDK中封装为WebView组件. 2.该组件可以在自己的应用程序中显示本地或者Internet上的网页,也可以把它当作一个浏览器来时用. 3.We ...
idea创建git分支
此时只是在本地创建好了分支,修改源代码后add,commit将本地分支提交到远程仓库分支已创建,其它成员此时就可以从git拉分支
linux设置系统时间与时区以及设置bios时间同步系统时间
有装过Linux系统的人,可能都会有这样的经历,就是该机器安装windows系统时,时间正确,但是安装了linux系统后,尽管时区选择正确,也会发现系统时间不对.这是由于安装系统时采用了UTC,那么什 ...
Lucene简单介绍
[2016.6.11]以前写的笔记,拿出来放到博客里面~ 相关软件: Solr, IK Analyzer, Luke, Nutch;Tomcat; 1.是什么: Lucene是apache软件基金会j ...

HDFS常用的Java Api详解

HDFS常用的Java Api详解的更多相关文章

随机推荐

热门专题