使用HDFS客户端java api读取hadoop集群上的信息

本文介绍使用hdfs java api的配置方法。

1、先解决依赖，pom

<dependency>

            <groupId>org.apache.hadoop</groupId>

            <artifactId>hadoop-client</artifactId>

            <version>2.7.2</version>

            <scope>provided</scope>

        </dependency>

2、配置文件，存放hdfs集群配置信息，基本都是来源于core-site.xml和hdfs-site.xml，可以根据hdfs集群client端配置文件里的信息进行填写

#============== hadoop ===================

hdfs.fs.defaultFS=hdfs://mycluster-tj

hdfs.ha.zookeeper.quorum=XXXX-apache00.XX01,XXXX-apache01.XX01,XXXX-apache02.XX01

hdfs.dfs.nameservices=XXXX

hdfs.dfs.ha.namenodes.mycluster-tj=XX1,XX2

hdfs.dfs.namenode.rpc-address.mycluster-tj.nn1=XXXX-apachenn01.XX01:

hdfs.dfs.namenode.rpc-address.mycluster-tj.nn2=XXXX-apachenn02.XX01:

3、java client api

import java.io.IOException;

import java.net.URI;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.conf.Configuration;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import java.text.SimpleDateFormat;

import java.util.Date;

public class HadoopClient {

    protected final Logger logger = LoggerFactory.getLogger(this.getClass());

    private FileSystem fs;

    private String defaultFS;

    private String zKQuorum;

    private String nameServices;

    private String nameNodes;

    private String rpcAddressNN1;

    private String rpcAddressNN2;

    public void setDefaultFS(String defaultFS) {

        this.defaultFS = defaultFS;

    }

    public String getDefaultFS() {

        return defaultFS;

    }

    public void setZKQuorum(String zKQuorum) {

        this.zKQuorum = zKQuorum;

    }

    public String getzKQuorum() {

        return zKQuorum;

    }

    public void setNameServices(String nameServices) {

        this.nameServices = nameServices;

    }

    public String getNameServices() {

        return nameServices;

    }

    public void setNameNodes(String nameNodes) {

        this.nameNodes = nameNodes;

    }

    public String getNameNodes() {

        return nameNodes;

    }

    public void setRpcAddressNN1(String rpcAddressNN1) {

        this.rpcAddressNN1 = rpcAddressNN1;

    }

    public String getRpcAddressNN1() {

        return rpcAddressNN1;

    }

    public void setRpcAddressNN2(String rpcAddressNN2) {

        this.rpcAddressNN2 = rpcAddressNN2;

    }

    public String getRpcAddressNN2() {

        return rpcAddressNN2;

    }

    public void init() {

        try {

            Configuration conf = new Configuration();

            conf.set("fs.defaultFS", defaultFS);

            conf.set("ha.zookeeper.quorum", zKQuorum);

            conf.set("dfs.nameservice", nameServices);

            conf.set("dfs.ha.namenodes.mycluster-tj", nameNodes);

            conf.set("dfs.namenode.rpc-address.mycluster-tj.nn1", rpcAddressNN1);

            conf.set("dfs.namenode.rpc-address.mycluster-tj.nn2", rpcAddressNN2);

            fs = FileSystem.get(new URI(defaultFS), conf);

        } catch (Exception ex) {

            ex.printStackTrace();

        }

    }

    public void stop() {

        try {

            fs.close();

        } catch(Exception e) {

        }

    }

    public boolean exists(String path) {

        boolean isExists = false;

        try {

            Path hdfsPath = new Path(path);

            isExists = fs.exists(hdfsPath);

        } catch (Exception ex) {

            logger.error("exists error: {}", ex.getMessage());

        }

        return isExists;

    }

    public String getModificationTime(String path) throws IOException {

        String modifyTime = null;

        try {

            Path hdfsPath = new Path(path);

            FileStatus fileStatus = fs.getFileStatus(hdfsPath);

            long modifyTimestamp = fileStatus.getModificationTime();

            SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyyMMddHHmmss");

            Date date = new Date(modifyTimestamp);

            modifyTime = simpleDateFormat.format(date);

        } catch(Exception ex) {

            logger.error("getModificationTime error: {}", ex.getMessage());

        }

        return modifyTime;

    }

}

4、configuration

import com.xiaoju.dqa.prometheus.client.hadoop.HadoopClient;

import org.springframework.beans.factory.annotation.Value;

import org.springframework.context.annotation.Bean;

import org.springframework.context.annotation.Configuration;

@Configuration

public class HadoopConfiguration {

    @Value("${hdfs.fs.defaultFS}")

    private String defaultFS;

    @Value("${hdfs.ha.zookeeper.quorum}")

    private String zKQuorum;

    @Value("${hdfs.dfs.nameservices}")

    private String nameServices;

    @Value("${hdfs.dfs.ha.namenodes.mycluster-tj}")

    private String nameNodes;

    @Value("${hdfs.dfs.namenode.rpc-address.mycluster-tj.nn1}")

    private String rpcAddressNN1;

    @Value("${hdfs.dfs.namenode.rpc-address.mycluster-tj.nn2}")

    private String rpcAddressNN2;

    @Bean(initMethod = "init", destroyMethod = "stop")

    public HadoopClient hadoopClient() {

        HadoopClient hadoopClient = new HadoopClient();

        hadoopClient.setDefaultFS(defaultFS);

        hadoopClient.setZKQuorum(zKQuorum);

        hadoopClient.setNameServices(nameServices);

        hadoopClient.setNameNodes(nameNodes);

        hadoopClient.setRpcAddressNN1(rpcAddressNN1);

        hadoopClient.setRpcAddressNN2(rpcAddressNN2);

        return hadoopClient;

    }

}

今天被一个问题坑的要死了，回来补这篇文章。

如果你要访问的集群采用了viewfs方式管理数据，按照本文上面的方法链接集群是有问题。会导致由URI和nameservices解析成功的namenode才可以访问，而其他的访问不了！！！

如果你想解决这个问题，在api部分你要去掉URI部分和nameservices配置，直接使用集群客户端hdfs-site.xml和core-site.xml

应该是这样的。

package com.xiaoju.dqa.jazz.hadoop.client;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.Date;

public class HadoopClient {

    protected final Logger logger = LoggerFactory.getLogger(this.getClass());

    private FileSystem fs;

    public void init() {

        try {

            Configuration conf = new Configuration();

            conf.addResource("core-site.xml");

            conf.addResource("hdfs-site.xml");

            conf.addResource("mount-table.xml");

            fs = FileSystem.get(conf);

        } catch (Exception ex) {

            ex.printStackTrace();

        }

    }

    public void stop() {

        try {

            fs.close();

        } catch(Exception e) {

        }

    }

    public boolean exists(String path) {

        boolean isExists = true;

        try {

            Path hdfsPath = new Path(path);

            isExists = fs.exists(hdfsPath);

        } catch (Exception e) {

            logger.error("[HDFS]判断文件是否存在失败", e);

        }

        return isExists;

    }

    public String getModificationTime(String path) throws IOException {

        String modifyTime = null;

        try {

            Path hdfsPath = new Path(path);

            FileStatus fileStatus = fs.getFileStatus(hdfsPath);

            long modifyTimestamp = fileStatus.getModificationTime();

            SimpleDateFormat simpleDateFormat = new SimpleDateFormat("yyyyMMddHHmmss");

            Date date = new Date(modifyTimestamp);

            modifyTime = simpleDateFormat.format(date);

        } catch(Exception e) {

            logger.error("[HDFS]获取最近修改时间失败", e);

        }

        return modifyTime;

    }

    public long getPathSize(String path) throws IOException {

        long size = -1L;

        try {

            Path hdfsPath = new Path(path);

            size = fs.getContentSummary(hdfsPath).getLength();

        } catch (Exception e) {

            logger.error("[HDFS]获取路径大小失败", e);

        }

        return size;

    }

}

config中也不需要传任何参数了

package com.xiaoju.dqa.jazz.hadoop.configuration;

import com.xiaoju.dqa.jazz.hadoop.client.HadoopClient;

import org.springframework.context.annotation.Bean;

import org.springframework.context.annotation.Configuration;

@Configuration

public class HadoopConfig {

    @Bean(initMethod = "init", destroyMethod = "stop")

    public HadoopClient hadoopClient() {

        HadoopClient hadoopClient = new HadoopClient();

        return hadoopClient;

    }

}

使用HDFS客户端java api读取hadoop集群上的信息的更多相关文章

使用hive客户端java api读写hive集群上的信息
上文介绍了hdfs集群信息的读取方式,本文说hive 1.先解决依赖 <properties> <hive.version>1.2.1</hive.version> ...
使用JAVA API获取hadoop集群的FileSystem
所需要配置的参数: Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs ...
Java接口对Hadoop集群的操作
Java接口对Hadoop集群的操作首先要有一个配置好的Hadoop集群这里是我在SSM框架搭建的项目的测试类中实现的一.windows下配置环境变量下载文件并解压到C盘或者其他目录. 链接: ...
Hadoop集群上使用JNI，调用资源文件
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力. 通常在是用一些工具的时候都要用到一些配置文件.资源文件等.接下来,借一个例子来说明ha ...
[转载] 把Nutch爬虫部署到Hadoop集群上
http://f.dataguru.cn/thread-240156-1-1.html 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文 ...
把Nutch爬虫部署到Hadoop集群上
原文地址:http://cn.soulmachine.me/blog/20140204/ 把Nutch爬虫部署到Hadoop集群上 Feb 4th, 2014 | Comments 软件版本:Nutc ...
在Hadoop集群上的HBase配置
之前,我们已经在hadoop集群上配置了Hive,今天我们来配置下Hbase. 一.准备工作 1.ZooKeeper下载地址:http://archive.apache.org/dist/zookee ...
hadoop 把mapreduce任务从本地提交到hadoop集群上运行
MapReduce任务有三种运行方式: 1.windows(linux)本地调试运行,需要本地hadoop环境支持 2.本地编译成jar包,手动发送到hadoop集群上用hadoop jar或者yar ...
MapReduce编程入门实例之WordCount：分别在Eclipse和Hadoop集群上运行
上一篇博文如何在Eclipse下搭建Hadoop开发环境,今天给大家介绍一下如何分别分别在Eclipse和Hadoop集群上运行我们的MapReduce程序! 1. 在Eclipse环境下运行MapR ...

随机推荐

1st 四则运算题目生成程序
程序代码见此程序展示需求分析需要程序能根据用户指定生成四则运算的题目,并且能让用户做题,并且最后打分统计正确率功能设计主要实现的功能就是: 接受用户输入以便知道要出多少道题目(-n x) 能 ...
201521123115《Java程序设计》第7周学习总结
1. 本周学习总结以你喜欢的方式(思维导图或其他)归纳总结集合相关内容. 2. 书面作业 1.ArrayList代码分析 1.1 解释ArrayList的contains源代码 1.2 解释E re ...
201521123087 《Java程序设计》第3周学习总结
1.本周学习总结 2. 书面作业代码阅读 public class Test1 { private int i = 1;//这行不能修改 private static int j = 2; publ ...
How To:禁用ubuntu全局菜单(global menu)的方法
刚从windows转过来的新手可用会觉得ubuntu unity下的全局菜单(global menu)用起来很不方便.下边是介绍去除全局菜单的方法 1.打开终端(可以去dash主页里面搜,也可以直接按 ...
C#程序及批处理中确定windows操作系统的方法
先上一段代码: private void Form1_Load(object sender, EventArgs e) { OperatingSystem os = Environment.OSVer ...
201521123056 《Java程序设计》第12周学习总结
1. 本周学习总结 2. 书面作业将Student对象(属性:int id, String name,int age,double grade)写入文件student.data.从文件读出显示. 1 ...
What is uClinux?
What is uClinux? The original uClinux was a derivative of Linux 2.0 kernel intended for microcontrol ...
Java: private、protected、public和default的区别
public: 具有最大的访问权限,可以访问任何一个在classpath下的类.接口.异常等.它往往用于对外的情况,也就是对象或类对外的一种接口的形式. protected: 主要的作用就是用来保护子 ...
如何选择适合的前端UI框架
根据近几年前端框架的热门,在前端开发框架不断更新与交换的时代,每一年都有黑马出现,是否适合自己开发的项目就不得而知了,只有认真的了解之后才能知道,这里主要给大家说一下如何选择适合旅游的前端UI框架?相 ...
mybatis-主配置文件介绍
mybatis下载地址:http://code.google.com/p/mybatis/ 学习手册地址:http://mybatis.github.io/mybatis-3/zh/index.htm ...

使用HDFS客户端java api读取hadoop集群上的信息

使用HDFS客户端java api读取hadoop集群上的信息的更多相关文章

随机推荐

热门专题