JAVA API连接HDFS HA集群

使用JAVA API连接HDFS时我们需要使用NameNode的地址,开启HA后,两个NameNode可能会主备切换,如果连接的那台主机NameNode挂掉了,连接就会失败. HDFS提供了nameservices的方式进行访问,这样只要有一个NameNode活着,都可以正常访问.

HDFS NameNode HA

在没有HA的环境中,通常使用NameNode hostname访问HDFS的URL.

hdfs://hostname1.hadoop.local:8020

为了保证HDFS服务的高可用,生产环境是必须要开启NameNode HA的,此时应该用nameservices作为统一的logical name连接HDFS.

使用Ambari Enable NameNode HA之后,我的集群在hostname2.hadoop.local上增加了一个NameNode, HA相关的配置会自动产生.

首先在Ambari UI上查看custom hdfs-site配置. 注意端口号要配成rpc的端口号,而不能是http/https的.

dfs.nameservices=mycluster

dfs.namenode.rpc-address.mycluster.nn1=hostname1.hadoop.local:8020

dfs.namenode.rpc-address.mycluster.nn2=hostname2.hadoop.local:8020

dfs.ha.namenodes.mycluster=nn1,nn2

使用nameservices访问HDFS的URL:

hdfs://mycluster:8020

JAVA API连接HDFS HA代码如下:

Configuration conf=new Configuration(false);

String nameservices = "mycluster";

String[] namenodesAddr = {"ochadoop111.jcloud.local:8020","ochadoop112.jcloud.local:8020"};

String[] namenodes = {"nn1","nn2"};

conf.set("fs.defaultFS", "hdfs://" + nameservices);

conf.set("dfs.nameservices",nameservices);

conf.set("dfs.ha.namenodes." + nameservices, namenodes[0]+","+namenodes[1]);

conf.set("dfs.namenode.rpc-address." + nameservices + "." + namenodes[0], namenodesAddr[0]);

conf.set("dfs.namenode.rpc-address." + nameservices + "." + namenodes[1], namenodesAddr[1]);

conf.set("dfs.client.failover.proxy.provider." + nameservices,"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");

String hdfsRPCUrl = "hdfs://" + nameservices + ":" + 8020;

DistributedFileSystem dfs = new DistributedFileSystem();

try {

dfs.initialize(URI.create(hdfsRPCUrl),conf);

Path tmpPath2 = new Path("/tmp2");

dfs.mkdir(tmpPath2,new FsPermission("777"));

FileStatus[] list = dfs.listStatus(new Path("/"));

for (FileStatus file : list) {

System.out.println(file.getPath());

}

dfs.setQuota(tmpPath2,100,1000);

} catch (IOException e) {

e.printStackTrace();

} finally{

try {

dfs.close();

} catch (IOException e) {

e.printStackTrace();

}

WebHDFS访问

通过WebHDFS访问HA集群时,就没有rpc方式那么方便了,有四种解决方法,我觉得第4个方法最简单, YARN的ResourceManager HA我就是按这个思路处理的.

使用httpfs,这个是CDH的产品,需要额外安装

使用knox安全网关,这样访问的接口就都被knox统一了

每次访问之前都从zookeeper中拿当前Active NameNode的地址

每次访问轮询两个namenode

YARN ResourceManager HA

ResourceManager HA存在与NameNode HA类似的问题,能否通过统一的logical name访问RM的REST API呢? 答案是暂时不支持.

目前YARN只能支持standy RM把请求重定向到Active RM上. 也就是说假如主备RM都活着,当客户端向standby RM发HTTP请求时,standby RM会重定向到active RM上,但是如果standby RM不幸挂掉了,而Active RM还正常工作,此时请求就会失败.

解决方法其实也很简单,就是在调用RM REST API时轮询两个RM.

JAVA API连接HDFS HA集群的更多相关文章

使用QJM部署HDFS HA集群
一.所需软件 1. JDK版本下载地址:http://www.oracle.com/technetwork/java/javase/index.html 版本: jdk-7u79-linux-x64 ...
ZooKeeper学习之路（九）利用ZooKeeper搭建Hadoop的HA集群
Hadoop HA 原理概述为什么会有 hadoop HA 机制呢? HA:High Available,高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障 (SP ...
Hadoop(HDFS,YARN)的HA集群安装
搭建Hadoop的HDFS HA及YARN HA集群,基于2.7.1版本安装. 安装规划角色规划 IP/机器名安装软件运行进程 namenode1 zdh-240 hadoop NameNode ...
HDFS的HA集群原理分析
1.简单hdfs集群中存在的问题不能存在两个NameNode 单节点问题单节点故障转移 2.解决单节点问题找额外一个NameNode备份原有的数据会出现脑裂脑裂:一个集群中多个管理者数据 ...
HUE配置文件hue.ini 的hdfs_clusters模块详解（图文详解）（分HA集群和非HA集群）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
HUE配置文件hue.ini 的liboozie和oozie模块详解（图文详解）（分HA集群）
不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...
hadoop2.8 ha 集群搭建
简介: 最近在看hadoop的一些知识,下面搭建一个ha (高可用)的hadoop完整分布式集群: hadoop的单机,伪分布式,分布式安装 hadoop2.8 集群 1 (伪分布式搭建 hadoop ...
Hadoop HA集群与开发环境部署
每一次 Hadoop 生态的更新都是如此令人激动像是 hadoop3x 精简了内核,spark3 在调用 R 语言的 UDF 方面,速度提升了 40 倍所以该文章肯定得配备上最新的生态 hadoo ...
安装spark ha集群
安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/p ...

随机推荐

常见问题:MySQL/事务隔离
数据库并行产生的问题 A事务撤销时,将B事务更改的数据撤销. A事务提交时,将B事务更改的同行数据覆盖. 脏读:A事务读取到了B事务未提交的数据. 不可重复读:A事务中同查询语句不幂等,读到已更新数据 ...
最新博盾习言java校招面经（含整理过的面试题大全）
从6月到10月,经过4个月努力和坚持,自己有幸拿到了网易雷火.京东.去哪儿. 博盾习言等10家互联网公司的校招Offer,因为某些自身原因最终选择了博盾习言.6.7月主要是做系统复习.项目复盘.Le ...
洛谷题解 P1041 【传染病控制】
[思路] 题目给出一棵树.第\(i\)步拆的一定是第\(i\)层与第\(i+1\)层之间的连边,否则不是最优(自行证明即可),所以可以暴力枚举每一次拆哪一个节点与上一个节点的连边. 把所有节点所在的层 ...
036 Android Xutils3网络请求框架使用
1.xUtils3 介绍 xUtils 中目前包括了主要的四大模块,分别为 DbUtils 模块.ViewUtils 模块.HttpUtils 模块以及 BitmapUtils 模块. xUtils3 ...
JAVA线程中的发牌题
发牌题主要考虑的就是线程的问题,一个buffer缓冲区的问题, 首先,发牌的优先级当然是最高的了,但是取牌不能有优先级,否则会一直有牌先取,因此需要一个信号量order,当order=线程的数字时,取 ...
Python基础 — 数据类型转换
Python 数据类型转换有时候,我们需要对数据内置的内心进行转换,数据类型的转换,你只需要将数据类型作为函数名即可. 以下几个内置的函数可以执行数据类型之间的转换,这些函数返回一个新的对象,表示转 ...
DNS 解析
DNS即为Domain Name System的缩写形式,就是所谓的域名系统,它是互联网的一项服务.它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网. 如果想访问某个网站( ...
Angular 学习笔记 (Material table sticky 原理)
更新 : 2019-12-03 今天踩坑了, sticky 了解不够深 refer http://www.ruanyifeng.com/blog/2019/11/css-position.html 阮 ...
安装Nginx报错“Cannot retrieve metalink for repository: epel. Please verify its path and try again”
CentOS 6.5中通过yum安装nginx报错. 搜了一下,很多都是修改某个配置文件的.但是在StackOverFlow的某个问题下,有人回答说修改配置文件并不是一个好的方法,虽然我采用了这个人的 ...
利用RabbitMQ实现分布式事务
实现要点:1.构建本地消息表及定时任务,确保消息可靠发送:2.RabbitMQ可靠消费:3.redis保证幂等两个服务:订单服务和消息服务订单服务消息可靠发送使用springboot构建项目,相 ...

JAVA API连接HDFS HA集群

JAVA API连接HDFS HA集群的更多相关文章

随机推荐

热门专题