Hadoop学习笔记1 - 使用Java API访问远程hdfs集群

转载请标注原链接 http://www.cnblogs.com/xczyd/p/8570437.html

2018年3月从新司重新起航了。之前在某司过了的蛋疼三个月，也算给自己放了个小假了。

第一个小目标，从腾讯云上的hdfs集群拷贝一些文件到本地。唔唔，听上去似乎很简单的样子。

于是新建了一个Java的Maven工程，在pom.xml中添加如下依赖：

<dependency>

    <groupId>org.apache.hadoop</groupId>

    <artifactId>hadoop-client</artifactId>

    <version>2.6.0</version>

</dependency>

由于腾讯云上的集群是hdfs-2.6.0版本，所以我们的客户端也用2.6.0，尽量保持一致。

不过2.6.0可不是一个好版本，因为它与任何已知的HBase版本都不能做到兼容|||- -

HBase与Hadoop的兼容性详情见http://hbase.apache.org/book.html#configuration

然后，简单百度了一下访问hdfs的Java API的写法，于是得到了下面的代码：

// 根据给定的URI和用户名，访问hdfs的配置参数

 Configuration conf = new Configuration();

 // 允许访问datanode时使用域名，默认使用IP

 conf.set("dfs.client.use.datanode.hostname","true");

 // Hadoop的用户名,应当与远端启动hdfs进程的用户名相同，或者根据hdfs的安全设置自行配置

 String hdfsUserName = "root";

 URI hdfsUri = null;

 try {

     // NameNode的访问路径

     hdfsUri = new URI("hdfs://hd-nn-test-01:9000");

 } catch (URISyntaxException e) {

     e.printStackTrace();

 }

 try {

     // 创建FileSystem对象,并调用copyToLocalFile函数将hdfs中的一个文件拷贝到本地目录

     FileSystem fs = FileSystem.get(hdfsUri, conf, hdfsUserName);

     fs.copyToLocalFile(new Path("/tmp/test.txt"),

         new Path("/tmp"));

 } catch (IOException e) {

     e.printStackTrace();

 } catch (InterruptedException e) {

     e.printStackTrace();

 }

其中加粗的那一行配置是使用外网IP访问一个同时具有内外网IP的hdfs集群时，所需要的一个特定配置。

需要添加这个配置的原因在于，客户端访问hdfs的namenode之后，获得的datanode信息全是云平台内网的IP。

如果直接用这个内网IP去访问，是无法得到hdfs的文件的。

https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html

这个链接中有一节专门介绍了这个问题的产生原因及解决办法。

添加这个配置的同时，还需要修改客户端的hosts文件，将云上的hdfs集群的域名与外网IP做一下映射。

这个配置在hdfs-2.6.0及以后的版本中是有效的，但是更往前的版本是否有效，还没来得及做进一步测试。

PS：其实这个坑困扰了我差不多一整天，一开始试图用SSH Tunnel来解决这个问题，未果；

又想用端口转发，也没有成功；后来想尝试nginx做反向代理，还没来得及尝试就偶然间发现了这个配置，

于是用了比较优雅的一个方式解决了此问题。

Hadoop学习笔记1 - 使用Java API访问远程hdfs集群的更多相关文章

RocketMQ学习笔记（4）----RocketMQ搭建双Master集群
前面已经学习了RockeMQ的四种集群方式,接下来就来搭建一个双Master(2m)的集群环境. 1. 双Master服务器环境序号 ip 用户名密码角色模式 (1) 47.105.145.1 ...
Hadoop学习笔记： MapReduce Java编程简介
概述本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型.新旧API主要区别在于新API(org.apache.hadoop.mapreduce ...
Hadoop入门学习笔记-第三天（Yarn高可用集群配置及计算案例）
什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件 ...
K8S学习笔记之二进制的方式创建一个Kubernetes集群
0x00 单节点搭建和简述 minikube Minikube是一个工具,可以在本地快速运行一个单点的Kubernetes,尝试Kubernetes或日常开发的用户使用.不能用于生产环境. 官方地址: ...
ELK+Kafka学习笔记之搭建ELK+Kafka日志收集系统集群
0x00 概述关于如何搭建ELK部分,请参考这篇文章,https://www.cnblogs.com/JetpropelledSnake/p/9893566.html. 该篇用户为非root,使用用 ...
Neo4j学习笔记(1)——使用Java API实现简单的增删改查
阅读目录项目的创建及配置使用嵌入式数据库创建节点和关系查询及更新删除关系和节点完整代码参考资料回到顶部项目的创建及配置因为Neo4j依赖的jar包比较多,所以推荐使用Maven来管 ...
k8s学习笔记之二：使用kubeadm安装k8s集群
一.集群环境信息及安装前准备部署前操作(集群内所有主机): .关闭防火墙,关闭selinux(生产环境按需关闭或打开) .同步服务器时间,选择公网ntpd服务器或者自建ntpd服务器 .关闭swap ...
Hadoop学习笔记2 - 第一和第二个Map Reduce程序
转载请标注原链接http://www.cnblogs.com/xczyd/p/8608906.html 在Hdfs学习笔记1 - 使用Java API访问远程hdfs集群中,我们已经可以完成了访问hd ...
Hadoop基础-HDFS集群中大数据开发常用的命令总结
Hadoop基础-HDFS集群中大数据开发常用的命令总结作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...

随机推荐

vue-组件注册
<div id="app-7"> <ol> <!-- 现在我们为每个 todo-item 提供 todo 对象 todo 对象是变量,即其内容可以是动 ...
Win10安装.NetFamework3.5
步骤1:装载Win10安装镜像本人用的是"cn_windows_10_multiple_editions_x64_dvd_6848463.iso" 如图,我把镜像装载到H盘; 步 ...
PIL库的运用
PIL库学习及运用 1.库的介绍Python Imaging Library,简称PIL python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力. 下面是我的学习笔记首 ...
2-Reverse Integer（简单）
Description: Given a 32-bit signed integer, reverse digits of an integer. Example 1: Input: 123 Outp ...
Vue入门笔记（二）--基础部分之条件渲染
github地址:https://github.com/iTao9354/basicVue/tree/master/conditional%20rendering(demo01-03) 一.v-if ...
PC/FORTH 下的多任务使用
body, table{font-family: 微软雅黑; font-size: 13.5pt} table{border-collapse: collapse; border: solid gra ...
Centos 安装dhcp及简单配置
install yum -y install dhcp file /etc/dhcp/dhcpd.conf eg:-------------------------------- ddns-updat ...
json、demjson
一.json 概述: json.dumps():将 Python 对象编码成 JSON 字符串, dic -> json str json.dump() :将 Python 对象保存成 JSO ...
C语言作业（心理魔术）
#include "stdafx.h" #include "stdio.h" #include "stdlib.h" #include &q ...
C++算法之大数加法计算的代码
如下代码段是关于C++算法之大数加法计算的代码,希望对大家有用. { int length; int index; int smaller; int prefix = 0; if(NULL == sr ...

Hadoop学习笔记1 - 使用Java API访问远程hdfs集群

Hadoop学习笔记1 - 使用Java API访问远程hdfs集群的更多相关文章

随机推荐

热门专题