转载请标注原链接 http://www.cnblogs.com/xczyd/p/8570437.html

2018年3月从新司重新起航了。之前在某司过了的蛋疼三个月,也算给自己放了个小假了。

第一个小目标,从腾讯云上的hdfs集群拷贝一些文件到本地。唔唔,听上去似乎很简单的样子。

于是新建了一个Java的Maven工程,在pom.xml中添加如下依赖:

<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.6.0</version>
</dependency>

由于腾讯云上的集群是hdfs-2.6.0版本,所以我们的客户端也用2.6.0,尽量保持一致。

不过2.6.0可不是一个好版本,因为它与任何已知的HBase版本都不能做到兼容|||- -

HBase与Hadoop的兼容性详情见http://hbase.apache.org/book.html#configuration

然后,简单百度了一下访问hdfs的Java API的写法,于是得到了下面的代码:

// 根据给定的URI和用户名,访问hdfs的配置参数
Configuration conf = new Configuration(); // 允许访问datanode时使用域名,默认使用IP
conf.set("dfs.client.use.datanode.hostname","true"); // Hadoop的用户名,应当与远端启动hdfs进程的用户名相同,或者根据hdfs的安全设置自行配置
String hdfsUserName = "root"; URI hdfsUri = null;
try {
// NameNode的访问路径
hdfsUri = new URI("hdfs://hd-nn-test-01:9000");
} catch (URISyntaxException e) {
e.printStackTrace();
} try {
// 创建FileSystem对象,并调用copyToLocalFile函数将hdfs中的一个文件拷贝到本地目录
FileSystem fs = FileSystem.get(hdfsUri, conf, hdfsUserName);
fs.copyToLocalFile(new Path("/tmp/test.txt"),
new Path("/tmp"));
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}

其中加粗的那一行配置是使用外网IP访问一个同时具有内外网IP的hdfs集群时,所需要的一个特定配置。

需要添加这个配置的原因在于,客户端访问hdfs的namenode之后,获得的datanode信息全是云平台内网的IP。

如果直接用这个内网IP去访问,是无法得到hdfs的文件的。

https://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.html

这个链接中有一节专门介绍了这个问题的产生原因及解决办法。

添加这个配置的同时,还需要修改客户端的hosts文件,将云上的hdfs集群的域名与外网IP做一下映射。

这个配置在hdfs-2.6.0及以后的版本中是有效的,但是更往前的版本是否有效,还没来得及做进一步测试。

PS:其实这个坑困扰了我差不多一整天,一开始试图用SSH Tunnel来解决这个问题,未果;

又想用端口转发,也没有成功;后来想尝试nginx做反向代理,还没来得及尝试就偶然间发现了这个配置,

于是用了比较优雅的一个方式解决了此问题。

Hadoop学习笔记1 - 使用Java API访问远程hdfs集群的更多相关文章

  1. RocketMQ学习笔记(4)----RocketMQ搭建双Master集群

    前面已经学习了RockeMQ的四种集群方式,接下来就来搭建一个双Master(2m)的集群环境. 1. 双Master服务器环境 序号 ip 用户名 密码 角色 模式 (1) 47.105.145.1 ...

  2. Hadoop学习笔记: MapReduce Java编程简介

    概述 本文主要基于Hadoop 1.0.0后推出的新Java API为例介绍MapReduce的Java编程模型.新旧API主要区别在于新API(org.apache.hadoop.mapreduce ...

  3. Hadoop入门学习笔记-第三天(Yarn高可用集群配置及计算案例)

    什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件 ...

  4. K8S学习笔记之二进制的方式创建一个Kubernetes集群

    0x00 单节点搭建和简述 minikube Minikube是一个工具,可以在本地快速运行一个单点的Kubernetes,尝试Kubernetes或日常开发的用户使用.不能用于生产环境. 官方地址: ...

  5. ELK+Kafka学习笔记之搭建ELK+Kafka日志收集系统集群

    0x00 概述 关于如何搭建ELK部分,请参考这篇文章,https://www.cnblogs.com/JetpropelledSnake/p/9893566.html. 该篇用户为非root,使用用 ...

  6. Neo4j学习笔记(1)——使用Java API实现简单的增删改查

    阅读目录 项目的创建及配置 使用嵌入式数据库 创建节点和关系 查询及更新 删除关系和节点 完整代码 参考资料 回到顶部 项目的创建及配置 因为Neo4j依赖的jar包比较多,所以推荐使用Maven来管 ...

  7. k8s学习笔记之二:使用kubeadm安装k8s集群

    一.集群环境信息及安装前准备 部署前操作(集群内所有主机): .关闭防火墙,关闭selinux(生产环境按需关闭或打开) .同步服务器时间,选择公网ntpd服务器或者自建ntpd服务器 .关闭swap ...

  8. Hadoop学习笔记2 - 第一和第二个Map Reduce程序

    转载请标注原链接http://www.cnblogs.com/xczyd/p/8608906.html 在Hdfs学习笔记1 - 使用Java API访问远程hdfs集群中,我们已经可以完成了访问hd ...

  9. Hadoop基础-HDFS集群中大数据开发常用的命令总结

    Hadoop基础-HDFS集群中大数据开发常用的命令总结 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本盘博客仅仅列出了我们在实际生成环境中常用的hdfs命令,如果想要了解更多, ...

随机推荐

  1. js 批量提交数据

    // 批量提交数据 let pageSize = 100, total = dataTmp.length, list = dataTmp let totalPage = Math.ceil(total ...

  2. 数据仓库之Data Vault模型总结

    一,Data Vault模型有几个主要的组件,这里先总结一下: 1.Hub组件,是一个数据表,用于记录在业务应用中常用到的业务实体键值,如员工ID,发票号.客户编号.车辆号等. 表内包括几个关键字段: ...

  3. vue-router同路由$router.push不跳转一个简单解决方案

    vue-router同路由$router.push不跳转一个简单解决方案 vue-router跳转一般是这么写: toCurrentPage: function(thisId){ this.$rout ...

  4. GDAL——命令使用专题——ogrinfo命令

    GDAL——命令使用专题——ogrinfo命令 前言 GDAL(Geospatial Data Abstraction Library)是一个在X/MIT许可协议下的开源栅格空间数据转换库.它利用抽象 ...

  5. python学习小总结(列表、元组、字典、集合、字符串)

    ---恢复内容开始--- 一.列表(list) 1.添加 append():追加,在列表末尾添加元素. 列表名.append(添加的元素) extend():扩展,在列表末尾添加元素. 列表名.ext ...

  6. 本周HTML5的知识点

    html5一般用<meta>标签描述网页的摘要信息.标题标签一共有6个,标题字体加粗<h1>最大,<h6>最小. <p>标签标示内容都在一行显示,结束后 ...

  7. erlang二进制

    在Erlang中写处理二进制数据的代码是洋溢着幸福感的,它对于二进制强大的表现力甚至能让你忘掉了它种种不便,今天我们说说Erlang的二进制数据处理. Erlang中bit string代表无类型的内 ...

  8. SQL-52 获取Employees中的first_name,查询按照first_name最后两个字母,按照升序进行排列

    题目描述 获取Employees中的first_name,查询按照first_name最后两个字母,按照升序进行排列CREATE TABLE `employees` (`emp_no` int(11) ...

  9. C#的ArrayList与JS的push,转字符串逗号分隔

    拼接字符串是常用的基本代码,但是还是有很多人习惯用"+"拼接字符串,这样做有以下缺点: 1)为了去掉尾部(或头部)分隔符,写法复杂 2)容易出现BUG报错,比如空值 C#中推荐大家 ...

  10. for each ;for in;for of 三者的区别

    for each: for each 方法没办法用break语句跳出循环并且无法用return语句从函数体 内返回 for in: 1.index 值 会是字符串(String)类型 2.循环不仅会遍 ...