hadoop-hdfs(三)
HDFS概念
1 数据块*
HDFS的一个数据块默认是64M,与元数据分开管理。
优点:
数据块的大小设计的较大,所以寻址占传输的时间比例较小,只需要计算传输速度即可。
便于简化管理,利于计算剩余空间、冗余备份(默认三个)
与元数据分开管理,保持他本身无属性的特性。
2 nameNode,DataNode*
nameNode:
1 命名空间
2 维护文件系统树(命名空间镜像文件)与目录(编辑日志文件)(本地磁盘)
3 保存每个块的元数据信息
4 维护多个dataNode
备份策略:写入远程磁盘、两个NameNode同时运行
DataNode
1 文件系统的工作节点
2 定期向NameNode发送块列表
3 收到NameNode和Client的调度
3 外部接口
Thrift:Hadoop提供给外部非JAVA语言调用的接口
HTTP:网页监控
FTP:传输文件
4 JAVA接口
1 URL API读取
@Test
public void input1() throws MalformedURLException, IOException {
URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
InputStream in = new URL("hdfs://192.168.1.100:9000/user/sunfan/input/file1.txt").openStream();
byte[] buff = new byte[];
int len;
while (- != (len = in.read(buff))) {
for (int i = ; i < len; i++) {
System.out.print((char) buff[i]);
}
}
in.close();
}
2 FileSystem API 读取FSDatainputStream流的使用(seek方法可以重新定位读取,和inputStream的skip不一样) *
@Test
public void input2() throws MalformedURLException, IOException {
String uri = "hdfs://192.168.1.100:9000/user/sunfan/input/file1.txt";
FileSystem fs = FileSystem.get(URI.create(uri), new Configuration());
FSDataInputStream in = null;
in = fs.open(new Path(uri));
byte[] buff = new byte[];
int len;
while (- != (len = in.read(buff))) {
for (int i = ; i < len; i++) {
System.out.print((char) buff[i]);
}
}
in.seek();
while (- != (len = in.read(buff))) {
for (int i = ; i < len; i++) {
System.out.print((char) buff[i]);
}
}
in.close();
}
写入数据 FSDataOutPutStream
@Test
public void out3() throws IOException {
String uri2 = "hdfs://192.168.1.100:9000/user/sunfan/input/file3.txt";
FileSystem fs = FileSystem.get(URI.create(uri2), new Configuration());
FSDataOutputStream out = fs.create(new Path(uri2));
System.out.println(fs.exists(new Path(uri2)));
out.write();
}
本地文件的复制:注意这里重写Progressable来写进度条,用IOUtils.copy方法来复制
@Test
public void out3() throws IOException {
long start = System.currentTimeMillis();
FileInputStream in = new FileInputStream("C:\\Users\\sunfan\\Desktop\\copy.pdf");
String uri2 = "hdfs://192.168.1.100:9000/user/sunfan/input/file3.txt";
FileSystem fs = FileSystem.get(URI.create(uri2), new Configuration());
FSDataOutputStream out = fs.create(new Path(uri2), new Progressable() {
public void progress() {
System.out.print(".");
}
});
IOUtils.copyBytes(in, out, , true);
System.out.println(System.currentTimeMillis()-start);
}
读取文件的详细信息:通过fs.getFileStatus得到FileStatus
@Test
public void showFilesystem() throws IOException {
String dir = "hdfs://192.168.1.100:9000/user/sunfan/input";
FileSystem fs = FileSystem.get(URI.create("hdfs://192.168.1.100:9000"), new Configuration());
FileStatus status = fs.getFileStatus(new Path(dir));
System.out.println(status.getPermission());
}
读取文件列表:通过fs.listStatus获取FileStatus数组
@Test
public void showFilesystem2() throws IOException {
String dir = "hdfs://192.168.1.100:9000/user/sunfan/input";
FileSystem fs = FileSystem.get(URI.create(dir), new Configuration());
FileStatus[] status = fs.listStatus(new Path("hdfs://192.168.1.100:9000/user/sunfan/input"));
for (FileStatus fileStatus : status) {
System.out.println(fileStatus.getPath());
}
}
用正则读取文件:通过fs.globStatus读取
@Test
public void showFilesystem2() throws IOException {
String dir = "hdfs://192.168.1.100:9000/user/sunfan/input";
FileSystem fs = FileSystem.get(URI.create(dir), new Configuration());
FileStatus[] status = fs.globStatus(new Path("hdfs://192.168.1.100:9000/user/sunfan/input/*"));
for (FileStatus fileStatus : status) {
System.out.println(fileStatus.getPath());
}
}
hadoop-hdfs(三)的更多相关文章
- 马士兵hadoop第三课:java开发hdfs
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
- Hadoop(三)HDFS读写原理与shell命令
一 HDFS概述 1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件 ...
- 马士兵hadoop第三课:java开发hdfs(转)
马士兵hadoop第一课:虚拟机搭建和安装hadoop及启动 马士兵hadoop第二课:hdfs集群集中管理和hadoop文件操作 马士兵hadoop第三课:java开发hdfs 马士兵hadoop第 ...
- 【Hadoop】三、HDFS命令行接口
通过前面对HDFS基本概念.高可用性.数据读写流程的介绍,我们对HDFS已经有了大致的了解.这里我们还需要明确一点:Hadoop作为一个完整的分布式系统,它有一个抽象的文件系统的概念,而我们介绍的 ...
- HADOOP docker(三):HDFS高可用实验
前言1.机器环境2.配置HA2.1 修改hdfs-site.xml2.2 设置core-site.xml3.配置手动HA3.1 关闭YARN.HDFS3.2 启动HDFS HA4.配置自动HA4. ...
- Hadoop HDFS负载均衡
Hadoop HDFS负载均衡 转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed ...
- Hadoop HDFS编程 API入门系列之简单综合版本1(四)
不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs4; import java.io.IOException; import ja ...
- Hadoop HDFS (3) JAVA訪问HDFS
如今我们来深入了解一下Hadoop的FileSystem类. 这个类是用来跟Hadoop的文件系统进行交互的.尽管我们这里主要是针对HDFS.可是我们还是应该让我们的代码仅仅使用抽象类FileSyst ...
- Hadoop HDFS分布式文件系统设计要点与架构
Hadoop HDFS分布式文件系统设计要点与架构 Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...
- hadoop hdfs uri详解
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
随机推荐
- Spring boot 异常处理配置
1. 新建Maven项目 exception 2. pom.xml <project xmlns="http://maven.apache.org/POM/4.0.0&quo ...
- Java 类加载体系之 ClassLoader 双亲委托机制
Java 类加载体系之 ClassLoader 双亲委托机制 java 是一种类型安全的语言,它有四类称为安全沙箱机制的安全机制来保证语言的安全性,这四类安全沙箱分别是: 类加载体系 .class文件 ...
- typeid操作符
typeid() operator返回type_info,返回值不可拷贝.不可赋值 // Illustrates the typeid operator. #include <iostream& ...
- 【杂题总汇】HDU-6406 Taotao Picks Apples
[HDU 6406]Taotao Picks Apples 多校赛的时候多写了一行代码就WA了……找了正解对拍,在比赛结束后17分钟AC了
- 百度站长针对SEO人员关系的问题的一些解答
自然排名是全部由机器完成还是存在人工干预? 夫唯:第一个就是说经常好不容易找到了一些新的想法,用我们这些草根的话讲找到了百度的漏洞,好不容易排名上去了,过两天就会波动.有些人就怀疑说在百度的整体算法里 ...
- v-cloak
v-cloak 不需要表达式 用法: 这个指令保持在元素上直到关联实例结束编译.和 CSS 规则如 [v-cloak] { display: none } 一起用时,这个指令可以隐藏未编译的 Must ...
- C#基础-面向对象-多态
多态,不同对象对同一方法的不同实现 使用abstract关键字表示抽象类 // 表示是一个抽象类 public abstract class Animal { private string name; ...
- angularjs处理多个$http
本文引自:https://www.cnblogs.com/xiaojikuaipao/p/6017899.html 在实际业务中经常需要等待几个请求完成后再进行下一步操作.但angularjs中$ht ...
- springMVC入门二
一.准备工作 参考springMVC入门一,搭建maven项目如下: 前台结构如下: 项目介绍:使用springMVC实现前后台数据交互,例如controller返回json,页面传入pojo 二.具 ...
- yii2邮箱发送
yii2 邮件发送 163邮箱 1.在配置文件main-local.php components=>[]里面配置 'mailer' => [ 'class' => 'yii\swi ...