一、设计思路

分布式文件系统

在Hadoop中文件系统是一个顶层的抽象。

分布式文件系统相当与对文件系统进行了一个扩展（类似于java中的接口）。

HDFS是分布式文件系统的一个实现，分布式文件系统还有许多其他的实现。

二、设计目标

1、硬件错误 是常态：特别是硬盘的损坏。所以存在副本机制。

2、数据流访问：所有的访问都是访问大量的数据，

					使用IO流一直操作。稳定而不是效率。

3、大数据集：存入到HDFS的数据都是海量的数据，不擅长处理小数据。

因为存入过多小数据，每个小数据都需要元数据，容易导致namenode宕机。

4、简单的相关模型：假定文件是一次写入，多次访问

5、移动计算比移动数据便宜

6、多种软硬件的可移植性

三 HDFS架构图

namenode:主要处理用户请求，维护元数据信息

secondarynode：辅助namenode维护元数据

datanode：存储数据

300M的文件需要划分为3个block块，实际的存储磁盘是300M，与block块个数没关系。

四、HDFS元数据管理

元数据分为两部分：

	fsimage 和edits

	fsimage ：保存着一份相对比较完整的元数据  。内存和磁盘中都有

	edits：保存着一段时间内的操作日志、元数据。 内存和磁盘中都有

	edits会在一些特定条件下（一段时间内，或者在文件达到多大）合并到fsimage中。

五、HDFS元数据合并

1、当达到条件后，secondarynode会通知namenode将要进行元数据合并，并让namenode进行edits切换。

2、secondarynode通过http的方式获取fsimage和edits

3、将fsimage和edits进行合并

4、将新的fsimage发送给namenide替换旧的fsimage

注意：

sencondarynode进行合并的时候是在内存中进行的，所以需要大的内存，部署的时候最好单独部署。

6、HDFS上传文件

1、client通知namenode需要上传文件

2、namenode检查是否有权限。namenode允许client上传文件

3、client将文件分割成block块，并访问namenode询问第一个block块存入何处。

4、namenode通过机架感知原理，找到离客户端最近的一台机器（跨交换机最少的机器），找到该机器可用的block块，返回给client

5、client找到对应的datanode以及对应的block的id ，建立RPC连接，通过rpc连接简历pipline进行数据传输。（数据传输是通过UDP进行包传输）。

6、当第一个block块传递完毕，数据校验。反向的校验机制会给client一个响应，client进行第二个block传递，直至所有block传递完毕

7、等数据传递完毕后，client通知namenode建立元数据

block复制策略：

第一个block存在namenode返回的datanode中

第二个存储在同一个交换机下的datanode

第三个存在不通的交换机

7、HDFS文件读取

1、client通知namenode读取数据

2、namenode检验权限，如果前线通过，那么namenode通过查找元数据，返回所有block块地址

		查找block规则：

								离client最近

								心跳机制（最近活跃的，namenode和datanode间存在心跳机制，datanode会一直返回给namenode自己的状态）

3、client并行访问datanode，读取所有block块并进行拼接。

注意

数据写入是串行：写入有ack机制，需要一个block块验证数据完整性后才能写入下一个。

数据读取是并行：读取不需要数据校验。

当一个block块读取到一般出现异常？

没有断点续传

client会到到副本中找，然后重新读取。

八、JAVA API

   public void hdfs() throws Exception {

        //注册驱动

        URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

        String url = "hdfs://node01:8020/install2.log";

        InputStream inputStream = new URL(url).openStream();

        FileOutputStream fileOutputStream = new FileOutputStream(new File("c:\\software\\hello1.txt"));

        IOUtils.copy(inputStream, fileOutputStream);

        IOUtils.closeQuietly(inputStream);

        IOUtils.closeQuietly(fileOutputStream);

    }

    @Test

    public void fileSystem01() throws IOException {

        Configuration configuration = new Configuration();

        configuration.set("fs.defaultFS", "hdfs://node01:8020");

        FileSystem fileSystem = FileSystem.get(configuration);

        System.out.println(fileSystem.toString());

        fileSystem.close();

    }

    @Test

    public void fileSystem02() throws URISyntaxException, IOException {

        Configuration configuration = new Configuration();

        FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), configuration);

        System.out.println(fileSystem.toString());

        fileSystem.close();

    }

    @Test

    public void fileSystem03() throws IOException {

        Configuration configuration = new Configuration();

        configuration.set("fs.defaultFS", "hdfs://node01:8020");

        FileSystem fileSystem = FileSystem.newInstance(configuration);

        System.out.println(fileSystem.toString());

        fileSystem.close();

    }

    @Test

    public void fileSystem04() throws IOException, URISyntaxException {

        Configuration configuration = new Configuration();

        FileSystem fileSystem = FileSystem.newInstance(new URI("hdfs://node01:8020"),configuration);

        System.out.println(fileSystem.toString());

        fileSystem.close();

    }

HDFS设计思想、元数据、简单JAVAAPI操作HDFS的更多相关文章

HDFS设计思想
HDFS设计思想 DataNode:用来在磁盘上存储数据 HDFS 数据存储单元( block ) 1 文件被切分成固定大小的数据block块 •默认数据块大小为 64MB(hadoop1.x版本6 ...
从一般分布式设计看HDFS设计思想与架构
要想深入学习HDFS就要先了解其设计思想和架构,这样才能继续深入使用HDFS或者深入研究源代码.懂得了"所以然"才能在实际使用中灵活运用.快速解决遇到的问题.下面这篇博文我们就先 ...
使用javaAPI操作hdfs
欢迎到https://github.com/huabingood/everyDayLanguagePractise查看源码. 一.构建环境在hadoop的安装包中的share目录中有hadoop所有 ...
使用Java Api 操作HDFS
如题我就是一个标题党就是使用JavaApi操作HDFS,使用的是MAVEN,操作的环境是Linux 首先要配置好Maven环境,我使用的是已经有的仓库,如果你下载的jar包速度慢,可以改变Ma ...
java操作hdfs到数据库或者缓存
使用hadoop工具将数据分析出来以后,须要做入库处理或者存到缓存中.不然就没了意义一下是使用javaAPI操作hdfs存入缓存的代码: <span style="font-fami ...
MyBatis 强大之处多环境多数据源 ResultMap 的设计思想是缓存算法跨数据库 spring boot rest api mybaits limit 传参
总结: 1.mybaits配置工2方面: i行为配置,如数据源的实现是否利用池pool的概念(POOLED – This implementation of DataSource pools JDBC ...
三张图片看懂ZKEACMS的设计思想
前言如果你还不知道ZKEACMS,不妨先了解一下. ASP.NET MVC 开源建站系统 ZKEACMS 推荐,从此网站“拼”起来官方地址:http://www.zkea.net/zkeacms ...
React中的响应式设计思想和事件绑定
这两个点是react入门非常重要的两个点,以前我们是直接操作dom的形式去做,react的设计思想和以前直接操作dom是完全不同的,react是一个响应式的框架,他在做编程的时候,强调的是我们不要直接 ...
2 weekend110的HDFS的JAVA客户端编写 + filesystem设计思想总结
HDFS的JAVA客户端编写现在,我们来玩玩,在linux系统里,玩eclipse 或者, 即,更改图标,成功这个,别慌.重新换个版本就好,有错误出错是好事. http://www.eclips ...

随机推荐

Java中的集合Queue
2019独角兽企业重金招聘Python工程师标准>>> package com.zhaogang.test; import org.junit.Test; import java.u ...
CentOS 6.5下通过yum安装MongoDB记录
安装MongoDB 1.创建repo vi /etc/yum.repos.d/mongodb-org-3.6.repo [mongodb-org-3.6] name=MongoDB Repos ...
C++ 快读快写
inline int read() { int s=0,f=1; char ch=getchar(); while(ch<'0'||ch>'9'){ if(ch=='-') f=-1; c ...
POJ 2777——线段树Lazy的重要性
POJ 2777 Count Color --线段树Lazy的重要性原题链接:http://poj.org/problem?id=2777 Count Color Time Limit: 1000 ...
C# 9.0 新特性预览 - 类型推导的 new
C# 9.0 新特性预览 - 类型推导的 new 前言随着 .NET 5 发布日期的日益临近,其对应的 C# 新版本已确定为 C# 9.0,其中新增加的特性(或语法糖)也已基本锁定,本系列文章将向大 ...
HDU1176(正推DP)
时间和位置都可以决定这一秒捡到的馅饼数不妨设\(dp[i][j]\)为在\(i\)秒\(j\)位置的最大收益那么\(dp[0][5]=0\),dp数组的其他部分置成-1代表不能转移那么对于第\( ...
spring mvc 实现文件上传
例:用户注册提交一个头像文件第一步,创建项目 ,导入jar包做文件上传除了要导入spring常规的jar包外,还要导入commons-fifileupload和commons-io这两个jar包. ...
使用 vi 命令创建一个cpp文件
mkdir text //创建一个text的文件夹 cd text //打开text的文件夹 vi text.cpp //创建text.cpp 按住 i 键输入程序输入后按esc,再按wq退出 ls ...
【FPGA技巧篇一】FPGA设计的四种常用思想与技巧之一：乒乓操作
本文篇章将讨论一下的四种常用 FPGA 设计思想与技巧: 乒乓操作. 串并转换. 流水线操作. 数据接口同步化, 都是 FPGA 逻辑设计的内在规律的体现, 合理地采用这些设计思想能在FPGA设计工作 ...
搭建私有镜像仓库registry 2.0
搭建 docker run -d -p 5000:5000 --restart=always --name registry2 registry:2 就可以将自己的镜像 push到这个私有的镜像仓库 ...

HDFS设计思想、元数据、简单JAVAAPI操作HDFS

一、 设计思路

分布式文件系统

二、设计目标

三 HDFS架构图

四、HDFS元数据管理

五、HDFS元数据合并

6、HDFS上传文件

7、HDFS文件读取

八、JAVA API

HDFS设计思想、元数据、简单JAVAAPI操作HDFS的更多相关文章

随机推荐

热门专题

一、设计思路