HDFS读流程

客户端先与NameNode通信，获取block位置信息，之后线性地先取第一个块，然后接二连三地获取，取回一个块时会进行MD5验证，验证通过后会使read顺利进行完，当最终读完所有的block块之后，拼起来就是一个完整的源文件，数据本地化读取是分布式计算中计算向数据移动的一大特征，block块有偏移量和位置信息，HDFS分布式文件系统优化了读取性能，客户端会根据block的信息来分辨这些副本中，哪些副本距离客户端自身最近，那么本地、同机架、以及其他DataNode会是一个由近及远的排序，后面我们再分析MapReduce源代码的时候，会再进行分析这一优化特性。请先记住HDFS读流程的两个重要特性：

（1） block信息的MD5验证

（2）读取block时距离优先顺序的优化。

图1.8 HDFS读流程来自《Hadoop：The Definitive Guide》一书

读取文件的具体方式如下：

1. 从Hadoop URL读取数据

要从Hadoop文件系统中读取文件，最简单的方法是使用java.net.URl对象打开数据流，从中读取文件。但是，如何让java程序能够识别Hadoop的hdfs URL呢？这里采用的方法是通过调用java.net.URL对象的setURLStreamHandlerFactory方法，方法中传入FsUrlStreamHandlerFactory的一个实例，就可以让java程序可以识别hadoop的hdfs URL。每个java虚拟机只能调用一次这个setURLStreamHandlerFactory方法，因此通常将其卸载静态方法中。

示例程序：在hdfs中存在着/install.log，

public class test {

static {

           URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

      @Test

      public void readByUrl() {

           InputStream in = null;

           try {

                 in = new URL("hdfs://node1:9000/install.log").openStream();

           } catch (IOException e) {

           }finally{

           IOUtils.closeStream(in);

连不上集群。需要将core-site和hdfs-site放入到src目录下。

2.通过FileSysem API读取数据

正如前一小节所解释，有时不可能在应用程序中设置URLStreamhandlerFactory实例，这种情况下，需要用到FileSystem API来打开一个文件的输入流。Hadoop文件系统中通过Hadoop Path对象来代表文件。FileSystem是一个通用的文件系统API，这个类第一步是检索我们需要使用的文件系统实例，这里是HDFS。利用FileSystem.get()获取FilsSystem实例。Configuration对象封装了客户端或服务器的配置，一般讲hdfs的配置文件（将core-site.xml和hdft-site.xml放到项目的src目录下，configuration实例化的时候就会自动获取）。具体代码如下。

示例程序：在hdfs中存在着/install.log，

@Test

public void readByFileSystem() throws Exception{

String Url = "hdfs://node1:9000/install.log";

//FileSystem fs = FileSystem.get(URI.create(Url), conf);

      Configuration conf = new Configuration();

FileSystem fs = FileSystem.get(conf);

InputStream in = null;

in = fs.open(new Path(Url));

IOUtils.copyBytes(in, System.out, 4096,true);

HDFS读流程的更多相关文章

大数据系列文章-Hadoop的HDFS读写流程（二）
在介绍HDFS读写流程时,先介绍下Block副本放置策略. Block副本放置策略第一个副本:放置在上传文件的DataNode:如果是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点. 第二 ...
【转】HDFS读写流程
概述开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现. 特点如下: 能够运行在廉价机器上,硬件出错常态,需要具备高容错性流式数据访问 ...
Hadoop之HDFS读写流程
hadoophdfs 1. HDFS写流程 2. HDFS写流程 1. HDFS写流程 HDFS写流程副本存放策略: 上传的数据块后,触发一个新的线程,进行存放. 第一个副本:与client最近的机 ...
HDFS读写流程(转载)
概述开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现.特点如下: 能够运行在廉价机器上,硬件出错常态,需要具备高容错性 ...
RPC简介与hdfs读过程与写过程简介
1.RPC简介 Remote Procedure Call 远程过程调用协议 RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议.RPC协议假定某些 ...
超详细的HDFS读写流程详解（最容易理解的方式）
HDFS采用的是master/slaves这种主从的结构模型管理数据,这种结构模型主要由四个部分组成,分别是Client(客户端).Namenode(名称节点).Datanode(数据节点)和Seco ...
Raid1源代码分析--读流程(重新整理)
五.Raid1读流程分析两个月前,刚刚接触raid1,就阅读了raid1读流程的代码,那个时候写了一篇博客.现在回过头看看,那篇的错误很多,并且很多地方没有表述清楚.所以还是决定重新写一篇以更正之前 ...
Raid1源代码分析--读流程
这篇博文不足之处较多,重新整理了一下,链接:http://www.cnblogs.com/fangpei/p/3890873.html 我阅读的代码的linux内核版本是2.6.32.61.刚进实验室 ...
HDFS读写流程learning
有许多对流程进行描述的博客,但是感觉还是应当学习一遍代码,不然总感觉怪怪的,https://blog.csdn.net/popsuper1982/article/details/51615285,首先 ...

随机推荐

PHP系列 | PHP5.6 安装 endroid/qr-code 遇到的问题
官方库地址:https://packagist.org/packages/endroid/qr-code PHP5.6 的最高版本为:2.5.1 通过composer安装 composer requi ...
SpringBoot——读取配置文件@Value和@Configuration比较
1.@Configuration package com.xgcd.springboot.bean; import org.springframework.boot.context.propertie ...
com.alibaba.fastjson使用介绍
首先,介绍一下fastjson.fastjson是由alibaba开源的一套json处理器.与其他json处理器(如Gson,Jackson等)和其他的Java对象序列化反序列化方式相比,有比较明显的 ...
重回ubutntu12.04小记（装完ubuntu做的几件事）
原来一直是在windows下用虚拟机跑redhat 和debian 做实验和一些工程,以前也装过ubuntu和windows双系统,但是换电脑后,就一直懒得捣鼓了. 现在,由于长期需要在linux上做 ...
IDEA 自定义代码模板
IDEA 自定义代码模板操作步骤:
React路由传参的三种方式
方式一: 通过params 1.路由表中 <Route path=' /sort/:id ' component= ...
springboot2.1.7整合swagger2.9.2
什么是swagger? swagger是用于定义API文档的一个框架. 为什么要使用swagger? 当下项目开发时前后端是分离的,那么接口就成了前后端唯一的纽带.前端工程师如何知道哪个接口是干嘛的? ...
Tomcat是一个Servlet容器？
"Tomcat是一个Servlet容器",这句话对于2019年的程序员应该是耳熟能详的. 单纯的思考一下这句话,我们可以抽象出来这么一段代码: class Tomcat { Lis ...
linux shell程序常用功能
一.循环读取文件循环读取文件方式有多种,推荐下列方法 while read line;do local include=$(echo ${line} | grep "filter" ...
Elasticsearch-6.7.0系列（六）ES设置集群密码
感谢此老兄:<手把手教你搭建一个 Elasticsearch 集群> 前提准备安装kibana-6.7.0: <Elasticsearch-6.7.0系列(三)5601端口 kib ...

HDFS读流程

HDFS读流程的更多相关文章

随机推荐

热门专题