hdfs基本思想

QiaoZhi 2024-10-27 00:57:12 原文

1.hdfs的优缺点

　　（1）不适合大量小文件存储；

　　（2）不适合并发写入，不支持文件随机修改；(只能append追加)

　　（3）不支持随机读等低延时的访问方式

2.基本思想

主从结构
　　主节点， namenode
　　从节点，有很多个: datanode
namenode负责：
　　接收用户操作请求
　　维护文件系统的目录结构
　　管理文件与block之间关系，block与datanode之间关系
datanode负责：
　　存储文件
　　文件被分成block存储在磁盘上
　　为保证数据安全，文件会有多个副本

总结:

　　我们启动hdfs的时候只需要知道hadoop的etc目录下core-site.xml的hadoop的存储目录，

        <!-- 指定hadoop运行时产生文件的存储目录 -->

        <property>

            <name>hadoop.tmp.dir</name>

            <value>/opt/hadoop/hadoop-2.4./data/</value>

       </property>

　　当我们存储文件的时候会hadoop会在这个目录下建好多目录存储我们的文件，我们只需要指定相对于hdfs开始的根目录，hdfs相当于给我们提供了好多虚拟目录。hadoop会自动实现分布式存储，分别存在多个datanode节点，并通过namnode建立文件存储位置的表识。

第二种理解:

hdfs写流程:

通过客户端Client写入数据Data的流程：

（1）Client向NameNode发起写入请求；

（2）NameNode查找自身存储的关于三个DataNode的信息，并反馈给Client；

（3）Client根据反馈信息，将Data分为两个数据块1和2；

（4）Client根据反馈信息将数据块1传给DataNode1，进行保存(datanode自动完成副本备份)；

（5）DataNode向NameNode汇报存储完成，NameNode通知客户端。

hdfs读流程:

通过客户端Client读取数据Data的流程，DataNode3存放数据块1与2的备份：

（1）Client向NameNode发起读取请求；

（2）NameNode查找自身存储的关于Data的存储信息，并反馈给Client存储Data各个节点的位置；

（3）Client根据反馈信息，从DataNode1读取数据块1，从DataNode2读取数据块2；

思考:

　　基于hdfs我们可以实现类似于百度网盘的功能，将数据分布式存储，当用户申请账号的时候我们可以在hdfs的根目录给该用户创建一个目录。对于限制文件上传大小，我们可以在数据库记录该用户上传的文件大小并进行限制。

hdfs基本思想的更多相关文章

HDFS设计思想
HDFS设计思想 DataNode:用来在磁盘上存储数据 HDFS 数据存储单元( block ) 1 文件被切分成固定大小的数据block块 •默认数据块大小为 64MB(hadoop1.x版本6 ...
从一般分布式设计看HDFS设计思想与架构
要想深入学习HDFS就要先了解其设计思想和架构,这样才能继续深入使用HDFS或者深入研究源代码.懂得了"所以然"才能在实际使用中灵活运用.快速解决遇到的问题.下面这篇博文我们就先 ...
HDFS设计思想、元数据、简单JAVAAPI操作HDFS
一. 设计思路分布式文件系统在Hadoop中文件系统是一个顶层的抽象. 分布式文件系统相当与对文件系统进行了一个扩展(类似于java中的接口). HDFS是分布式文件系统的一个实现,分布式文件系统 ...
HDFS介绍
一.HDFS概述 1.HDFS设计思想来源于Google的GFS,是GFS的开源实现. 2.HDFS要解决的问题: -存储超大文件,比如TB级别 -防止文件丢失. 3.HDFS的特点 -可以存储超大文 ...
Hadoop学习笔记： HDFS
注:该文内容部分来源于ChinaHadoop.cn上的hadoop视频教程. 一. HDFS概述 HDFS即Hadoop Distributed File System, 源于Google发表于200 ...
Hadoop 3、Hadoop 分布式存储系统 HDFS
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统. 一.HDFS的优缺点 1.HDFS优点: a.高容错性 .数据保存多个副本 .数 ...
hadoop学习之hdfs文件系统
一.hdfs的概念 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS. Hadoop是Apache Lucene创始人Doug Cu ...
【大数据系列】HDFS初识
一.HDFS介绍 HDFS为了做到可靠性(reliability)创建了多分数据块(data blocks)的复制(replicas),并将它们放置在服务集群的计算节点中(compute nodes) ...
HDFS 详解
HDFS 概述基于2.7.3 HDFS 优点: 1.高容错性数据自动保存多个副本,默认是三个副本副本丢失后,会自动恢复 2.适合批处理移动计算而非移动数据,批处理的时候,数据量很大,移动数据是 ...

随机推荐

第27天：js-表单获取焦点和数组声明遍历
一.表单 1.this指事件的调用者2.input.value 表单更换内容3.innerHTML更换盒子里的内容,文字.标签都能换.4.isNaN("12")如果里面的不是个数字 ...
转：Simple Introduction to Dirichlet Process
来源:http://hi.baidu.com/vyfrcemnsnbgxyd/item/2f10ecc3fc35597dced4f88b Dirichlet Process(DP)是一个很重要的统计模 ...
CF359D：Pair of Numbers——题解
https://vjudge.net/problem/CodeForces-359D http://codeforces.com/problemset/problem/359/D 题目大意: 给一串数 ...
HDU5726：GCD——题解
题目:hdu的5726 (我原博客的东西,正好整理过来,属于st表裸题) (可以看出我当时有多么的菜--) 这道题写了一遍,然而蒟蒻的我的时间爆炸了-- 于是看了一下学长的代码(顺便在此处%一下学长) ...
SRM16 B-2(DP)
老鼠和洞按坐标排序 f[i][j]表示前i个洞进j只老鼠的最短距离比赛的时候强行分三类去推式子,推是推出来了,也看出来是可以用三个单调队列去优化的,但是太繁琐了,要我敲我真没办法T^T 赛后经 on ...
bzoj1483: [HNOI2009]梦幻布丁(链表+启发式合并)
题目大意:一个序列,两种操作. ①把其中的一种数修改成另一种数 ②询问有多少段不同的数如1 2 2 1为3段(1 / 2 2 / 1). 昨晚的BC的C题和这题很类似,于是现学现写居然过了十分开心. ...
【单调队列】【P2627】修剪草坪
传送门 Wa这次竟然不是Uva的题 Description 在一年前赢得了小镇的最佳草坪比赛后,Farm John变得很懒,再也没有修剪过草坪.现在,新一轮的最佳草坪比赛又开始了,Farm John希 ...
ucenter搭建
使用xftp传到虚拟机.解压[root@ygy130 ~]# unzip -o -d ./Ucenter_1.6 UCenter_1.6.0_SC_UTF8.zip [root@ygy130 ~]# ...
Spring面试，IoC和AOP的理解（转）
spring 的优点?1.降低了组件之间的耦合性 ,实现了软件各层之间的解耦 2.可以使用容易提供的众多服务,如事务管理,消息服务等 3.容器提供单例模式支持 4.容器提供了AOP技术,利用它很容易实 ...
查看Django版本
python -m django --version dd