Dream------Hadoop--HDFS的设计

HDFS是为以流式数据访问模式存储超大文件而设计的文件系统。

流式数据访问

HDFS建立在这样一个思想上:一次写入、多次读取模式是最高效的。一个数据集通常由数据源生成或复制，

接着在此基础上进行各种各样的分析。每个分析至少都会涉及数据集中的大部分数据(设置全部)，因此读取整个

数据集的时间比读取第一条记录的延迟更为重要。

商用硬件

Hadoop不需要运行在昂贵并且高可靠性的硬件上。它被设计运行在商用硬件（在各种零售店都能买到的普通硬件）

的集群上，因此至少对于大的集群来说，节点故障的几率还是比较高的。HDFS在面对这种故障时，被设计为能够

继续运行而让用户察觉不到明显的中断。

同时，那些并不适合HDFS的应用也是值得研究的。在目前，HDFS还不太适合用于某些领域，不过日后可能会有所改进。

低延迟数据访问

需要低延迟访问数据在毫秒级范围内的应用并不适合HDFS。HDFS是为达到高数据吞吐量而优化的，这有可能会以延迟为代价。目前，对于低延迟访问，HBase是更好的选择

大量的小文件

namenode节点存储着文件系统的元数据，因此文件数量的限制也由namenode节点的内存量决定。根据经验，每个文件，索引目录以及块占大约150个字节。因此，举例来说，如果有一百万个文件，每个文件占一个块，就至少需要300MB的内存。虽然存储上百万的文件是可行的，十亿或更多的文件就超出目前硬件的能力了。

多用户写入，任意修改文件

HDFS中的文件只有一个写入者，而且写操作总是在文件的末尾。它不支持多个写入者，或是在文件的任意位置修改。

（可能在以后这些会被支持，但他们也相对不那么高效）

Dream------Hadoop--HDFS的设计的更多相关文章

HADOOP HDFS的设计
Hadoop提供的对其HDFS上的数据的处理方式,有以下几种, 1 批处理,mapreduce 2 实时处理:apache storm, spark streaming , ibm streams 3 ...
Hadoop HDFS 架构设计
HDFS 简介 Hadoop Distributed File System,简称HDFS,是一个分布式文件系统. HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数 ...
Hadoop HDFS 设计随想
目录引言 HDFS 数据块的设计数据块应该设置成多大? 抽象成数据块有哪些好处? 操作块信息的命令 HDFS 中节点的设计有几种节点类型? 用户如何访问 HDFS? 如何对 namenode 容 ...
2本Hadoop技术内幕电子书百度网盘下载：深入理解MapReduce架构设计与实现原理、深入解析Hadoop Common和HDFS架构设计与实现原理
这是我收集的两本关于Hadoop的书,高清PDF版,在此和大家分享: 1.<Hadoop技术内幕:深入理解MapReduce架构设计与实现原理>董西成著机械工业出版社2013年5月出 ...
大数据：Hadoop（HDFS 的设计思路、设计目标、架构、副本机制、副本存放策略）
一.HDFS 的设计思路 1)思路切分数据,并进行多副本存储: 2)如果文件只以多副本进行存储,而不进行切分,会有什么问题缺点不管文件多大,都存储在一个节点上,在进行数据处理的时候很难进行并行处 ...
基于key/value+Hadoop HDFS 设计的存储系统的shell命令接口
对于hadoop HDFS 中的全部命令进行解析(当中操作流程是自己的想法有不允许见欢迎大家指正) 接口名称功能操作流程 get 将文件拷贝到本地文件系统 . 假设指定了多个源文件,本地目的端必须 ...
Hadoop HDFS负载均衡
Hadoop HDFS负载均衡转载请注明出处:http://www.cnblogs.com/BYRans/ Hadoop HDFS Hadoop 分布式文件系统(Hadoop Distributed ...
Hadoop HDFS (3) JAVA訪问HDFS
如今我们来深入了解一下Hadoop的FileSystem类. 这个类是用来跟Hadoop的文件系统进行交互的.尽管我们这里主要是针对HDFS.可是我们还是应该让我们的代码仅仅使用抽象类FileSyst ...
Hadoop HDFS分布式文件系统设计要点与架构
Hadoop HDFS分布式文件系统设计要点与架构 Hadoop简介:一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群 ...
Hadoop — HDFS的概念、原理及基本操作
1. HDFS的基本概念和特性设计思想——分而治之:将大文件.大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析.在大数据系统中作用:为各类分布式运算框架(如:map ...

随机推荐

使用 Idea 打 scala程序的 jar 包 - 02
Artifact ——>+ ——>JAR ——>From modules with dependencies 选择 Module,选择主函数,OK——>OK 勾选Includ ...
Cannot create file"C:\Users\LML\AppData\Local\Temp\EditorLineEnds.ttr"。另一个程序正在使用此文件，进程无法访问。
不能二次启动,每次开机第一次都ok,出于习惯,总是想试试第二次打开软件是否正常,结果不出所料,出现了“Cannot create file"C:\Users\LML\AppData\Loca ...
CSS实现点击改变元素背景色
可通过使用css伪类实现点击元素变色的效果,两个伪类是:active, :focus :active :active选择器用于选择活动链接.当在一个链接上点击时,它就会成为活动的(激活的),:acti ...
Python教程：丛入门到实践
一.特殊用法的函数 name = "python very good" print(name.title()) 方法是python可对数据执行的操作.每个方法后面都跟着一对括号. ...
一个非典型的Linux路由配置方案
上周帮人解决了一个问题,这个问题绝对是非典型性的,采用了非常规的方法.虽然最终的方案非常不符合常规,非常不通用,充满了各种藏得很深的技巧或者说是trick,但是这个问题却是一个学习Linux路由的绝好 ...
【BZOJ2281】【Sdoi2011】黑白棋解题报告
[BZOJ2281][Sdoi2011]黑白棋 Description 小A和小B又想到了一个新的游戏. 这个游戏是在一个\(1\)*\(n\)的棋盘上进行的,棋盘上有\(k\)个棋子,一半是 ...
【codeforces 553E】 Kyoya and Train
http://codeforces.com/problemset/problem/553/E (题目链接) 艹尼玛,CF还卡劳资常数w(ﾟДﾟ)w!!系统complex被卡TLE了T_T,劳资写了一天 ...
ButterKnife注入注解框架用法
Android 依赖注入 ButterKnife 基本使用 - 渐行渐远渐无声 - 博客园http://www.cnblogs.com/fansen/p/5653887.html ButterKnif ...
scala 的安装与 IDEA安装使用
一.安装 scala 1.下载scala-2.11.8.msi 安装包, 首先去官网http://www.scala-lang.org/,然后点击导航栏的DOWNLOAD,进入下载链接:http: ...
（转）教你完全理解IO流里的 read(),read(byte[]),read(byte[],int off,int len)以及write
背景:对于IO部分,总是感觉很虚,不能很好的理解其中的要义,其实仔细分析,掌握其中的规律,一切都会看起来十分的自然. 1 理解 1.1 从头总结长期以来,java中的InputStream Outp ...

Dream------Hadoop--HDFS的设计

Dream------Hadoop--HDFS的设计的更多相关文章

随机推荐

热门专题