HDFS简介

Hadoop是当今最为流行的大数据分析和处理工具。

其最先的思想来源于Google的三篇论文：
                            GFS(Google File System)：是为了解决大数据存储问题的分布式文件系统，演变为hadoop中的HDFS
                            MapReduce:是为了告诉大家怎么分析大数据，怎么处理大数据。最后演变为hadoop中的MapReduce
                            BigTable：演变为HBase。

HDFS
      普通数据库的存储数量有限，但是大数据一般都是海量数据，而且普通数据库的数据量达到一定程度之后，查询速度会非常慢。
传统数据与大数据的比较，如下：
                    传统数据                         大数据
数据量              GB->TB                           TB->PB以上
速度                数据量稳定，增长不快             持续实时产生数据，年增长率超过60%
多样化              主要为结构化数据                 半结构化，非结构化，多维数据
价值                统计和报表（价值不大）           数据挖掘和预测分析
hadoop子项目：
Core:一套分布式文件系统以及支持Map-Reduce的计算框架
HDFS：Hadoop分布式文件系统
Map/Reduce：是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠             容错的方式并行处理T级别的数据集
ZooKeeper:是高可用的和可靠的分布式协同系统
Hive:是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询
HBase:建立于Hadoop Core之上，提供一个可扩展的数据库系统。

HDFS为了做到可靠性，创建了多分数据块的复制，并将他们放置在服务器集群的计算节点中，MapReduce就可以在它们所在的节点上处理这些数据了。
     HDFS中的节点NameNode，DataNode。
     元数据就是除了文件内容之外的数据。（比如，文件名，文件大小等等）
     NameNode：存储元数据，元数据保存在内存中（其实磁盘上也保存了一份），保存文件，block，datanode之间的映射关系。
     DataNode：存储文件内容，文件内容保存在磁盘，维护block id到datanode本地文件的映射关系。
     HDFS数据存储单元（block，其实这是一个逻辑的概念）
    文件被切分成固定大小的数据块
        -默认数据块大小时64MB，可配置
       -若文件大小不到64MB，那么单独存成一个block
       -一个文件的存储方式，按大小被切分成若干个block，存储到不同的节点上，默认情况下每个block都有三个副本。
   block大小和复本数通过client端上传文件时设置，文件上传成功后副本数可以变更，block size不可变更。
   SecondaryNameNode备份了一部分元数据，其主要工作是帮助NN合并edits log，较少NN启动时间
   SNN合并的时机
       -根据配置文件设置的时间间隔fs.checkpoint.period默认是3600秒
       -根据配置文件设置edits log大小fs.checkpoint.size规定edits文件的最大值默认是64MB了，
DataNode
   -存储数据
   -启动DN线程的时候，会向NN汇报block信息
   -通过向NN发送心跳保持联系（3秒一次），如果NN10分钟没有收到DN的心跳，则认为已经lost并copy其上的block到其它DN。
安全模式（当HDFS刚刚启动的时候，会首先进入安全模式，在这个模式下，文件系统是只读的）
-namenode启动的时候，首先将映像文件（fsimage）载入内存，并执行编辑日志（edits）中的各项操作
-一旦在内存中成功建立文件系统元数据的映射，则创建一个新的fsimage文件（这个操作不需要SecondaryNameNode）和一个空的编辑日志。
-此刻nameNode运行在安全模式。即nameNode的文件系统对于客户端来说是只读的。（显示目录，显示文件内容等。写，删除等操作都会失败）。
-在此阶段，NameNode收集各个dataNode的报告，当数据块达到最小复本数以上时，会被认为是安全的，在一定比例（可设置）的数据块被确定为安全之后，再过若干时间，安全模式结束。
-当检测到复本数不足的数据块时，该块会被复制直到达到最小的复本数，系统中数据块的位置并不是由namenode维护的，而是以块列表形式存储在datanode中。

HDFS简介的更多相关文章

01 HDFS 简介
01.HDFS简介大纲: hadoop2 介绍 HDFS概述 HDFS读写流程 hadoop2介绍框架的核心设计是HDFS(存储),mapReduce(分布式计算),YARN(资源管理),为海量的 ...
HDFS简介【全面讲解】
http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html [一]HDFS简介HDFS的基本概念1.1.数据块(block)HD ...
HDFS简介及相关概念
HDFS简介: HDFS在设计时就充分考虑了实际应用环境的特点,即硬件出错在普通服务集群中是一种常态,而不是异常. 因此HDFS主要实现了以下目标: 兼容廉价的硬件设备 HDFS设计了快速检测硬件故障 ...
【Hadoop】一、HDFS简介及基本概念
当需要存储的数据集的大小超过了一台独立的物理计算机的存储能力时,就需要对数据进行分区并存储到若干台计算机上去.管理网络中跨多台计算机存储的文件系统统称为分布式文件系统(distributed fi ...
java大数据最全课程学习笔记(3)--HDFS 简介及操作
目前CSDN,博客园,简书同步发表中,更多精彩欢迎访问我的gitee pages 目录 HDFS 简介及操作 HDFS概述 HDFS产出背景及定义 HDFS优缺点 HDFS组成架构 HDFS文件块大小 ...
HDFS简介及基本概念
(一)HDFS简介及其基本概念 HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,在整个Hadoop中 ...
Hadoop 学习总结之一：HDFS简介
一.HDFS的基本概念 1.1.数据块(block) HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块. 和普通文件系统相同的是,HDFS ...
HDFS 简介
hadoop分别从3个角度将主机划分为2种角色最基本的是Master 和从HDFS角度,将主机划分为namenode和datanode,在分布式文件系统中,目录管理很重要,管理目录相当于主人从m ...
[转载] HDFS简介
转载自http://www.csdn.net/article/2010-11-26/282582 http://subject.csdn.net/hadoop/ 一.HDFS的基本概念 1.1.数据块 ...

随机推荐

NSArry的常见方法
使用数组对象创建的数组功能非常强大,在Java语言或者C语言中定义的数组必须满足数组中的每一个元素必须是同样的类型.而Objective-C语言可以在Array数组中放任意类型的数据,值得注意的是只能 ...
QT多线程及通过事件进行通信（通过自定义事件，然后QApplication::postEvent给主界面，我之前用的是信号槽）
可以通过QThread实现跨平台的多线程开发,Qt库负责在特定平台上的特定多线程实现.要采用QThread进行多线程开发,首先需要包含头文件: #include <QThread> 然后需 ...
【Android测试】【第五节】LogCat——命令行
◆版权声明:本文出自胖喵~的博客,转载必须注明出处. 转载请注明出处:http://www.cnblogs.com/by-dream/p/4684123.html 前言上一篇将的是如果在eclips ...
angularJS的$watch和$apply
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
用CSS为表格添加边框
格式: <style type="text/css"> table tr td,th {border:1px solid #000;} </style>
TCP协议中的三次握手和四次挥手
转自: http://blog.csdn.net/whuslei/article/details/6667471/ 建立TCP需要三次握手才能建立,而断开连接则需要四次握手.整个过程如下图所示:
(leetcode)Missing Number
Given an array containing n distinct numbers taken from 0, 1, 2, ..., n, find the one that is missin ...
hdu1045 Fire Net
在一张地图上建立碉堡(X),要求每行没列不能放两个,除非中间有强挡着.求最多能放多少个碉堡 #include<iostream> #include<cstdio> #inclu ...
Tomcat 处理请求时的中文乱码问题
利用Tomcat8作为服务器,采用servlet接收前端请求后进行处理的过程中,前台请求中有中文时,中文信息变成了乱码. 经过调试和查阅,发现Tomcat在处理get请求和post请求是有区别的.参照 ...
C++经典编程题＃1：含k个3的数
总时间限制: 1000ms 内存限制: 65536kB 描述输入两个正整数 m 和 k,其中1 < m < 100000,1 < k < 5 ,判断 m 能否被19整除, ...

HDFS简介

HDFS简介的更多相关文章

随机推荐

热门专题