Hadoop 系列 - （1） - 学习随笔

起源：Hadoop是google 的集群系统的开源实现

--Google集群系统，：GFS（Google file system）,MapReduce,BigTable（严格意义上讲，这个不是hadoop的东西）

--Hadoop 主要由 HDFS（Hadoop Distributed file system ---hadoop文件分布式系统）MapReduce和HBase组成

两大核心：

MapReduce : 组成 Map进行任务的分解，Reduce进行结果的汇总

HDFS ：组成 NameNode ,DataNode ,Client

HTFS讲解：

通常的，我们习惯使用的就是关系型数据库，比如mysql , sql server ， oracle等等，但是这些数据库都是有局限性的，

数据量过大时候，也需要更换，总不能一直更换吧？所以，这就延伸出了，hadoop(当然，这个东西的起源也就是因为这个，当时是用作

数据采集的，但是发现数据量过大，以至于无法处理，所以 hadoop这东西就出来了，也是被挤出来的一个东西)

大数据：所谓的大数据，简单的可以这么理解为，数据集的大小超过了数据库软件和现有工具的处理的范围了，所以，很多人整天喊着

大数据大数据，到底多大的数据才是大数据？（这里有点儿讽刺的意味），每次一说出来总被吓一跳，让人觉得很厉害的样子。

Hadoop大数据与传统关系型数据库的对比：

对比一

关系型数据（库）

大数据：

数据量方面：

GB TB及其以下级别数据量

基本是TB PB级别的数据

数据增长方面：

数据增长不快

持续、实时不定量增长数据

结构：

主要是关系型，有具体的数据结构
非结构化，半结构化，多维数据

存在的实际价值：

统计和报表

数据挖掘和数据分析

对比二：硬件（环境方面）

比较直观的理解就是，关系型数据库往往就单台服务器，所以不论从扩展性或者是性能方面都多少存在问题，可能有人说，微软有数据库错误集群

功能啊，这个是不假，但是那不是真正意义上的集群方式。扩展性更不用说了，就一个服务器，而且数据库只能指定具体的数据类型才可以

Hadoop项目（子集）：

Core： core是一套分布式文件系统，同时支持Map_Reduce的计算框架

Avro: 定义了支持大数据应用的数据格式，虽然是JAVA编写的，但是提供了对多种语言的支持

HDFS：Hadoop分布式文件系统

Map/Reduce : 是一种使用比较简易的框架，可在多个机器集群上，以一种可靠的容错方式处理 TB级别的数据集

ZooKeeper: 高可用的可靠的分布式协同系统

PIG：（目前使用的越来越少）

Hive: 为提供简单的数据操作设计的新的分布式数据仓库。它提供了HiveSQL语言，类似于sql语句一样进行数据查询

HBase: 建立在Hadoop Core之上的提供一个可扩展的数据系统

Flume: 一个分布式、可靠、高可用的海量日志集合的系统，支持在系统中定制各类数据发送方，用于数据收集

Mahout: 是一种具有可扩充能力的机器学习类

Sqoop: 是Apache 下用于RDBMS 和HDFS互相导数据的工具

（以上只有绿色部分的内容才是 hadoop的本身的内容，其他的东西做扩展使用）

Hadoop获取

http://hadoop.apache.org

当然，可以看到很多版本的 hadoop的文件，这里先使用 1.2.X 的版本，先从基础开始嘛，然后后面再使用 2.X 的版本

1.2.X的版本获取链接 https://archive.apache.org/dist/hadoop/common/hadoop-1.2.1/ 选择使用 .tar的文件包，因为里面文件比较全，

包含相关文档等

HTFS介绍

htfs做到了可靠性的创建了多份数据块儿（data blocks）,的复制（replicas）,并将它们放在服务器群的计算节点当中（ompute nodes），

MapReduce就可以在他们所在的及诶点上处理数据了

HTFS结构：

NameNode

DataNodes

存储元数据（文件的大小，权限、版本等等）
存储文件内容

缘数据保存在内存中（当然磁盘中也有，只是他是先加载到物理磁盘，运行时在读取到内存）
文件系统保存在磁盘中

保存文件,block,datanode之间的映射关系

维护了blockid到datanode的本地文件的映射关系

namenode 和 datanode的节点的关系，注意看，我上面写的，datanodes我写的是复数形式，这里是因为

是一对多的关系，一个namenode的对应多一个datanode

HTFS的运行机制：

HTFS数据存储单元（Block - 存放到 datanode上）：

① 文件被分割成固定大小的数据块，同时分布在多个数据存储单元中（作为副本），副本越多就会减少丢失率，默认情况下，每个block

② 默认都会有三个副本文件，要存放在集群服务器中的不同机器硬盘上

③ block 工作单元被创建之后，大小固定是多大就是多大，不能在更改size，但是副本的个数，可以更改；

④ 如果集群中，摸一个block的节点挂掉了，这是，会自动创建一个新的副本block，将之前的数据，从另外的正常运行的block中拷贝文件过去

HTFS的 NameNode：

a) 功能是，接受客户端的读写服务

b) 保存的的metadata信息包括：① 文件owership 和 permissions ； ② 文件包含哪些模块； ③ Block保存在哪个 DataNode(由 dataNode启动时上报给 nameNode,由namenode加载到内存)

c) metadata存储到磁盘上的文件名称为 fsimage,

d) Block的位置不会保存到 fsimage

e) edits 记录时，metadata的操作日志

HTFS 的读流程：（图片来自互联网）

client先open从namenode中获取文件的名称，上面有说过，数据的存储是存储在 datanodes中的，而namenode中存储的是元数据，也就是数据的相关信息；

然后客户端根据获取的文件名称，从datanodes中读取数据。

HTFS 文件权限：

与LINUX文件权限类似

--- r:read ; w:write; x:execute ,权限 x 对于文件忽略，对文件夹表示是否允许访问其他内容

--- 如果LINUX 系统用户张三使用hadoop 创建一个文件，那么这个文件在HDFS中owner就是张三

--- HDFS 的权限目的：不做密码的认证，说白了，你使用的用户名，这个用户就拥有所有权限

Hadoop 的安全模式：

注：该状态下，不能够对HDFS 进行操作，比如读写操作，你只能看着，这个过程可以理解就是，datanode数据加载过程中到向namenode汇报的过程，这个阶段需要时间，这个时间段就是安全的模式，当然可以强制终止，但是强制的结果就是，导致数据的丢失。所以不建议。

namenode启动的时候，将fsimage的映像文件加载到内存，

Hadoop 系列 - （1） - 学习随笔 - 起源、构成的更多相关文章

ActiveReport系列报表开发随笔收集
转自:博客园 http://www.cnblogs.com/dahuzizyd/archive/2007/04/11/ActiveReport_All.html 使用ActiveReport for ...
Hive入门学习随笔（一）
Hive入门学习随笔(一) ===什么是Hive? 它可以来保存我们的数据,Hive的数据仓库与传统意义上的数据仓库还有区别. Hive跟传统方式是不一样的,Hive是建立在Hadoop HDFS基础 ...
typeScript学习随笔（一）
TypeScript学习随笔(一) 这么久了还不没好好学习哈这么火的ts,边学边练边记吧! 啥子是TypeScript TypeScript 是 JavaScript 的一个超集,支持 es6 标准 ...
[大牛翻译系列]Hadoop系列性能部分完结
Hadoop系列性能部分完结.其它的部分发布时间待定. Hadoop系列将不再一日一篇,开始不定期发布.
【Xamarin挖墙脚系列：学习资料大放送】
原文:[Xamarin挖墙脚系列:学习资料大放送] 最靠谱的还是官方的文档,英文的,借着翻译工具,硬看吧.还能学习英文........... https://developer.xamarin.com ...
（转）基于Theano的深度学习(Deep Learning)框架Keras学习随笔-01-FAQ
特别棒的一篇文章,仍不住转一下,留着以后需要时阅读基于Theano的深度学习(Deep Learning)框架Keras学习随笔-01-FAQ
Hadoop权威指南学习笔记二
MapReduce简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...
Hadoop Streaming框架学习2
Hadoop Streaming框架学习(二) 1.常用Streaming命令介绍使用下面的命令运行Streaming MapReduce程序: 1: $HADOOP_HOME/bin/hadoop ...
Hadoop Streaming框架学习（一）
Hadoop Streaming框架学习(一) Hadoop Streaming框架学习(一) 2013-08-19 12:32 by ATP_, 473 阅读, 3 评论, 收藏, 编辑 1.Had ...

随机推荐

BZOJ2293: 【POJ Challenge】吉他英雄
2293: [POJ Challenge]吉他英雄 Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 80 Solved: 59[Submit][Stat ...
（转载）AS3中的mouseEnabled与mouseChildren
(转载)http://www.cnblogs.com/gongchen/archive/2013/05/09/3069055.html mouseEnabled与mouseChildren都是用来确定 ...
（转载）Linux中cp直接覆盖不提示的方法
(转载)http://soft.chinabyte.com/os/220/11760720.shtml 新做了服务器,cp覆盖时,无论加什么参数-f之类的还是提示是否覆盖,这在大量cp覆盖操作的时候是 ...
devpress 很好的中文论坛
阿伟邀请您访问DXPER开发者论坛http://www.dxper.net/?fromuid=3701
cpp
ReactiveCocoa框架学习1
写block直接使用inline block的声明类型在ARC中使用strong,如果不使用strong,则会被销毁在非ARC中使用copy block在开发中的使用场景把block保存到对象中 ...
(2/18)重学Standford_iOS7开发_Xcode_课程笔记
第二课: 1.惰性初始化 -(ObjectType *)example { f(!_example) example =[[ObjectType alloc] init]; return _examp ...
CSS 列表你知道吗
CSS 列表属性允许你放置.改变列表项标志,或者将图像作为列表项标志.CSS 列表从某种意义上讲,不是描述性的文本的任何内容都可以认为是列表.人口普查.太阳系.家谱.参观菜单,甚至你的所有朋友都可以表 ...
Xcode 5 安装coco2d-iphone
从http://www.cocos2d-iphone.org/download/下载并解压缩最新版本的cocos2d,默认情况下会保存在 /Users/XXX/Downloads/cocos2d-ip ...
magic_quotes_runtime（魔术引号开关）
我们可以通过以下代码来探测php环境中magic_quotes_runtime是否开启: magic_runtime.php 源代码如下: <?php //当magic_quotes_runti ...

	关系型数据（库）	大数据：
数据量方面：	GB TB及其以下级别数据量	基本是TB PB级别的数据
数据增长方面：	数据增长不快	持续、实时不定量增长数据
结构：	主要是关系型，有具体的数据结构	非结构化，半结构化，多维数据
存在的实际价值：	统计和报表	数据挖掘和数据分析

NameNode	DataNodes
存储元数据（文件的大小，权限、版本等等）	存储文件内容
缘数据保存在内存中（当然磁盘中也有，只是他是先加载到物理磁盘，运行时在读取到内存）	文件系统保存在磁盘中
保存文件,block,datanode之间的映射关系	维护了blockid到datanode的本地文件的映射关系

Hadoop 系列 - （1） - 学习随笔 - 起源、构成

Hadoop 系列 - （1） - 学习随笔 - 起源、构成的更多相关文章

随机推荐

热门专题