Hadoop(MapReduce&HDFS)

1.学习目的(前言)

  在从业了六年IT生涯里,做个实施顾问、业务顾问、BA需求分析师、项目经理,现在重新定位自己,在新公司做起了开发顾问,虽然经历过很多转折、跨度也有点大。但是抓住了机会,开始接触大数据行业了。虽然目前工作中的都是使用Hive SQL进行开发,没有涉及太多真正大数据的东西,但是觉得学习大数据还是很有必要,所以利用项目的空余时间对Hadoop进行了学习整理,内容可能对于现在的Hadoop来说已经有点过时了,但是我觉得老知识还是根基,于是便有了以下的文章,用于以后自己备忘和要学习Hadoop的小伙伴一起学习进步。

2.Hadoop核心思想

  Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台,其核心部件是HDFS与MapReduce

  HDFS是一个分布式文件系统:传统文件系统的硬盘寻址慢,通过引入存放文件信息的服务器Namenode和实际存放数据的服务器Datanode进行串接。对数据系统进行分布式储存读取。

  MapReduce是一个计算框架:MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分(Map计算\Reduce计算)再根据任务调度器(JobTracker)对任务进行分布式计算。

3.HDFS文件系统和MapReduce计算框架在Hadoop生态圈中的应用

  HDFS负责Hadoop生态圈的数据存取工作

  MapReduce负责Hadoop生态圈的数据运算工作

  Hadoop生态圈使用HDFS文件系统进行存取数据,数据被分散的保存在集群的各个服务器上,在计算数据时使用MapReduce结合HDFS进行逻辑运算取出数据。

4.Master/Slave的架构理念

  Hadoop使用(Master/Slave)主从架构进行分布式储存和分布式计算。Master负责分配和管理任务,Slave负责实际执行任务。

  MapReduce中装载有JobTracker的服务器负责进行Master任务,装载有TaskTracker的服务器负责进行Slave任务。

  HDFS中装载有Namenode的服务器负责进行Master任务,装载有Datanode的服务器负责进行Slave任务。

5.HDFS&MapReduce的设计思路

  HDFS:

    将文件进行切块处理,再通过文件信息服务器Namenode存放切块的文件信息存放地址,实际存放数据的服务器Datanode存在切块后的数据。

    系统默认:每个片块大小为64M,以保证寻址速度;数据会写入3个Datanode中,以保证更高的容错性;

    HDFS还设计了Secondary Namenode来更新Namenode,以避免日志文件过大

    HDFS Client帮助Namenode对写入读取数据进行预处理,进行文件的分块与发送读取操作。Namenode负责为数据任务寻址

  MapReduce:

    通过JobClient生成任务运行文件,并在JobTracker进行调度指派TaskTracker完成任务。

    JobTracker分为把任务文件进行分解并派送到TaskTracker的程序JobinProgress和执行调度器的TaskScheduler

    JobinProgress把作业分解成Map计算和Reduce计算并放置到TaskTracker服务器中

6.HDFS&MapReduce组件介绍

  HDFS:

    Namenode(Master):管理着每个文件中各个块所在的数据节点的位置信息

    Namespace image:记录每个文件的存在位置信息

    Edit log:记录每个文件的位置移动信息

    Datanode(Slave):记录着服务器内所储存的数据块的列表

    Secondary Namenode:更新并备份Namenode

    HDFS Client:进行文件的分块与文件的发送读取

  MapReduce:

    JobClient:用于把用户的作业任务生成Job的运行包,并存放到HDFS中。

    JobinProgress:把Job运行包分解成MapTask和ReduceTask并存放于TaskTracker中

    JobTracker(Master):进行调度管理TaskTracker执行任务

    TaskTracker(Slave):执行分配下来的Map计算或Reduce计算任务

7.Hadoop运行机制

  HDFS:

    Namenode使用镜像文件(Namespace image)和操作日志文件(edit log)对数据进行记录。(保存在缓存和磁盘中)

    Secondary Namenode进行更新时的操作:

      1.在Namenode创建一个新的操作日志,将新的操作记录写入到新的操作日志中;

      2.将Namenode的镜像文件和操作日志拷贝到Secondary Namenode中;

      3.在Secondary Namenode中读取镜像文件到内存,并执行日志文件中的所有操作,生产新的镜像文件;

      4.把Secondary Namenode中创建的镜像文件拷贝到Namenode中;

      5.Namenode中使用新的镜像文件和操作日志替代原来的文件;

  存数据:

      1.HDFS Client对文件分块并向Namenode发送写数据请求

      2.Namenode把block信息记录下来,并返回可写入的Datanode

      3.HDFS Client向指定的Datanode传送数据

      4.传送成功后,Datanode会向Namenode和HDFS Client发送成功通知

  读数据:

      1.HDFS Client从Namenode中获取文件块的位置

      2.HDFS Client根据Namenode返回的文件信息去Datanode相关位置中读取

  MapReduce:

    通过JobClient把用户的作业任务转换成job.xml、job.jar、job.split,适合JobTracker执行的文件

      1.job.xml文件记录了Job的详细配置信息

      2.job.jar保存了用户定义的关于job的map、reduce操纵

      3.job.split保存了job任务的切片信息

    JobClient会为作业向JobTracker申请Jobid,并以Jobid命名把xml、jar、split文件放置进HDFS中

    JobinProgress会把JobClient创建的Job拷贝到JobTracker本地文件系统,并创建JobStatus和Job的mapTask、reduceTask队列来跟踪Job的状态信息。

    JobTracker默认执行一下调度法则

      1.先进先出:集群内的资源统一进行使用,执行先进队列先执行的原则。

      2.公平调度:按用户分配集群内的资源,每个用户只能在指定的资源内运行调度。

      3.队列调度:可以设置多个队列,每个队列都可以进行置顶的资源调度

    TaskTracker向JobTracker发送心跳报告及执行命令

8.MapReduce集群的配置

服务器     守护进程                 说明

server1    namenode           namenode节点

server2    jobtracker                     任务主节点

server3    secondary namenode     secondary namenode

dserver1    datanode tasktracker     数据节点

dserver2    datanode tasktracker     数据节点

dsdrver3    datanode tasktracker     数据节点

后感:

  在写这篇文章的时候,知识点不断在更新(ps:甚至大v们对同一个事情的理解也有不太一致的地方,再ps:上述文章内容完全是小粉的个人理解),甚至连文章架构也改了很多次。但是对于学习来说,我觉得这个是一件好事儿,建议也在学习hadoop的小伙伴也可以对自己的知识进行整理学习,有自己的理解。

参考网址:

MapReduce:

http://www.linuxidc.com/Linux/2014-03/99153.htm

http://blog.csdn.net/zhouleilei/article/details/21955009

http://www.aboutyun.com/thread-7778-1-1.html

http://www.tuicool.com/articles/uamYJre

http://blog.csdn.net/Androidlushangderen/article/details/41408517

HDFS:

http://www.cnblogs.com/laov/p/3434917.html

http://www.2cto.com/kf/201311/260826.html

Hadoop是什么?一句话理解的更多相关文章

  1. 一句话理解字符编码(Unicode ,UTF8,UTF16)

    Unicode和ASCII码属于同一级别的,都是字符集,字符集规定从1到这个字符集的最大范围每个序号都各表示什么意思.比如ASCII字符集中序号65表示"A". 那接下来的UTF8 ...

  2. 【repost】让你一句话理解闭包(简单易懂)

    接触javascript很久了,每次理解闭包都似是而非,最近在找Web前端的工作,所以需要把基础夯实一下. 本文是参照了joy_lee的博客 闭包 在她这篇博客的基础上以批注的形式力争把我的理解阐述出 ...

  3. 对hadoop之RPC的理解

    因为公司hadoop集群出现了一些瓶颈,在机器不增加的情况下需要进行优化,不管是存储还是处理性能,更合理的利用现有集群的资源,所以来学习了一波hadoop的rpc相关的知识和hdfs方面的知识,以及y ...

  4. hadoop各个名词的理解

    Hadoop家族的各个成员 hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和运行处理大规模数据的软件平台.核心 ...

  5. Hadoop 对MapReduce的理解

    对MapReduce的理解 客户端启动一个作业 向JobTraker请求一个JobId 将资源文件复制到HDFS上,包括Jar文件,配置文件,输入划分信息等 接收作业后,进入作业队列,根据输入划分信息 ...

  6. 《一句话理解Vue核心内容》阅读笔记

    Vue.js(读音 /vjuː/,类似于 view) 是一套构建用户界面的渐进式框架. 在解释什么是渐进式框架之前,有必要了解一下什么是框架 在最初的前端开发中,我们利用JS获取HTML中的DOM元素 ...

  7. hadoop以及相关组件介绍以及个人理解

    前言 本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...

  8. 正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构

    转载:http://blog.csdn.net/HADOOP_83425744/article/details/49560583 http://bigdatadecode.club/MapReduce ...

  9. hadoop运行原理之Job运行(二) Job提交及初始化

    本篇主要介绍Job从客户端提交到JobTracker及其被初始化的过程. 以WordCount为例,以前的程序都是通过JobClient.runJob()方法来提交Job,但是现在大多用Job.wai ...

随机推荐

  1. 第一个C语言程序

    从第一个C语言程序了解C语言 了解关键字 了解函数 注释 C语言的执行流程 标识符 C语言的学习重难点 从第一个C语言程序了解C语言 上图是一个在控制台上显示“Hello, World!”的C语言源代 ...

  2. 误设PATH导致命令失效的处理

    今天配置Linux下的Java环境时,把PATH设为了export PATH=${JAVA_HOME}/bin,然后执行了source ~/.bash_profile命令,导致了几乎所有的Linux命 ...

  3. ubuntu14.04 wifi驱动

    ubuntu崩溃后再安装后,发现没有了wifi按钮 因为必须要用wifi不然太不方便了,于是在网上找了一下,安装了一下驱动就解决了 首先确定无线网卡类型: $ lspci -vnn -d 14e4: ...

  4. DeepLearning之路 (五) CNN

    自今年七月份以来,一直在实验室负责卷积神经网络(Convolutional Neural Network,CNN),期间配置和使用过theano和cuda-convnet.cuda-convnet2. ...

  5. AAS代码运行-第11章-1

    启动PySpark export IPYTHON= # PySpark也可使用IPython shell pyspark --master yarn --num-executors 发生如下错误: / ...

  6. Android Studio打开时提示ADB错误的问题

    如图所示,ADB连接错误,解决办法很简单:打开cmd,定位到sdk文件夹下的platform-tools,然后执行adb kill-server回车:再执行adb start-server即可

  7. Asp.net MVC 数据注解与验证

    数据注解特性定义在名称空间System.ComponentModel.DataAnnotations中(有些特性定义在其他名称空间中),它们提供了服务器端验证的功能,当在模型的属性上使用这些特性时,框 ...

  8. runtime学习实战一:类的属性进行归档解档

    #import <Foundation/Foundation.h> @interface PYPerson : NSObject @property (nonatomic, assign) ...

  9. css中的1px并不总等于设备的1px(高分辨率不等 低分辨等)

    在css中我们一般使用px作为单位,在桌面浏览器中css的1个像素往往都是对应着电脑屏幕的1个物理像素,这可能会造成我们的一个错觉,那就是css中的像素就是设备的物理像素.但实际情况却并非如此,css ...

  10. 2D几何变换

    2D点:非齐次坐标x(x,y) (x表示向量矢量) 齐次坐标:x~=(x~,y~,w~)=w~(x,y,1)=w~x~         增广矢量:x—=(x,y,1) w~=0时,齐次点称作理想点或无 ...