Hadoop是什么？一句话理解

Hadoop（MapReduce&HDFS）

1.学习目的（前言）

　　在从业了六年IT生涯里，做个实施顾问、业务顾问、BA需求分析师、项目经理，现在重新定位自己，在新公司做起了开发顾问，虽然经历过很多转折、跨度也有点大。但是抓住了机会，开始接触大数据行业了。虽然目前工作中的都是使用Hive SQL进行开发，没有涉及太多真正大数据的东西，但是觉得学习大数据还是很有必要，所以利用项目的空余时间对Hadoop进行了学习整理，内容可能对于现在的Hadoop来说已经有点过时了，但是我觉得老知识还是根基，于是便有了以下的文章，用于以后自己备忘和要学习Hadoop的小伙伴一起学习进步。

2.Hadoop核心思想

　　Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个平台，其核心部件是HDFS与MapReduce

　　HDFS是一个分布式文件系统：传统文件系统的硬盘寻址慢，通过引入存放文件信息的服务器Namenode和实际存放数据的服务器Datanode进行串接。对数据系统进行分布式储存读取。

　　MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算\Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

3.HDFS文件系统和MapReduce计算框架在Hadoop生态圈中的应用

　　HDFS负责Hadoop生态圈的数据存取工作

　　MapReduce负责Hadoop生态圈的数据运算工作

　　Hadoop生态圈使用HDFS文件系统进行存取数据，数据被分散的保存在集群的各个服务器上，在计算数据时使用MapReduce结合HDFS进行逻辑运算取出数据。

4.Master/Slave的架构理念

　　Hadoop使用（Master/Slave）主从架构进行分布式储存和分布式计算。Master负责分配和管理任务，Slave负责实际执行任务。

　　MapReduce中装载有JobTracker的服务器负责进行Master任务，装载有TaskTracker的服务器负责进行Slave任务。

　　HDFS中装载有Namenode的服务器负责进行Master任务，装载有Datanode的服务器负责进行Slave任务。

5.HDFS&MapReduce的设计思路

　　HDFS：

　　　　将文件进行切块处理，再通过文件信息服务器Namenode存放切块的文件信息存放地址，实际存放数据的服务器Datanode存在切块后的数据。

　　　　系统默认：每个片块大小为64M，以保证寻址速度；数据会写入3个Datanode中，以保证更高的容错性；

　　　　HDFS还设计了Secondary Namenode来更新Namenode，以避免日志文件过大

　　　　HDFS Client帮助Namenode对写入读取数据进行预处理，进行文件的分块与发送读取操作。Namenode负责为数据任务寻址

　　MapReduce：

　　　　通过JobClient生成任务运行文件，并在JobTracker进行调度指派TaskTracker完成任务。

　　　　JobTracker分为把任务文件进行分解并派送到TaskTracker的程序JobinProgress和执行调度器的TaskScheduler

　　　　JobinProgress把作业分解成Map计算和Reduce计算并放置到TaskTracker服务器中

6.HDFS&MapReduce组件介绍

　　HDFS：

　　　　Namenode(Master)：管理着每个文件中各个块所在的数据节点的位置信息

　　　　Namespace image:记录每个文件的存在位置信息

　　　　Edit log:记录每个文件的位置移动信息

　　　　Datanode(Slave)：记录着服务器内所储存的数据块的列表

　　　　Secondary Namenode：更新并备份Namenode

　　　　HDFS Client：进行文件的分块与文件的发送读取

　　MapReduce：

　　　　JobClient:用于把用户的作业任务生成Job的运行包，并存放到HDFS中。

　　　　JobinProgress：把Job运行包分解成MapTask和ReduceTask并存放于TaskTracker中

　　　　JobTracker(Master)：进行调度管理TaskTracker执行任务

　　　　TaskTracker(Slave)：执行分配下来的Map计算或Reduce计算任务

7.Hadoop运行机制

　　HDFS：

　　　　Namenode使用镜像文件(Namespace image)和操作日志文件(edit log)对数据进行记录。（保存在缓存和磁盘中）

　　　　Secondary Namenode进行更新时的操作：

　　　　　　1.在Namenode创建一个新的操作日志，将新的操作记录写入到新的操作日志中；

　　　　　　2.将Namenode的镜像文件和操作日志拷贝到Secondary Namenode中；

　　　　　　3.在Secondary Namenode中读取镜像文件到内存，并执行日志文件中的所有操作，生产新的镜像文件；

　　　　　　4.把Secondary Namenode中创建的镜像文件拷贝到Namenode中；

　　　　　　5.Namenode中使用新的镜像文件和操作日志替代原来的文件；

　　存数据：

　　　　　　1.HDFS Client对文件分块并向Namenode发送写数据请求

　　　　　　2.Namenode把block信息记录下来，并返回可写入的Datanode

　　　　　　3.HDFS Client向指定的Datanode传送数据

　　　　　　4.传送成功后，Datanode会向Namenode和HDFS Client发送成功通知

　　读数据：

　　　　　　1.HDFS Client从Namenode中获取文件块的位置

　　　　　　2.HDFS Client根据Namenode返回的文件信息去Datanode相关位置中读取

　　MapReduce：

　　　　通过JobClient把用户的作业任务转换成job.xml、job.jar、job.split，适合JobTracker执行的文件

　　　　　　1.job.xml文件记录了Job的详细配置信息

　　　　　　2.job.jar保存了用户定义的关于job的map、reduce操纵

　　　　　　3.job.split保存了job任务的切片信息

　　　　JobClient会为作业向JobTracker申请Jobid，并以Jobid命名把xml、jar、split文件放置进HDFS中

　　　　JobinProgress会把JobClient创建的Job拷贝到JobTracker本地文件系统，并创建JobStatus和Job的mapTask、reduceTask队列来跟踪Job的状态信息。

　　　　JobTracker默认执行一下调度法则

　　　　　　1.先进先出：集群内的资源统一进行使用，执行先进队列先执行的原则。

　　　　　　2.公平调度：按用户分配集群内的资源，每个用户只能在指定的资源内运行调度。

　　　　　　3.队列调度：可以设置多个队列，每个队列都可以进行置顶的资源调度

　　　　TaskTracker向JobTracker发送心跳报告及执行命令

8.MapReduce集群的配置

服务器　　　　守护进程　　　　　　　说明

server1 　　　namenode　　　　　　　　　 namenode节点

server2 　　　jobtracker 　　　　任务主节点

server3 　　　secondary namenode 　　　　secondary namenode

dserver1 　　datanode tasktracker　　　　数据节点

dserver2 　　datanode tasktracker　　　　数据节点

dsdrver3　　 datanode tasktracker 　　　　数据节点

后感：

　　在写这篇文章的时候，知识点不断在更新（ps:甚至大v们对同一个事情的理解也有不太一致的地方，再ps：上述文章内容完全是小粉的个人理解），甚至连文章架构也改了很多次。但是对于学习来说，我觉得这个是一件好事儿，建议也在学习hadoop的小伙伴也可以对自己的知识进行整理学习，有自己的理解。

参考网址：

MapReduce:

http://www.linuxidc.com/Linux/2014-03/99153.htm

http://blog.csdn.net/zhouleilei/article/details/21955009

http://www.aboutyun.com/thread-7778-1-1.html

http://www.tuicool.com/articles/uamYJre

http://blog.csdn.net/Androidlushangderen/article/details/41408517

HDFS:

http://www.cnblogs.com/laov/p/3434917.html

http://www.2cto.com/kf/201311/260826.html

Hadoop是什么？一句话理解的更多相关文章

一句话理解字符编码(Unicode ,UTF8,UTF16)
Unicode和ASCII码属于同一级别的,都是字符集,字符集规定从1到这个字符集的最大范围每个序号都各表示什么意思.比如ASCII字符集中序号65表示"A". 那接下来的UTF8 ...
【repost】让你一句话理解闭包(简单易懂)
接触javascript很久了,每次理解闭包都似是而非,最近在找Web前端的工作,所以需要把基础夯实一下. 本文是参照了joy_lee的博客闭包在她这篇博客的基础上以批注的形式力争把我的理解阐述出 ...
对hadoop之RPC的理解
因为公司hadoop集群出现了一些瓶颈,在机器不增加的情况下需要进行优化,不管是存储还是处理性能,更合理的利用现有集群的资源,所以来学习了一波hadoop的rpc相关的知识和hdfs方面的知识,以及y ...
hadoop各个名词的理解
Hadoop家族的各个成员 hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢? 官方定义:hadoop是一个开发和运行处理大规模数据的软件平台.核心 ...
Hadoop 对MapReduce的理解
对MapReduce的理解客户端启动一个作业向JobTraker请求一个JobId 将资源文件复制到HDFS上,包括Jar文件,配置文件,输入划分信息等接收作业后,进入作业队列,根据输入划分信息 ...
《一句话理解Vue核心内容》阅读笔记
Vue.js(读音 /vjuː/,类似于 view) 是一套构建用户界面的渐进式框架. 在解释什么是渐进式框架之前,有必要了解一下什么是框架在最初的前端开发中,我们利用JS获取HTML中的DOM元素 ...
hadoop以及相关组件介绍以及个人理解
前言本人是由java后端转型大数据方向,目前也有近一年半时间了,不过我平时的开发平台是阿里云的Maxcompute,通过这么长时间的开发,对数据仓库也有了一定的理解,ETL这些经验还算比较丰富.但是 ...
正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构
转载:http://blog.csdn.net/HADOOP_83425744/article/details/49560583 http://bigdatadecode.club/MapReduce ...
hadoop运行原理之Job运行(二) Job提交及初始化
本篇主要介绍Job从客户端提交到JobTracker及其被初始化的过程. 以WordCount为例,以前的程序都是通过JobClient.runJob()方法来提交Job,但是现在大多用Job.wai ...

随机推荐

【EasyUI】combotree和combobox模糊查询
这里说的模糊查询指在输入框输入,然后自动在下拉框中显示匹配结果,类似Google搜索提示 EasyUI库已经实现了combobox的查询过滤功能,但只能从头匹配,原因是EasyUI库的代码限制: fi ...
JS基础（超级简单）
1 JS基础(超级简单) 1.1 数据类型 1.1.1 基本类型: 1) Number:特别注意:NaN的检测方法:Nan!=NaN;或者使用isNaN方法 2) ...
通过GET方法返回定义的任意对象
package util; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputSt ...
Android中的dp, px, pt
定义: px是像素,表示屏幕显示的最小元素单位 pt是磅数,一磅等于1/72英寸,一般用来作为字体的单位使用问题: px和pt不使用于手机,因为同样的px在高低分辨率的手机上显示的比例不同解决办法 ...
开发中的一些解决方案(c#)
1.如果需要配置文件,不妨考虑用XML序列化技术实现XML配置文件.在C#中引入System.Xml.Serialization命名空间,编写实体类序列化到XML文件中(或反序列化到对象),编写少量代 ...
PDO创建mysql数据库并指定utf8编码
<?php //PDO创建mysql数据库并指定utf8编码 header('Content-type:text/html; charset=utf-8'); $servername = &qu ...
C# 写的一个生成随机汉语名字的小程序
最近因为要做数据库相关的测试,频繁使用到测试数据,手动添加太过于麻烦,而且复用性太差,因此干脆花了点时间写了一个生成随机姓名和相关数据的类,贴在这里,有需用的同志们可以参考一下.代码本身质量不好,也不 ...
Asp.net MVC 路由基础
路由检测插件RouteDebugger.dll web.config里<appSettings>节点内添加<add key="RouteDebugger:Enabled&q ...
shared_ptr：资源管理利器
如果你还在使用传统的C++,那么可以肯定堆内存的管理让你头痛过!在传统的C++领域,堆内存管理上我们能借用的现成工具就只有auto_ptr.但是很不幸用auto_ptr管理堆内存简直就是个错误.aut ...
当你刷新当前Table时，刷新后如何回到你上一次所在位置呢？
第一: 在你刷新前保存所在位置的行号 procedure XXXClass.LockPositionEx;begin DisableControls; FHistoryRecNo := 0; FHis ...

Hadoop是什么？一句话理解

Hadoop是什么？一句话理解的更多相关文章

随机推荐

热门专题