作业——11 分布式并行计算MapReduce

作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。

　　HDFS

　　　　功能

　　　　　　分布式文件系统，用来存储海量数据。

　　　　工作原理

　　　　1、HDFS集群分为两大角色：NameNode、DataNode (Secondary Namenode)

　　　　2、NameNode负责管理整个文件系统的元数据

　　　　3、 DataNode 负责管理用户的文件数据块

　　　　4、文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上

　　　　5、每一个文件块可以有多个副本，并存放在不同的datanode上

　　　　6、Datanode会定期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量

　　　　7、HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行

　　　　工作过程

　　　　　　写操作　　　　

　　　　　　1、根namenode通信请求上传文件，namenode检查目标文件是否已存在，父目录是否存在

　　　　　　2、namenode返回是否可以上传

　　　　　　3、client请求第一个 block该传输到哪些datanode服务器上

　　　　　　4、namenode返回3个datanode服务器ABC

　　　　　　5、client请求3台dn中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将真个pipeline建立完成，逐级返回客户端

　　　　　　6、client开始往A上传第一个block（先从磁盘读取数据放到一个本地内存缓存），以packet为单位，A收到一个packet就会传给B，B传给C；A每传一个packet会放入一个应答队列等待应答

　　　　　　7、当一个block传输完成之后，client再次请求namenode上传第二个block的服务器。

　　　　　　读操作

　　　　　　1、跟namenode通信查询元数据，找到文件块所在的datanode服务器

　　　　　　2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流

　　　　　　3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）

　　　　　　4、客户端以packet为单位接收，现在本地缓存，然后写入目标文件

　　MapReduce

　　　　功能

　　　　　　并行处理框架，实现任务分解和调度。

　　　　工作原理

　　　　1、通过Job的submit（）方法创建一个JobSummiter实例，并且调用其submitJobInternal（）方法。

　　　　2、作业提交给ResourceManager，从ResourceMananger处得到一个ApplicationID

　　　　3、JobClien检查Job的输出说明，计算输入分片，并将Job资源（包括运行的Jar包、配置和分片信息）复制到HDFS

　　　　 4、通过ResourceManager上的submitApplications进行作业提交

　　　　 5、ResourceManager收到submitApplication（）消息后，便将请求传递给调度器（scheduler）。调度器为其分配一个容器（Container），然后资源管理器在节点管理器（NodeManger）的管理下在Container中启动应用程序的master

　　　　6、初始化Job：通过创建多个簿记录对象以保持对作业进度的跟踪，因为它将接受来自任务的进度和完成报告

　　　　 7、接受HDFS在Client端计算的输入分片信息

　　　　8、连接ResourceManager，向ResourceManager进行资源申请

　　　　9、Application master 通过与节点管理器（NodeManager）进行通信启动Container，该任务有主类为YarnChiled的Java程序执行。

　　　　10、在第9步之前，需要将任务需要的资源本地化，包括运行的Jar包、配置和分片信息和HDFS的文件

　　　　11、最后运行map任务或reduce任务。

　　　　工作过程

　　　　MapReduce的工作过程分为两个步骤：map和reduce。每个阶段的输入输出都是key-value的形式，key和value的类型可以自行指定。map阶段对切分好的数据进行并行处理，处理结果传输给reduce，由reduce函数完成最后的汇总。

2.HDFS上运行MapReduce

　　1）准备文本文件，放在本地/home/hadoop/wc

　　2）编写map函数和reduce函数，在本地运行测试通过

　　3）启动Hadoop：HDFS, JobTracker, TaskTracker

　　4）把文本文件上传到hdfs文件系统上 user/hadoop/input

　　5）streaming的jar文件的路径写入环境变量，让环境变量生效

　　6）建立一个shell脚本文件：streaming接口运行的脚本，名称为run.sh

　　7）source run.sh来执行mapreduce

　　8）查看运行结果

作业——11 分布式并行计算MapReduce的更多相关文章

【大数据作业十一】分布式并行计算MapReduce
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功 ...
【大数据应用技术】作业十一｜分布式并行计算MapReduce
本次作业在要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapRe ...
分布式并行计算MapReduce
作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce ...
【大数据】分布式并行计算MapReduce
作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1. 用自己的话阐明Hadoop平台上HDFS和MapReduc ...
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inpu ...
经典MapReduce作业和Yarn上MapReduce作业运行机制
一.经典MapReduce的作业运行机制如下图是经典MapReduce作业的工作原理: 1.1 经典MapReduce作业的实体经典MapReduce作业运行过程包含的实体: 客户端,提交MapR ...
#研发解决方案#分布式并行计算调度和管理系统Summoner
郑昀创建于2015/11/10 最后更新于2015/11/12 关键词:佣金计算.定时任务.数据抽取.数据清洗.数据计算.Java.Redis.MySQL.Zookeeper.azkaban2.oo ...
利用 MessageRPC 和 ShareMemory 来实现分布式并行计算
可以利用 MessageRPC + ShareMemory 来实现分布式并行计算 . MessageRPC : https://www.cnblogs.com/KSongKing/p/945541 ...
C语言I作业11
C语言博客作业11 问题回答 C语言程序设计II 博客作业11 这个作业要求在哪里作业要求我在这个课程的目标是理解和弄懂局部变量和全局变量,静态变量和动态变量这个作业在哪个具体方面帮助我实 ...

随机推荐

electron-vue多显示屏下将新窗口投放是其他屏幕
display对象可以获取所有显示屏此处演示程序启动是投放新窗口至另一屏幕 import { app, BrowserWindow } from 'electron' const electron = ...
【转】java 环境变量：path与classpath区别
path指示java命令的路径,像javac.java.javaw等: classpath是javac编译器的一个环境变量,它的作用与import.package关键字有关,当你写下improt ja ...
解决java依赖poi导出Excel表时，没有出现下载提示的问题
转自:https://blog.csdn.net/jinchunzhao123/article/details/88626077 浏览器响应: 而且进入断点调试,所有的数据都执行了就是没有下载提示.而 ...
java自定义注释及其信息提取
转自:https://xuwenjin666.iteye.com/blog/1637247 1. 自定义注解 import java.lang.annotation.Retention; import ...
机智云连接esp8266--远程控制风扇转速
概述下面我们使用esp8266开发板和机智云云端,实现如何将一个USB风扇,改造成可以远程控制转速的智能风扇. 1.准备工作硬件: (1)esp8266开发板 (2)USB线 (3)USB风扇软 ...
嵌入式 vlc从接收到数据流到播放视频的过程分析（经典）
个人整理: Vlc流播放流程 vlc源码目录树: 目录名称说明 bindings Java, CIL 和Python绑定 doc 帮助文档 (不是更新的) extras 另叙. include VL ...
MSSQL镜像场景
1.版本:一般MSSQL2016以下版本使用. 2.适用小数据库容量的异地备份:如果是数据库容量较大,产生的日志比较多:经测试,9G的数据库大小,镜像数月个日志大小达到400G,硬盘开销太大.
Centos7搭建DockerRegistry
1. 说明以下使用系统centos7,64位,镜像为CentOS-7-x86_64-Minimal-1804,均已root用户进行操作 2. 安装Registry Docker Registry 是 ...
python的交互式shell-ipython体验
ipython的python比较优秀的交互式shell,比python console功能更加强大更加的贴近开发及调试程序,也支持在linux下直接执行linux命令 00x-install 源码安装 ...
Typora 基础的使用方法
大标题:通过ctrl + 数字 1 2 3 ....方式,还可以通过加# 的方式一级标题二级标题三级标题最多可以有6个#号序号标题: 有序缩进是1. + tab 回车之后自动生成下一个序号 ...

作业——11 分布式并行计算MapReduce

作业——11 分布式并行计算MapReduce的更多相关文章

随机推荐

热门专题