分布式并行计算MapReduce

作业要求来自：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319

1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。

易于扩展的分布式文件系统
运行在大量普通廉价机器上，提供容错机制
为大量用户提供性能不错的文件存取服务

MapReduce是并行处理框架，实现任务分解和调度。

其实原理说通俗一点就是分而治之的思想，将一个大任务分解成多个小任务(map)，小任务执行完了之后，合并计算结果(reduce)。

也就是说，JobTracker拿到job之后，会把job分成很多个maptask和reducetask，交给他们执行。 MapTask、ReduceTask函数的输入、输出都是<key,value>的形式。HDFS存储的输入数据经过解析后，以键值对的形式，输入到MapReduce()函数中进行处理，输出一系列键值对作为中间结果，在Reduce阶段，对拥有同样Key值的中间数据进行合并形成最后结果。

2.HDFS上运行MapReduce

1）查看是否已经安装python：

1）准备文本文件，放在本地/home/hadoop/wc

2）编写map函数和reduce函数，在本地运行测试通过

3）启动Hadoop：HDFS, JobTracker, TaskTracker

4）把文本文件上传到hdfs文件系统上 user/hadoop/input

5）streaming的jar文件的路径写入环境变量，让环境变量生效

6）source run.sh来执行mapreduce

分布式并行计算MapReduce的更多相关文章

作业——11 分布式并行计算MapReduce
作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapRedu ...
【大数据】分布式并行计算MapReduce
作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1. 用自己的话阐明Hadoop平台上HDFS和MapReduc ...
【大数据作业十一】分布式并行计算MapReduce
作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功 ...
【大数据应用技术】作业十一｜分布式并行计算MapReduce
本次作业在要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3319 1.用自己的话阐明Hadoop平台上HDFS和MapRe ...
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解
Hadoop平台K-Means聚类算法分布式实现+MapReduce通俗讲解在Hadoop分布式环境下实现K-Means聚类算法的伪代码如下: 输入:参数0--存储样本数据的文本文件inpu ...
#研发解决方案#分布式并行计算调度和管理系统Summoner
郑昀创建于2015/11/10 最后更新于2015/11/12 关键词:佣金计算.定时任务.数据抽取.数据清洗.数据计算.Java.Redis.MySQL.Zookeeper.azkaban2.oo ...
利用 MessageRPC 和 ShareMemory 来实现分布式并行计算
可以利用 MessageRPC + ShareMemory 来实现分布式并行计算 . MessageRPC : https://www.cnblogs.com/KSongKing/p/945541 ...
hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce具体解释
我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详细解释我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ ...
cdh版本的hadoop安装及配置(伪分布式模式) MapReduce配置 yarn配置
安装hadoop需要jdk依赖,我这里是用jdk8 jdk版本:jdk1.8.0_151 hadoop版本:hadoop-2.5.0-cdh5.3.6 hadoop下载地址:链接:https://pa ...

随机推荐

五、Linux_ping命令
ping命令用法为:“ping 参数目标主机”.其中参数为零到多个,目标主机可以是IP或者域名. 1.每隔0.6秒ping一次,一共ping 5次: [root@aiezu.com ~]# ping ...
[应用层]Linux进程间通信机制
转自:https://www.cnblogs.com/yangang92/p/5679641.html 主要如下方式: 1. 管道pipe2. 命名管道FIFO3. 内存映射MemoryMapping ...
What is Code Quality?
Ref detail : https://realpython.com/python-code-quality/ What is Code Quality? Of course you want qu ...
《CoderXiaoban》第九次团队作业：Beta冲刺与验收准备
项目内容这个作业属于哪个课程任课教师博客主页链接这个作业的要求在哪里实验十三团队作业9:BETA冲刺与团队项目验收团队名称 Coderxiaoban团队作业学习目标 (1)掌握软件黑盒 ...
Spring源码窥探之：AOP注解
AOP也就是我们日常说的@面向切面编程,看概念比较晦涩难懂,难懂的是设计理念,以及这样设计的好处是什么.在Spring的AOP中,常用的几个注解如下:@Aspect,@Before,@After,@A ...
spark中的scalaAPI之RDDAPI常用操作
package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf, Spa ...
Laravel —— batch 实现
很多项目中会用到自动执行脚本的功能, 例如,自动统计上个月的注册用户,定时生成 csv 文件并邮箱发送给客户等等. Laravel 中的任务调度,可实现定时任务, 结合自定义 artisan 命令,即 ...
C++ vector,list,deque区别（转）
在写C++程序的时候会发现STL是一个不错的东西,减少了代码量,使代码的复用率大大提高,减轻了程序猿的负担.还有一个就是容器,你会发现要是自己写一个链表.队列,或者是数组的时候,既要花时间还要操心 ...
jquery ajax请求数据超时设置
var ajaxTimeoutTest = $.ajax({ url:'', //请求的URL timeout : 1000, //超时时间设置,单位毫秒 type : 'get', //请求方式,g ...
web自动化测试-selenium多表单切换
一.概述 1.在web应用中会经常遇到frame/iframe表单嵌套页面的应用 2.WebDriver只能在一个页面上对元素进行识别与定位 3.对于frame/iframe表单内嵌的页面上元素无法识 ...

分布式并行计算MapReduce

1）查看是否已经安装python：

分布式并行计算MapReduce的更多相关文章

随机推荐

热门专题