计算框架:

MapReduce:主要用于离线计算

Storm:流式计算框架,更适合做实时计算

stack:内存计算框架,快速计算

MapReduce设计理念:

--何为分布式计算

--移动计算,而不是移动数据

4个步骤:

1.Splitting

2.Mapping:Map步骤有可能有多个Map task线程并发同时执行

3.Shuffing:合并和排序

4.Reducing

Hadoop计算框架Shuffler

  在mapper和reducer中间的一个步骤

  可以把mapper的输出按照某种key值重新切分和组合成n份,把key值符合某种范围的输出送到特定的reducer那里去处理

  可以简化reducer过程

partition:分区

  如果不进行分区,会有默认的分区  “哈希模运算”

  1.获得 哈希值  -->得到一个整数(int) -->  模reduce的个数得到一个结果

  分区 是为了把map的输出数据进行 负载均衡 或解决数据倾斜问题

  map中不会出现数据倾斜问题,map的输入数据split(片段)事实上来源于dataNode的block块

  默认的partition有可能产生数据倾斜问题

  如果有 数据倾斜 问题,需要更改和优化partition

sort:排序

程序可以控制的地方

  partition,sort(比较算法,默认按照字典排序(ASCII大小)),combiner

在spill to desk 时候出现 sort和combiner

Combiner 有可能不存在

MapReduce 的 Split 大小

-- max.split(100M)

-- min.split(10M)

-- block(64M)

-- max(min.split,min(max.split,block))

MapReduce 的架构

  一主多从架构

  主JobTracker:

    负责调度分配每一个子任务task运行与TaskTracker上,如果发现有失败的task就重新分配其任务到其他节点.每一个hadoop集群中只有一个JobTracker.一般它运行在Master节点上

  从TaskTracker:

    TaskTracker主动与JobTracker通信,接受作业,并负责执行每一个任务,为了减少网络带宽TaskTracker最好运行咋HDFS的DataNode上

搭建:

1.指定JobTracker所在的机器

  conf/mapred-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>192.168.1.201:</value>
</property>
</configuration>

2.如果TaskTracker配置在DataNode上,默认不需要配置

3.同步配置文件

[root@bogon conf]# scp ./mapred-site.xml root@192.168.1.202:~/hadoop-1.2./conf/
[root@bogon conf]# scp ./mapred-site.xml root@192.168.1.203:~/hadoop-1.2./conf/

4.启动

[root@bogon bin]# ./start-all.sh 

5.使用 jps 查看启动

  192.168.1.201

[root@bogon bin]# jps
Jps
JobTracker
NameNode
[root@bogon bin]#

  192.168.1.202

[root@localhost ~]# jps
DataNode
SecondaryNameNode
Jps
TaskTracker
[root@localhost ~]#

  192.168.1.203

[root@localhost ~]# jps
TaskTracker
Jps
DataNode
[root@localhost ~]#

使用 http://192.168.1.201:50030/ 查看

生成 eclipse 插件

hadoop-1.2.1\src\contrib\eclipse-plugin 在eclipse中编译成jar

将编译好的jar放入到eclipse的plugin中

eclipse版本不能太低也不能太高  使用4.4

hadoop-MapReduce分布式计算框架的更多相关文章

  1. 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce)

    大数据时代之hadoop(一):hadoop安装 大数据时代之hadoop(二):hadoop脚本解析 大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四): ...

  2. Hadoop 三剑客之 —— 分布式计算框架 MapReduce

    一.MapReduce概述 二.MapReduce编程模型简述 三.combiner & partitioner 四.MapReduce词频统计案例         4.1 项目简介      ...

  3. Hadoop 学习之路(三)—— 分布式计算框架 MapReduce

    一.MapReduce概述 Hadoop MapReduce是一个分布式计算框架,用于编写批处理应用程序.编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集. MapReduce作业通 ...

  4. Hadoop 系列(三)—— 分布式计算框架 MapReduce

    一.MapReduce概述 Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序.编写好的程序可以提交到 Hadoop 集群上用于并行处理大规模的数据集. MapReduce ...

  5. 分布式计算框架学习笔记--hadoop工作原理

    (hadoop安装方法:http://blog.csdn.net/wangjia55/article/details/53160679这里不再累述) hadoop是针对大数据设计的一个计算架构.如果你 ...

  6. (第4篇)hadoop之魂--mapreduce计算框架,让收集的数据产生价值

    摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利 给大家赠送一套ha ...

  7. 【Big Data - Hadoop - MapReduce】hadoop 学习笔记:MapReduce框架详解

    开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...

  8. Hadoop mapreduce框架简介

    传统hadoop MapReduce架构(老架构)   从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:   1.首先用户程序 (JobClient) 提交了一个 job,job ...

  9. 下一代Apache Hadoop MapReduce框架的架构

    背景 随着集群规模和负载增加,MapReduce JobTracker在内存消耗,线程模型和扩展性/可靠性/性能方面暴露出了缺点,为此需要对它进行大整修. 需求 当我们对Hadoop MapReduc ...

  10. 2_分布式计算框架MapReduce

    一.mr介绍 1.MapReduce设计理念是移动计算而不是移动数据,就是把分析计算的程序,分别拷贝一份到不同的机器上,而不是移动数据. 2.计算框架有很多,不是谁替换谁的问题,是谁更适合的问题.mr ...

随机推荐

  1. Eclipse中启用Oracle jdbc logging

    根据自己用的JRE版本, jre1.5选择ojdbc5_g.jar, jre6选择ojdbc6_g.jar, 只有带_g的dirver才输出debug信息. maven 的配置信息: <depe ...

  2. Laravel 下结合阿里云邮件推送服务

    最近在学习laravel做项目开发,遇到注册用户推送邮件的问题,之前用java做的时候是自己代码写的,也就是用ECS推送邮件,但是现在转php的laravel了就打算用php的邮件发送功能来推送邮件, ...

  3. 记一次ASP.NET网站的入侵和如何避免被入侵

    ASP.NET网站入侵第二波(LeaRun.信息化快速开发框架 已被笔者拿下) 详细介绍请看第二波 首先我要申明的是不是什么语言写出来的程序就不安全,而是得看写代码的人如何去写这个程序 前些日子我去客 ...

  4. IT人员如何保护视力

    最近感觉眼比较难受,有点干,估计是因为用上老婆淘汰的iPhone5C后屏幕太小,而我又是一个手机瘾重点患者的原因.为了保持自己5.0+的视力,做了以下工作,分享给各位朋友: Win7电脑将字体放大到1 ...

  5. java的HashCode方法

    总的来说,Java中的集合(Collection)有两类,一类是List,再有一类是Set. 前者集合内的元素是有序的,元素可以重复: 后者元素无序,但元素不可重复. 要想保证元素不重复,可两个元素是 ...

  6. ajax post(copy part)

    srcpage var q=new XMLHttpRequest(); var data='usr=weidiao&pwd=haha'; data=encodeURI(data); var u ...

  7. The median of multi ascending array

    Given 17 arrays,every array is ascending.The task is to get the median of all these numbers. 0 1 2 3 ...

  8. STL中algorithm里的查找

    首先,选择查找算法时,区间是否排序是一个至关重要的因素.可以按是否需要排序区间分为两组: A. count,find B. binary_search,lower_bound,upper_bound, ...

  9. there is issue about change event of checkbox in the ie8 oe ie7

    some people said the change event of checkbox can not trigger in the ie7 or ie8,that's not true. thi ...

  10. android 发送GET请求 服务端接收乱码的问题

    在android的编程中常会使用get/post请求,在用get请求的时候数据是直接放在url当中的 例如: http://apicloud.mob.com/v1/weather/query?key= ...