Hadoop点滴-初识MapReduce（2）

术语：

job（作业）：客户端需要执行的一个工作单元，包括输入数据、MP程序、配置信息
Hadoop将job分成若干task（任务）来执行，其中包括两类任务：map任务、reduce任务。这些任务在集群的节点上，并通过YARN进行调度
Hadoop将MP输入数据划分成等长的小数据块，成为“输入分片（input split）。Hadoop为每个分片构建一个map任务
多余大多数作业来说，一个合理分片大小趋向于HDFS的一个块的大小，默认128MB。每个新建文件可以单独指定块大小
Hadoop在数据分片所在的节点上运行map任务，即所谓的”数据本地化优化“。
仅仅在非常偶然的情况下（该情况基本不会发生），将map任务分配的计算节点与数据节点分开
分片大小与块大小相同：优势：确保可以存储在单个节点上的最大输入块的大小，如果分片跨越两个数据块，那么对于任何一个HDFS节点，基本上都不可能同时存储这两个数据块
map任务将其输出写入本地磁盘，而非HDFS，因为map的输出是中间结果。
reduce任务并不具备数据本地化优势，
单个reduce任务的输入通常来自于所有map的输出；
reduce的输出通常存储在HDFS中以实现可靠存储。
reduce输出的第一个副本存储在本地节点上，其他副本出于可靠性考虑存储在其他机架的节点中。因此，reduce输出写入HDFS确实需要占用网络带宽。
reduce任务的数量并非由输入数据的大小决定，而是独立指定的。
可将map输出进行分区，对每个分区指定和一个reduce任务
存在物reduce的MP数据流？？？？
combiner函数
1. 集群上的可用带宽限制 MapReduce作业的数量，因此尽量避免map和reduce任务之间的数据传输时有利的。
2. Hadoop允许用户针对map任务的输出指定一个combiner
3. combiner接口与reduce相同，代码也可与reduce完全相同，但不能以偏概全，例如，求平均值的reduce代码，不能用于combiner
4. combiner的作用：将map的结果预先reduce。
MapReduce框架保证了键的有序性
通过Hadoop Streaming ，可以使用非java语言，实现mapreduce计算架构；
通过Hadoop Streaming ，利用Hadoop的job管理功能，实现ruby、shell的mapreduce计算
Hadoop Streaming 使用Unix标准流作为Hadoop和应用程序之间的接口，所以我们可以使用任何编程语言通过标准输入输出来写Mapreduce程序。
Hadoop Streaming 语法

1. 1. hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar \
  2. -input input/ncdc/sample.txt \
  3. -output output \
  4. -mapper xxx.rb \
  5. 　　-reducer yyy.rb

Hadoop点滴-初识MapReduce（2）的更多相关文章

Hadoop点滴-初识MapReduce（1）
分析气候数据,计算出每年全球最高气温(P25页) Map阶段:输入碎片数据,输出一系列“单键单值”键值对内部处理,将一系列“单键单值”键值对转化成一系列“单键多值”键值对 Reduce阶段,输入“单 ...
Hadoop学习笔记—4.初识MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构） (转)
转自:http://blog.csdn.net/v_july_v/article/details/6704077 从hadoop框架与MapReduce模式中谈海量数据处理前言几周前,当我最初听到 ...
每天收获一点点------Hadoop之初始MapReduce
一.神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算.对于大数据量的计算,通常采用的处理手法就是并行计算.但对许多开发者来 ...
Hadoop权威指南:MapReduce应用开发
Hadoop权威指南:MapReduce应用开发 [TOC] 一般流程编写map函数和reduce函数编写驱动程序运行作业用于配置的API Hadoop中的组件是通过Hadoop自己的配置API ...
hadoop系列三:mapreduce的使用(一)
转载请在页首明显处注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/7224772.html 一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的 ...
hadoop系列四:mapreduce的使用(二)
转载请在页首明显处注明作者与出处一:说明此为大数据系列的一些博文,有空的话会陆续更新,包含大数据的一些内容,如hadoop,spark,storm,机器学习等. 当前使用的hadoop版本为2.6 ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

随机推荐

jvm系列(七):如何优化Java GC「译」
本文由CrowHawk翻译,地址:如何优化Java GC「译」,是Java GC调优的经典佳作. Sangmin Lee发表在Cubrid上的”Become a Java GC Expert”系列文章 ...
Leetcode之深度优先搜索（DFS）专题-1080. 根到叶路径上的不足节点（Insufficient Nodes in Root to Leaf Paths）
Leetcode之深度优先搜索(DFS)专题-1080. 根到叶路径上的不足节点(Insufficient Nodes in Root to Leaf Paths) 这篇是DFS专题的第一篇,所以我会 ...
mac系统chrome浏览器快捷键
开发中谷歌浏览器常用快捷键: 开发者工具台快捷键:option+command+iconsole控制台快捷键:option+command+j 或者 option+command+c 1. 标签页和窗 ...
一文带您了解 Elasticsearch 中，如何进行索引管理（图文教程）
欢迎关注笔者的公众号: 小哈学Java, 每日推送 Java 领域干货文章,关注即免费无套路附送 100G 海量学习.面试资源哟!! 个人网站: https://www.exception.site/ ...
hdu 5902 GCD is Funny
Problem Description Alex has invented a new game for fun. There are n integers at a board and he per ...
Codeforces Round #383 (Div. 2) C. Arpa's loud Owf and Mehrdad's evil plan（dfs+数学思想）
题目链接:http://codeforces.com/contest/742/problem/C 题意:题目比较难理解,起码我是理解了好久,就是给你n个位置每个位置标着一个数表示这个位置下一步能到哪个 ...
CF1005D Polycarp and Div 3 思维
Polycarp and Div 3 time limit per test 3 seconds memory limit per test 256 megabytes input standard ...
springboot整合mybatis(注解)
springboot整合mybatis(注解) 1.pom.xml: <?xml version="1.0" encoding="UTF-8"?> ...
Sublime Text 实用方法
代码比对安装Sublimerge插件打开Sublime Text后,接着按Ctrl+Shift+P,并输入Install Package 待其加载完成,再输入Sublimerge Pro 当安装完 ...
Springboot国际化信息（i18n）解析
国际化信息理解国际化信息也称为本地化信息 . Java 通过 java.util.Locale 类来表示本地化对象,它通过 “语言类型” 和 “国家/地区” 来创建一个确定的本地化对象 .举个例子吧 ...

Hadoop点滴-初识MapReduce（2）

Hadoop点滴-初识MapReduce（2）的更多相关文章

随机推荐

热门专题