一、github使用手册

二、案例：倒排索引

1. 完成功能：

统计一系列文本文件中的每个单词构成的倒排索引。

1）分析：
（1）倒排索引主要是用来存储某个单词在一个文档中或者一组文档中出现的位置映射关系，即提供一个根据内容查找文档的方式。

（2）加权倒排索引，在确定指定单词到文档位置的映射关系的时候，加入权重考虑信息。

代码演示：

git@github.com:yeahwell/demobigdata.git

三、用户自定义数据类型

1. MapReduce中的数据类型

至少有两种用途：
第一个用途，这些类型定义的数据可以被序列化进行网络传输和文件存储，

第二个用途，在shuffle阶段要可以进行大小比较。

那么在hadoop中解决第一种方式采用hadoop的接口Writable，第二种采用接口java接口Comparable

(Hadoop将这两个接口结合提供了WritableComparable接口)。

Hadoop提供了很多的内置数据类型，比如：MapWritable, LongWritable, IntWritable, BooleanWritable, ByteWritable, DoubleWritable, FloatWritable, Text, NullWritable等。

2. 用户定制数据输入格式化器

数据输入格式(InputFormat)用于描述MR作业的数据输入格式规范。

MapReduce框架依赖InputFormat进行输入数据分片以及提供读取分片数据的RecordReader实例对象。

每一个InputFormat类都会有一个对应的RecordReader类，RecordReader类主要作用是将输入数据转换为键值对，传输给mapper阶段的map方法。

MapReduce默认的数据输入格式是:TextInputFormat(LineRecordReader)。除了这个格式器以外，还有KeyValueTextInputFormat, CombineTextInputFormat, SequenceFileInputFormat, DBInputFormat等。

1）全称：org.apache.hadoop.mapreduce.InputFormat

方法详解：
getSplits：返回值是分片信息集合；作用：通过分片个数确定mappre的个数，并根据分片信息中的数据地址信息决定是否采用数据本地化策略。
createRecordReader：创建一个具体读取数据并构造key/value键值对的RecordReader实例对象。

2）全称：org.apache.hadoop.mapreduce.RecordReader

方法详解：
initialize：根据对应的分片信息进行初始化操作。
nextKeyValue：判断是否还有下一个key/value键值对，如果有返回true；否则返回false。
getCurrentKey/getCurrentValue：获取当前key/value键值对。
getProgress：获取操作进度信息。
close：关闭资源读取相关连接。

3）全称：org.apache.hadoop.mapreduce.InputSplit

方法详解：
getLength：获取分片长度。
getLocations：获取该分片数据对应的位置信息，确定数据本地化时候有用。

3. 用户定制数据输出格式化器

数据输出格式(OutputFormat)用于描述MR作业的数据输出格式规范。

MapReduce框架依赖OutputFormat进行输出路径(输出空间)检测、获取提交job的OutputCommitter实例对象以及提供一个具体定义如何输出数据的RecordWriter实例对象。

每一个OutputFormat类都会有一个对应的RecordWriter类，RecordWriter类主要作用是明确定义如何写入以及写入的格式，接收reducer阶段输出的key/value键值对。
MapReduce默认的数据输出格式是:TextOutputFormat(LineRecordWriter)。除了这个格式器以外，还有SequenceFileOutputFormat, DBOutputFormat等。

1）全称：org.apache.hadoop.mapreduce.OutputFormat

方法详解：
getRecordWriter：创建一个具体写数据的RecordWriter实例。
checkOutputSpecs：检测输出空间相关信息，如果检测失败，直接抛出异常。
getOutputCommitter：获取一个提交job的committer对象。一般情况下，直接使用FileOutputCommitter对象即可。如果觉得FileOutputCommitter内容比较多，也可以自己实现一个完全为空的类。

2）全称：org.apache.hadoop.mapreduce.RecordWriter

方法详解：
write：接收reducer阶段产生的输出key/value键值对数据，并将其写出。
close：关闭流，进行一些其他操作。

四、案例：MongoDB Hadoop

1. 实现功能：

从MongoDB中读取日志数据，将MapReduce程序处理过的数据写出到MongoDB中。

2. 代码演示：

git@github.com:yeahwell/demobigdata.git

五、Shuffle阶段说明

1. shuffle阶段

1）shuffle阶段主要包括map阶段的combine、group、sort、partition以及reducer阶段的合并排序。

2）map阶段通过shuffle后会将输出数据按照reduce的分区分文件的保存，文件内容是按照定义的sort进行排序好的。

3）map阶段完成后会通知ApplicationMaster，然后AM会通知Reduce进行数据的拉取，在拉取过程中进行reduce端的shuffle过程。

2. 用户自定义combiner

1）Combiner可以减少Map阶段的中间输出结果数，降低网络开销。默认情况下是没有Combiner的。

2）用户自定义的Combiner要求是Reducer的子类，以Map的输出<key,value>作为Combiner的输入<key,value>和输出<key,value>，也就是说Combiner的输入和输出必须是一样的。

3）可以通过job.setCombinerClass设置combiner的处理类，MapReduce框架不保证一定会调用该类的方法。

3. 用户自定义Partitoner

1）Partitioner是用于确定map输出的<key,value>对应的处理reducer是那个节点。

2）默认MapReduce任务reduce个数为1个，此时Partitioner其实没有什么效果，但是当我们将reduce个数修改为多个的时候，partitioner就会决定key所对应reduce的节点序号(从0开始)。

3）可以通过job.setPartitionerClass方法指定Partitioner类，默认情况下使用HashPartitioner（默认调用key的hashCode方法）。

4. 用户自定义Group

1）GroupingComparator是用于将Map输出的<key,value>进行分组组合成<key,List<value>>的关键类，直白来讲就是用于确定key1和key2是否属于同一组，如果是同一组，就将map的输出value进行组合。

2）要求我们自定义的类实现自接口RawComparator，可以通过job.setGroupingComparatorClass方法指定比较类。

3）默认情况下使用WritableComparator，但是最终调用key的compareTo方法进行比较。

5. 用户自定义Sort

1）SortComparator是用于将Map输出的<key,value>进行key排序的关键类，直白来讲就是用于确定key1所属组和key2所属组那个在前，那个在后。

2）要求我们自定义的类实现自接口RawComparator，可以通过job.setSortComparatorClass方法指定比较类。

3）默认情况下使用WritableComparator，但是最终调用key的compareTo方法进行比较。

6. 用户自定义Reducer的Shuffle

1）在reduce端拉取map的输出数据的时候，会进行shuffle(合并排序)，

2）MapReduce框架以插件模式提供了一个自定义的方式，我们可以通过实现接口ShuffleConsumerPlugin，并指定参数mapreduce.job.reduce.shuffle.consumer.plugin.class来指定自定义的shuffle规则，

但是一般情况下，直接采用默认的类org.apache.hadoop.mapreduce.task.reduce.Shuffle。

六、案例：二次排序

1. 实现功能

hadoop默认只对key进行排序，有时候我们需要将value部分也进行排序。

这种情况下有两种方式实现：

第一种，我们将排序放到reducer端进行，但是这种方式当数据量比较大的时候，会比较消耗内存。

那么另外一种方式就是二次排序。二次排序的内部实行其实是先按照key+value组合的方式进行排序，然后根据单独key进行分组的一种实行方式。

要求reducer个数为2，而且奇数到第一个reducer进行处理，偶数到第二个reducer进行处理。

2. 代码演示

git@github.com:yeahwell/demobigdata.git

hadoop jar demobigdata.jar com.webmovie.bigdata.mapreduce.shuffle.DemoRunner

《OD大数据实战》MapReduce实战的更多相关文章

《OD大数据实战》HDFS入门实例
一.环境搭建 1. 下载安装配置 <OD大数据实战>Hadoop伪分布式环境搭建 2. Hadoop配置信息 1)${HADOOP_HOME}/libexec:存储hadoop的默认环境 ...
《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台
一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...
《OD大数据实战》Hive环境搭建
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建二.Hive环境搭建 1. 准备安装文件下载地址: http://archive.cloudera.com/cd ...
【机器学习实战】第15章大数据与MapReduce
第15章大数据与MapReduce 大数据概述大数据: 收集到的数据已经远远超出了我们的处理能力. 大数据场景假如你为一家网络购物商店工作,很多用户访问该网站,其中有些人会购买商品,有些人则 ...
《大数据Spark企业级实战》
基本信息作者: Spark亚太研究院王家林丛书名:决胜大数据时代Spark全系列书籍出版社:电子工业出版社 ISBN:9787121247446 上架时间:2015-1-6 出版日期:20 ...
大数据存储:MongoDB实战指南——常见问题解答
锁粒度与并发性能怎么样? 数据库的读写并发性能与锁的粒度息息相关,不管是读操作还是写操作开始运行时,都会请求相应的锁资源,如果请求不到,操作就会被阻塞.读操作请求的是读锁,能够与其它读操作共享,但是当 ...
【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习
下了这本<大数据Spark企业级实战版>, 另外还有一本<Spark大数据处理:技术.应用与性能优化(全)> 先看前一篇. 根据书里的前言里面,对于阅读顺序的建议.先看最后的S ...
大数据技术 - MapReduce的Combiner介绍
本章来简单介绍下 Hadoop MapReduce 中的 Combiner.Combiner 是为了聚合数据而出现的,那为什么要聚合数据呢?因为我们知道 Shuffle 过程是消耗网络IO 和磁盘I ...
《OD大数据实战》环境整理
一.关机后服务重新启动 1. 启动hadoop服务 sbin/hadoop-daemon.sh start namenode sbin/hadoop-daemon.sh start datanode ...
大数据与Mapreduce
第十五章大数据与Maprudece 一．引言实际生活中的数据量是非常庞大的,采用单机运行的方式可能需要若干天才能出结果,这显然不符合我们的预期,为了尽快的获得结果,我们将采用分布式的方式,将计算分 ...

随机推荐

web之困：现代web应用安全指南
<web之困:现代web应用安全指南>在web安全领域有“圣经”的美誉,在世界范围内被安全工作者和web从业人员广为称道,由来自google chrome浏览器团队的世界顶级黑客.国际一流 ...
IE8下jQuery改变png图片透明度时出现的黑边问题
png24格式的图片在用jQuery添加显示隐藏动画时发现,图片的半透明区域出现黑边? 在网上搜了搜主要有以下几种办法: 1.把图片保存成PNG-8格式. 2.把背景色一起切入并保存为JPG格式. 以 ...
驱动笔记 - file_operations
#include <linux/fs.h> struct file_operations { struct module *owner; loff_t (*llseek) (struct ...
unity3d中dllimport方法的使用，以接入腾讯平台为例！！！
说到有关dllimport方法可能还有很多人比较陌生,其实我自己也说不太清楚,大概说说什么时候要用它. 事实上功能类似于调用android的第三包,我们想要使用苹果上特定的api或者第三方平台的一些东 ...
PHP event 事件机制
PHP event 事件机制 <?php /* * PHP 事件机制 */ class baseClass{ private $_e; public function __set($name ...
10个jQuery插件分享
原文:http://www.shejidaren.com/10-jquery-plugins.html blur.js blur.js是一个很有意思的插件,它能实现像WIN7 AERO效果的JS插件, ...
AIZU 2251
Merry Christmas Time Limit : 8 sec, Memory Limit : 65536 KB Problem J: Merry Christmas International ...
HDFS Protocol修改流程
相对于1.x版本的Hadoop,2.x版本的Hadoop采用了Protocol Buffer作为序列化反序列化工具,以及RPC通讯工具.这样当我们对Hadoop源码进行修改之前,就需要了解Ha ...
java内存模型优化建议
八.Java编程建议根据GC的工作原理,我们可以通过一些技巧和方式,让GC运行更加有效率,更加符合应用程序的要求.一些关于程序设计的几点建议: 1)最基本的建议就是尽早释放无用对象的引用.大多数程序 ...
CentOS系统配置solr
1.新建一个文件夹比如soft cd /soft wget http://apache.fayea.com/lucene/solr/6.0.0/solr-6.0.0-src.tgz --下 ...

《OD大数据实战》MapReduce实战

一、github使用手册

二、案例：倒排索引

三、用户自定义数据类型

1. MapReduce中的数据类型

2. 用户定制数据输入格式化器

3. 用户定制数据输出格式化器

四、案例：MongoDB Hadoop

五、Shuffle阶段说明

1. shuffle阶段

2. 用户自定义combiner

3. 用户自定义Partitoner

4. 用户自定义Group

5. 用户自定义Sort

6. 用户自定义Reducer的Shuffle

六、案例：二次排序

1. 实现功能

《OD大数据实战》MapReduce实战的更多相关文章

随机推荐

热门专题