[BigData]关于Hadoop学习笔记第三天(PPT总结)(一)

课程安排

MapReduce原理***

MapReduce执行过程**

数据类型与格式***

Writable接口与序列化机制***

---------------------------加深拓展----------------------

MapReduce的执行过程源码分析

问题：怎样解决海量数据的计算？

MapReduce概述

lMapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题.

lMR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。

l这两个函数的形参是key、value对，表示函数的输入信息。

思考：自己设计一个MapReduce框架

Mapreduce原理

◆执行步骤：

1. map任务处理

1.1 读取输入文件内容，解析成key、value对。对输入文件的每一行，解析成key、value对。每一个键值对调用一次map函数。

1.2 写自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

2.reduce任务处理

2.1写reduce函数自己的逻辑，对输入的key、value处理，转换成新的key、value输出。

2.2把reduce的输出保存到文件中。

map、reduce键值对格式

WordCountApp的驱动代码

    Configuration conf = new Configuration();    //加载配置文件

    Job job = new Job(conf);    //创建一个job，供JobTracker使用

    job.setJarByClass(WordCountApp.class);

    job.setMapperClass(WordCountMapper.class);

    job.setReducerClass(WordCountReducer.class);

    FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.1.10:9000/input"));

    FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.1.10:9000/output"));

    job.setOutputKeyClass(Text.class);

    job.setOutputValueClass(IntWritable.class);

    job.waitForCompletion(true);

}

MR流程

l代码编写

l作业配置

l提交作业

l初始化作业

l分配任务

l执行任务

l更新任务和状态

l完成作业

MR过程各个角色的作用

ljobClient：提交作业

lJobTracker：初始化作业，分配作业，TaskTracker与其进行通信，协调监控整个作业

lTaskTracker：定期与JobTracker通信，执行Map和Reduce任务

lHDFS：保存作业的数据、配置、jar包、结果

作业提交

l提交作业之前，需要对作业进行配置

•编写自己的MR程序

•配置作业，包括输入输出路径等等

l提交作业

•配置完成后，通过JobClient提交

l具体功能

　　•与JobTracker通信得到一个jar的存储路径和JobId

　　•输入输出路径检查

　　•将jobj ar拷贝到的HDFS

　　•计算输入分片，将分片信息写入到job.split中

　　•写job.xml

　　•真正提交作业

作业初始化

l客户端提交作业后，JobTracker会将作业加入到队列，然后进行调度，默认是FIFO方式

l具体功能

　　•作业初始化主要是指JobInProgress中完成的

　　•读取分片信息

　　•创建task包括Map和Reduce任创建task包括Map和Reduce任务

　　•创建TaskInProgress执行task，包括map任务和reduce任务

任务分配

lTaskTracker与JobTracker之间的通信和任务分配是通过心跳机制实现的

lTaskTracker会主动定期向JobTracker发送心态信息，询问是否有任务要做，如果有，就会申请到任务。

任务执行

l如果TaskTracker拿到任务，会将所有的信息拷贝到本地，包括代码、配置、分片信息等

lTaskTracker中的localizeJob()方法会被调用进行本地化，拷贝job.jar，jobconf，job.xml到本地

lTaskTracker调用launchTaskForJob()方法加载启动任务

lMapTaskRunner和ReduceTaskRunner分别启动java child进程来执行相应的任务

状态更新

lTask会定期向TaskTraker汇报执行情况

lTaskTracker会定期收集所在集群上的所有Task的信息，并向JobTracker汇报

lJobTracker会根据所有TaskTracker汇报上来的信息进行汇总

作业完成

lJobTracker是在接收到最后一个任务完成后，才将任务标记为成功

l将数结果据写入到HDFS中

错误处理

lJobTracker失败

　　•存在单点故障，hadoop2.0解决了这个问题

lTraskTracker失败

　　•TraskTracker崩溃了会停止向JobTracker发送心跳信息。

　　•JobTracker会将TraskTracker从等待的任务池中移除，并将该任务转移到其他的地方执行

　　•JobTracker将TaskTracker加入到黑名单中

lTask失败

　　•任务失败，会向TraskTracker抛出异常

　　•任务挂起

JobTracker

l负责接收用户提交的作业，负责启动、跟踪任务执行。

lJobSubmissionProtocol是JobClient与JobTracker通信的接口。

lInterTrackerProtocol是TaskTracker与JobTracker通信的接口。

TaskTracker

l负责执行任务。

JobClient

l是用户作业与JobTracker交互的主要接口。

l负责提交作业的，负责启动、跟踪任务执行、访问任务状态和日志等。

序列化概念

l序列化（Serialization）是指把结构化对象转化为字节流。

l反序列化（Deserialization）是序列化的逆过程。即把字节流转回结构化对象。

lJava序列化（java.io.Serializable）

Hadoop序列化的特点

l序列化格式特点：

1.紧凑：高效使用存储空间。

2.快速：读写数据的额外开销小

3.可扩展：可透明地读取老格式的数据

4.互操作：支持多语言的交互

Hadoop的序列化格式：Writable

Java序列化的不足：

1.不精简。附加信息多。不大适合随机访问。

2.存储空间大。递归地输出类的超类描述直到不再有超类。序列化图对象，反序列化时为每个对象新建一个实例。相反。Writable对象可以重用。

3.扩展性差。而Writable方便用户自定义

Hadoop序列化的作用

l序列化在分布式环境的两大作用：进程间通信，永久存储。

lHadoop节点间通信。

Writable接口

lWritable接口, 是根据 DataInput 和 DataOutput 实现的简单、有效的序列化对象.

lMR的任意Key和Value必须实现Writable接口.

•MR的任意key必须实现WritableComparable接口

常用的Writable实现类

Text一般认为它等价于java.lang.String的Writable。针对UTF-8序列。

例:

Text test = new Text("test");

IntWritable one = new IntWritable(1);

自定义Writable类

Writable

①write 是把每个对象序列化到输出流

②readFields是把输入流字节反序列化

①实现WritableComparable.

②Java值对象的比较：一般需要重写toString(),hashCode(),equals()方法

自定义WritableKpi

1.电信例子

2.把上面例子里的Mapper的value改写为自定义Writable类型。修改原MapReduce程序，并成功执行。结果跟原来一致。

MapReduce输入的处理类

lFileInputFormat:
FileInputFormat是所有以文件作为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。

InputFormat

InputFormat 负责处理MR的输入部分.

有三个作用:

v验证作业的输入是否规范.

v把输入文件切分成InputSplit.

v提供RecordReader 的实现类，把InputSplit读到Mapper中进行处理.

InputSplit

◆ 在执行mapreduce之前，原始数据被分割成若干split，每个split作为一个map任务的输入，在map执行过程中split会被分解成一个个记录（key-value对），map会依次处理每一个记录。

◆ FileInputFormat只划分比HDFS block大的文件，所以FileInputFormat划分的结果是这个文件或者是这个文件中的一部分.

◆ 如果一个文件的大小比block小，将不会被划分，这也是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。

◆ 当Hadoop处理很多小文件（文件大小小于hdfs block大小）的时候，由于FileInputFormat不会对小文件进行划分，所以每一个小文件都会被当做一个split并分配一个map任务，导致效率底下。

例如：一个1G的文件，会被划分成16个64MB的split，并分配16个map任务处理，而10000个100kb的文件会被10000个map任务处理。

TextInputFormat

◆ TextInputformat是默认的处理类，处理普通文本文件。

◆ 文件中每一行作为一个记录，他将每一行在文件中的起始偏移量作为key，每一行的内容作为value。

◆ 默认以\n或回车键作为一行记录。

◆ TextInputFormat继承了FileInputFormat。

InputFormat类的层次结构

其他输入类

◆ CombineFileInputFormat

相对于大量的小文件来说，hadoop更合适处理少量的大文件。

CombineFileInputFormat可以缓解这个问题，它是针对小文件而设计的。

◆ KeyValueTextInputFormat

当输入数据的每一行是两列，并用tab分离的形式的时候，KeyValueTextInputformat处理这种格式的文件非常适合。

◆ NLineInputformat

NLineInputformat可以控制在每个split中数据的行数。

◆ SequenceFileInputformat

当输入文件格式是sequencefile的时候，要使用SequenceFileInputformat作为输入。

自定义输入格式

1）继承FileInputFormat基类。

2）重写里面的getSplits(JobContext context)方法。

3）重写createRecordReader(InputSplit split, TaskAttemptContext context)方法。

(讲解源代码)

Hadoop的输出

◆ TextOutputformat

默认的输出格式，key和value中间值用tab隔开的。

◆ SequenceFileOutputformat

将key和value以sequencefile格式输出。

◆ SequenceFileAsOutputFormat

将key和value以原始二进制的格式输出。

◆ MapFileOutputFormat

将key和value写入MapFile中。由于MapFile中的key是有序的，所以写入的时候必须保证记录是按key值顺序写入的。

◆ MultipleOutputFormat

默认情况下一个reducer会产生一个输出，但是有些时候我们想一个reducer产生多个输出，MultipleOutputFormat和MultipleOutputs可以实现这个功能。

思考题

1.MapReduce框架的结构是什么

2.Map在整个MR框架中作用是什么

3.Reduce在整个MR框架中作用是什么

[BigData]关于Hadoop学习笔记第三天(PPT总结)(一)的更多相关文章

[BigData]关于Hadoop学习笔记第四天(PPT总结)(一)
课程安排 Partitioner编程** 自定义排序编程** Combiner编程** 常见的MapReduce算法** ---------------------------加深拓展-------- ...
Hadoop学习笔记（三）：分布式文件系统的写和读流程
写流程:怎么将文件切割成块,上传到服务器读流程:怎么从不同的服务器来读取数据块写流程图一图二写的过程中:NameNode会给块分配存储块的位置,每次想要存储文件的时候都会在NameNode创 ...
[BigData]关于Hadoop学习笔记第二天(PPT总结)(一)
Plan: 分布式文件系统与HDFS HDFS体系结构与基本概念 HDFS的shell操作 java接口及常用api HADOOP的RPC机制 HDFS源码分析远程debug 自己设计一分布式文件系 ...
[BigData]关于Hadoop学习笔记第一天(PPT总结)(一)
适合大数据的分布式存储与计算平台 l作者:Doug Cutting l受Google三篇论文的启发 lApache 官方版本(1.0.4) lCloudera 使用下载最多的版本,稳定,有商业支持 ...
Hadoop学习笔记（三）：java操作Hadoop
1. 启动hadoop服务. 2. hadoop默认将数据存储带/tmp目录下,如下图: 由于/tmp是linux的临时目录,linux会不定时的对该目录进行清除,因此hadoop可能就会出现意外情况 ...
hadoop学习笔记（三）：hdfs体系结构和读写流程（转）
原文:https://www.cnblogs.com/codeOfLife/p/5375120.html 目录 HDFS 是做什么的 HDFS 从何而来为什么选择 HDFS 存储数据 HDFS 如何 ...
hadoop学习笔记（三）：hadoop文件结构
hadoop完整安装目录结构: 比较重要的包有以下4个: src hadoop源码包.最核心的代码所在目录为core.hdfs和mapred,他们分别实现了hadoop最重要的3个模块:基础公共库.H ...
hadoop学习笔记-目录
以下是hadoop学习笔记的顺序: hadoop学习笔记(一):概念和组成 hadoop学习笔记(二):centos7三节点安装hadoop2.7.0 hadoop学习笔记(三):hdfs体系结构和读 ...
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...

随机推荐

Hibernate之继承映射
1. Hibernate支持三种继承映射策略: –使用 subclass进行映射:将域模型中的每一个实体对象映射到一个独立的表中,也就是说不用在关系数据模型中考虑域模型中的继承关系和多态. –使用 j ...
HDU 5839 Special Tetrahedron （计算几何）
Special Tetrahedron 题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5839 Description Given n points ...
DATASNAP多表提交之事务控制之通用方法
ERP系统的单据,总是些主从表结构,有一个主表,N个子表,子表又有子表,形成N层,单据数据提交时,主从表数据都要提交,为了保证数据的完整性,必须提供事务控制,要么都提交成功,有一个提交失败所有的提交都 ...
[iOS微博项目 - 1.0] - 搭建基本框架
A.搭建基本环境 github: https://github.com/hellovoidworld/HVWWeibo 项目结构: 1.使用代码构建UI,不使用storyboard ...
POJ 1573 (13.10.11)
Description A robot has been programmed to follow the instructions in its path. Instructions for the ...
【Todo】ipcs命令学习
可以先看这一篇 http://www.jb51.net/article/40805.htm
再次理解JavaScript原型链和匿名函数
<!--------------------------------------------- 1.演示匿名加载 2.js单进程执行流 3.原型链理解 a.__proto__:属性每个对象都有 ...
Ehcache（02）——ehcache.xml简介
http://haohaoxuexi.iteye.com/blog/2113728 ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的,更准确的来说它是定义Ca ...
ubuntu为IDE(Eclipse WebStorm)添加桌面快捷方式
在ubuntu15.10环境配置webstorm和eclipse的时候会下载官网上编译好的包, bin目录下面会有一个.sh文件(linux版本), 那么一般情况下,执行 ./sh就会启动IDE, 但 ...
我的VisualStudio工具箱
代码神器 ReSharper 毫无疑问,我认为R#是目前VS插件中有史以来最强大的,各种快捷生成代码的方式, 代码重构, 很多很多的快捷键支持.相比较原生VS的,VS的智能功能简直弱爆了. dimec ...

[BigData]关于Hadoop学习笔记第三天(PPT总结)(一)

[BigData]关于Hadoop学习笔记第三天(PPT总结)(一)的更多相关文章

随机推荐

热门专题