一、MapReduce概述

1、定义

编程框架,组成分布式运算程序,运行在集群上

2、特点

优点:易于编程、扩展性、容错性(内部完成)、海量数据离线处理

缺点:非实时、不擅长流式计算、不擅长DAG有向图计算

3、原理

编程思想:MapTask-->ReduceTask

三类进程:MrAppMaster(过程调度)、MapTask、ReduceTask(数据处理)

驱动类setjar设置jar包路径

maven打包并执行:右键->Run as->maven install

二、Hadoop序列化

1、概念

对象转换成字节序列

不用java序列化:重量级、序列化的对象附带额外信息

2、过程

定义bean实现序列化接口(Writable)

空参构造

重写序列化和反序列化方法

3、实操:统计手机号的上传下载流量

编写bean方法

编写mapper类

编写reducer类,分别对上行流量和下行流量累加

三、MapReduce框架原理

1、InputFormat数据输入

MapTask并行度决定机制:数据块和切片大小

2、FileInputFormat切片机制

按照文件长度切片,默认为block大小

缺陷:小文件

3、CombineTextInputFormat切片机制

可以将多个小文件从逻辑上规划到一个切片中

4、TextInputFormat的KV

读取记录,K是偏移量,V是内容

5、MapReduce工作流程

6、shuffle机制

Map方法之后,Reduce方法之前的数据处理过程

7、Partition分区

不同结果输出到不同的区中

实操:按照归属地省份分区到不同的文件中

8、自定义排序WritableComparable排序

实现WritableComparable接口重写compareTo方法

9、实操:全排序(按照总体流量排序)、区内排序(手机流量)

10、Combiner合并

局部汇总,不影响全局逻辑

多个重复的,按照数量汇总去重,计数

11、MapTask工作机制

Spill阶段:即“溢写”,当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。

12、 ReduceTask工作机制

13、OutputFormat数据输出

控制文本输出路径和格式

可以使用自定义OutputFormat

14、Join多种应用

区别不同来源的记录

Reduce Join(reduce阶段完成,压力大)

Map Join(一张表大,一张表小)

15、计数器应用

数据清洗(ETL):去除小于11的日志

四、Yarn资源调度器

1、架构组成

ResourceManager、NodeManager、ApplicationMaster和Container

2、工作机制

3、作业提交全过程

4、资源调度器

Hadoop作业调度器主要有三种:FIFO、Capacity Scheduler和Fair Scheduler

选择比值最小的队列

5、分业务限制集群使用率。这就需要我们按照业务种类配置多条任务队列。

capacity-scheduler.xml中可以配置多条队列

重启yarn就可以进行查看

向hive队列提交任务

Driver中声明

configuration.set("mapred.job.queue.name", "hive");

【Hadoop学习】下:MapReduce程序编写、Hadoop序列化、框架原理、Yarn组件、设置队列的更多相关文章

  1. Hadoop学习笔记(6) ——重新认识Hadoop

    Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

  2. 一脸懵逼学习Hadoop中的MapReduce程序中自定义分组的实现

    1:首先搞好实体类对象: write 是把每个对象序列化到输出流,readFields是把输入流字节反序列化,实现WritableComparable,Java值对象的比较:一般需要重写toStrin ...

  3. Hadoop学习(3)-mapreduce快速入门加yarn的安装

    mapreduce是一个运算框架,让多台机器进行并行进行运算, 他把所有的计算都分为两个阶段,一个是map阶段,一个是reduce阶段 map阶段:读取hdfs中的文件,分给多个机器上的maptask ...

  4. hadoop学习(七)----mapReduce原理以及操作过程

    前面我们使用HDFS进行了相关的操作,也了解了HDFS的原理和机制,有了分布式文件系统我们如何去处理文件呢,这就的提到hadoop的第二个组成部分-MapReduce. MapReduce充分借鉴了分 ...

  5. Hadoop学习(4)-mapreduce的一些注意事项

    关于mapreduce的一些注意细节 如果把mapreduce程序打包放到了liux下去运行, 命令java  –cp  xxx.jar 主类名 如果报错了,说明是缺少相关的依赖jar包 用命令had ...

  6. hadoop 第一个 mapreduce 程序(对MapReduce的几种固定代码的理解)

    1.2MapReduce 和 HDFS 是如何工作的 MapReduce 其实是两部分,先是 Map 过程,然后是 Reduce 过程.从词频计算来说,假设某个文件块里的一行文字是”Thisis a ...

  7. Hadoop学习之Mapreduce执行过程详解

    一.MapReduce执行过程 MapReduce运行时,首先通过Map读取HDFS中的数据,然后经过拆分,将每个文件中的每行数据分拆成键值对,最后输出作为Reduce的输入,大体执行流程如下图所示: ...

  8. Eclipse导入Hadoop源码项目及编写Hadoop程序

    一 Eclipse导入Hadoop源码项目 基本步骤: 1)在Eclipse新建一个java项目[hadoop-1.2.1] 2)将Hadoop压缩包解压目录src下的core,hdfs,mapred ...

  9. hadoop学习day3 mapreduce笔记

    1.对于要处理的文件集合会根据设定大小将文件分块,每个文件分成多块,不是把所有文件合并再根据大小分块,每个文件的最后一块都可能比设定的大小要小 块大小128m a.txt 120m 1个块 b.txt ...

  10. Hadoop_05_运行 Hadoop 自带 MapReduce程序

    1. MapReduce使用 MapReduce是Hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现 一个强大的海量数据并发处理程序 2. 运行Hadoop自 ...

随机推荐

  1. 搭建Elasitc stack集群需要注意的日志问题

    文章转载自:https://blog.csdn.net/u013613428/article/details/84943577 {{uploading-image-736853.png(uploadi ...

  2. Elasticsearch: Join数据类型

    在Elasticsearch中,Join可以让我们创建parent/child关系.Elasticsearch不是一个RDMS.通常join数据类型尽量不要使用,除非不得已.那么Elasticsear ...

  3. K8S概念理解

    Master 负责管理集群 负责协调集群中的所有活动,例如调度应用程序,维护应用程序的状态,扩展和更新应用程序. Worker节点是VM(虚拟机)或物理计算机,充当k8s集群中的工作计算机. 每个Wo ...

  4. 【Ceph】Ceph学习理解Ceph的三种存储接口:块设备、文件系统、对象存储

    文章转载自:https://blog.51cto.com/liangchaoxi/4048519

  5. U盘插入电脑后图标是灰色的,打开提示“请将磁盘插入驱动器”

    问题描述: U盘插到win10电脑上后,U盘图标显示灰色,双击打开提示:请将磁盘插入驱动器,无法格式化,在U盘点右键/属性,显示为容量等为0. 解决办法如下: 1.首先要下载一个U盘芯片检测工具chi ...

  6. frp服务利用云主机docker服务实现Windows远程连接

    1.云主机配置 1.docker部署 # 创建文件 mkdir -p /root/docker/frp && touch /root/docker/frp/frps.ini # 配置文 ...

  7. Android类加载流程

    背景 由于前前前阵子写了个壳,得去了解类的加载流程,当时记了一些潦草的笔记.这几天把这些东西简单梳理了一下,本文分析的代码基于Android8.1.0源码. 流程分析 从loadClass开始,我们来 ...

  8. P1896 [SCOI2005] 互不侵犯 方法记录

    原题链接 [SCOI2005] 互不侵犯 题目描述 在N×N的棋盘里面放K个国王,使他们互不攻击,共有多少种摆放方案.国王能攻击到它上下左右,以及左上左下右上右下八个方向上附近的各一个格子,共8个格子 ...

  9. Java注解(4):一个真实的Elasticsearch案例

    昨天把拼了一半的注解+Elasticsearch积木放下了,因为东西太多了拼不好,还容易乱.休息了一晚上接着来. 接着昨天,创建elasticsearch文档注解(相当于数据表的注解): /** * ...

  10. Kubeadm部署k8s单点master

    Kubeadm部署k8s单点master 1.环境准备: 主机名 IP 说明 宿主机系统 master 10.0.0.17 Kubernetes集群的master节点 CentOS 7.9 node1 ...