Hadoop yarn工作流程详解

yarn是什么？
1、它是一个资源调度及提供作业运行的系统环境平台
资源：cpu、mem等
作业：map task、reduce Task

yarn产生背景？
它是从hadoop2.x版本才引入
1、hadoop1.x版本它是如何资源调度及作业运行机制原理
a、JobTracker（主节点）
（a）：接受客户端的作业提交
（b）：交给任务调度器安排任务的执行
（c）：通知空闲的TaskTracker去处理
（d）: 与TaskTracker保持心跳机制

b、TaskTracker（从节点）
（a）：执行map task和reduce task
（b）: 与JobTracker保持心跳机制

缺点：
1、单点故障问题
2、负载压力
3、只能运行mapreduce的程序

引入了yarn机制
1、减少负载压力
2、主备机制
3、支持不同的程序运行

yarn整体的架构？

yarn主要的核心组件？

resourcemanager

作用：
（1）接受客户端提交作业
（2）启动一个app master去处理
资源分配
（3）监控nodemanager

nodemanager

作用：
(1)管理单个节点上的资源
（2）接受resourcemanager发送过来的指令
（3）接受app master发送过来的指令
(4) 启动Container

app master

（1）运行作业的主控者
（2）获取切片数据
（3）从resourcemanager审请运行作业资源
（4）监控作业运行的状态

Container：

它其实就是一个虚拟主机的抽象，分配cpu和内存，主要运行作业

app master
Container
Client

yarn的工作机制（重点）
1、连接运行器平台
根据mapreduce.framework.name变量配置
如果等于yarn：则创建YARNRunner对象
如果等于Local：则创建LocalJobRunner对象

2、如果是yarn平台，对resoucemanager提交作业审请
3、resourcemanager返回一个jobid和数据保存目录（hdfs://xxx/staging/xxx）
4、客户端根据返回数据保存目录路径，将job.split、job.xml、jar文件提交到hdfs://xxx/staging/xxx目录
5、提交数据资源之后，客户端对resouremanager提交任务运行
6、resourcemanager将任务存储任务队列
7、resourcemanager发送命令nodemanager处理从任务取出的任务
8、nodemanager往resourcemanageer审请我要创建一个app master
a、在nodemanager创建一个container，再启动app master
9、app master读取数据切片处理方案
10、app master往resourcemanager审请运行资源
11、resourcemanager往空闲的nodemanager主机发送指令，要创建Container
12、app master往nodemanger发送运行指令，container运行任务。

如下图：

是否可以直接从本地idea直接将程序运行到yarn平台？

以wordcount为例：

代码如下：

package com.gec.demo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/*

* 作用：体现mapreduce的map阶段的实现

* KEYIN：输入参数key的数据类型

* VALUEIN：输入参数value的数据类型

* KEYOUT,输出key的数据类型

* VALUEOUT：输出value的数据类型

*

* 输入：

*      map(key,value)=偏移量,行内容

*

* 输出：

*      map(key,value)=单词,1

*

* 数据类型：

* java数据类型：

* int-------------->IntWritable

* long------------->LongWritable

* String----------->Text

* 它都实现序列化处理

*

 * */

public class WcMapTask extends Mapper<LongWritable, Text,Text, IntWritable>

{

    /*

    *根据拆分输入数据的键值对，调用此方法，有多少个键，就触发多少次map方法

    * 参数一：输入数据的键值：行的偏移量

    * 参数二：输入数据的键对应的value值：偏移量对应行内容

    * */

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line=value.toString();

        String words[]=line.split(" ");

        for (String word : words) {

            context.write(new Text(word),new IntWritable(1));

        }

    }

}

package com.gec.demo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/*

* 此类：处理reducer阶段

*   汇总单词次数

* KEYIN：输入数据key的数据类型

* VALUEIN：输入数据value的数据类型

* KEYOUT:输出数据key的数据类型

* VALUEOUT:输出数据value的数据类型

*

*

* */

public class WcReduceTask extends Reducer<Text, IntWritable,Text,IntWritable>

{

    /*

    * 第一个参数：单词数据

    * 第二个参数：集合数据类型汇总：单词的次数

    *

    * */

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int count=0;

        for (IntWritable value : values) {

            count+=value.get();

        }

        context.write(key,new IntWritable(count));

    }

}

package com.gec.demo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WcCombiner extends Reducer<Text, IntWritable,Text,IntWritable> {

    private IntWritable sum=new IntWritable();

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int count=0;

        for (IntWritable value : values) {

            count+=value.get();

        }

        sum.set(count);

        context.write(key,sum);

    }

}

package com.gec.demo;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

 * Hello world!

 *

 */

public class App

{

    public static void main( String[] args ) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf=new Configuration();

//        conf.set("fs.defaultFS","hdfs://hadoop-001:9000");

//        conf.set("mapreduce.framework.name","yarn");

//        conf.set("yarn.resourcemanager.hostname","hadoop-002");

        conf.set("mapred.jar","D:\\JAVA\\projectsIDEA\\BigdataStudy\\mrwordcountbyyarn\\target\\wordcountbyyarn-1.0-SNAPSHOT.jar");

        Job job=Job.getInstance(conf);

        //设置Driver类

        job.setJarByClass(App.class);

        //设置运行那个map task

        job.setMapperClass(WcMapTask.class);

        //设置运行那个reducer task

        job.setReducerClass(WcReduceTask.class);

        job.setCombinerClass(WcCombiner.class);

        //设置map task的输出key的数据类型

        job.setMapOutputKeyClass(Text.class);

        //设置map task的输出value的数据类型

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //指定要处理的数据所在的位置

        FileInputFormat.setInputPaths(job, "/wordcount/input/big.txt");

        //指定处理完成之后的结果所保存的位置

        FileOutputFormat.setOutputPath(job, new Path("/wordcount/output7"));

        //向yarn集群提交这个job

        boolean res = job.waitForCompletion(true);

        System.exit(res?0:1);

    }

}

其中

是因为在resource文件夹中直接添加配置文件

配置文件分别如下：

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

注意：这里的配置文件要和虚拟机中的配置文件一样，否则可能会出错，最好的做法是从虚拟机中直接copy出来

Hadoop yarn工作流程详解的更多相关文章

git概念及工作流程详解
git概念及工作流程详解既然我们已经把gitlab安装完毕[当然这是非必要条件],我们就可以使用git来管理自己的项目了,前文也多多少少提及到git的基本命令,本文就先简单对比下SVN与git的区别 ...
Hadoop MapReduce八大步骤以及Yarn工作原理详解
Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapR ...
K8s工作流程详解
在学习k8s工作流程之前,我们得再次认识一下上篇k8s架构与组件详解中提到的kube-controller-manager一个k8s中许多控制器的进程的集合. 比如Deployment 控制器(Dep ...
SSL协议(HTTPS) 握手、工作流程详解(双向HTTPS流程)
原文地址:http://www.cnblogs.com/jifeng/archive/2010/11/30/1891779.html SSL协议的工作流程: 服务器认证阶段:1)客户端向服务器发送一个 ...
Ansible工作流程详解
1:Ansible的使用者 ------>Ansible的使用者来源于多种维度,(1):CMDB(Configuration Management Database,配置管理数据库),CMDB存 ...
SSL协议握手工作流程详解(双向HTTPS流程)
参考学习文档:http://www.cnblogs.com/jifeng/archive/2010/11/30/1891779.html SSL协议的工作流程: 服务器认证阶段: 1)客户端向服务器发 ...
看完你也能独立负责项目！产品经理做APP从头到尾的所有工作流程详解！
(一)项目启动前从事产品的工作一年多,但自己一直苦于这样或者那样的困惑,很多人想要从事产品,或者老板自己创业要亲自承担产品一职,但他们对产品这个岗位的认识却不明晰,有的以为是纯粹的画原型,有的是以为 ...
Spring MVC 工作流程详解
1.首先先来一张图开始流程----------------> 1.用户发送请求到前端控制器,前端控制器会过滤用户的请求,例如我们在web.xml里面配置的内容: <!-- 配置Sprin ...
hadoop应用开发技术详解
<大数据技术丛书:Hadoop应用开发技术详解>共12章.第1-2章详细地介绍了Hadoop的生态系统.关键技术以及安装和配置:第3章是 MapReduce的使用入门,让读者了解整个开发 ...

随机推荐

phpcms pc_base::load
//数据库pc_base::load_model(‘*_model’) 加载数据库模型 (一张表对应一个数据库模型类),即 modle/*_model.class.php每一个数据库模型类都会继承底层 ...
socket 聊天室实现
server #include <stdio.h> #include <sys/types.h> /* See NOTES */ #include <sys/socket ...
[转]RabbitMQ系列(一)：Windows下RabbitMQ安装及入门
https://blog.csdn.net/hzw19920329/article/details/53156015 1.Windows下安装RabbitMQ需要以下几个步骤 (1):下载erlang ...
django配置Ueditor富文本编辑器
1.https://github.com/twz915/DjangoUeditor3下载包,进入包文件夹,找到DjangoUeditor包拷贝到项目下,和xadmin同级目录 2.找到项目的setti ...
【leetcode】58-LengthofLastWord
problem Length of Last Word 只有一个字符的情况: 最后一个word至字符串末尾之间有多个空格的情况: code1 class Solution { public: int ...
【bug-劫持】深信服劫持
深信服的 HTTP 劫持有办法解决嘛劫持js 当前页面打开下载地址,chrome是弹出保存窗口不刷新页面的,但劫持了就刷新页面了连wifi(电信)和4g(联通)都一样
hdu--1029 编程之美在数组a中（元素个数n n是奇数）找一个数字它出现的次数大于（n+1)/2
我为什么总是犯这些愚蠢错误啊,还是自己逻辑不够严谨. 努力ing...... #include <iostream> #include <cstdio> #include &l ...
TP thinkphp 权限管理权限认证功能
(如有打扰,请忽略)阿里云ECS大羊群,2U4G低至1.4折,限实名新用户,需要的点吧https://promotion.aliyun.com/ntms/act/vm/aliyun-group/tea ...
2018.4.23 git删除已经add的文件
使用 git rm 命令即可,有两种选择, 一种是 git rm --cached "文件路径",不删除物理文件,仅将该文件从缓存中删除: 一种是 git rm --f " ...
Elasticsearch基本用法(2)--Spring Data Elasticsearch
Spring Data Elasticsearch是Spring Data项目下的一个子模块. 查看 Spring Data的官网:http://projects.spring.io/spring-d ...

Hadoop yarn工作流程详解

Hadoop yarn工作流程详解的更多相关文章

随机推荐

热门专题