Hadoop yarn工作流程详解

yarn是什么？
1、它是一个资源调度及提供作业运行的系统环境平台
资源：cpu、mem等
作业：map task、reduce Task

yarn产生背景？
它是从hadoop2.x版本才引入
1、hadoop1.x版本它是如何资源调度及作业运行机制原理
a、JobTracker（主节点）
（a）：接受客户端的作业提交
（b）：交给任务调度器安排任务的执行
（c）：通知空闲的TaskTracker去处理
（d）: 与TaskTracker保持心跳机制

b、TaskTracker（从节点）
（a）：执行map task和reduce task
（b）: 与JobTracker保持心跳机制

缺点：
1、单点故障问题
2、负载压力
3、只能运行mapreduce的程序

引入了yarn机制
1、减少负载压力
2、主备机制
3、支持不同的程序运行

yarn整体的架构？

yarn主要的核心组件？

resourcemanager

作用：
（1）接受客户端提交作业
（2）启动一个app master去处理
资源分配
（3）监控nodemanager

nodemanager

作用：
(1)管理单个节点上的资源
（2）接受resourcemanager发送过来的指令
（3）接受app master发送过来的指令
(4) 启动Container

app master

（1）运行作业的主控者
（2）获取切片数据
（3）从resourcemanager审请运行作业资源
（4）监控作业运行的状态

Container：

它其实就是一个虚拟主机的抽象，分配cpu和内存，主要运行作业

app master
Container
Client

yarn的工作机制（重点）
1、连接运行器平台
根据mapreduce.framework.name变量配置
如果等于yarn：则创建YARNRunner对象
如果等于Local：则创建LocalJobRunner对象

2、如果是yarn平台，对resoucemanager提交作业审请
3、resourcemanager返回一个jobid和数据保存目录（hdfs://xxx/staging/xxx）
4、客户端根据返回数据保存目录路径，将job.split、job.xml、jar文件提交到hdfs://xxx/staging/xxx目录
5、提交数据资源之后，客户端对resouremanager提交任务运行
6、resourcemanager将任务存储任务队列
7、resourcemanager发送命令nodemanager处理从任务取出的任务
8、nodemanager往resourcemanageer审请我要创建一个app master
a、在nodemanager创建一个container，再启动app master
9、app master读取数据切片处理方案
10、app master往resourcemanager审请运行资源
11、resourcemanager往空闲的nodemanager主机发送指令，要创建Container
12、app master往nodemanger发送运行指令，container运行任务。

如下图：

是否可以直接从本地idea直接将程序运行到yarn平台？

以wordcount为例：

代码如下：

package com.gec.demo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/*

* 作用：体现mapreduce的map阶段的实现

* KEYIN：输入参数key的数据类型

* VALUEIN：输入参数value的数据类型

* KEYOUT,输出key的数据类型

* VALUEOUT：输出value的数据类型

*

* 输入：

*      map(key,value)=偏移量,行内容

*

* 输出：

*      map(key,value)=单词,1

*

* 数据类型：

* java数据类型：

* int-------------->IntWritable

* long------------->LongWritable

* String----------->Text

* 它都实现序列化处理

*

 * */

public class WcMapTask extends Mapper<LongWritable, Text,Text, IntWritable>

{

    /*

    *根据拆分输入数据的键值对，调用此方法，有多少个键，就触发多少次map方法

    * 参数一：输入数据的键值：行的偏移量

    * 参数二：输入数据的键对应的value值：偏移量对应行内容

    * */

    @Override

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        String line=value.toString();

        String words[]=line.split(" ");

        for (String word : words) {

            context.write(new Text(word),new IntWritable(1));

        }

    }

}

package com.gec.demo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/*

* 此类：处理reducer阶段

*   汇总单词次数

* KEYIN：输入数据key的数据类型

* VALUEIN：输入数据value的数据类型

* KEYOUT:输出数据key的数据类型

* VALUEOUT:输出数据value的数据类型

*

*

* */

public class WcReduceTask extends Reducer<Text, IntWritable,Text,IntWritable>

{

    /*

    * 第一个参数：单词数据

    * 第二个参数：集合数据类型汇总：单词的次数

    *

    * */

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int count=0;

        for (IntWritable value : values) {

            count+=value.get();

        }

        context.write(key,new IntWritable(count));

    }

}

package com.gec.demo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WcCombiner extends Reducer<Text, IntWritable,Text,IntWritable> {

    private IntWritable sum=new IntWritable();

    @Override

    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int count=0;

        for (IntWritable value : values) {

            count+=value.get();

        }

        sum.set(count);

        context.write(key,sum);

    }

}

package com.gec.demo;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**

 * Hello world!

 *

 */

public class App

{

    public static void main( String[] args ) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf=new Configuration();

//        conf.set("fs.defaultFS","hdfs://hadoop-001:9000");

//        conf.set("mapreduce.framework.name","yarn");

//        conf.set("yarn.resourcemanager.hostname","hadoop-002");

        conf.set("mapred.jar","D:\\JAVA\\projectsIDEA\\BigdataStudy\\mrwordcountbyyarn\\target\\wordcountbyyarn-1.0-SNAPSHOT.jar");

        Job job=Job.getInstance(conf);

        //设置Driver类

        job.setJarByClass(App.class);

        //设置运行那个map task

        job.setMapperClass(WcMapTask.class);

        //设置运行那个reducer task

        job.setReducerClass(WcReduceTask.class);

        job.setCombinerClass(WcCombiner.class);

        //设置map task的输出key的数据类型

        job.setMapOutputKeyClass(Text.class);

        //设置map task的输出value的数据类型

        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(IntWritable.class);

        //指定要处理的数据所在的位置

        FileInputFormat.setInputPaths(job, "/wordcount/input/big.txt");

        //指定处理完成之后的结果所保存的位置

        FileOutputFormat.setOutputPath(job, new Path("/wordcount/output7"));

        //向yarn集群提交这个job

        boolean res = job.waitForCompletion(true);

        System.exit(res?0:1);

    }

}

其中

是因为在resource文件夹中直接添加配置文件

配置文件分别如下：

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

注意：这里的配置文件要和虚拟机中的配置文件一样，否则可能会出错，最好的做法是从虚拟机中直接copy出来

Hadoop yarn工作流程详解的更多相关文章

git概念及工作流程详解
git概念及工作流程详解既然我们已经把gitlab安装完毕[当然这是非必要条件],我们就可以使用git来管理自己的项目了,前文也多多少少提及到git的基本命令,本文就先简单对比下SVN与git的区别 ...
Hadoop MapReduce八大步骤以及Yarn工作原理详解
Hadoop是市面上使用最多的大数据分布式文件存储系统和分布式处理系统, 其中分为两大块分别是hdfs和MapReduce, hdfs是分布式文件存储系统, 借鉴了Google的GFS论文. MapR ...
K8s工作流程详解
在学习k8s工作流程之前,我们得再次认识一下上篇k8s架构与组件详解中提到的kube-controller-manager一个k8s中许多控制器的进程的集合. 比如Deployment 控制器(Dep ...
SSL协议(HTTPS) 握手、工作流程详解(双向HTTPS流程)
原文地址:http://www.cnblogs.com/jifeng/archive/2010/11/30/1891779.html SSL协议的工作流程: 服务器认证阶段:1)客户端向服务器发送一个 ...
Ansible工作流程详解
1:Ansible的使用者 ------>Ansible的使用者来源于多种维度,(1):CMDB(Configuration Management Database,配置管理数据库),CMDB存 ...
SSL协议握手工作流程详解(双向HTTPS流程)
参考学习文档:http://www.cnblogs.com/jifeng/archive/2010/11/30/1891779.html SSL协议的工作流程: 服务器认证阶段: 1)客户端向服务器发 ...
看完你也能独立负责项目！产品经理做APP从头到尾的所有工作流程详解！
(一)项目启动前从事产品的工作一年多,但自己一直苦于这样或者那样的困惑,很多人想要从事产品,或者老板自己创业要亲自承担产品一职,但他们对产品这个岗位的认识却不明晰,有的以为是纯粹的画原型,有的是以为 ...
Spring MVC 工作流程详解
1.首先先来一张图开始流程----------------> 1.用户发送请求到前端控制器,前端控制器会过滤用户的请求,例如我们在web.xml里面配置的内容: <!-- 配置Sprin ...
hadoop应用开发技术详解
<大数据技术丛书:Hadoop应用开发技术详解>共12章.第1-2章详细地介绍了Hadoop的生态系统.关键技术以及安装和配置:第3章是 MapReduce的使用入门,让读者了解整个开发 ...

随机推荐

2D转换下的zoom和transform:scale的区别
一.什么是zoom 在我们做项目和查看别人的网页的时候总会在一些元素的样式里,看到有一个家伙孤零零的待在那里,它到底是谁呢? 它的名字叫zoom,zoom的意思是“变焦”,虽然在摄影的领域经常被提到, ...
Access denied for user 'root'@'IP' (using password:YES)解决方法
在MySql的使用过程中,碰到“Access denied for user 'root'@'IP' (using password:YES)”的问题,使用以下语句修改后还是不行. GRANT ALL ...
一种简单的ELF加固方法
介绍一种ELF文件函数粒度的加固方法,可以有效防止对程序的静态分析.这是一种有源码加固方式,需要被加固程序中代码配合.加固流程如下: 1)读取ELF文件头,获取e_phoff和e_phnum2)通过E ...
Linux用管道命令对文件的移动
我的问题是这样的:我有一个文件夹,里面有大约有1000个文件,然后我想把这样的一部分文件给随机分成两部分,一部分含有100张,另外一部分含有剩下的所有的文件,这个时候如果是在Linux图形界面的话直接 ...
LAMP搭建个人网站
最近发了一篇paper,需要把成果展示出来,想到正好想到自己有一个阿里云服务器,并且在万网上看到www.yongjieshi.com这个域名一年才50块钱,于是决定搭建一个自己的网站如果linux玩 ...
NOI-1.1-08-字符三角形
08:字符三角形总时间限制: 1000ms 内存限制: 65536kB 描述给定一个字符,用它构造一个底边长5个字符,高3个字符的等腰字符三角形. 输入输入只有一行, 包含一个字符. 输出 ...
dp——poj1088（Description）
dp可以按照思想大致分为两种,一种是递推的形式,一种是递归的形式(记忆化搜素). 比如求这个题因为无法知道从哪个点开始,所以只能用递归的形式,因为有一个回溯的过程. 但是很多题目既可以用递推也可以用递 ...
Justiﬁed Jungle
Problem J: Justiﬁed Jungle Time limit: 6 s Memory l imit: 512 MiB As you probably know, a tree is a ...
2017年秋软工-PSP总结报告
一.回顾1 回顾本学期第一次作业[https://edu.cnblogs.com/campus/nenu/SWE2017FALL/homework/876]. ==>本学期我的第一次作业博客[h ...
2017.7.12 Python的6种内建序列及操作
数据结构是通过某种方式(例如对元素进行编号)组织在一起的数据元素的集合,这些数据元素可以是数字或者字符,甚至可以是其他数据结构. 在Python中,最基本的数据结构是序列(sequence).序列中的 ...

Hadoop yarn工作流程详解

Hadoop yarn工作流程详解的更多相关文章

随机推荐

热门专题