一、uber(u:ber)模式

  MapReduce以Uber模式运行时,所有的map,reduce任务都在一个jvm中运行,对于小的mapreduce任务,uber模式的运行将更为高效。

uber模式配置,在mapred-site.xml中进行配置,如下

mapreduce.job.ubertask.enable配置为true,默认为false。

mapreduce.job.ubertask.maxmaps默认为9。mapreduce.job.ubertask.maxreduces默认为1。

mapreduce.job.ubertask.maxbytes默认为一个块的大小即128M。

二、集群的时钟同步

  集群中各节点的时间不一致时,运行mapreduce时可能会报错,token is expired,current time is xxxx found yyyyy。

配置集群的时钟同步的过程如下:

  1.检查是否安装了ntp,rpm -qa|grep ntp,如果没安装则先安装。

2.开启ntpd服务,chkonfig ntpd on。重启服务service ntpd restart。

3.在时间服务器节点上编辑/etc/ntp.conf。

增加restrict 10.0.0.12 mask 255.0.0.0 nomodify notrap

注释掉server0.xxx,server1.xxx 和server2.xxx

去掉注释server 127.127.1.0和fudge 127.127.1.0 stratum 10

4.配置BIOS与系统时间同步,编辑/etc/sysconfig/ntpd

在OPTIONS的前一行添加SYNC_HWCLOCK=yes

5.配置集群中的其他机器

每10分钟与服务器同步一次,必须用root用户创建,用sudo命令时会出错。

#crontab -e

增加0-59/10 * * * * /usr/sbin/ntpdate xxxx(服务器的hostname)

6.检查是否成功ntpdate xxxx(服务器的hostname),查看2个服务器上时间的间隔值。

三、Web Application Proxy

  用于防止Yarn遭受Web攻击,本身是ResourceManager的一部分,可通过配置独立进程。ResourceManager Web的访问基于守信用户,当Application Master运行于一个非受信用户,其提供给ResourceManager的可能是非受信连接,Web Application Proxy可以阻止这种连接提供给RM。

配置yarn-site.xml中添加yarn.web-proxy.address,值例如hostname:8089。

启动在上面hostname所对应的主机上执行sbin/yarn-deamon.sh start proxyserver后查看是否有webappproxyserver进程。

sbin/start-yarn.sh最下面的start proxyserver是注释掉的,需要放开注释。

四、mr应用程序日志配置在yarn上

默认的container的日志是在本地文件系统上,通过historyserver查看日志时会报错。可以进行日志的聚集功能配置,上传日志到hdfs的tmp目录。

在yarn-site.xml中进行配置:

yarn.log-aggregation-enable设置为true

yarn.log-aggregation.retain-seconds设置为604800,即7天。

五、MiniCluster

用户仅使用1个命令就可以启动1个单节点的Hadoop集群,不需要设置任何环境变量或者配置文件。

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0.jar minicluster

六、hadoop2.6.0作业恢复问题

mapred-site.xml中配置mapreduce.jobtracker.restart.recover配置为true。

第一次kill -9 appmaster,Hadoop会重启这个appmaster,但是在你第二次kill时候,就会发出异常。

在kill的时候假设你map task执行到99%重启appMaster也是0%开始,但是map Task执行完毕之后,在reduce Task kill,那么重启的时候就只执行reduce 的task。

七、启用日志聚合需要注意的

启用日志聚合后,一定要等hdfs启动完全后再启动yarn,否则会报错。日志聚合会将container的日志上传至hdfs。

八、日志查看

框架的日志默认在安装目录的logs目录,应用程序日志查看container的日志。

九、集群卸载节点

hdfs卸载datanode节点:

在namenode节点的hdfs-site.xml中增加配置:dfs.host.exclude值为一个文件的路径,在这个文件中增加需要卸载的datanode节点的全路径主机名。

刷新datanode状态,在namenode节点上只执行bin/hdfs dfsadmin -refreshNodes

关掉卸载节点的datanode进程。

yarn卸载nodemanager节点:

在resourcemanager节点的yarn-site.xml中增加配置:yarn.resourcemanager.nodes.exclude-path值为一个文件的路径,在这个文件中增加需要卸载的datanode节点的全路径主机名。

刷新yarn状态,在resourcemanager节点上只执行bin/yarn rmadmin -refreshNodes

关掉卸载节点的nodemanager进程。

Hadoop学习笔记五的更多相关文章

  1. hadoop学习笔记-目录

    以下是hadoop学习笔记的顺序: hadoop学习笔记(一):概念和组成 hadoop学习笔记(二):centos7三节点安装hadoop2.7.0 hadoop学习笔记(三):hdfs体系结构和读 ...

  2. Hadoop学习笔记—22.Hadoop2.x环境搭建与配置

    自从2015年花了2个多月时间把Hadoop1.x的学习教程学习了一遍,对Hadoop这个神奇的小象有了一个初步的了解,还对每次学习的内容进行了总结,也形成了我的一个博文系列<Hadoop学习笔 ...

  3. C#可扩展编程之MEF学习笔记(五):MEF高级进阶

    好久没有写博客了,今天抽空继续写MEF系列的文章.有园友提出这种系列的文章要做个目录,看起来方便,所以就抽空做了一个,放到每篇文章的最后. 前面四篇讲了MEF的基础知识,学完了前四篇,MEF中比较常用 ...

  4. Hadoop学习笔记(7) ——高级编程

    Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成 ...

  5. Hadoop学习笔记(6) ——重新认识Hadoop

    Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功 ...

  6. Hadoop学习笔记(2)

    Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

  7. Hadoop学习笔记(5) ——编写HelloWorld(2)

    Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我 ...

  8. Hadoop学习笔记(3)——分布式环境搭建

    Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下. 在这里, ...

  9. Hadoop学习笔记(2) ——解读Hello World

    Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello ...

随机推荐

  1. UVALive 3882 - And Then There Was One【约瑟夫问题】

    题目链接:https://icpcarchive.ecs.baylor.edu/index.php?option=com_onlinejudge&Itemid=8&page=show_ ...

  2. ACM_高次同余方程

    /*poj 3243 *解决高次同余方程的应用,已知 X^Y = K mod Z, 及X,Z,K的值,求 Y 的值 */ #include<cstdio> #include<cstr ...

  3. 简单的面向对象(OO)练习

    学生设备管理系统: 每个学校都有很多班级,每个班级都有很多设备.(设备可以更新)每个设备都有购买价格,每种设备都有折旧率(如每年折旧10%) 按班级进行统计,指定的班级有多少的设数量? 按班级进行统计 ...

  4. Entity Framework Core 懒加载

    众所周知在EF 6 及以前的版本中,是支持懒加载(Lazy Loading)的,可惜在EF Core 并不支持,必须使用Include方法来支持导航属性的数据加载.不过现在EF Core的开发团队打算 ...

  5. echarts图表里label文字过长换行的方法

    在做一些图标时,有时会出现显示文字过长的问题,需要将其按照指定的字数换行,像下图这样 而echarts没有提供换行的方法,但是可以使用fomatter方法进行设置,代码如下 formatter: fu ...

  6. 算法-java代码实现归并排序

    归并排序 对于一个int数组,请编写一个归并排序算法,对数组元素排序. 给定一个int数组A及数组的大小n,请返回排序后的数组. 测试样例: [1,2,3,5,2,3],6 [1,2,2,3,3,5] ...

  7. Core Graphics 和Quartz 2D的区别

    quartz是一个通用的术语,用于描述在IOS和MAC OS X中整个媒体层用到的多种技术 包括图形.动画.音频.适配.  Quart 2D 是一组二位绘图和渲染API,Core Graphic会使用 ...

  8. java 三大框架

    SSH即:Spring.Struts.HibernateSpring:功能强大的组件粘合济,能够将你的所有的java功能模块用配置文件的方式组合起来(还让你感觉不到spring的存在)成为一个完成的应 ...

  9. 【开发技术】java中代码检查checkStyle结果分析

    编写Javadoc代码在Java代码的类.函数.数据成员前中输入/**回车,Eclipse能够自动生成相应的Javadoc代码.可以在后面添加相关的文字说明. Type is missing a ja ...

  10. CCF系列之日期计算(201509-2)

    试题编号: 201509-2 时间限制: 1.0s 内存限制: 256.0MB 问题描述 给定一个年份y和一个整数d,问这一年的第d天是几月几日? 注意闰年的2月有29天.满足下面条件之一的是闰年: ...