Hadoop JobHistory

hadoop jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下，默认情况下是没有启动的，需要配置完后手工启动服务。

mapred-site.xml添加如下配置

<property>

  <name>mapreduce.jobhistory.address</name>

  <value>hadoop000:10020</value>

  <description>MapReduce JobHistory Server IPC host:port</description>

</property>

<property>

  <name>mapreduce.jobhistory.webapp.address</name>

  <value>hadoop000:19888</value>

  <description>MapReduce JobHistory Server Web UI host:port</description>

</property>

<property>

    <name>mapreduce.jobhistory.done-dir</name>

    <value>/history/done</value>

</property>

<property>

    <name>mapreduce.jobhistory.intermediate-done-dir</name>

    <value>/history/done_intermediate</value></property>

启动history-server：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

停止history-server：

$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh stop historyserver

history-server启动之后，可以通过浏览器访问WEBUI: hadoop000:19888

在hdfs上会生成两个目录

hadoop fs -ls /history

drwxrwx---   - spark supergroup           -- : /history/done

drwxrwxrwt   - spark supergroup           -- : /history/done_intermediate

mapreduce.jobhistory.done-dir(/history/done): Directory where history files are managed by the MR JobHistory Server(已完成作业信息)
mapreduce.jobhistory.intermediate-done-dir(/history/done_intermediate): Directory where history files are written by MapReduce jobs.(正在运行作业信息)

测试：

通过hive查询city表观察hdfs文件目录和hadoop000:19888

hive> select id, name from city;

观察hdfs文件目录：

1）历史作业记录是按照年/月/日的形式分别存放在相应的目录（/history/done/2014/10/11/000000）；

2）每个作业有2个不同的后缀名的记录：jhist和xml

hadoop fs -ls /history/done////000000

-rwxrwx---    spark supergroup       -- : /history/done/////job_1413011730351_0002--spark-select+id%2C+name+from+city%28Stage%2D1%----SUCCEEDED-root.spark-.jhist

-rwxrwx---    spark supergroup      -- : /history/done/////job_1413011730351_0002_conf.xml

观察WEBUI: hadoop000:19888

在WEBUI中展现了每个job使用的Map/Reduce的数量、作业提交时间、作业启动时间、作业完成时间、Job ID、提交人User、队列等信息；

点击【job_1413011730351_0002】弹出页面显示类似信息：Aggregation is not enabled. Try the nodemanager at ......

解决方法： yarn-site.xml添加如下配置

<property>

    <name>yarn.log-aggregation-enable</name>

    <value>true</value>

</property>

重启yarn即可。

参考CDH文档：http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.3.0-cdh5.0.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

Hadoop JobHistory的更多相关文章

Hadoop jobhistory历史服务器
Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map.用了多少个Reduce.作业提交时间.作业启动时间.作业完成时间等信息.默认情况下 ...
Hadoop Jobhistory配置启用
Hadoop Jobhistory记录下已运行完的MapReduce作业信息并存放在指定的HDFS目录下, 默认情况下是没有启动的,需要配置完后手工启动服务. 1.修改hadoop的配置文件mapre ...
hadoop jobhistory解析工具汇总
1. White Elephant是LinkedIn开源的一套Hadoop 作业日志收集器和展示器,使用mapreduce作业解析jobhistory日志,得到每个用户使用的资源情况,并通过网页展示. ...
hadoop jobhistory访问界面长时间打不开
1.浏览器无法直接通过url访问可能原因 :主机名未配置,因此无法识别,在 c:\windows\system32\drivers\etc 目录添加主机名和对应ip hostname1[主机名 ] ...
【转载】Hadoop历史服务器详解
免责声明: 本文转自网络文章,转载此文章仅为个人收藏,分享知识,如有侵权,请联系博主进行删除. 原文作者:过往记忆(http://www.iteblog.com/) 原文地址: ...
Hadoop集群的JobHistoryServer详解(转载）
Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map.用了多少个Reduce.作业提交时间.作业启动时间.作业完成时间等信息.默认情况下 ...
使用sqoop从mysql导入数据到hive
目录前言一.使用的导入命令二.遇到的问题及解决 1. 用文本字段进行分区的问题 2. Hadoop历史服务器Hadoop JobHistory没开启的问题 3. 连接元数据存储数据库报错 4 ...
Kylin安装Version1.6.0
Kylin安装,基于版本1.6.0,Kylin只有单机没有集群, 使用apache-kylin-1.6.0-hbase1.x-bin.tar.gz安装包. 1.安装规划角色规划 IP/机器名安装软 ...
hadoop中的Jobhistory历史服务器
1. 启动脚本 mr-jobhistory-daemon.sh start historyserver 2. 配置说明 jobhistory用于查询每个job运行完以后的历史日志信息,是作为一台单独 ...

随机推荐

剑指offer系列56---连续子数组的最大和
[题目]输入一个整型数组,数组里有正数也有负数.数组中一个或连续多个整数组成一个子数组. * 求所有子数组和的最大值. * [思路]连续求和数组元素.一旦得到的和小于0,就抛弃前面的数组,从当前值重写 ...
bzoj3545: [ONTAK2010]Peaks
Description 在Bytemountains有N座山峰,每座山峰有他的高度h_i.有些山峰之间有双向道路相连,共M条路径,每条路径有一个困难值,这个值越大表示越难走,现在有Q组询问,每组询问询 ...
svn 同步脚本
REPOS="$1"REV="$2"export LANG=en_US.UTF-8/usr/bin/svn update /home/wwwroot/yswif ...
eclipse导入html、js、xml报错的问题
今天重新安装eclipse,在导入部分html.js.xml文件,报错,解决办法如下: eclipse->window->preferences->Team,点击validation ...
.NET中值得体验的精妙设计
转自: http://developer.51cto.com/art/201104/255455_all.htm .NET 是 Microsoft XML Web services 平台.MEF是.N ...
onclick事件对动态参数类型为字符串的处理
onclick="solveRow("'+row.isbesolve+'")"
CE_现金模组基本概念（概念）
2014-07-12 Created By BaoXinjian
curl 同时发送多个请求
// 创建一对cURL资源 $ch1 = curl_init(); $ch2 = curl_init(); // 设置URL和相应的选项 curl_setopt($ch1, CURLOPT_URL, ...
[实变函数]2.2 聚点 (cluster point), 内点 (interior point), 界点 (boundary point)
设 $E\subset \bbR^n, P_0\in \bbR^n$. 1 若 $\exists\ U(P_0)\subset E$, 则称 $P_0$ 为 $E$ 的内点 (interior poi ...
UCOS-互斥信号量（学习笔记）
互斥信号量主要是为了解决信号量出现的优先级反转的情况:任务的运行取决于优先级和获得信号量2个条件,并且获得信号量又优先于设定的优先级.剥夺性内核对信号量进行独占访问,就有可能出现先获得信号量的低优先级 ...

Hadoop JobHistory

Hadoop JobHistory的更多相关文章

随机推荐

热门专题