Hadoop记录-Ganglia监控HDFS和HBase指标说明
HDFS相关
datanode相关
| 参数 | 解释 |
|---|---|
| dfs.datanode.blockChecksumOp_avg_time | 块校验平均时间 |
| dfs.datanode.blockChecksumOp_num_ops | 块检验次数 |
| dfs.datanode.blockReports_avg_time | 块报告平均时间 |
| dfs.datanode.blockReports_num_ops | 块报告次数 |
| dfs.datanode.block_verification_failures | 块验证失败次数 |
| dfs.datanode.blocks_read | 从硬盘读块总次数 |
| dfs.datanode.blocks_removed | 删除块数目 |
| dfs.datanode.blocks_replicated | 块复制总次数 |
| dfs.datanode.blocks_verified | 块验证总次数 |
| dfs.datanode.blocks_written | 向硬盘写块总次数 |
| dfs.datanode.bytes_read | 读出总字节包含crc验证文件字节数 |
| dfs.datanode.bytes_written | 写入总字节数(在写入每个packet时计数) |
| dfs.datanode.copyBlockOp_avg_time | 复制块平均时间 |
| dfs.datanode.copyBlockOp_num_ops | 复制块次数 |
| dfs.datanode.heartBeats_avg_time | 向namenode汇报平均时间 |
| dfs.datanode.heartBeats_num_ops | 向namenode汇报总次数 |
| dfs.datanode.readBlockOp_avg_time | 读块平均时间(单位ms) |
| dfs.datanode.readBlockOp_num_ops | 读块总次数 |
| dfs.datanode.reads_from_local_client | 从本地读入块次数 |
| dfs.datanode.reads_from_remote_client | 从远程读入块次数 |
| dfs.datanode.replaceBlockOp_avg_time | 替换块平均时间(负载均衡策略) |
| dfs.datanode.replaceBlockOp_num_ops | 替换块次数(负载均衡策略) |
| dfs.datanode.volumeFailures | notfound |
| dfs.datanode.writeBlockOp_avg_time | 写块平均时间 |
| dfs.datanode.writeBlockOp_num_ops | 写块总次数一般和dfs.datanode.blocks_written |
| dfs.datanode.writes_from_local_client | 写本地次数 |
| dfs.datanode.writes_from_remote_client | 写远程次数 |
JVM相关
| 参数 | 解释 |
|---|---|
| jvm.metrics.gcCount | gc总次数 |
| jvm.metrics.gcTimeMillis | gc总耗时(ms) |
| jvm.metrics.logErro | jvm Error次数 |
| jvm.metrics.logFatal | jvm出现fatal次数 |
| jvm.metrics.logInfo | jvm 出现Info的次数 |
| jvm.metrics.logWarn | jvm出现warn的次数 |
| jvm.metrics.maxMemoryM | jvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUE |
| jvm.metrics.memHeapCommittedM | jvm提交堆内存大小 |
| jvm.metrics.memHeapUsedM | jvm使用堆内存大小 |
| jvm.metrics.memNonHeapCommittedM | jvm非堆内存已提交大小 |
| jvm.metrics.memNonHeapUsedM | jvm非堆内存已使用大小 |
| jvm.metrics.threadsBlocked | 正在阻塞等待监视器锁的线程数目 |
| jvm.metrics.threadsNew | 尚未启动的线程数目 |
| jvm.metrics.threadsRunnable | 正在执行状态的线程数目 |
| jvm.metrics.threadsTerminated | 已退出线程数目 |
| jvm.metrics.threadsTimedWaiting | 等待另一个线程执行取决于指定等待时间的操作的线程数目 |
| jvm.metrics.threadsWaiting | 无限期地等待另一个线程来执行某一特定操作的线程数目 |
RPC相关
| 参数 | 解释 |
|---|---|
| rpc.metrics.NumOpenConnections | number of open connections rpc连接打开的数目 |
| rpc.metrics.ReceivedBytes | number of bytes received rpc收到的字节数 |
| rpc.metrics.RpcProcessingTime_avg_time | Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间 |
| rpc.metrics.RpcProcessingTime_num_ops | rpc在最近的交互中连接数目 |
| rpc.metrics.RpcQueueTime_avg_time | rpc在交互中平均等待时间 |
| rpc.metrics.RpcQueueTime_num_ops | rpc queue中完成的rpc操作数目 |
| rpc.metrics.SentBytes | number of bytes sent rpc发送的数据字节 |
| rpc.metrics.callQueueLen | length of the rpc queue rpc 队列长度 |
| rpc.metrics.rpcAuthenticationFailures | number of failed authentications rpc 验证失败次数 |
| rpc.metrics.rpcAuthenticationSuccesses | number of successful authentications 验证成功数 |
| rpc.metrics.rpcAuthorizationFailures | number of failed authorizations 授权失败次数 |
| rpc.metrics.rpcAuthorizationSuccesses | number of successful authorizations 成功次数 |
MapReduce相关
| 参数 | 解释 |
|---|---|
| mapred.shuffleInput.shuffle_failed_fetches | 从map输出中取数据过程中获取失败次数 |
| mapred.shuffleInput.shuffle_fetchers_busy_percent | 在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比 |
| mapred.shuffleInput.shuffle_input_bytes | shuffle过程中读入数据字节 |
| mapred.shuffleInput.shuffle_success_fetches | 从map输出中取数据过程中获取成功次数 |
| mapred.shuffleOutput.shuffle_failed_outputs | 向reduce发送map输出失败次数 |
| mapred.shuffleOutput.shuffle_handler_busy_percent | 向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。 |
| mapred.shuffleOutput.shuffle_output_bytes | shuffle过程中输出数据字节 |
| mapred.shuffleOutput.shuffle_success_outputs | 向reduce成功 |
| mapred.tasktracker.mapTaskSlots | 设置map槽数 |
| mapred.tasktracker.maps_running | 正在运行的map数 |
| mapred.tasktracker.reduceTaskSlots | 设置reduce槽数 |
| mapred.tasktracker.reduces_running | 正在运行的reduce数 |
| mapred.tasktracker.tasks_completed | 完成任务数 |
| mapred.tasktracker.tasks_failed_ping | 因tasktracker与task交互失败导致的失败的task数目 |
| mapred.tasktracker.tasks_failed_timeout | 因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目 |
rpc detailed 相关
| 参数 | 解释 |
|---|---|
| rpc.detailed-metrics.canCommit_avg_time | rpc询问是否提交任务平均时间 |
| rpc.detailed-metrics.canCommit_num_ops | rpc询问是否提交任务次数 |
| rpc.detailed-metrics.commitPending_avg_time | rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间 |
| rpc.detailed-metrics.commitPending_num_ops | rpc报告任务提交完成,但是该提交仍然处于pending状态的次数 |
| rpc.detailed-metrics.done_avg_time | rpc报告任务成功完成的平均时间 |
| rpc.detailed-metrics.done_num_ops | rpc报告任务成功完成的次数 |
| rpc.detailed-metrics.fatalError_avg_time | rpc报告任务出现fatalerror的平均时间 |
| rpc.detailed-metrics.fatalError_num_ops | rpc报告任务出现fatalerror的次数 |
| rpc.detailed-metrics.getBlockInfo_avg_time | 从指定datanode获取block的平均时间 |
| rpc.detailed-metrics.getBlockInfo_num_ops | 从指定datanode获取block的次数 |
| rpc.detailed-metrics.getMapCompletionEvents_avg_time | reduce获取已经完成的map输出地址事件的平均时间 |
| rpc.detailed-metrics.getMapCompletionEvents_num_ops | reduce获取已经完成的map输出地址事件的次数 |
| rpc.detailed-metrics.getProtocolVersion_avg_time | 获取rpc协议版本信息的平均时间 |
| rpc.detailed-metrics.getProtocolVersion_num_ops | 获取rpc协议版本信息的次数 |
| rpc.detailed-metrics.getTask_avg_time | 当子进程启动后,获取jvmtask的平均时间 |
| rpc.detailed-metrics.getTask_num_ops | 当子进程启动后,获取jvmtask的次数 |
| rpc.detailed-metrics.ping_avg_time | 子进程周期性的检测父进程是否还存活的平均时间 |
| rpc.detailed-metrics.ping_num_ops | 子进程周期性的检测父进程是否还存活的次数 |
| rpc.detailed-metrics.recoverBlock_avg_time | 为指定的block开始恢复标记生成的平均时间 |
| rpc.detailed-metrics.recoverBlock_num_ops | 为指定的block开始恢复标记生成的次数 |
| rpc.detailed-metrics.reportDiagnosticInfo_avg_time | 向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存 |
| rpc.detailed-metrics.reportDiagnosticInfo_num_ops | 向父进程报告任务错误消息的次数 |
| rpc.detailed-metrics.startBlockRecovery_avg_time | 开始恢复block的平均时间 |
| rpc.detailed-metrics.startBlockRecovery_num_ops | 开始恢复block的次数 |
| rpc.detailed-metrics.statusUpdate_avg_time | 汇报子进程进度给父进程的平均时间 |
| rpc.detailed-metrics.statusUpdate_num_ops | 汇报子进程进度给父进程的次数 |
| rpc.detailed-metrics.updateBlock_avg_time | 更新block到新的标记及长度的平均操作时间 |
| rpc.detailed-metrics.updateBlock_num_ops | 更新block到新的标记及长度的次数 |
HBase相关
| 参数 | 解释 |
|---|---|
| hbase.regionserver.blockCacheCount | 内存中缓存块(block cache)数。缓存中StoreFiles(HFiles)的块(block)数量。 |
| hbase.regionserver.blockCacheEvictedCount | 因超出堆大小限制,从缓存中释放的块数量。 |
| hbase.regionserver.blockCacheFree | 可用的缓存块容量。 |
| hbase.regionserver.blockCacheHitCachingRatio | 缓存块的缓存命中率(0-100)。读取的缓存命中率被配置为查看缓存(如cacheblocks=true)。 |
| hbase.regionserver.blockCacheHitCount | StoreFiles(HFiles)从缓存中读取的块数量。 |
| hbase.regionserver.blockCacheHitRatio | 缓存块的命中率(0-100).包括所有读请求,尽管cacheBlocks=false的读出会被计为cache丢失。 |
| hbase.regionserver.blockCacheMissCount | 被StoreFiles (HFiles)请求但是未从缓存中读出的块数量。 |
| hbase.regionserver.blockCacheSize | 内存中块缓存的容量,特指被blockcache占用的内存容量。 |
| hbase.regionserver.compactionQueueSize | Compaction队列大小,用于compaction的RegionServer中的Store个数。 |
| hbase.regionserver.flushQueueSize | MemStore中等待flush操作的排队region数量。 |
| hbase.regionserver.fsReadLatency_avg_time | 文件系统延迟(ms)。从HDFS读操作的平均时间。 |
| hbase.regionserver.memstoreSizeMB | 当前RegionServer中所有Memstore的总容量(MB)。 |
| hbase.regionserver.requests | 总 的读和写请求次数。请求相当于RegionServer的RPC调用,因此一个Get相当于一次请求,但是哪怕Scan的caching值设置为 1000,对SCAN每个“下一次”调用仅相当于一次请求,(例如,非每行)。对于大数据块的请求,每个 HFile对应一次请求。 |
| hbase.regionserver.storefileIndexSizeMB | RegionServer中 StoreFile文件索引大小的总和(MB)。 |
Hadoop记录-Ganglia监控HDFS和HBase指标说明的更多相关文章
- Hadoop记录- zookeeper 监控指标
目前zookeeper获取监控指标已知的有两种方式: 1.通过zookeeper自带的 four letter words command 获取各种各样的监控指标 2.通过JMX Client连接zo ...
- 使用ganglia监控hadoop及hbase集群
一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...
- 第十二章 Ganglia监控Hadoop及Hbase集群性能(安装配置)
1 Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...
- 使用ganglia监控hadoop及hbase集群 分类: B3_LINUX 2015-03-06 20:53 646人阅读 评论(0) 收藏
介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp 一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测 ...
- Hadoop记录-Hadoop监控指标汇总
系统参数监控metrics load_one 每分钟的系统平均负载 load_fifteen 每15分钟的系统平均负载 load_five 每5 ...
- Ganglia监控Hadoop集群的安装部署[转]
Ganglia监控Hadoop集群的安装部署 一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机 器:192.168.52 ...
- Ganglia 监控Hadoop
Ganglia监控Hadoop集群的安装部署 一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机 器:192.168.52 ...
- 大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解
微信公众号[程序员江湖] 作者黄小斜,斜杠青年,某985硕士,阿里 Java 研发工程师,于 2018 年秋招拿到 BAT 头条.网易.滴滴等 8 个大厂 offer,目前致力于分享这几年的学习经验. ...
- Ganglia监控Hadoop集群的安装部署
一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机器:192.168.52.31,192.168.52.32,192.16 ...
随机推荐
- 吉哥系列故事――恨7不成妻 HDU - 4507 数位dp
思路 和普通的DP不一样的是 这里求的是满足条件的数的平方的和 而数位DP只跟数每位是什么密切相关 所以要开一个结构 (多加一个 数的和sum 和平方和qsum)存一下各个状态的和的情况 dp[p ...
- BZOJ1835 [ZJOI2010] 基站选址 【动态规划】【线段树】
题目分析: 首先想一个DP方程,令f[m][n]表示当前在前n个村庄选了m个基站,且第m个基站放在n处的最小值,转移可以枚举上一个放基站的村庄,然后计算两个村庄之间的代价. 仔细思考两个基站之间村庄的 ...
- 使用python和selenium写一个百度搜索的case
今天练习的内容主要写了一个小功能,在百度上搜索某词汇,然后实现web上的back功能 代码如下: import unittest from selenium import webdriver from ...
- 【BZOJ3816】【清华集训2014】矩阵变换 稳定婚姻问题
题目描述 给出一个\(n\)行\(m\)列的矩阵\(A\), 保证满足以下性质: 1.\(m>n\). 2.矩阵中每个数都是\([0,n]\)中的自然数. 3.每行中,\([1,n]\)中每个自 ...
- 【hjmmm网络流24题补全计划】
本文食用方式 按ABC--分层叙述思路 可以看完一步有思路后自行思考 飞行员配对问题 题目链接 这可能是24题里最水的一道吧... 很显然分成两个集合 左外籍飞行员 右皇家飞行员 跑二分图最大匹配 输 ...
- open-falcon详解
先扔出一张官方的架构图, agent是用于采集机器的监控指标,然后每60秒就会push给transfer,agent与transfer是建立了长连接的,传输速度会比较快: transfer接受到数据后 ...
- 【BZOJ4771】七彩树(主席树)
[BZOJ4771]七彩树(主席树) 题面 BZOJ 题解 如果没有深度限制,每次只询问子树内的颜色个数,除了树套树\(dfs\)序加前驱或者后继强行二维数点之外,还有这样一种做法: 把所有相同颜色的 ...
- 构建MFS分布式文件系统
++++++++++++++构建MFS分布式文件系统++++++++++++++PB级别:企业存储空间达到PB级别,即100万GB空间.(1PB=1000TB,1TB=1000GB,1GB=1000M ...
- luogu3292 幸运数字 (点分治+线性基)
首先第一眼是一个倍增套线性基,但是$O(Qlog^2Vlog^N)=10^{10}$的复杂度... 即使是st表也只是变成了$O(Nlog^2Vlog^N)$啊 考虑点分治,相对于倍增显著减少了线性基 ...
- [JSOI2008]Blue Mary的战役地图(二分+哈希)
Blue Mary最近迷上了玩Starcraft(星际争霸) 的RPG游戏.她正在设法寻找更多的战役地图以进一步提高自己的水平. 由于Blue Mary的技术已经达到了一定的高度,因此,对于用同一种打 ...