EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
简介: E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。
大数据运维的挑战—如何保证集群稳定与运行效率
企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。

集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。
对于大数据集群,管理员以及 CIO 等更关注以下的内容:
- 集群内的节点的运行状态和资源使用状况;
- 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
- 计算任务运行情况和执行效率;
- 整体集群的健康程度和如何改进。
面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)
为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。
如何使用 EMR Doctor
- 进入 EMR 控制台健康检查页面。
- 登录 EMR on ECS 控制台。
- 在顶部菜单栏处,根据实际情况选择地域和资源组。
- 在集群管理页面,单击目标集群的集群ID。
- 单击上方的健康检查页签。
- 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。

- 健康检查报告中包含集群计算资源的总体分析

- 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

- 健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析

- 健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告
|
计算资源分析 |
概述 |
状态概述 |
|
需要关注的问题 |
||
|
计算基础信息 |
集群计算评分 |
|
|
集群算力内存时 |
||
|
集群算力CPU时 |
||
|
计算引擎内存算力时 |
||
|
计算任务信息 |
计算任务算力内存时分析 |
|
|
计算任务评分排行榜 |
||
|
Spark |
Spark任务算力分析及调优建议 |
|
|
Tez |
Tez任务算力分析及调优建议 |
|
|
MapReduce |
MapReduce任务算力分析及调优建议 |
|
|
HDFS存储资源分析 (需开启存储资源信息采集开关) |
概述 |
状态概述 |
|
需要关注的问题 |
||
|
HDFS基础信息 |
HDFS存储资源使用趋势 |
|
|
文件总数随时间变化趋势 |
||
|
评分趋势 |
||
|
HDFS文件大小分布 |
HDFS文件大小比例 |
|
|
一级目录空文件个数Top10 |
||
|
一级目录极小文件个数Top10 |
||
|
一级目录小文件个数Top10 |
||
|
一级目录中等文件个数Top10 |
||
|
一级目录大文件个数Top10 |
||
|
HDFS冷热数据分布 |
HDFS冷热数据 |
|
|
一级目录极冷数据大小Top10 |
||
|
一级目录冷数据大小Top10 |
||
|
一级目录温数据大小Top10 |
||
|
一级目录热数据大小Top10 |
||
|
HIVE存储资源分析 (需开启存储资源信息采集开关) |
概述 |
状态概述 |
|
需要关注的问题 |
||
|
Hive基础信息 |
存储趋势 |
|
|
文件数量趋势 |
||
|
评分趋势 |
||
|
Hive库信息 |
库存储排名 |
|
|
库文件总数排名 |
||
|
库评分 |
||
|
Hive表文件大小分布 |
Hive表文件大小分布比例 |
|
|
Hive表空文件个数Top10 |
||
|
Hive表极小文件个数Top10 |
||
|
Hive表小文件个数Top10 |
||
|
Hive中等文件个数Top10 |
||
|
Hive大文件个数Top10 |
||
|
Hive冷热数据分布 |
Hive冷热数据分布 |
|
|
Hive表极冷数据大小Top10 |
||
|
Hive表冷数据大小Top10 |
||
|
Hive表温数据大小Top10 |
||
|
Hive表热数据大小Top10 |
||
|
Hive表存储格式分布 |
Hive表存储格式分布 |
|
|
Hive表TextFile/Parquet/ORC格式文件分析 |
如何开通EMR Doctor
开通及使用咨询问题请见 EMR Doctor常见问题
- EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本需要手动开通健康检查功能,请参见开通指南
- EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本默认提供健康检查功能,无需手动开通。
欢迎钉钉扫码加入EMR Doctor用户技术交流群
获取集群运维最新功能和最佳行业实践~

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器的更多相关文章
- GreenPlum 大数据平台--运维(三)
一,操作命令 01,启动gpstart 参数说明 COMMAND NAME: gpstart Starts a Greenplum Database system. ***************** ...
- GreenPlum 大数据平台--运维(二)
.如何获取查询运行时和已用时间. 例子: Select tstart, tfinish, (tfinish-tstart) as total_time, trim(query_text) from q ...
- GreenPlum 大数据平台--运维(一)
.最后分析或真空或创建表或等... Select * from pg_stat_operations where schemaname='SCHEMA NAME ' and actionname in ...
- 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...
- 医院大数据平台建设_构建医院智能BI平台的关键技术
在新技术层出不穷的当下,世界各地的组织正在以闪电般的速度变化和进化,以便在新技术可用时加以利用.其中目前最具活力的一个领域是商业智能(BI).想一想,你可能已经习惯以每周或每月IT或数据科学家交付给你 ...
- IT职业技能图谱:架构师、H5、DBA、移动、大数据、运维...
转载 作者:StuQ 文章收藏自微信:InfoQ 时隔近5个月,StuQ的小伙伴们再次出品了IT职业技能图谱更新版.这回除更新之前版本外,还添加了架构师.HTML 5.DBA等新的职业技能图谱.正 ...
- 大数据实时多维OLAP分析数据库Apache Druid入门分享-上
@ 目录 概述 定义 MPP和Lambda补充说明 概述 特征 适用场景 不适用场景 横向对比 部署 单机部署 入门示例 概述 定义 Apache Druid 官网地址 https://druid.a ...
- Hadoop大数据学习视频教程 大数据hadoop运维之hadoop快速入门视频课程
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...
- ZCGL大数据平台日常运维问题与解决方法
问题:HBase停止 解决方法:重新启动HBase,如下所示 表层问题:插入和查询HBase速度比较慢 排查一,查看HBase节点状态,发现正常运行: 排查二,查看访问HBase服务的状态,发现服务停 ...
- 大数据实时多维OLAP分析数据库Apache Druid入门分享-下
@ 目录 架构 核心架构 外部依赖 核心内容 roll-up预聚合 列式存储 Datasource和Segments 位图索引 数据摄取 查询 集群部署 部署规划 前置条件 MySQL配置 HDFS配 ...
随机推荐
- 【深度学习基础】基于Numpy的循环神经网络实现和反向传播训练
本文是<深度学习进阶:自然语言处理>.<神经网络与深度学习>和<动手学深度学习>的读书笔记.本文将介绍基于Numpy的循环神经网络的前向传播和反向传播实现,包括RN ...
- Codeforces Round 858:B. Mex Master
一.来源:Problem - B - Codeforces 二.题面 三.思路 题面:n个非负正数,随机排列并由相邻两个数相加构成n-1个数并进行升序排列,求从0开始的第一个MEX(Minimum E ...
- day32-JQuery05
jQuery05 9.作业 9.1homework01 对多选框进行操作,输出选中的多选框的个数,并且把选中爱好的名称显示. <!DOCTYPE html> <html lang=& ...
- python学习笔记(4):面向对象
面向对象 定义 class Student(被继承类): def __init__(self, xx, xxx): #构造函数 类方法的第一个参数一定是self.除此之外和普通函数并没有区别.同样可以 ...
- 关于easyExcel导出文字合并居中和服务器导出失败踩了一天的坑
参考:https://blog.csdn.net/hanyi_/article/details/118117484,https://blog.csdn.net/sunyuhua_keyboard/ar ...
- 【个人笔记】VBox7安装Debian网络下载慢问题处理
使用镜像安装Debian的过程中,会安装一些常用的软件包.但在安装软件包的阶段,默认情况下会通过网络进行下载.即使配置了国内的镜像,但是由于网络问题依然很慢.这个时候需要的在安装阶段选择从默认的DVD ...
- openlayers操作分享:如何从容的在vue中食用openlayers6
这篇文章,分享下我对openlayers的一些经验和理解,会夹杂大量搜索出来得文档,是我正式使用时可以实现的,废话不多说,我们从下载开始 一,openlayers安装且初始化地图 创建vue项目就省略 ...
- 一文讲透Java核心技术之高可扩展利器SPI
大家好,我是冰河~~ SPI的概念 JAVA SPI = 基于接口的编程+策略模式+配置文件 的动态加载机制 SPI的使用场景 Java是一种面向对象语言,虽然Java8开始支持函数式编程和Strea ...
- vue三种插槽
1. 作用:让父组件可以向子组件指定位置插入html结构,也是一种组件间通信的方式,适用于 父组件 ===> 子组件 . 2. 分类:默认插槽.具名插槽.作用域插槽 3. 使用方式: a.默认插 ...
- C# OpenCv 证件照换底色
using OpenCvSharp; using System; using System.Collections.Generic; using System.Linq; using System.T ...