EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器
简介: E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。
大数据运维的挑战—如何保证集群稳定与运行效率
企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。

集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。
对于大数据集群,管理员以及 CIO 等更关注以下的内容:
- 集群内的节点的运行状态和资源使用状况;
- 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
- 计算任务运行情况和执行效率;
- 整体集群的健康程度和如何改进。
面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)
为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。
如何使用 EMR Doctor
- 进入 EMR 控制台健康检查页面。
- 登录 EMR on ECS 控制台。
- 在顶部菜单栏处,根据实际情况选择地域和资源组。
- 在集群管理页面,单击目标集群的集群ID。
- 单击上方的健康检查页签。
- 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。

- 健康检查报告中包含集群计算资源的总体分析

- 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

- 健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析

- 健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告
|
计算资源分析 |
概述 |
状态概述 |
|
需要关注的问题 |
||
|
计算基础信息 |
集群计算评分 |
|
|
集群算力内存时 |
||
|
集群算力CPU时 |
||
|
计算引擎内存算力时 |
||
|
计算任务信息 |
计算任务算力内存时分析 |
|
|
计算任务评分排行榜 |
||
|
Spark |
Spark任务算力分析及调优建议 |
|
|
Tez |
Tez任务算力分析及调优建议 |
|
|
MapReduce |
MapReduce任务算力分析及调优建议 |
|
|
HDFS存储资源分析 (需开启存储资源信息采集开关) |
概述 |
状态概述 |
|
需要关注的问题 |
||
|
HDFS基础信息 |
HDFS存储资源使用趋势 |
|
|
文件总数随时间变化趋势 |
||
|
评分趋势 |
||
|
HDFS文件大小分布 |
HDFS文件大小比例 |
|
|
一级目录空文件个数Top10 |
||
|
一级目录极小文件个数Top10 |
||
|
一级目录小文件个数Top10 |
||
|
一级目录中等文件个数Top10 |
||
|
一级目录大文件个数Top10 |
||
|
HDFS冷热数据分布 |
HDFS冷热数据 |
|
|
一级目录极冷数据大小Top10 |
||
|
一级目录冷数据大小Top10 |
||
|
一级目录温数据大小Top10 |
||
|
一级目录热数据大小Top10 |
||
|
HIVE存储资源分析 (需开启存储资源信息采集开关) |
概述 |
状态概述 |
|
需要关注的问题 |
||
|
Hive基础信息 |
存储趋势 |
|
|
文件数量趋势 |
||
|
评分趋势 |
||
|
Hive库信息 |
库存储排名 |
|
|
库文件总数排名 |
||
|
库评分 |
||
|
Hive表文件大小分布 |
Hive表文件大小分布比例 |
|
|
Hive表空文件个数Top10 |
||
|
Hive表极小文件个数Top10 |
||
|
Hive表小文件个数Top10 |
||
|
Hive中等文件个数Top10 |
||
|
Hive大文件个数Top10 |
||
|
Hive冷热数据分布 |
Hive冷热数据分布 |
|
|
Hive表极冷数据大小Top10 |
||
|
Hive表冷数据大小Top10 |
||
|
Hive表温数据大小Top10 |
||
|
Hive表热数据大小Top10 |
||
|
Hive表存储格式分布 |
Hive表存储格式分布 |
|
|
Hive表TextFile/Parquet/ORC格式文件分析 |
如何开通EMR Doctor
开通及使用咨询问题请见 EMR Doctor常见问题
- EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本需要手动开通健康检查功能,请参见开通指南
- EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本默认提供健康检查功能,无需手动开通。
欢迎钉钉扫码加入EMR Doctor用户技术交流群
获取集群运维最新功能和最佳行业实践~

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器的更多相关文章
- GreenPlum 大数据平台--运维(三)
一,操作命令 01,启动gpstart 参数说明 COMMAND NAME: gpstart Starts a Greenplum Database system. ***************** ...
- GreenPlum 大数据平台--运维(二)
.如何获取查询运行时和已用时间. 例子: Select tstart, tfinish, (tfinish-tstart) as total_time, trim(query_text) from q ...
- GreenPlum 大数据平台--运维(一)
.最后分析或真空或创建表或等... Select * from pg_stat_operations where schemaname='SCHEMA NAME ' and actionname in ...
- 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...
- 医院大数据平台建设_构建医院智能BI平台的关键技术
在新技术层出不穷的当下,世界各地的组织正在以闪电般的速度变化和进化,以便在新技术可用时加以利用.其中目前最具活力的一个领域是商业智能(BI).想一想,你可能已经习惯以每周或每月IT或数据科学家交付给你 ...
- IT职业技能图谱:架构师、H5、DBA、移动、大数据、运维...
转载 作者:StuQ 文章收藏自微信:InfoQ 时隔近5个月,StuQ的小伙伴们再次出品了IT职业技能图谱更新版.这回除更新之前版本外,还添加了架构师.HTML 5.DBA等新的职业技能图谱.正 ...
- 大数据实时多维OLAP分析数据库Apache Druid入门分享-上
@ 目录 概述 定义 MPP和Lambda补充说明 概述 特征 适用场景 不适用场景 横向对比 部署 单机部署 入门示例 概述 定义 Apache Druid 官网地址 https://druid.a ...
- Hadoop大数据学习视频教程 大数据hadoop运维之hadoop快速入门视频课程
Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...
- ZCGL大数据平台日常运维问题与解决方法
问题:HBase停止 解决方法:重新启动HBase,如下所示 表层问题:插入和查询HBase速度比较慢 排查一,查看HBase节点状态,发现正常运行: 排查二,查看访问HBase服务的状态,发现服务停 ...
- 大数据实时多维OLAP分析数据库Apache Druid入门分享-下
@ 目录 架构 核心架构 外部依赖 核心内容 roll-up预聚合 列式存储 Datasource和Segments 位图索引 数据摄取 查询 集群部署 部署规划 前置条件 MySQL配置 HDFS配 ...
随机推荐
- stm32芯片的SPI接口调试总结之轮询模式
一 概念 1 组成 SPI系统可直接与各个厂家生产的多种标准外围器件接口,它只需4条线:串行时钟线(SCK).主机输入/从机输出数据线(MISO).主机输出/从机输入数据线(MOSI)和低电平有效的从 ...
- Hamming(汉明)窗的原理介绍及实例解析
概念 在数字信号处理过程中,每次FFT变换只能对有限长度的时域数据进行变换,因此,需要对时域信号进行信号截断.即使是周期信号,如果截断的时间长度不是周期的整数倍(周期截断),那么,截取后的信号将会 ...
- In-batch negatives Embedding模型介绍与实践
语义索引(可通俗理解为向量索引)技术是搜索引擎.推荐系统.广告系统在召回阶段的核心技术之一.语义索引模型的目标是:给定输入文本,模型可以从海量候选召回库中快速.准确地召回一批语义相关文本.语义索引模型 ...
- JavaFx 模拟键盘和鼠标事件
模拟键盘事件 可实现按键的模拟,包含快捷键 模拟按下ctrl+v示例代码: val robot = Robot() robot.keyPress(KeyEvent.VK_CONTROL) robot. ...
- 如何在forEach内使用异步调用 async/await
翻自: How to use async and await in a forEach JS loop? https://learn.coderslang.com/0144-how-to-use-as ...
- 实时云渲染 VS 本地渲染,全面横向对比
不少用户不能理解,为什么要选用实时云渲染,而不用本地的电脑进行渲染显示?本文将通过各个方面来对比两种模式的优劣支持,帮助您更全面了解实时云渲染和本地渲染. 一.便携性对比 由于GPU对机箱空间有要求, ...
- Three.js实现可透视的水面效果
1. 引言 Three.js是著名的JavaScript 3D图形库,用于浏览器中开发 3D 交互场景的 JS 引擎,可以快速的搭建三维场景 Three.js官网为:创建一个场景 – three.js ...
- 记录--Vue3问题:如何实现组件拖拽实时预览功能?
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 1. 需求分析 实现一个CMS内容管理系统,在后台进行内容编辑,在官网更新展示内容. 关于后台的编辑功能,大致分为两部分:组件拖拽预览.组 ...
- 记录--盘点 TypeScript 那些奇怪的符号
这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 TypeScript是一种由微软开发的自由和开源的编程语言.它是JavaScript的一个超集,而且本质上向这个语言添加了可选的静态类型和 ...
- Python解压当天创建的ZIP文件到指定的文件夹中
1. 首先,导入了需要使用的模块: - `zipfile`:用于处理ZIP文件的模块. - `os`:提供了与操作系统交互的功能. - `shutil`:用于高级文件操作,例如移动文件等. - `da ...