简介: E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor,有效提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。

大数据运维的挑战—如何保证集群稳定与运行效率

企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞杂的组件以及组件之间复杂的依赖关系、对于时效要求的的运算任务,都会提升运维难度。作为支撑平台,大数据集群的稳定性和运行效率,会直接影响到公司业务的正常运作和发展。

集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简单的监控运维体系能够帮助管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。

对于大数据集群,管理员以及 CIO 等更关注以下的内容:

  • 集群内的节点的运行状态和资源使用状况;
  • 运行在集群上的服务组件的状态监控和异常处理,包括 YARN、HDFS、Hive 和 Spark 等;
  • 计算任务运行情况和执行效率;
  • 整体集群的健康程度和如何改进。

面对运维挑战,EMR重磅推出:智能运维诊断系统(EMR Doctor)

为了提升大数据集群运维效率,辅助 EMR 用户完善集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称EMR Doctor)。 EMR Doctor 作为开源大数据集群的管家,会自动每日巡检集群。集群管理员只需要定期查看健康检查报告,并且根据报告中的建议对集群做相应的优化调整,即可全局了解集群的健康状况和动态走势,并保持集群的健康度。

如何使用 EMR Doctor

  1. 进入 EMR 控制台健康检查页面。
  1. 登录 EMR on ECS 控制台
  2. 在顶部菜单栏处,根据实际情况选择地域和资源组。
  3. 在集群管理页面,单击目标集群的集群ID。
  4. 单击上方的健康检查页签。
  1. 在健康检查页面,您可以看到当前集群的健康检查报告(T+1)。健康状态列显示了该集群的健康度,您可以点击查看报告进入检查报告页面。

  1. 健康检查报告中包含集群计算资源的总体分析

  1. 健康检查报告中包含计算任务从各个维度的排名并给出任务调优建议

  1. 健康检查报告中包含对集群存储的总体分析,以及大小文件和冷热数据的详细分析

  1. 健康检查报告主要分析内容如下,更详细说明请参见查看健康检查状态和报告

计算资源分析

概述

状态概述

需要关注的问题

计算基础信息

集群计算评分

集群算力内存时

集群算力CPU时

计算引擎内存算力时

计算任务信息

计算任务算力内存时分析

计算任务评分排行榜

Spark

Spark任务算力分析及调优建议

Tez

Tez任务算力分析及调优建议

MapReduce

MapReduce任务算力分析及调优建议

HDFS存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

HDFS基础信息

HDFS存储资源使用趋势

文件总数随时间变化趋势

评分趋势

HDFS文件大小分布

HDFS文件大小比例

一级目录空文件个数Top10

一级目录极小文件个数Top10

一级目录小文件个数Top10

一级目录中等文件个数Top10

一级目录大文件个数Top10

HDFS冷热数据分布

HDFS冷热数据

一级目录极冷数据大小Top10

一级目录冷数据大小Top10

一级目录温数据大小Top10

一级目录热数据大小Top10

HIVE存储资源分析

(需开启存储资源信息采集开关)

概述

状态概述

需要关注的问题

Hive基础信息

存储趋势

文件数量趋势

评分趋势

Hive库信息

库存储排名

库文件总数排名

库评分

Hive表文件大小分布

Hive表文件大小分布比例

Hive表空文件个数Top10

Hive表极小文件个数Top10

Hive表小文件个数Top10

Hive中等文件个数Top10

Hive大文件个数Top10

Hive冷热数据分布

Hive冷热数据分布

Hive表极冷数据大小Top10

Hive表冷数据大小Top10

Hive表温数据大小Top10

Hive表热数据大小Top10

Hive表存储格式分布

Hive表存储格式分布

Hive表TextFile/Parquet/ORC格式文件分析

如何开通EMR Doctor

开通及使用咨询问题请见 EMR Doctor常见问题

  • EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本需要手动开通健康检查功能,请参见开通指南
  • EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本默认提供健康检查功能,无需手动开通。

欢迎钉钉扫码加入EMR Doctor用户技术交流群

获取集群运维最新功能和最佳行业实践~

本文为阿里云原创内容,未经允许不得转载。  

EMR重磅发布智能运维诊断系统(EMR Doctor)——开源大数据平台运维利器的更多相关文章

  1. GreenPlum 大数据平台--运维(三)

    一,操作命令 01,启动gpstart 参数说明 COMMAND NAME: gpstart Starts a Greenplum Database system. ***************** ...

  2. GreenPlum 大数据平台--运维(二)

    .如何获取查询运行时和已用时间. 例子: Select tstart, tfinish, (tfinish-tstart) as total_time, trim(query_text) from q ...

  3. GreenPlum 大数据平台--运维(一)

    .最后分析或真空或创建表或等... Select * from pg_stat_operations where schemaname='SCHEMA NAME ' and actionname in ...

  4. 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

    一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...

  5. 医院大数据平台建设_构建医院智能BI平台的关键技术

    在新技术层出不穷的当下,世界各地的组织正在以闪电般的速度变化和进化,以便在新技术可用时加以利用.其中目前最具活力的一个领域是商业智能(BI).想一想,你可能已经习惯以每周或每月IT或数据科学家交付给你 ...

  6. IT职业技能图谱:架构师、H5、DBA、移动、大数据、运维...

    转载 作者:StuQ 文章收藏自微信:InfoQ   时隔近5个月,StuQ的小伙伴们再次出品了IT职业技能图谱更新版.这回除更新之前版本外,还添加了架构师.HTML 5.DBA等新的职业技能图谱.正 ...

  7. 大数据实时多维OLAP分析数据库Apache Druid入门分享-上

    @ 目录 概述 定义 MPP和Lambda补充说明 概述 特征 适用场景 不适用场景 横向对比 部署 单机部署 入门示例 概述 定义 Apache Druid 官网地址 https://druid.a ...

  8. Hadoop大数据学习视频教程 大数据hadoop运维之hadoop快速入门视频课程

    Hadoop是一个能够对大量数据进行分布式处理的软件框架. Hadoop 以一种可靠.高效.可伸缩的方式进行数据处理适用人群有一定Java基础的学生或工作者课程简介 Hadoop是一个能够对大量数据进 ...

  9. ZCGL大数据平台日常运维问题与解决方法

    问题:HBase停止 解决方法:重新启动HBase,如下所示 表层问题:插入和查询HBase速度比较慢 排查一,查看HBase节点状态,发现正常运行: 排查二,查看访问HBase服务的状态,发现服务停 ...

  10. 大数据实时多维OLAP分析数据库Apache Druid入门分享-下

    @ 目录 架构 核心架构 外部依赖 核心内容 roll-up预聚合 列式存储 Datasource和Segments 位图索引 数据摄取 查询 集群部署 部署规划 前置条件 MySQL配置 HDFS配 ...

随机推荐

  1. C++ 派生类对象的构造与析构过程

    C++ 派生类对象的构造与析构过程 因为基类的成员变量和派生类的成员变量在内存中的连续的(下面程序会验证这一点),如下图所示: 所以构造派生类对象的时候,构造成员变量的过程就像入栈一样: 那么很自然, ...

  2. Handler屏障消息

    Handler 屏障消息 Handler Message 种类 Handler的Message种类分为3种: 普通消息 屏障消息 异步消息 同步消息 我们默认用的都是同步消息,即前面讲Handler里 ...

  3. 用Vue3.0 写过组件吗?如果想实现一个 Modal你会怎么设计?

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 一.组件设计 组件就是把图形.非图形的各种逻辑均抽象为一个统一的概念(组件)来实现开发的模式 现在有一个场景,点击新增与编辑都弹框出来进行 ...

  4. 记录-使用双token实现无感刷新,前后端详细代码

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 前言 近期写的一个项目使用双token实现无感刷新.最后做了一些总结,本文详细介绍了实现流程,前后端详细代码.前端使用了Vue3+Vite ...

  5. 记录--Vue自定义指令实现加载中效果v-load(不使用Vue.extend)

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 网站效果演示:ashuai.work:8888/#/myLoad GitHub仓库地址代码:github.com/shuirongshu- ...

  6. 创建远程仓库&克隆项目(Github)

    创建远程仓库 在GitHub上注册一个账号,之后creat a new repository 创建的远程仓库把它看作一个百度网盘就可以了 克隆项目 1.远程仓库可以下载\克隆到本地 code :git ...

  7. verilog之function

    verilog之function 1.基本作用 function,就是声明一个函数.与task的区别就是有参数.function的返回值就是函数名(可以设置位宽),输入值任意,均作为输入参数.代码块需 ...

  8. 性能对比 Go、Python、Perl、Ruby、Rust、C/C++、PHP、Node.js、Java.. 等多编

    1. 有人说 Python 性能没那么 Low? 这个我用 pypy 2.7 确认了下,确实没那么差, 如果用 NumPy 或 其它版本 Python 的话,性能更快.但 pypy 还不完善,pypy ...

  9. PyQt5 GUI编程(QMainWindow与QWidget模块结合使用)

    一.简介 QWidget是所有用户界面对象的基类,而QMainWindow用于创建主应用程序窗口的类.它是QWidget的一个子类,提供了创建具有菜单栏.工具栏.状态栏等的主窗口所需的功能.上篇主要介 ...

  10. #交互#CF1375F Integer Game

    题目 有三堆石子初始石子数分别为\(a,b,c\),可以选择先手还是后手操作, 每次操作形如先手选择一个正整数 \(k\) ,后手自由选择一堆石子加上 \(k\) , 但是不能和上一次操作选择的石堆相 ...