简介: 「智能运维大数据平台」是一款开箱即用的运维监控平台,通过特有的平台功能可以将企业的基础架构、应用程序、日志管理结合在一起,提供统一采集、统一存储、关联分析、统一监控企业业务保障能力,保障企业业务稳定高效运行,同时利用离线计算、实时计算、机器学习等技术,实现运维数据共享、数据开发和加工能力,让开发人员、运营团队和业务团队协同工作,构建和改进软件应用程序,并帮助企业了解业务和用户使用情况。

导语

从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求。

从人工运维到自动化运维是为了减少人力成本,降低操作风险,提高运维效率,但自动化运维的本质依然是人与自动化工具相结合的运维模式,仍有局限性。为了持续地面向大规模、高复杂性的系统提供高质量的运维服务,智能运维(AIOps)应运而生。

本文,袋鼠云将跟大家分享智能运维大数据平台(一款开箱即用的运维监控平台)在Oracle数据库运维场景下的具体应用。

数据采集

使用平台第一步是数据接入。要做好Oracle的运维,需要哪些数据支撑?根据我们运维Oracle日常的经验总结,以下几类数据是特别重要的:

  • 实例和数据库基础信息
    包括实例的版本、Patch、启动时间、实例参数、主机基本配置信息。
  • 数据库健康检查
    检查数据库是否能正常连接,读写响应时间是否正常。
  • 实例基础性能数据
    包括业务的QPS、TPS,实例和主机的CPU使用率、内存使用率、连接数使用率,SQL解析情况,数据库的逻辑读、物理读,数据库锁等待状况,以及RAC集群间的通信状况。
  • Oracle等待事件
    采集Oracle内部等待事件的类型、等待次数和消耗时间。从等待事件可以判断实例运行的整体健康情况,定位实例瓶颈。
  • 数据库空间使用信息
    包括表空间文件占用空间、表空间使用空间、临时表空间使用情况、UNDO表空间使用情况。需要实时监控表空间使用情况,避免表空间占满引起故障。
  • 数据库Session信息
    Session信息记录了实例当前运行的SQL情况,记录了当前阻塞Session的具体信息,比较常见的如锁等待。通过Session信息,方便快速定位实例中的阻塞现象。
  • 数据库备份情况
    在数据库运维领域,备份重于泰山。每天都需要检查数据库的备份情况,包括备份是否成功,备份耗时,备份占用空间等。
  • DataGuard运行状况
    DataGuard是Oracle高可用最常用的方案之一。需要实时检测Oracle DataGuard的运行状况,包括日志传输是否正常,日志应用延迟。
  • 日志信息
    数据库的告警日志、TNS监听日志。从日志中可以发现数据库内部运行错误、异常的客户端连接信息等。

上述的数据采集,已经集成在产品中。用户只需要在数据库性能采集模块配置接入信息,就会自动采集这些数据。

数据接入之后,产品上会从几个方面来使用这些数据:

  • 仪表盘
    系统默认带了Oracle场景的通用仪表盘。用户也可以根据自己的使用习惯,通过SPL的方式配置自定义仪表盘。
  • 监控告警
    系统内置常见的监控告警。也可以通过SPL的方式配置自定义告警项。数据只要采集到了,就可以用于配置告警。
  • 智能巡检
    系统支持配置自定义巡检规则,按用户定义的时间间隔,定期进行数据库巡检。
  • 日志分析
    基于系统采集的Oracle告警日志、TNS监听日志,除了使用基本的日志搜索、监控告警,也可以配置一些日志分析的场景。

本文重点介绍仪表盘的使用。

Oracle仪表盘

仪表盘是数据可视化展现的基本形式,便于用户从直观上了解系统的整体运行状况。

3.1 Oracle实例总览

Oracle总览Dashboard主要包括这几个部分:
实例统计,包括实例总数,异常实例数,数据库数量,实例版本分布。通过这几个指标,能对接入系统中的实例有一个大体的了解。
TOP实例,包括繁忙率TOP实例,活跃会话数TOP实例。

通过这2个指标定位繁忙的实例。

  • 异常实例列表
    这个表格展示所有无法连接的实例,包括连接报错信息。
  • TOP性能趋势图
    选取数据库的核心指标,对整体实例的运行状况有一个整体的了解。选取的指标:

    • DB Time使用率:体现实例整体繁忙程度
    • DB CPU使用率:CPU资源的使用率。
    • 活动会话数:是否后SQL积压
    • 会话数使用率:Session资源使用率
    • QPS/TPS:展现业务请求吞吐量

3.2 Oracle实例详情

该仪表盘用于展现单个实例的运行详细状况。仪表盘主要分如下几个部分。

  • 实例信息
    显示实例的基本信息,包括主机情况,实例运行状态,实例的版本,数据库的角色,读写模式等
  • 实例运行情况
    展现实例的核心运行指标。

    • 阻塞会话数/活跃会话数
    • DB Time使用率
    • 实例当前会话数使用率
    • CPU使用率趋势
    • 实例会话数趋势
    • SQL执行量/SQL解析量
    • 实例逻辑读/物理读
    • 实例网络流量
    • 实例IO请求次数

3.3 Oracle实例空间总览

该仪表盘展现实例的空间使用情况。主要包括几个部分:

  • 实例总空间分布
    展现所有实例的空间分布情况。
  • 实例使用空间TOP
    展现空间使用率TOP实例的空间变化趋势。
  • 实例表空间相关信息
    展现所选实例的表空间数量、实例总空间以及空间同比和环比、UNDO空间和TEMP空间、闪回区空间使用情况。

  • 实例表空间使用率和占用空间排名。
  • 实例表空间使用率TOP趋势

  • 实例表空间列表
    展现实例所有表空间的空间使用情况。

3.4 Oracle阻塞会话

该仪表盘展现实例中阻塞会话的情况,仪表盘主要有几个部分组成。

  • TOP阻塞会话趋势图
    展现系统中所有实例的阻塞会话数变化趋势。如有阻塞会话,需要特别关注。
  • 实例等等事件分布图
    展现所选实例的阻塞会话的等待事件分布情况。
  • 阻塞源分析
    展现哪些Session引起了其它Session阻塞
  • 等待事件趋势
    实例等待事件趋势

  • 阻塞会话列表
    以表格的形式展现阻塞会话的详细信息,包括:

    • Session ID
    • 会回登陆时机
    • 会回当前状态
    • 引起阻塞的会话ID
    • 阻塞对象ID
    • 等待事件
    • 等待时间
    • 登陆用户信息,包括用户名,登陆终端,应用程序名称。
    • 执行的SQL信息,包括SQL ID,SQL语句。

通过上面这些仪表盘,既能从总体上掌握所有实例的基本运行状况,也能在单个实例上进行深入的分析,细到具体执行的SQL。能从总体上把握所有数据库的空间使用趋势,也能看到单个表空间的数据使用情况。

总结

上面的案例,是智能运维大数据产品在Oracle数据库运维场景下的一个具体应用。
其实整个产品,完全不局限于数据库运维这个场景。

产品在数据采集和数据应用上,具有强大的扩展能力。

  • 自动巡检
    所有的指标,都可以配置成巡检项,系统支持自定义调度周期(小时粒度),定期巡检系统的运行状况,以钉钉消息或邮件的方式发送出来。
  • 全链路的监控
    上面只介绍了数据库的场景,其实系统支持整个链路上的数据采集、分析。目前系统支持的采集包括:

    • 物理设备信息采集(物理机CPU风扇、磁盘、温度、电源状态)
    • 网络设备(交换机、防火墙、无线AP)
    • 阿里云云产品数据采集,支持几十种云产品的数据集成。
    • 通用软件(Docker,Tomcat,消息中间件)
    • WEB访问日志、防火墙日志、主机日志
    • 应用日志数据
    • APM应用调用联路数据采集
  • 智能算法
    自动基线学习,无需配置告警,就能自动监测系统运行异常状况。

「智能运维大数据平台」

智能运维大数据平台」是一款开箱即用的运维监控平台,通过特有的平台功能可以将企业的基础架构、应用程序、日志管理结合在一起,提供统一采集、统一存储、关联分析、统一监控企业业务保障能力,保障企业业务稳定高效运行,同时利用离线计算、实时计算、机器学习等技术,实现运维数据共享、数据开发和加工能力,让开发人员、运营团队和业务团队协同工作,构建和改进软件应用程序,并帮助企业了解业务和用户使用情况。被各大企业用于实现数字转型和云迁移,推动开发,运营和业务团队之间的协作,加快应用程序的上线时间,缩短解决问题的时间,了解用户行为和跟踪关键业务指标。

Oracle数据库运维场景下,智能运维如何落地生根?的更多相关文章

  1. 数栈运维实例:Oracle数据库运维场景下,智能运维如何落地生根?

    从马车到汽车是为了提升运输效率,而随着时代的发展,如今我们又希望用自动驾驶把驾驶员从开车这项体力劳动中解放出来,增加运行效率,同时也可减少交通事故发生率,这也是企业对于智能运维的诉求. 从人工运维到自 ...

  2. Oracle数据库访问其他用户下的表,不加表所属的用户名的实现方法

    一. 问题: 如何实现在Oracle数据库中访问其他用户的表时不需加表所属的用户名 二. 举例: Oracle里面的用户A,要访问用户B的表需要带用户B的前缀,如访问用户B的 TEST表,需要这样访问 ...

  3. oracle数据库迁移---windows环境下

    以前在学校只是听过oracle,但是从来没有接触过.最近公司突然给了我一个任务,让我将某个大型商场的网站迁移到与服务器上面. 当时也觉得,迁移个网站也就是个很简单的事情,将文件复制,拷贝下就可以了撒. ...

  4. 如何将备份的oracle数据库还原到指定用户下。

    上一文章 oracle11g数据库--创建表空间,创建用户,用户授权并指定表空间.我们已经建好了指定的新用户pdmis. 接下来我们需要将备份好的数据库,还原至新用户pdmis下. 想要还原,我们需要 ...

  5. Oracle数据库中SCOTT用户下的默认表

    ①EMP(雇员表): ②DEPT(部门表): ③BONUS(奖金表): ④SALGRADE(工资等级表):

  6. PLA 多维情况下的vc维

    对于d维的数据集,vc = d+1 证明: $vc \geq d+1$  :  存在d+1个点可以被H shatter 构造矩阵(注意加上$w_0$对应的$x_0$) 注意x可逆,构造$w=X^{-1 ...

  7. Linux下通过脚本自动备份Oracle数据库并删除指定天数前的备份

    说明: Oracle数据库服务器操作系统:CentOSIP:192.168.0.198端口:1521SID:orclOracle数据库版本:Oracle11gR2 具体操作: 1.root用户登录服务 ...

  8. Linux下自动备份Oracle数据库并删除指定天数前的备份

    说明: Oracle数据库服务器 操作系统:CentOS IP:192.168.0.198 端口:1521 SID:orcl Oracle数据库版本:Oracle11gR2 具体操作: 1.root用 ...

  9. Oracle数据库逻辑迁移之数据泵的注意事项

    环境:数据迁移,版本 11.2.0.4 -> 12.2.0.1 思考: 对于DBA而言,常用物理方式的迁移,物理迁移的优势不必多说,使用这种方式不必担心对象前后不一致的情况,而这往往也解决了不懂 ...

  10. 使用PL/SQL连接远程的Oracle数据库

    PL/SQL不仅可以连接本机的oracle数据库.也可以连接远程的数据库. 需要修改一个文件:在本机oracle 数据库的安装目录下找到这个文件: /oracle/ora92/network/admi ...

随机推荐

  1. Springboot+Guava实现单机令牌桶限流

    令牌桶算法 系统会维护一个令牌(token)桶,以一个恒定的速度往桶里放入令牌(token),这时如果有请求进来想要被处理,则需要先从桶里获取一个令牌(token),当桶里没有令牌(token)可取时 ...

  2. 低代码平台如何借助Nginx实现网关服务

    摘要:本文由葡萄城技术团队于博客园原创并首发.转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 前言 在典型的系统部署架构中,应用服务器是一种软件或硬件系统, ...

  3. SQL-报错注入

    updatexml报错注入 updatexml (XML_document, XPath_string, new_value): 第一个参数:XML_document是String格式,为XML文档对 ...

  4. 【解决】elasticsearch:Could not parse aggregation keyed as [%s]问题

    背景 在做elasticsearch集群从原来的2.x版本升级到更新版本如6.x过程中,由于需要在原来的应用中,同时连接2.x的集群以及6.x的集群来做在线动态灰度切流量,保证流量平滑切换,有问题可随 ...

  5. Gitlab Server

    Gitlab 基本概述 1.什么是Gitlab ? Gitlab是一个开源分布式的版本控制系统. Ruby语言开发完成. Gitlab主要实现的功能.管理项目源代码.对源代码进行版本控制.以及代码复用 ...

  6. 工控机中部署Ubuntu 22.04 系统

    1.下载Ubuntu系统服务器版本 获取Ubuntu服务器版 | Ubuntu 2.下载启动盘制作工具 UltralSO(试用就可以) 文件 > 打开(Ubuntu.ISO) > 启动 & ...

  7. 舵机驱动——STM32F407ZGT6探索者——HAL库

    舵机驱动--STM32F407ZGT6探索者--HAL库 1.材料准备 开发板:正点原子STM32F407ZGT6探索者 舵机:SG90 舵机线材分辨:褐色 / 红色 / 橘黄色 -- GND / V ...

  8. 阿里云上的rds 的隔离级别read committed​ 而不是repeatable-read设置原因

    阿里云上的rds 的隔离级别 是read committed ,而不是原生mysql的"可重复读(repeatable-read)",他们是基于什么原因这样设置的? show va ...

  9. 单元测试之Mockito+Junit使用和总结

    https://www.letianbiji.com/java-mockito/mockito-thenreturn.html Mockito 使用 thenReturn 设置方法的返回值 thenR ...

  10. 【scipy 基础】--积分和微分方程

    对于手工计算来说,积分计算是非常困难的,对于一些简单的函数,我们可以直接通过已知的积分公式来求解,但在更多的情况下,原函数并没有简单的表达式,因此确定积分的反函数变得非常困难. 另外,相对于微分运算来 ...