干货|EasyMR 基于 Kubernetes 应用的监控实践
在之前的内容中,我们深入探讨了 EasyMR 如何利用 Kubernetes 进行部署。大家已经了解到,在 EasyMR 的整体架构中,我们使用 Prometheus 进行节点和服务监控数据的采集、查询和存储。同时,Grafana 作为强大的可视化工具,将 Prometheus 中的监控数据以多样化的方式展示出来。
在本文中,我们将详细探讨在 EasyMR 中如何动态采集 Kubernetes 应用监控数据。
传统采集方案的痛点
在主机模式下,EasyMR 使用 Prometheus 监控的配置主要依赖于 static_configs 和 file_sd_configs。因为在这种部署方案下,节点与应用的稳定性较高,涉及到的变更与不确定性较小,除非出现节点宕机这样的极端情况,我们才需要手动去修改对应采集 Job 配置。

但是在云原生时代的背景下,监控作为可观察性实践中的关键部分,相对于传统架构下的系统和应用监控发生了一些重大的变化:
· 微服务和应用容器化导致监控对象和指标的指数级增加
· 监控对象的生命周期更加短暂,导致监控数据量和复杂度成倍增加
通俗来说,就是我们的 Kubernetes 集群中会有很多 Node/Service/Pod 等资源,这些资源会随着需求规模的变化而动态变化,同一个应用 Pod 的 IP、名称也会随着应用的重启、滚动更新而发生改变。
所以当 Kubernetes 资源创建或者更新时,如果一个个去修改 Prometheus 中的 Job 任务会是一个非常庞大的工作量,因为你无法判断 Pod 重启的时间(Kubernetes 有自己的 scheduler,可能 Pod 当前所在主机 CPU/内存/磁盘压力过大,可能 Pod 达到设置资源限制等等,这些都会导致 Pod 的重新调度)。在这个背景下,我们就需要 Prometheus 拥有服务自动发现的功能。
Prometheus 服务自动发现
对于上述无法使用静态采集配置static_configs 和 file_sd_configs 的场景,Prometheus 自身提供了一个解决方案:引入一个服务注册中心。这个注册中心掌握着当前所有监控目标的访问信息,Prometheus 只需要向它询问有哪些监控目标即可。Prometheus 查询到需要监控的 Target 列表,然后轮训这些 Target 获取监控数据。
Prometheus 支持多种服务发现机制:文件、DNS、Consul、Kubernetes、OpenStack、EC2 等,本文以 Kubernetes 服务发现机制为例详细讨论。
在 Kubernetes 下,Prometheus 通过与 Kubernetes API 集成主要支持5种服务发现模式:Node、Service、Pod、Endpoints、Ingress。
不同的服务发现模式适用于不同的场景,例如:Node 适用于与主机相关的监控资源,如节点中运行的 Kubernetes 组件状态、节点上运行的容器状态等;Service 和 Ingress 适用于通过黑盒监控的场景,如对服务的可用性以及服务质量的监控;Endpoints 和 Pod 均可用于获取 Pod 实例的监控数据,如监控用户或者管理员部署的支持 Prometheus 的应用。
EasyMR 对 K8S 应用的监控实践
Prometheus 使用 pull 模式来获取指标,所以对需要监控的目标应用来说需要暴露/metrics 接口。接下来我们从部署 Prometheus 的步骤开始,以采集 MySQL 的监控信息来具体描述 EasyMR 是如何运用 Prometheus 的服务发现机制的。
创建 Prometheus 配置文件
Prometheus 自动发现的核心之处在于 relabel_configs 的相关配置,首先是通过 source_labels 配置以 _meta 开头的这些元数据标签,声明要匹配的资源,然后通过 regex 匹配规则找到相关的资源对象,最后再对采集过来的指标做二次处理,比如保留、过来、替换等操作。

创建 ServiceAccount/Role/RoleBinding
由于 Prometheus 是需要访问 Kubernetes 资源的,而且 Kubernetes 有详细的 RBAC 权限控制机制,所以在部署 Prometheus 之前需要创建对应的账号,并为该账号赋予对应接口的权限。出于安全考虑,EasyMR 只需要获取对应 namespace 的权限,所以我们不需要全局的 ClusterRole 权限。

创建 Prometheus Deployment
由于 Prometheus 是需要存储数据的,所以事先需要创建对应 PV,官方建议使用 localpv,这里不做描述。在 Deployment 的配置文件中我们只需指定 PVC 名称即可,这里把关键配置展示出来。


部署 MySQL Statefulset、MySQL Exporter、MySQL Service
由于同一个 Pod 是共享网络跟存储的,所以在部署架构中我们将 MySQL Exporter 作为一个单独的 Container 与 MySQL 的 Container 部署在同一个 Pod 中,只需要将 MySQL Exporter 的监控端口暴露给 Prometheus 的注册中心即可,部分重要配置如下:
● MySQL Statefulset

● MySQL Service
在 Service 配置的 annotations 下添加两个配置:
· prometheus.io/port: 9104
· prometheus.io/scrpae: true


查看 Prometheus Targets 配置

能看到 Prometheus 已经动态发现了部署上去的 MySQL 服务暴露的监控数据,状态是 UP,无需手动干预。
查看 EasyMR Grafana 仪表盘

经过上述操作,我们可以很轻松地在 EasyMR 页面上看到丰富的 MySQL 监控信息,其余的服务也可以通过类似的步骤完成。
结语
在云原生时代,Promtheus+Grafana 的组合已经成为了可观测性工具中不可或缺的一部分,但是怎么将它们的作用最大化还是需要大家深度去探索。未来 EasyMR 还会在可观测性的其他领域(logging、tracing)做出自己的探索。
《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm
《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm
想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szbky
干货|EasyMR 基于 Kubernetes 应用的监控实践的更多相关文章
- Prometheus监控学习笔记之360基于Prometheus的在线服务监控实践
0x00 初衷 最近参与的几个项目,无一例外对监控都有极强的要求,需要对项目中各组件进行详细监控,如服务端API的请求次数.响应时间.到达率.接口错误率.分布式存储中的集群IOPS.节点在线情况.偏移 ...
- 360 基于 Prometheus的在线服务监控实践
转自:https://mp.weixin.qq.com/s/lcjZzjptxrUBN1999k_rXw 主题简介: Prometheus基础介绍 Prometheus打点及查询技巧 Promethe ...
- QCon技术干货:个推基于Docker和Kubernetes的微服务实践
2016年伊始,Docker无比兴盛,如今Kubernetes万人瞩目.在这个无比需要创新与速度的时代,由容器.微服务.DevOps构成的云原生席卷整个IT界.在近期举办的QCon全球软件开发大会上, ...
- 网易云基于 Kubernetes 的深度定制化实践
本文由 网易云发布. 2017 年,Kubernetes 超越 Mesos 和 Docker Swarm成为最受欢迎的容器编排技术.网易云从 2015 下半年开始向 Kubernetes 社区贡献代 ...
- 基于kubernetes自研容器管理平台的技术实践
一.容器云的背景 伴随着微服务的架构的普及,结合开源的Dubbo和Spring Cloud等微服务框架,宜信内部很多业务线逐渐了从原来的单体架构逐渐转移到微服务架构.应用从有状态到无状态,具体来说将业 ...
- Kubernetes监控实践
一.Kubernetes介绍 Kubernetes(K8s)是一个开源平台,能够有效简化应用管理.应用部署和应用扩展环节的手动操作流程,让用户更加灵活地部署管理云端应用. 作为可扩展的容错平台,K8s ...
- 【译】Kubernetes监控实践(2):可行监控方案之Prometheus和Sensu
本文介绍两个可行的K8s监控方案:Prometheus和Sensu.两个方案都能全面提供系统级的监控数据,帮助开发人员跟踪K8s关键组件的性能.定位故障.接收预警. 拓展阅读:Kubernetes监控 ...
- 使用 Prometheus + Grafana 对 Kubernetes 进行性能监控的实践
1 什么是 Kubernetes? Kubernetes 是 Google 开源的容器集群管理系统,其管理操作包括部署,调度和节点集群间扩展等. 如下图所示为目前 Kubernetes 的架构图,由 ...
- 基于kubernetes集群的Vitess最佳实践
概要 本文主要说明基于kubernetes集群部署并使用Vitess; 本文假定用户已经具备了kubernetes集群使用环境,如果不具备请先参阅基于minikube的kubernetes集群搭建, ...
- 039.[转] 基于 Kubernetes 和 Spring Cloud 的微服务化实践
http://dockone.io/article/2967 基于 Kubernetes 和 Spring Cloud 的微服务化实践 写在前面 网易云容器平台期望能给实施了微服务架构的团队提供完整的 ...
随机推荐
- 查看oracle数据库编码格式;ORACLE数据库NLS_CHARACTERSET和NLS_NCHAR_CHARACTERSET区别
查看Oracle数据库字符编码格式得方法,有以下两种,第二种方法有注释,第一种没有Select * from nls_database_parameter;Select * from sys.prop ...
- 事件监听、焦点--java进阶day03
1.事件 按钮是组件,点击后就会重新游戏 对于这种点击了组件之后,有逻辑触发的操作,就是事件 2.事件中的专有名词 绑定监听也就是绑定监视,是真正组织代码逻辑的地方 要有绑定监听就需要监听器,今天学习 ...
- netstat 与 ss 比较
一.netstat 命令 1. 核心功能 显示网络连接.路由表.接口统计等信息. 支持TCP.UDP.UNIX域套接字等协议. 可查看进程与端口的关联. 2. 常用语法示例 查看所有活动连接 nets ...
- Cannot attach the file *.mdf as database
使用ASP.NET MVC 4 和 Entity Framwork 6(Code First)爬的一个坑,无意间把App_Data下的*.mdf文件删除了,然后程序编译正常,但是运行异常RT,留爪. ...
- FireDAC开发DataSnap应用系统【2】-使用TFDJSONDatasets功能
类别 说明 TFDJSONDatasets FireDAC使用JSONDataSet,其中可包括多个DataSet对象 TFDJSONDataSetsWriter 把TDataSet写入TFDJSON ...
- unity里生成的.csproj和.sln :assembly definition以及ET框架中的程序集定义
有一段时间一直没明白为啥有的时候第三方的package里的代码没法引用我们项目的,最近有点心得,记录下: 在创建unity项目的时候默认是创建一个解决方案就是以.sln为结尾的.默认开发时都在同一个解 ...
- H5 ios端底部安全距离CSS
html 头部添加 <meta name="viewport" content="width=device-width, initial-scale=1.0,min ...
- MySQL 的查询优化器如何选择执行计划?
MySQL 的查询优化器负责决定如何执行 SQL 查询,它会根据多个因素选择最优的执行计划.查询优化器的目标是选择一个成本最低.性能最优的执行计划,以便高效地处理查询.执行计划的选择是基于 MySQL ...
- 为什么 Java 的垃圾收集器将堆分为老年代和新生代?
为什么 Java 的垃圾收集器将堆分为老年代和新生代? Java 垃圾收集器通过将堆内存划分为 新生代 和 老年代,优化了内存管理,提高了垃圾回收的效率.这种分代思想是基于 对象生命周期的特点. 1. ...
- DPDI(Dispatch PDI)kettle调度管理平台升级内容
DPDI升级内容(20240815版) DPDI online部署方式 定时任务优化(支持轮询机制,Cron可提示近5次运行时间) 运行任务优化(支持多机器分布式运行) 其它小功能优化 1. 首页可手 ...