Prometheus 是一个开源的监控解决方案,部署简单易使用,难点在于如何设计符合特定需求的 Metrics 去全面高效地反映系统实时状态,以助力故障问题的发现与定位.本文即基于最佳实践的 Metrics 设计方法,结合具体的场景实例--TKE 的网络组件 IPAMD 的内部监控,以个人实践经验谈一谈如何设计和实现适合的.能够更好反映系统实时状态的监控指标(Metrics).该篇内容适于 Prometheus 或相关监控系统的初学者(可无任何基础了解),以及近期有 Prometheus 监控方…