应用性能管理(APM, Application Performance Management)
当下成熟的互联网公司都建立有从基础设施到应用程序的全方位监控系统,力求及时发现故障进行处理并为优化程序提供性能数据支持,降低整体运维成本。国内外商业的APM有Compuware、iMaster、博睿Bonree、听云、New Relic、云智慧、OneAPM、AppDyn、Amics等。 本文主要针对Java技术体系介绍APM的关键实现技术以及业界主流APM工具的功能特点。
一、APM核心功能
APM被形象的称为应用程序的私人医生,越来越收到青睐,比起通过日志方式记录关键数据显然要更加实用,APM主要包含如下核心功能:
- 1.应用系统存活检测
- 2.应用程序性能指标检测(CPU利用率、内存利用率等等。。。)
- 3.应用程序关键事件检测
- 4.检测数据持久化存储并能够多维度查询
- 5.服务调用跟踪
- 6.监控告警
二、关键技术
2.1 获取JVM性能数据
Java程序运行时性能指标可通过Java.lang.Runtime、java.lang.Management中的方法采集。除此之外,著名的Metrics类库也能够通过这些底层技术获取Java程序性能指标。Cpu利用率等基础数据的采集仅仅是性能监控的一部分,Metrics提供了更为丰富的五个基本度量类型,可在此基础上开发满足需求的监控指标。
- 1.Gauges(度量)
- 2.Counters(计数器)
- 3.Histograms(直方图数据)
- 4.Meters(TPS计算器)
- 5.Timers(计时器)
参考文章:
- 1.只用五分钟为系统实现基于JMX的监控 https://my.oschina.net/zhongl/blog/29075
- 2.使用Metrics监控应用程序的性能 http://www.cnblogs.com/yangecnu/p/Using-Metrics-to-Profiling-WebService-Performance.html
2.2 服务调用追踪
大型系统中每次请求往往都由若干个独立的服务调用组成,一次从上游到下游的调用被称为一次Trace,为了监控程序性能,需要知道每个独立服务的执行时间以及网络通信开销时间,Google曾经发表过一个介绍其内部实现Dapper的论文,Twitter参照此论文实现了一个名为Zipkin的服务调用追中系统并已开源。


Trace系统设计的核心技术就是拦截每次服务请求,在请求中加入标识符,记录一次完整的Trace各阶段的执行时间。当然也可以侵入式的写监控代码主动向Trace Server发送执行时间。


2.3 时间序列
应用程序向APM发送的采集数据,通常都是格式,为了实现节约存储空间、计时查询,通常使用时间序列数据库存储采集数据。
参考文章:
2.4 告警
当采集到应用程序的性能数据后,除了人为主动的在系统上查看之外,另一个主要的使用功能点就是,监控系统根据设定的报警规则主动报警。实现触发告警有多种方法,常见的方法有:周期性主动轮询采集到的性能数据,并且根据报警规则,进行报警处理;除此之外,通过流式计算方法也可以进行报警处理,这里推荐使用基于postgresql数据库的pipelinedb,通过sql的方式设定监控规则,当到达报警条件时,通过数据库触发器调用外部函数进行告警处理。
三、开源APM
3.1 ZipKin
ZipKin是Twitter开源的Trace工具,通过Java程序中引入客户端,可隐式拦截Http、Thrift等形式服务调用。通过Http、Kafka、Scribe等方式同步监控数据到服务端,ZipKin带有Web UI,但没有告警功能。
参考文章:
- 1.分布式跟踪系统:Zipkin的背景和设计 http://blog.csdn.net/manzhizhen/article/details/52811600
3.2 大众点评网 CAT
Cat是大众点评开源的功能完备的APM系统,支持JVM性能数据采集、服务Trace、告警等功能,但需要写监控代码。
参考文章:
- 1.大众点评网监控平台剖析http://www.infoq.com/cn/presentations/public-comments-monitoring-platform-analyse/
3.4 Prometheus
Prometheus从官方介绍来说,他是一个开源的系统监控和报警工具,最初由SoundCloud推出。自2012成立以来,许多公司和组织都采用了Prometheus,项目有一个非常活跃的开发者和用户社区。它现在是一个独立的开源项目,并独立于任何公司。Prometheus具有以下主要特性:
- 1.多维度数据模型(由键/值对确定的时间序列数据模型)。
- 2.具有一个灵活的查询语言来利用这些维度。
- 3.不依赖分布式存储;单个服务器节点工作。
- 4.时间序列的采集是通过HTTP pull的形式,解决很多push架构的问题。
- 5.通过中介网关支持短时间序列数据的收集。
- 6.监控目标是通过服务发现或静态配置。
- 7.多种数据展示面板支持,例如Grafana。
Prometheus主要缺点:
- 1.单机缺点,单机下存储量有限,根据你的监控量局限你的存储时间。
- 2.内存占用率大,prometheus集成了leveldb,一个能高效插入数据的数据库,在ssd盘下io占用比较高。同时可能会有大量数据堆积内存。但是这是可以配置的。
Prometheus既可以使用定时轮询应用程序Http接口获取性能数据,也可以使用嵌入到应用程序中Prometheus client主动收集数据推送给Prometheus Server。除了收集应用程序性能数据外,Prometheus还可以收集主机性能数据,真对不同性能指标Prometheus提供了不同的Exports,也可以自己开发Exports收集数据传递给Prometheus。Prometheus只支持性能采集告警,不支持服务Trace追中。
3.5 Hawkular
Hawkular是一个功能完备的APM系统,应用程序中嵌入Hawkular客户端,主动将采集数据通过Http或者Kafka传递给Hawkular。Hawkular支持JVM性能数据采集、服务Trace、告警等功能。其中JVM性能数据采集使用JMX,服务Trace使用Zipkin客户端。
3.6 Pinpoint
韩国开源的一个功能完备的APM系统,支持JVM性能数据采集、服务Trace、告警等功能。
3.7 Appdash
Appdash是sourcegraph开源的一款用Go实现的分布式系统跟踪工具套件,它同样是以google的 dapper为原型设计和实现的,目前用于sourcegraph平台的性能跟踪和监控。
3.8 Apache HTrace
Apache HTrace是Cloudera开源出来的一个分布式系统跟踪框架,支持HDFS和HBase等系统。该项目目前还在孵化阶段。
3.9 京东Hydra
京东开源的基于Dubbo的调用分布跟踪系统,类似ZipKin,功能不够完善。
3.10 Cicada
宜人贷开源的类似ZipKin分布式跟踪系统,功能不够完善。
3.11 Spring Boot Admin
可视化展示Spring Boot Metrics,监控数据不能持久化存储,没有Trace功能,没有监控告警功能,但可周期性采集metrics,发送给其他监控软件如slack进行告警处理,同时也可以实现监控数据存储。
我们希望一个功能完善的APM系统具有JVM性能监控、服务调用追中、监控告警功能,大众点评Cat、PinPoint、Hawkular相对来讲功能更为完备,推荐使用。
附录A 闭源APM
- 1.Google Dapper
- 2.淘宝 鹰眼Tracing
- 3.新浪Watchman
- 4.美团 MTrace
应用性能管理(APM, Application Performance Management)的更多相关文章
- Pinpoint是一个开源的 APM (Application Performance Management/应用性能管理)工具,用于基于java的大规模分布式系统,基于Google Dapper论文
Pinpoint是一个开源的 APM (Application Performance Management/应用性能管理)工具,用于基于java的大规模分布式系统,基于Google Dapper论文 ...
- Pinpoint - 应用性能管理(APM)平台实践之部署篇
0.0 前言 国内的APM行业这两年刚刚起步,但是在国外却比较成熟了,并且由于这两年人力成本的快速提高,国内外涌现了几家非常不错的APM企业,例如APPdynamic,Dynamic,NewRelic ...
- Application Architecture Determines Application Performance
 Application Architecture Determines Application Performance Randy Stafford AppliCATion ARCHiTECTuR ...
- 场景5 Performance Management
场景5 Performance Management 性能调优(不能重启数据库) 索引 资源管理器 性能优化 统计分析 SQL性能分析 SPM (SQL执行计划管理) 堆表 :数据存储无序 位图索引 ...
- The Impact of Garbage Collection on Application Performance
As we’ve seen, the performance of the garbage collector is not determined by the number of dead obje ...
- Boost application performance using asynchronous I/O-ref
http://www.ibm.com/developerworks/linux/library/l-async/?S_TACT=105AGX52&S_CMP=cn-a-l Introducti ...
- 独立安装Oracle Hyperion Enterprise Performance Management 验证过程
在安装EPM的过程中,都是安装既定的操作手册进行,只是一个过程的重复,对自己安装不会留下深刻的印象.根据自己学习体会,制定安装步骤,去验证自己学习过程中的体会,加深学习印象,解决安装中遇到的问题,模仿 ...
- APM (应用性能管理)
在信息科学和系统控制领域,APM是用来监控和管理应用软件是否有效运行的.APM通过监测和分析应用的表现去保证软件应用的良好运行,APM已经商用. 基本定义 APM = Application Perf ...
- 开源APM应用性能管理工具调研
近期在设计一个DevOps平台.希望整合一个APM工具进来,由于APM既可用于性能測试也可用于运维性能监控,是典型的Dev+Ops产品. 商业的APM工具国内外已经有不少成熟产品了,而开源的好像不多见 ...
随机推荐
- 【NLP_Stanford课堂】文本分类1
文本分类实例:分辨垃圾邮件.文章作者识别.作者性别识别.电影评论情感识别(积极或消极).文章主题识别及任何可分类的任务. 一.文本分类问题定义: 输入: 一个文本d 一个固定的类别集合C={c1,c2 ...
- [问题记录]libpomelo编译报错:ssize_t重定义
1. 时间:2015/01/16 描述:添加libpomelo到cocos2dx项目,报错如下图所示: 解决: 修改代码,源代码: #if !defined(_SSIZE_T_) && ...
- 用QT写一个对话框
打开QT creater创建取名去findDialog的项目,这个项目要基于QDialog.直接上FindDialog.h的头文件. #ifndef FINDDIALOG_H #define FIND ...
- sqoop部署与使用
sqoop安装 1.下载并解压 scp sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz mini1:/root/apps/ tar -zxvf sqoop-1.4 ...
- mongodb分片集群(无副本集)搭建
数据分片节点#192.168.114.26#mongo.cnfport=2001dbpath=/data/mongodb/datalogpath=/data/mongodb/log/mongodb.l ...
- Centos7 安装eclipse IDE for C++
1.安装前eclipse需要java, yum -y install java 查看版本java -version 2.下载eclipse IDE http://www.eclipse.org/dow ...
- CPP-基础:信号量
windows api 多线程---信号量 信号量(Semaphore)和互斥量一样,属于内核对象.它自动执行可用资源查询的测试,如果有可用资源,则可用资源的计数减少1,从而避免其它线程请求资源.当该 ...
- idea教程视频以及常用插件整理
最近在同事的强烈安利下把eclipse换成idea了,本以为需要经历一个艰难的过渡期,谁知道不到3天就深感回不去了. 哎,只能说有时候人的惰性是多么可怕! idea实在是太太太强大了. 不要再问原因. ...
- 十八、IntelliJ IDEA 常用快捷键 之 Windows 版
IntelliJ IDEA(简称 IDEA),是 Java 语言开发的集成环境,IDEA 在业界被公认为最好的 Java 开发工具之一,尤其在智能代码助手.代码自动提示.重构.J2EE 支持.各类版本 ...
- [转]order by 1是什么意思?
ORDER BY 1 表示 所select 的字段按第一个字段排序 ORDER BY ASC应该没有这样写法,ORDER BY 后面不是字段就是数字, 可以ORDER BY 1 ASC 或者ORDER ...