在某个重大发布之后,都需要记录相应的指标,本文介绍了最重要的几个 Java 性能指标,包括响应时间和平均负载等。为理解应用程序在生产环境中如何运行,就需要遵循一些 Java 性能指标。

在以前,当软件被发布后,开发者是没有方法去了解它在生产环境中的运行情况;而现在,几乎任一个你可以想到的指标都可以被监测和报告。时下,开发者面临的问题并不是缺乏信息,而是信息过载、过大。因此在数百台服务器同时工作的情景下,跟踪记录信息就变得越来越困难,虽然多数开发者为了深刻理解产品系统仍旧需要利用日志文件,但依然阻挡不了它们逐步被取代的命运。

本文整理了一些重要的指标,使开发者在不借助任何日志文件的情况下,便于理解应用程序在生产环境中运行的具体过程。谈到对 Java 性能的影响,除了像用户负载(或者 AWS 云服务器停机)这样的外部因素,新功能发布可能是最常见的诱因。所以在那些新功能发布之后的敏感时段,遵循相应准则变得更为关键。

数字至上

在逐个讨论指标之前,先来强调一个重要问题。有这样一个观点:如果某个观点可以得到数字支持,那么它一定是毋庸置疑的。但是这里存在的问题是,当给你呈现时,很多因素会歪曲你对数据的理解。这么说可能有点抽象,这里可以对比这两个测量用例:首先,在一个简单的时间序列中,观察某一个特定基本指标如何随着时间推移而变化;其次,从不同的角度观察数据,并保存关注的性能百分比,底线就是一定要关心留意的那个指标所产生的影响,并给以完整性检查以便对其评估。

例如,假设我们正在观察中值/50百分点处的事务响应时间,因为该点的响应时间已被广泛用作指示符,很多公司将其作为主要KPI之一。在实际中,若单个页面浏览人数达到几十及以上(一般远远超过40),就意味着该用户有99.999...%的可能会经受比中值更差的结果(数学公式可简单的表示为:1 –(0.5 ^ 40) 。因此什么百分点更有意义呢?即使观察点设在第95的百分点,然后你的单页面浏览人数远大于40,那么大部分的用户仍会经受比之前更糟糕的响应时间。若符合多个页面浏览量,事情会更加复杂。想阅读更多关于百分点的知识,了解其对数据的误导,可点击此处进入Gil Tene 的博客。

家下来我们来仔细解读指标的选择,看看它们各自代表什么,并学习如何来理解这些指标。

1. 响应时间与吞吐量

响应时间用来衡量应用程序中的事务处理速度,它也可以从 HTTP 请求层和数据库层来观察。有些最慢的查询需要最优化解决,而响应时间可以缩小该查询的范围。吞吐量从另一个角度观察处理过程,并显示应用程序在给定时间域中处理多少请求,通常单位为每分钟(cpm)。

测量响应时间的方法之一就是使用像 New Relic 或者 AppDynamics(就是曾在以前的博客讨论的)那种 APM(应用性能监控工具),通过这些工具,可以追踪平均响应时间,并可以直接在主报告仪表板上与昨日或者上周的平均响应时间作比较,这些比较有助于查看新的部署如何对应用程序造成了影响。另一种方法是通过测量网页处理的百分位数,来测量 HTTP 请求完成响应所需的时间。

也可以内部监测响应时间,但是需要硬代码,例如通过 Dropwizard 指标发送数据并在 Graphite 上发布。尽管看来将这些数据和其他标准关联时会出现最有用的见解,但更多的见解仍涵盖在接下来的方法中。

要点1: 确保所使用的采集方法可以实现从不同角度观测数据,并开始进入百分位层面。

可行工具:

  1. AppDynamics
  2. New Relic
  3. Ruxit
  4. OneAPM

图为 OneAPM 上监控到的 Java 应用程序响应时间和吞吐量

2. 平均负载

第二个广泛使用的衡量指标就是服务器的平均负载。平均负载习惯上分成3部分,在最后的1、5和15分钟(从左到右)显示其结果。只要分数低于机器内核的数量,就是无压力状态,一旦超过内核数,就意味着机器处于压力状态。

平均负载除了可以简单测量 CPU 利用率,更着重于考量每个内核目前在队列中有多少进程。某内核利用率达100%,但是却即将结束任务,而另一内核在队列中还有6个进程要处理,这两种情况是截然不同的。CPU 这一概念并没有涵盖其区别,但是平均负载却可以从大局中考虑此问题。

若在 linux 系统上跟踪平均负载情况,一个极好的方式就是通过 Hisham Muhammad 利用 htop 完成。丰富的色彩加上生动的视觉化效果,瞬间使得命令行有了 NASA 仪表板的即视感。

要点2: 要确定负载,仅靠资源利用率是不够的,还需要格外注意以便充分了解队列中的进程。

可行工具:

  1. htop

图为在一台服务器上运行 htop 以检测负载,平均负载显示在界面的右上角。

3. 错误率(及如处理)

错误率观测有多种方法,而多数开发人员都利用高层次标准——在整个应用层考察错误率,比如在所有 HTTP 请求中考察失败的 HTTP 处理总数。但是还有一个经常被忽视的具体点:特定事务的错误,这与应用程序的运行状况有直接的影响。代码中某一特定方法失败、生成日志错误及发生异常的次数占总调用次数的比重,也要予以显示。

图为 OneAPM 对事务中的错误率监控,随时间监控应用错误率情况。

但是这些数据对其本身并没有太大的意义。第一步,从正在处理的事件中优选出最紧急的一件,找到日志错误或异常;第二步,从实际根源处着手,并予以修复。而且基于此问题,已有相应的解决办法。有了 OneAPM ,就没有必要根据日志文件去找错误提示,因为关于服务器状态的所有信息都会在同一界面显示,包括堆栈踪迹、实源代码、变量值及每个错误调用的应用实例。

要点3: 要解决错误率增长的根本原因,仅靠日志文件是不够的,为了得到大量关于我们所需指标的数据,还需要利用一些错误率监控工具。

4. GC率和中止时间

垃圾回收器行为异常,是导致应用吞吐量和响应时间突然下降的主要原因之一。读者想要了解关于垃圾回收过程的更多知识和相关的标准,可阅读 深入理解Java虚拟机(第2版)

分析 GC 日志文件是理解 GC 中止时间和频率的关键。如果不自行分析,或者使用类似于 jClarity 的工具,这种指标是没有办法直接使用的。所以要确保使用合适的 JVM 参数打开 GC 日志采集,以便分析。

要点4: 请记住,分析不同指标的相关数据,要保持开阔的思维,这样容易发现它们之间的互相影响。

可行工具:

  1. jClarity Censum
  2. GCViewer

5. 业务指标

应用的性能不是仅仅依赖于快速响应,也非错误率,另一个方面就是业务指标。其业务责任也不是只由产品/销售人员全权负责。收入、用户数、与应用中特定区域的互动等,这些都对理解软件的运行极为关键。若要从业务角度观察,你所配置的修复方法和新功能是如何影响底线的,以上因素与新部署的时间标记一起作用这一点至关重要。我们固然希望情况向好的方向发展,但假如事态恶化,一旦你把所有数据都存在同一位置,要想知道哪里出了问题需要修复,这就相当容易了。

此外,将业务指标与错误率、延时等数据实时连接起来,这种能力是极有力度的。然后会让人不由自主地深入研讨到底是什么错误或异常造成了这次最主要的问题,接着就可以按照对业务目的影响优先考虑它们。想要搞清楚遍布各处的所有异常及日志错误,就得使用集成开放的监测工具。所以,保持数据开放,使其可以输出到选择服务中,这是极其重要的。

假如你要利用 Graphite 将汇报的业务指标集中化,这就要求你所使用的工具对发送数据开放。例如,我们的工程组就将汇报指标通过 StatsD 发布出来,因此相应数据就可以指向任一用户选择使用的仪表板上。

要点5: 先入先出式数据已是过去式,在使用指标时,也需要让它们和其他来源的数据相关联。

可行工具:

  1. Grafana
  2. The ELK stack
  3. Datadog
  4. Librato

6.正常运行时间和服务运行状况

该指标为整体的工作定下基调。除用作警示媒介外,它还可用于在一段时间内自定义 SLA,以便观察当为用户提供功能完备的服务时所用时间的百分比。

我们通过运行使用 servlet 的 Pingdom 来解决这个问题,它会对所有应用程序事务中参与的服务进行检查,包括数据库和 S3 等。

要点6: 正常运行时可能是二进制指标,但是通过聚合多个值的方式在堆栈中定位薄弱点。

可行工具:

  1. Pingdom

图为用 Pingdom 监测正常运行时和应用运行状况。

7.日志规模

以上讨论到的指标除了 GC 都没有提到日志,但这个仍然不可忽略。日志文件的副作用就是它们一直在增长,如果不留意其大小以及抑制,那么后果不堪设想。当日志不受控制,磁盘驱动器很可能被撑爆,服务器中会充斥着垃圾文件,运行缓慢,因此,一定要密切关注日志规模,否则随时会崩溃。

一个广泛使用的解决办法就是,使用 logstash 等将服务器上的日志分块,再将其送入Splunk、ELK 等其他日志管理工具中存储,或者直接简单地存入 S3。另一种方法就是在某一时间将日志文件翻转再截断,但此法要冒信息丢失的风险。和大部分开发人员一样,目前我们还必须依赖于日志。

要点7: 日志会给人带来很大的困扰,尤其是当你用某些外部服务来处理日志时,你会被 GB 指控。这时就要重新考虑一下这个问题,还应该开始降低日志大小。

最后的思考

我们可以看到这一趋势:目前在产品中,应用里的数据采集器正逐渐脱离对日志文件的依赖。软件分析的新世界越来越开放,数据更加智能化,已不再是以前枯燥的数字,而是带有丰富的情境。我们很兴奋地看着世界的改变,并期待和你们一起共建崭新的未来。

原文地址:https://dzone.com/articles/7-java-performance-metrics-to-watch-after-a-major-1

Java 应用发布后,需要关注的7个性能指标的更多相关文章

  1. Java应用发布后,需要关注的7个性能指标

    在某个重大发布之后,都需要记录相应的指标,本文介绍了最重要的几个 Java 性能指标,包括响应时间和平均负载等.为理解应用程序在生产环境中如何运行,就需要遵循一些 Java 性能指标. 在以前,当软件 ...

  2. 我把自己的java库发布到了maven中央仓库,从此可以像Jackson、Spring的jar一样使用它了

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  3. java项目发布到linux服务器,tomcat正常启动但没加载项目

    问题描述: java项目发布到linux服务器,一切操作正确,linux命令启动tomcat后,查看日志启动tomcat正常,上传的war包已经解压成功,但是tomcat没加载项目. 解决方法: 1. ...

  4. asp.net(C#)网站发布后 Global.asax 里 Application_Error 不执行的问题

    现象 在 Global.asax 用 Application_Error 捕捉了http的404,500等错误,在本机测试正常,发布后无效,几经周折终于解决了... 程序是这样设计的 Applicat ...

  5. 微信支付 发布后显示 System:access_denied

    微信支付发布后显示 System:access_denied (android)或 System:not_allow(IOS) 我们项目用的是.NET MVC3 授权目录是:http://mynetd ...

  6. dedecms 后台发布后的文章不能编辑出现一片空白的解决办法

    dede后台无法写新文章也无法编辑以前的文档,文章编辑的地方无法写入,出现无法显示该页面的问题,这是怎么回事?我的dede在ftp中换过文件夹,是不是跟这个有关?该如何解决这个问题? 以下修改是针对d ...

  7. Ueditor 编译发布后无法使用上传图片、附件等功能

    Ueditor 发布后上传到服务器会出现无法使用上传功能,在本地源代码模式下上传功能正常,这是因为在网站发布期间把 net/Uploader.cs 给编译了,发布后的代码不包含Uploader.cs故 ...

  8. 解决MVC中使用BundleConfig.RegisterBundles引用Css及js文件发布后丢失的问题

    ASP.NET MVC4,ASP.NET MVC5中对JS和CSS的引用又做了一次变化,在MVC3中我们这样引用资源文件: <link href="@Url.Content(" ...

  9. α发布后的感想(组长作业)

    今天α发布后,组长作业,谈谈心得体会,谈谈哪些做的好的地方,哪些做的不好.耐撕团队组长因有事缺席,耐撕团队的α发布由齐同学来主持,所以这个作业由齐同学代理. 先谈谈耐撕团队在α发布会中齐同学认为做的好 ...

随机推荐

  1. HTTP层 —— 中间件

    1.简介 HTTP 中间件为过滤进入应用的 HTTP 请求提供了一套便利的机制.例如,Laravel 内置了一个中间件来验证用户是否经过授权,如果用户没有经过授权,中间件会将用户重定向到登录页面,否则 ...

  2. react 全局面包屑

    renderBreadcrumb() { const {routes} = this.props; const items = routes.map((route, idx) => { let ...

  3. 关于IO的一些数字

    http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/people ...

  4. PL/SQL在Oracle服务器上连接出错

    今天在Oracle服务器上使用PL/SQL连接Oracle软件的时候出现了错误,错误如下: 具体的解决办法如下: 需要下载32位的Oracle Client,具体的步骤如下:登录Oracle官方网站 ...

  5. c#结束winword.exe进程、

    最近在做一个c#生成word的功能.调用了微软自带的COM组件. 生成完以后发现有一个winword.exe无法关闭.调试或修改代码都没有搞明白.  遂强制关闭进程了. System.Diagnost ...

  6. SQLServer数据操作(建库、建表以及数据的增删查改)

              SQLSever数据操作   一.建立数据库:   create database DB ---数据库名称 (          name=data1 --文件名,         ...

  7. linux安装缺失服务

    sudo apt-get install ssh Reading package lists... Done Building dependency tree... Done Package ssh ...

  8. Appium Python Driver Api

  9. java取随机数

    一, 指定的特定几个数据集合里按“随机顺序”全部取出 一碰到随机, 可能第一个想到的是用Math.Random() 来处理, 其实java本身提供了现成的类 通过 “打乱顺序”来处理“随机”问题 方法 ...

  10. c&c++函数的参数和返回值的传递终结版

    c++函数的参数和返回值的传递方式有三种:值传递.指针传递和引用传递. 在这之前先看几个例子: 一, int a=10; int b=a; b+=10; 此时b是a的一个拷贝,改变b的值,a并不会受到 ...