写在前边

有没有这样一种感受,自己写的代码在开发、测试环境跑的稳得一笔,可一到线上就抽风,不是缺这个就是少那个反正就是一顿报错,线上调试代码又很麻烦,让人头疼得很。阿里巴巴出了一款名叫Arthas的工具,可以在线分析诊断Java代码,着实让人眼前一亮。


一、Arthas 是什么?

Arthas(阿尔萨斯) 是阿里开源的一个Java在线分析诊断工具

二、Arthas 能解决啥问题?

在日常开发上线过程中,我们多多少少都会遇到下边这些问题,苦于无法在线调试,只能通过老鸟的经验来硬分析bug,效率上不去还总开口问别人答疑解惑,多少有些不好意思

  • 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception?

  • 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了?

  • 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗?

  • 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现!

  • 是否有一个全局视角来查看系统的运行状况?

  • 有什么办法可以监控到JVM的实时运行状态?

  • 线上代码有错误,不想重新发布?那能不能改class文件替换一下?

三、Arthas两种安装、启动方式

1、jar包启动

wget https://alibaba.github.io/arthas/arthas-boot.jar

java -jar arthas-boot.jar --target-ip 0.0.0.0

首先想用arthas调试项目,服务器必须要有运行着的Java服务,demo-0.0.1-SNAPSHOT.jar就是我启动的测试项目,启动arthas后它会自动检测本地所有的Java服务列出来,我们只需按照序号输入想要调试的项目即可,选1进入对应进程的arthas交互平台

[root@iz2zehzeir87zi8q99krk1z data]# java -jar arthas-boot.jar   --target-ip 172.17.72.201
[INFO] arthas-boot version: 3.1.0
[INFO] Found existing java process, please choose one and hit RETURN.
* [1]: 28679 demo-0.0.1-SNAPSHOT.jar

2、在线安装

curl -L https://alibaba.github.io/arthas/install.sh | sh

执行上面的命令会在所在的文件中生成as.sh执行文件



启动arthas

./as.sh PID #进程id 指定JAVA进程id
./as.sh -h #h来获取更多参数信息

3、远程连接:

要想使用arthas服务的 web console必须对外暴露本机ip

java -jar arthas-boot.jar --target-ip 172.17.72.201
java -jar arthas-boot.jar --telnet-port 9999 --http-port -1
./as.sh --target-ip 0.0.0.0
./as.sh --telnet-port 9999 --http-port -1

访问arthas控制台也有两种方法

(1)、web console 界面

重点说明:--target-ipip 一定要是arthas所在机器对外暴露的ip,但如果用的是阿里云机器必须要使用私有ip启动arthas服务,但访问必须是公网IP

(2)、telnet方式

telnet 10.0.2.5 8563



访问 http://59.110.218.9:8563/ ,进入交互平台

四、Arthas 命令使用

1、Dashboard 命令

查看当前系统的实时数据面板,例如:服务器thread信息、内存memory、GC回收等情况

2、Thread(线程监控)

$ thread -n 3
"as-command-execute-daemon" Id=57 cpuUsage=72% RUNNABLE
at sun.management.ThreadImpl.dumpThreads0(Native Method)
at sun.management.ThreadImpl.getThreadInfo(ThreadImpl.java:448)
at com.taobao.arthas.core.command.monitor200.ThreadCommand.processTopBusyThreads(ThreadCommand.java:133)
at com.taobao.arthas.core.command.monitor200.ThreadCommand.process(ThreadCommand.java:79)
at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl.process(AnnotatedCommandImpl.java:82)
at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl.access$100(AnnotatedCommandImpl.java:18)
at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl$ProcessHandler.handle(AnnotatedCommandImpl.java:111)
at com.taobao.arthas.core.shell.command.impl.AnnotatedCommandImpl$ProcessHandler.handle(AnnotatedCommandImpl.java:108)
at com.taobao.arthas.core.shell.system.impl.ProcessImpl$CommandProcessTask.run(ProcessImpl.java:370)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748) Number of locked synchronizers = 1
- java.util.concurrent.ThreadPoolExecutor$Worker@a2f70c7

可以看到这个线程是被synchroned关键字锁导致的阻塞 ,目前只支持找出synchronized关键字阻塞住的线程, 如果是java.util.concurrent.Lock, 目前还不支持。

Number of locked synchronizers = 1
- java.util.concurrent.ThreadPoolExecutor$Worker@a2f70c7
thread -n 3 #当前最忙的前N个线程
thread -b, ##找出当前阻塞其他线程的线程
thread -n 3 -i 1000 #间隔一定时间后展示

重点学习thread -b, ##找出当前阻塞其他线程的线程

3、JVM (jvm实时运行状态,内存使用情况等)

$ jvm
RUNTIME
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
MACHINE-NAME 28679@iz2zehzeir87zi8q99krk1z
JVM-START-TIME 2019-03-28 17:32:16
MANAGEMENT-SPEC-VERSION 1.2
SPEC-NAME Java Virtual Machine Specification
SPEC-VENDOR Oracle Corporation
SPEC-VERSION 1.8
VM-NAME Java HotSpot(TM) 64-Bit Server VM
VM-VENDOR Oracle Corporation
VM-VERSION 25.191-b12
INPUT-ARGUMENTS []
CLASS-PATH demo-0.0.1-SNAPSHOT.jar
BOOT-CLASS-PATH /usr/local/jdk/jre/lib/resources.jar:/usr/local/jdk/jre/lib/rt.jar:/usr/local/jdk/jre/lib/sunrsasign.jar:/usr/local/jdk/jre/lib/jsse.jar:/usr/local/jdk/jre/lib/jce.jar
:/usr/local/jdk/jre/lib/charsets.jar:/usr/local/jdk/jre/lib/jfr.jar:/usr/local/jdk/jre/classes
LIBRARY-PATH /usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib

4、trace (当前方法内部调用路径,路径上每个节点的耗时)

$ trace #类名  #方法名



对于执行耗时相对较长的方法,调用链路耗时属性会高亮显示方便排查

参数 -j 可以过滤jdk的函数 trace -j com.example.demo.controller index2

参数 #cost 可以按执行耗时毫秒ms过滤 trace -j com.example.demo.controller index2 ’#cost >10‘

5、watch

当前方法执行数据观测,能观察到的范围为:返回值、抛出异常、入参

$ trace #类名  #方法名 "{params,target,returnObj,throwExp }"
OGNL 表达式 {params,target,returnObj,throwExp }

throwExp:异常

params :入参(数组),单个参数params【0】

returnObj:返回值

$ watch com.example.demo.controller index2 "{params,target,returnObj}" -x 5
Press Q or Ctrl+C to abort.
Affect(class-cnt:1 , method-cnt:1) cost in 81 ms.
ts=2019-03-29 14:24:14; [cost=1000.746582ms] result=@ArrayList[
@Object[][
@String[辛志富],
],
@controller[
],
@String[index2],
]

6、stack

当前方法被调用的路径,显示当前方法被那些方法调用

public static String uuidOne() {
return uuidTwo();
}
public static String uuidTwo() {
return UUID.randomUUID().toString().replaceAll("-", "");
}
$ stack  com.example.demo.controller uuidTwo
Press Q or Ctrl+C to abort.
Affect(class-cnt:1 , method-cnt:1) cost in 58 ms.
ts=2019-03-29 14:38:19;thread_name=http-nio-8888-exec-5;id=13;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@525b461a
@com.example.demo.controller.uuidOne()
at com.example.demo.controller.index2(controller.java:31)
at sun.reflect.GeneratedMethodAccessor36.invoke(null:-1)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

7、monitor 命令

监控类、方法的调用进行监控,调用次数、成功次数、失败次数、平均响应时长、失败率等

$ monitor -c 4 com.example.demo.controller uuidTwo
Press Q or Ctrl+C to abort.
Affect(class-cnt:1 , method-cnt:1) cost in 56 ms.
timestamp class method total success fail avg-rt(ms) fail-rate
--------------------------------------------------------------------------------------------------------
2019-03-29 14:55:40 com.example.demo.controller uuidTwo 7 7 0 0.18 0.00%

8、classloader 命令

将JVM中所有的类加载器统计出来,树状展示

$ classloader #每种classloader加载类的个树
name numberOfInstances loadedCountTotal
org.springframework.boot.loader.LaunchedURLClassLoader 1 4463
com.taobao.arthas.agent.ArthasClassloader 2 3631
BootstrapClassLoader 1 2961
java.net.FactoryURLClassLoader 1 835
sun.misc.Launcher$AppClassLoader 1 46
sun.reflect.DelegatingClassLoader 41 41
sun.misc.Launcher$ExtClassLoader 1 25
Affect(row-cnt:7) cost in 7 ms.
$ classloader -t # 类加载器间的层级关系
+-BootstrapClassLoader
+-sun.misc.Launcher$ExtClassLoader@1959f618
+-com.taobao.arthas.agent.ArthasClassloader@5fc476c6
+-com.taobao.arthas.agent.ArthasClassloader@5017e14b
+-sun.misc.Launcher$AppClassLoader@5c647e05
+-java.net.FactoryURLClassLoader@4ad317f0
+-org.springframework.boot.loader.LaunchedURLClassLoader@20ad9418
Affect(row-cnt:7) cost in 5 ms

五、线上代码热更新(动态修改上线项目代码)

手动在代码中抛异常,不停机不重新发包的情况下,修改线上代码



启动服务也达到我们预期异常

替换代码的流程:

1、jad命令 将需要更改的文件先进行反编译,保存下来 ,编译器修改

$ jad --source--only com.example.demo.DemoApplication > /data/DemoApplication.java

修改完以后需要将类重新加载到JVM

2、SC命令 查找当前类是哪个classLoader加载的

$ sc -d *DemoApplication | grep classLoader

 classLoaderHash   20ad9418 #类加载器  编号

3、MC命令 用指定的classloader重新将类在内存中编译

$ mc -c 20ad9418 /data/DemoApplication.java -d /data
Memory compiler output:
/data/com/example/demo/DemoApplication.class

4、redefine命令 将编译后的类加载到JVM

上边编译后的.class文件地址

$ redefine /data/com/example/demo/DemoApplication.class
redefine success, size: 1

文件替换后我们再次访问一下程序,发现异常没有了程序已经是我们修改正确后的,class文件替换成功

这样我们就用arthas现实了不停机、不发包替换了生产环境的Java代码,功能确实比较强大,本文只揭开了arthas强大功能的冰山一角,后续将出更详细的文章,方便大家一起学习

水文一篇希望对您有一点帮助,学无止境,加油!


WeChat:关注公重号:【程序员内点事】,免费获取2000G学习资料,内含精选面试题,SSM、Spring全家桶、微服务、MySQL、集群、分布式、中间件、Linux、多线程、Docker等等免费学习视频,持续更新中!

不停机替换线上代码? 你没听错,Arthas它能做到的更多相关文章

  1. Springboot拦截器线上代码失效

    今天想测试下线上代码,能否正常的执行未登录的拦截.所以把拦截器的代码给开放出来,但是没想到线上代码addInerceptors(InterceptorRegistry registry) 这个方法一直 ...

  2. 如何利用Grunt生成对应的Source Map文件,线上代码压缩使用chrome浏览器便于调式

    如何利用Grunt生成对应的Source Map文件,线上代码压缩使用chrome浏览器便于调式 首先我们来说说为何要生成sourceMap文件呢?简单的说,sourceMap是为了压缩后的代码调式提 ...

  3. 调试工具-fiddler:本地资源替换线上调试

    Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的“进出”Fiddler的数据(指cookie,html,js,css等文件,这 ...

  4. 用fiddler替换线上网页资源调试界面

    fiddler 是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有进出fiddler的数据(指cookie,html,js,css等文件,这些都 ...

  5. 不停机修改线上 MySQL 主键字段 以及其带来的问题和总结思考

    起因: 线上 user 数据库没有自增字段,数据量已经达到百万级.无论是给离线仓库还是数据分析同步数据,没有主键自增 id 都是杀手级的困难.所以在使用 create_time 痛苦了几次之后准备彻底 ...

  6. 如何用 fiddler 调试线上代码

    有时代码上线了,突然就碰到了坑爹的错误.或者有时看别人家线上的代码,对于一个文件想 fork 下来试试效果又不想把全部文件拉到本地,都可以使用 fiddler 的线上调试功能. 比方说我们打开携程的首 ...

  7. 利用Chrome浏览器调试线上代码

    前言 之前调试前端bug都是在开发环境中做完并多次测试没有问题之后发布测试环境,验收合格之后发布生产.但生产环境偏偏会有和开发和测试环境不一致的情况,例如测试环境需要加密,而开发环境先不加密,测试环境 ...

  8. Fiddler中使用AutoResponder创建规则替换线上文件

    Fiddler 的AutoResponder tab允许你从本地返回文件,而不用将http request 发送到服务器上. 1.AutoResponder规则实例 (1) 打开博客园首页,把博客园的 ...

  9. git 获取线上代码并合并到本地

    //查询当前远程的版本 $ git remote -v //获取最新代码到本地(本地当前分支为[branch],获取的远端的分支为[origin/branch]) $ git fetch origin ...

随机推荐

  1. 洛谷p2149----两个终点和两个起点,最短路最大交汇长度!!!

    说实话,这题真第一次见,学到了不少有趣的东西,因吹丝汀!! 思路:因为不可能同时并行和相遇(我也不知道为啥,等我会证明了就来说说) 所以正向建边再反向建边,拓扑排序+dp求最下长路,记录下最大的就是解 ...

  2. 【重学Node.js 第4篇】实现一个简易爬虫&启动定时任务

    实现一个简易爬虫&启动定时任务 课程介绍看这里:https://www.cnblogs.com/zhangran/p/11963616.html 项目github地址:https://gith ...

  3. spring cloud Gateway简单使用

    一.引子 2年前有幸使用过一次Spring Cloud (1.5.9),那次用的是ZUUL做网关,没有使用Gateway做网关,一直是个小遗憾.终于在2年后的19年底再次使用Spring Cloud, ...

  4. wide&deep模型演化

    推荐系统模型演化 LR-->GBDT+LR FM-->FFM-->GBDT+FM|FFM FTRL-->GBDT+FTRL Wide&DeepModel (Deep l ...

  5. FlyweightPattern(享元模式)-----Java/.Net

    享元模式(Flyweight Pattern)主要用于减少创建对象的数量,以减少内存占用和提高性能.这种类型的设计模式属于结构型模式,它提供了减少对象数量从而改善应用所需的对象结构的方式

  6. Django进阶一

    目录 表关系创建 django请求生命周期流程 路由层 无名分组 有名分组 反向解析 路由分发 名称空间 虚拟环境 django版本区别 伪静态 视图层 三板斧 JsonResponse前后端交互数据 ...

  7. 二、Spring Cloud之注册中心 Eureka

    前言 算是正式开始学习 spring cloud 的项目知识了,大概的知道Springcloud 是由众多的微服务组成的,所以我们现在一个一个的来学习吧. 注册中心,在微服务中算是核心了.所有的服务都 ...

  8. 记录我的 python 学习历程-Day12 生成器/推导式/内置函数Ⅰ

    一.生成器 初识生成器 生成器的本质就是迭代器,在python社区中,大多数时候都把迭代器和生成器是做同一个概念. 唯一的不同就是: 迭代器都是Python给你提供的已经写好的工具或者通过数据转化得来 ...

  9. linux修改环境变量的三种方法【转】

    [环境变量配置的三个方法] 如想将一个路径加入到$PATH中,可以像下面这样做:  1. 控制台中,不赞成使用这种方法,因为换个shell,你的设置就无效了,因此这种方法仅仅是临时使用,以后要使用的时 ...

  10. P1551 亲戚 并查集

    P1551 亲戚 题目背景 若某个家族人员过于庞大,要判断两个是否是亲戚,确实还很不容易,现在给出某个亲戚关系图,求任意给出的两个人是否具有亲戚关系. 题目描述 规定:x和y是亲戚,y和z是亲戚,那么 ...