springcloud 分布式服务跟踪sleuth+zipkin
原文:https://www.jianshu.com/p/6ef0b76b9c26
分布式服务跟踪需求
随着分布式服务越来越多,调用关系越来越复杂,组合接口越来越多,要进行分布式服务跟踪监控的需求也越来越强烈,对于项目负责人当生产环境出现问题的时候需要第一时间知道哪个服务节点出现了问题,这就需要我们能够通过监控系统第一时间发现。
分布式服务跟踪现状
目前主流的分布式服务跟踪开源框架主要有3个,大家用的比较多的是点评的CAT、pinpoint和sleuth+zipkin,下面分别介绍下这几个框架的优缺点,之前我们公司内部也都使用过。
CAT:大众点评开源的内部服务跟踪框架,可以监控服务的关联关系,每个服务节点的耗时情况,数据库的耗时、网络的故障等等,监控的内容还是很全面的,但是需要注意的是CAT对代码存在一定的侵入性,需要对杯监控的方法增加注解才能完成服务监控;
pinpoint:是一个韩国人写的开源服务跟踪框架,pinpoint的好处就是对被监控的工程代码没有侵入性,只需要集成pinpoint的jar包就可以完成基本的服务性能监控了,上手非常简单;
sleuth+zipkin:适合于公司使用springcloud框架的工程,集成起来更加方便,能和springcloud相关套件配合使用,能够监控到服务依赖关联、服务耗时等基本信息,也提供了丰富的查询功能,方便快速定位问题。
这3个开源框架,各有优缺点,CAT的优点是有更强的定制性,不仅仅局限在APM信息监控,还可以进行更多的功能拓展;pinpoint的优点就是容易上手,但是很难进行后续的功能扩展;sleuth的优点是在springcloud工程中集成非常简单,但也是后续很难进行功能扩展。
springcloud中的服务跟踪解决方案
springcloud作为主流的微服务框架中比较成熟的服务跟踪解决方案那就是sleuth+zipkin,如果公司内部是实用springcloud作为基础搭建微服务的,建议直接使用sleuth和zipkin,sleuth作为服务跟踪框架,zipkin作为服务跟踪展示框架,能够方便的查看出每个服务节点的耗时情况,并能够将组合服务的调用关系链直观的展示出来,方便发现问题,并且对微服务工程的侵入性比较小。
sleuth+zipkin原理
sleuth+zipkin的分布式服务跟踪方案和pinpoint一样都是根据google早年间发布的Dapper论文来实现的,这里简单描述下分布式服务跟踪的核心原理,要实现一个业务的全流程跟踪,那么每个全流程交易首先必须要有一个贯穿于全链路的TraceID用于标记出各个服务节点中哪些交易是归属于这笔业务交易的,但是我们筛选出了所有相关交易后还是无法知道每个服务节点之间的依赖关系和先后顺序关系,那么就还需要有一个表示这笔子交易的ID,因此在Dapper论文中又定义了一个SpanID,SpanID可以理解为在每个服务节点的最小工作单元,例如一个基本交易包含了请求和响应两个动作,那么就可以请求和响应各分配一个SpanID来唯一标示这个动作,请看下图,标示了3个串联调用的服务,每个服务都有一个请求动作和一个响应动作,在每个动作开始的时候都会分配一个唯一的SpanID,同时会将同一个TraceId一直传递下去。

在每个服务节点都集成sleuth服务,sleuth服务会自动为每笔交易动作第一个服务节点生成一个全局唯一TraceId,这个TraceID会一直跟随交易传递下去,同时sleuth会为当前的动作再生成一个全局唯一的SpanId,在SpanId中可以体现出这个动作的上一个父动作的SpanId,同时也包含了动作发生时间信息,通过这些信息就能够还原出一棵交易的树形结构,通过对每个动作的开始、结束时间求差就能知道该笔交易每个动作之间的耗时。
上面介绍了sleuth的大概原理,下面再介绍下zipkin的原理,zipkin在整个服务跟踪里是用于接收sleuth为每个交易生成的TraceId和SpanId,zipkin对收集到的这些信息进行实时计算后进行一个树形结构的耗时展示,同时也提供了准实时查询功能,只需要通过简单的配置就能够满足基本的分布式服务跟踪需求。
微服务工程支持sleuth客户端
下面介绍下在sleuth客户端的开发工作,只需要进行POM的配置,工程引入对sleuth的两个依赖(最后两个),就可以自动监控分布式服务了,非常简单。
<dependencies>
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-eureka</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-ribbon</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-sleuth</artifactId>
</dependency>
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-sleuth-zipkin</artifactId>
</dependency>
</dependencies>
下面这两条分别是两个服务在console里打出的日志信息,我们可以发现在日志头部多了几个信息。
[sleuth-testservice1,5856e53b441a241a,5856e53b441a241a,false] 1244 --- [nio-9091-exec-2] c.m.t.controller.TestController1 : ===call testController1===
[sleuth-testservice2,5856e53b441a241a,b1573c23f0322ab1,false] 1246 --- [nio-9092-exec-1] testservice.controller.TestController2 : ===call testController2===
- 第一个值:
sleuth-testservice1
,它记录了应用的名称,也就是application.yml
中spring.application.name
参数配置的属性。 - 第二个值:
5856e53b441a241a
,Spring Cloud Sleuth生成的一个ID,称为Trace ID,它用来标识一条请求链路。一条请求链路中包含一个Trace ID,多个Span ID。 - 第三个值:
5856e53b441a241a
,Spring Cloud Sleuth生成的另外一个ID,称为Span ID,它表示一个基本的工作单元,比如:发送一个HTTP请求。 - 第四个值:
false
,表示是否要将该信息输出到Zipkin等服务中来收集和展示,如果为true
则表示该笔日志信息会传递到zipkin服务器进行统计,sleuth不是每笔交易都会上送zipkin,一般5笔交易会有一笔抽样上送zipkin,这么做是为了保证zipkin的性能。
上面四个值中的TraceID
和SpanID
是Spring Cloud Sleuth实现分布式服务跟踪的核心。在一次服务请求链路的调用过程中,会保持并传递同一个TraceID
,从而将整个分布于不同微服务进程中的请求跟踪信息串联起来,以上面输出内容为例,sleuth-testservice1
和sleuth-testservice2
同属于一个前端服务请求来源,所以他们的TraceID
是相同的,处于同一条请求链路中。
同时为了将服务跟踪日志能发送到zipkin服务端进行统计,还需要在application.yml中配置zipkin的服务端地址。
server:
port: 9092
spring:
application:
name: sleuth-testservice2
zipkin:
base-url: http://XX.XX.XX.XX:9411
eureka:
client:
serviceUrl:
defaultZone: http://XX.XX.XX.XX:8761/eureka/
zipkin服务端
zipkin的服务端配置也非常简单,只需要两步配置。
首先在POM中引入zipkin的相关依赖,如下:
<dependencies>
<dependency>
<groupId>io.zipkin.java</groupId>
<artifactId>zipkin-server</artifactId>
</dependency>
<dependency>
<groupId>io.zipkin.java</groupId>
<artifactId>zipkin-autoconfigure-ui</artifactId>
</dependency>
</dependencies>
再创建一个springboot的Applicatoin启动类,在启动类中加上 @EnableZipkinServer
zipkin服务器注解,在需要被跟踪监控的sleuth客户端的配置文件中加上zipkin服务器地址的配置,上面也介绍过了。
@EnableZipkinServer
@SpringBootApplication
public class ZipkinApplication {
public static void main(String[] args) {
SpringApplication.run(ZipkinApplication.class, args);
}
}
打开http://XX.XX.XX.XX:9411/ 地址就可以查看到zipkin的console页面,在页面中输入需要查询的关键字和起止时间就可以进行查询了,这里需要注意因为sleuth并不是所有跟踪日志都会发送到zipkin,所以在zipkin查询到的只是一个采样统计。

点开一个组合交易,可以看到这个组合交易由两个服务组成,图中也显示了节点耗时。

点开后还可以看到每一个链路动作的明细信息。

总结
这样就把在springcloud中通过sleuth、zipkin进行监控的过程从原理到实现进行了一个简单的介绍,总的来说还是比较简单的,原理也不是很复杂,感兴趣的同学还可以翻看下相关源码,sleuth的核心是唯一发号器和动态代理,zipkin的核心是交易的树形结构的生成和内存实时统计,本文涉及到的源码都加到了入门系列的工程中,感兴趣的可以下载下来看看,涉及到的模块有zipkin-server、sleuth-testservice1、sleuth-testservice2。
springcloud 分布式服务跟踪sleuth+zipkin的更多相关文章
- Spring Cloud第九篇 | 分布式服务跟踪Sleuth
本文是Spring Cloud专栏的第九篇文章,了解前八篇文章内容有助于更好的理解本文: Spring Cloud第一篇 | Spring Cloud前言及其常用组件介绍概览 Spring Cl ...
- Spring Cloud 分布式链路跟踪 Sleuth + Zipkin + Elasticsearch【Finchley 版】
随着业务越来越复杂,系统也随之进行各种拆分,特别是随着微服务架构的兴起,看似一个简单的应用,后台可能很多服务在支撑:一个请求可能需要多个服务的调用:当请求迟缓或不可用时,无法得知是哪个微服务引起的,这 ...
- Spring Cloud(十二):分布式链路跟踪 Sleuth 与 Zipkin【Finchley 版】
Spring Cloud(十二):分布式链路跟踪 Sleuth 与 Zipkin[Finchley 版] 发表于 2018-04-24 | 随着业务发展,系统拆分导致系统调用链路愈发复杂一个前端请 ...
- 分布式链路跟踪 Sleuth 与 Zipkin【Finchley 版】
原创: dqqzj SpringForAll社区 今天 Spring Cloud Sleuth Span是基本的工作单位. 例如,发送 RPC是一个新的跨度,就像向RPC发送响应一样. 跨度由跨度唯一 ...
- 微服务—分布式服务追踪sleuth和zipkin
随着业务的发展,系统规模也会越来越大,各微服务间的调用关系也越来越错综复杂. 通常一个客户端发起的请求在后端系统中会经过多个不同的微服务调用来协同产生最后的请求结果, 在复杂的微服务架构系统中,几乎每 ...
- 【Spring Cloud】Spring Cloud之Spring Cloud Sleuth,分布式服务跟踪(1)
一.Spring Cloud Sleuth组件的作用 为微服务架构增加分布式服务跟踪的能力,对于每个请求,进行全链路调用的跟踪,可以帮助我们快速发现错误根源以及监控分析每条请求链路上的性能瓶颈等. 二 ...
- 第11章 分布式服务跟踪: Spring Cloud Sleuth
通常一个由客户端发起的请求在后端系统中会经过多个不同的微服务调用来协同产生最后的请求结果, 在复杂的微服务架构系统中, 几乎每一个前端请求都会形成一条复杂的分布式服务调用链路, 在每条链路中任何一个依 ...
- 分布式服务跟踪及Spring Cloud的实现
在分布式服务架构中,需要对分布式服务进行治理——在分布式服务协同向用户提供服务时,每个请求都被哪些服务处理?在遇到问题时,在调用哪个服务上发生了问题?在分析性能时,调用各个服务都花了多长时间?哪些调用 ...
- spring-cloud-sleuth分布式服务跟踪
通过之前的 Spring Cloud 组件学习, 实际上我们已经能够通过使用它们搭建起一 个基础的微服务架构系统来实现业务需求了. 但是, 随着业务的发展, 系统规模也会变得越来越大, 各微服务间的调 ...
随机推荐
- Oracle SQL部分练习题
SQL练习题 注:查询列表不建议用 “*” 1.列出至少有一个雇员的所有部门: a. select * from dept where deptno in(select distinct ...
- 002_分布式搜索引擎Elasticsearch的查询与过滤
一.写入 先来一个简单的官方例子,插入的参数为-XPUT,插入一条记录. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 curl -XPUT 'http:/ ...
- 阿里云RDS的mysql数据库占用空间超过90%的处理
阿里云RDS数据库最大支持2T,目前已经占用了90%,如果进行分库或者迁移比较麻烦,思路是找出占用空间过大的日志或不重要的文件进行删除操作 查询所有数据库占用磁盘空间大小的SQL语句: show bi ...
- ps自由变换以及再次变换快捷键
ctrl+t:自由变换ctrl+shift+t:再次变换ctrl+shift+alt+t:复制一次,再次变换.
- 【前端vue开发】vue开发总结
- WebApi 文档Swagger
NET WebApi 文档Swagger中度优化 本文版权归博客园和作者吴双本人共同所有,转载和爬虫请注明原文地址:www.cnblogs.com/tdws 写在前面 在后台接口开发中,接口文 ...
- Redux架构
深入Redux架构 阅读目录 关于redux API 中间件与异步操作 异步操作的基本思路 React-Redux的用法 回到顶部 关于redux 之前写了一篇通过一个demo了解Redux,但对 ...
- Python3 CNN中卷积和池化的实现--限制为二维输入
# -*- coding: utf-8 -*- """ Created on Wed Jan 31 14:10:03 2018 @author: markli " ...
- sublime text3中文乱码问题解决方案
1. 首先需要安装包convertToUTF8,安装完重启后如果仍然不能正常显示中文,则需要进行用户配置. 2.用户配置:preferences>settings 在用户设置加入一个属性:&qu ...
- lvs+keepalived 02
LVS keepalived 高可用负载均衡 环境 IP HOSTNAME Describe 192.168.100.30 lvs01 主负载 192.168.100.31 lvs02 备负载 192 ...