SkyWalking告警

SkyWalking提供了强大的监控告警功能,在监控到应用出现问题的时候,会调用webhook或者gRPC hook或者Wechat DingDing等工具报告警告信息

而且SkyWalking已经提供了许多已经写好的监控告警规则参考config目录下的oal

所有的.oal文件中的每一行对应一个metrics name 对应一种监控规则 SkyWalking使用特殊的语法进行监控度量指标的绑定

service_resp_time = from(Service.latency).longAvg();

from(Server.latency)表示从服务Service的维度来度量.longAvg()表示度量的平均响应时间

告警配置文件

config/alarm-settings.yml

里面提供了一些默认告警配置比如响应时长监控 数据库慢查询等

拿一个配置来举例

rules:
# Rule unique name, must be ended with `_rule`.
service_resp_time_rule: # 自定义监控项名称 必须以_rule结尾
metrics-name: service_resp_time # metrics-name 度量方式 对应.oal里面一项
op: ">" # 操作符
threshold: 1000 #阈值
period: 10 # 时间窗口 10表示10min
count: 3 # 超过阈值的次数
silence-period: 5 # 停顿时间 如果 5分钟之类多次出现这个告警 不会调用hook
message: Response time of service {name} is more than 1000ms in 3 minutes of last 10 minutes. # 调用 hook的消息模板

以上监控告警项翻译过来就是 一个Service服务下 平均响应时长在10分钟之类有3次以上超过1000ms就调用hook发送message中的数据(如果5min多次超过阈值不会调用2次hook)

其他的告警项可以参考官方文档进行配置 也可以参考官网文档中的oal语法进行自定义度量规则

https://skywalking.apache.org/docs/main/latest/en/setup/backend/backend-alarm/

https://skywalking.apache.org/docs/main/latest/en/concepts-and-designs/oal/

编写我们自定的webhook

SkyWalking在触发告警之后可以发送一个POST请求的webHook给我们的服务,我们的服务可以通过获取的他告警的message信息调用自己的短信服务 Wechat DingDing之类的服务通知对应的人员进行故障的处理

下面以简单的webhook为例

  1. 首先编写一个javabean来接受post发送过来的数据

    @Data
    public class SkyWalkingAlarmMessage {
    <span class="token keyword">private</span> <span class="token keyword">int</span> scopeId<span class="token punctuation">;</span>
    <span class="token keyword">private</span> String scope<span class="token punctuation">;</span>
    <span class="token keyword">private</span> String name<span class="token punctuation">;</span>
    <span class="token keyword">private</span> String id0<span class="token punctuation">;</span>
    <span class="token keyword">private</span> String id1<span class="token punctuation">;</span>
    <span class="token keyword">private</span> String ruleName<span class="token punctuation">;</span>
    <span class="token keyword">private</span> String alarmMessage<span class="token punctuation">;</span>
    <span class="token keyword">private</span> <span class="token keyword">long</span> startTime<span class="token punctuation">;</span>

    }

  2. 添加一个controller接口

        @GetMapping("slow")
    public String slow() throws InterruptedException {
    TimeUnit.SECONDS.sleep(2);
    return "slow";
    }
    <span class="token annotation punctuation">@PostMapping</span><span class="token punctuation">(</span><span class="token string">"webhook"</span><span class="token punctuation">)</span>
    <span class="token keyword">public</span> <span class="token keyword">void</span> <span class="token function">webhook</span><span class="token punctuation">(</span><span class="token annotation punctuation">@RequestBody</span> List<span class="token generics function"><span class="token punctuation">&lt;</span>SkyWalkingAlarmMessage<span class="token punctuation">&gt;</span></span> messages<span class="token punctuation">)</span> <span class="token punctuation">{<!-- --></span>
    messages<span class="token punctuation">.</span><span class="token function">forEach</span><span class="token punctuation">(</span>System<span class="token punctuation">.</span>out<span class="token operator">:</span><span class="token operator">:</span>println<span class="token punctuation">)</span><span class="token punctuation">;</span>
    <span class="token punctuation">}</span>

  3. 修改alarm-settings.yml配置文件

    webhooks:
    - http://127.0.0.1:9090/webhook #指定回调地址
    # - http://127.0.0.1/go-wechat/
  4. 然后多次请求 /slow接口造成响应时长慢的问题

  5. 最终/webhook收到Skywalking的告警信息

  6. 然后我们就可以拿到SkyWalking提供的告警信息来子定制自己的告警逻辑


使用nacos动态配置告警

  1. 安装nacos并启动 参考nacos官网文档略过

  2. 修改SkyWalking的application.yml配置文件中的configuration标签从none改为nacos

    configuration:
    selector: ${SW_CONFIGURATION:nacos}
  3. 修改nacos的相关配置 主要需要修改nacos的地址 端口 账号密码 namespace 和 group

     nacos:
    # Nacos Server Host
    serverAddr: ${SW_CONFIG_NACOS_SERVER_ADDR:127.0.0.1}
    # Nacos Server Port
    port: ${SW_CONFIG_NACOS_SERVER_PORT:8848}
    # Nacos Configuration Group
    group: ${SW_CONFIG_NACOS_SERVER_GROUP:skywalking}
    # Nacos Configuration namespace
    namespace: ${SW_CONFIG_NACOS_SERVER_NAMESPACE:test}
    # Unit seconds, sync period. Default fetch every 60 seconds.
    period: ${SW_CONFIG_NACOS_PERIOD:60}
    # Nacos auth username
    username: ${SW_CONFIG_NACOS_USERNAME:"nacos"}
    password: ${SW_CONFIG_NACOS_PASSWORD:"nacos"}
    # Nacos auth accessKey
    accessKey: ${SW_CONFIG_NACOS_ACCESSKEY:""}
    secretKey: ${SW_CONFIG_NACOS_SECRETKEY:""}
  4. 默认Skywalking 在nacos上的namespace为 test group为skywalking

  5. 在nacos上创建test的namespace 和 添加group 为skywalking的告警配置

  6. 添加告警配置

    注意 在nacos的dataId必须跟skywalking官网里面的Dynamic Configuration的key一致 参考官网https://skywalking.apache.org/docs/main/latest/en/setup/backend/dynamic-config/

  7. 此时skywalking就会监听到nacos上的动态配置的修改

注意 Skywalking只有部分配置支持动态配置 具体参考官方文档里面Dynamic Configuration 中支持的Conig Key

[转帖]SkyWalking告警使用的更多相关文章

  1. Apache SkyWalking 告警配置指南

    Apache SkyWalking Apache SkyWalking是分布式系统的应用程序性能监视工具(Application Performance Management,APM),专为微服务.云 ...

  2. 全链路跟踪skywalking简介

    该文章主要包括以下内容: skywalking的简介 skywalking的使用,支持多种调用中间件(httpclent,springmvc,dubbo,mysql等等) skywalking的tra ...

  3. Spring Cloud Alibaba - SkyWalking

    SkyWalking 简介 分布式链路跟踪是分布式系统的应用程序性能监视工具,专为微服务.云原生架构和基于容器(Docker.K8s)架构而设计: 也就是说Skywalking是用于微服务的" ...

  4. .NET6接入Skywalking链路追踪完整流程

    一.Skywalking介绍 Skywalking是一款分布式链路追踪组件,什么是链路追踪? 随着微服务架构的流行,服务按照不同的维度进行拆分,一次请求往往需要涉及到多个服务.互联网应用构建在不同的软 ...

  5. 基于SkyWalking的分布式跟踪系统 - 异常告警

    通过前面2篇文章我们搭建了SW的基础环境,监控了微服务,能了解所有服务的运行情况.但是当出现服务响应慢,接口耗时严重时我们需要立即定位到问题,这就需要我们今天的主角--监控告警,同时此篇也是SW系列的 ...

  6. SkyWalking配上告警更优秀

    前言 对于监控系统来说,不可能让人一直盯着监控看板,而更多的是以自动提醒的方式,比如邮件.短信或微信推送等,当达到或超出预设的告警指标时,就自动发送消息提醒,下面就来说说如何配置SkyWalking的 ...

  7. python实现skywalking邮件告警webhook接口

    1.介绍 Skywalking可以对链路追踪到数据进行告警规则配置,例如响应时间.响应百分比等.发送警告通过调用webhook接口完成.webhook接口用户可以自定义. 2.默认告警规则 告警配置文 ...

  8. 开源APM系统skywalking介绍与使用

    介绍 SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performance Management系统.他被用于追踪.监控和诊 ...

  9. Skywalking部署常见问题以及注意事项

    Skywalking部署常见问题以及注意事项 Intro SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performanc ...

  10. SkyWalking

    介绍 SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performance Management系统.他被用于追踪.监控和诊 ...

随机推荐

  1. JavaFx 打开一个新窗口和窗口交互(四)

    JavaFx 打开一个新窗口和窗口交互(四) JavaFX 从入门入门到入土系列 前面我演示的demo都是单个窗口,那么如何实现多个窗口呢?使用Stage secondStage = new Stag ...

  2. Zookeeper 的基本使用

    维基百科对 Zookeeper 的介绍如下所示: Apache ZooKeeper是 Apache 软件基金会的一个软件项目,它为大型分布式计算提供开源的分布式配置服务.同步服务和命名注册 ZooKe ...

  3. centos7 安装 mysqlclient 报错

    报错如下: 解决方法: 先安装依赖: yum install mysql-devel 再安装: pip3 install mysqlclient

  4. 你真的会用 npx 吗❓❓❓

    Hello,大家好! 日常开发中大家应该经常使用 npm install xxx 来安装包依赖,那是否注意到npm升级到 npm@5.2.0 之后,在 npm 二进制命令旁边安装了一个 npx 二进制 ...

  5. 如何使用 Node.js Stream API 减少服务器端内存消耗?

    摘要:让我们看一个示例,展示在内存消耗方面,采用流的编程思路带来的巨大优越性. 本文分享自华为云社区<使用 Node.js Stream API 减少服务器端内存消耗的一个具体例子>,作者 ...

  6. CTPN+CRNN算法端到端实现文字识别的实战开发

    本文分享自华为云社区<CTPN+CRNN 算法端到端实现文字识别>,作者:HWCloudAI. OCR介绍 光学字符识别(英语:Optical Character Recognition, ...

  7. 火出边际的Serverless,你居然还不了解?

    摘要:图灵奖获得者David A. Patterson和Spark共同创始人Ion Stoica,在19年伯克利的会议上发布Serverless将是下一代默认的计算范式. 本文分享自华为云社区< ...

  8. 火山引擎 DataTester“智能发布”:覆盖产品研发、测试、上线全流程,一站式智能管理 A/B 实验

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,并进入官方交流群 A/B 测试是企业产品新老功能迭代时,进行效果监测的方法.通过 A/B 测试,可以提高功能改动给产品带来正向收益的确定性. ...

  9. JAVA PDF 截取N页,生成新文件,转图片,多个PDF 合并

    JAVA PDF 截取N页,生成新文件,转图片,多个PDF 合并 <dependency> <groupId>com.itextpdf</groupId> < ...

  10. BBS项目(五):xss攻击 上传图片问题 文章编辑、删除功能 用户头像修改 扩展部分

    目录 添加文章功能完善 富文本编辑器上传图片问题 文章编辑功能 文章删除功能 用户头像修改 扩展部分 补充 项目总结 添加文章功能完善 下载第三方模块: pip install bs4 pip ins ...