[转帖]SkyWalking告警使用
SkyWalking告警
SkyWalking提供了强大的监控告警功能,在监控到应用出现问题的时候,会调用webhook或者gRPC hook或者Wechat DingDing等工具报告警告信息
而且SkyWalking已经提供了许多已经写好的监控告警规则参考config目录下的oal

所有的.oal文件中的每一行对应一个metrics name 对应一种监控规则 SkyWalking使用特殊的语法进行监控度量指标的绑定
如
service_resp_time = from(Service.latency).longAvg();
from(Server.latency)表示从服务Service的维度来度量.longAvg()表示度量的平均响应时间
告警配置文件
config/alarm-settings.yml
里面提供了一些默认告警配置比如响应时长监控 数据库慢查询等
拿一个配置来举例
rules:
# Rule unique name, must be ended with `_rule`.
service_resp_time_rule: # 自定义监控项名称 必须以_rule结尾
metrics-name: service_resp_time # metrics-name 度量方式 对应.oal里面一项
op: ">" # 操作符
threshold: 1000 #阈值
period: 10 # 时间窗口 10表示10min
count: 3 # 超过阈值的次数
silence-period: 5 # 停顿时间 如果 5分钟之类多次出现这个告警 不会调用hook
message: Response time of service {name} is more than 1000ms in 3 minutes of last 10 minutes. # 调用 hook的消息模板
以上监控告警项翻译过来就是 一个Service服务下 平均响应时长在10分钟之类有3次以上超过1000ms就调用hook发送message中的数据(如果5min多次超过阈值不会调用2次hook)
其他的告警项可以参考官方文档进行配置 也可以参考官网文档中的oal语法进行自定义度量规则
https://skywalking.apache.org/docs/main/latest/en/setup/backend/backend-alarm/
https://skywalking.apache.org/docs/main/latest/en/concepts-and-designs/oal/
编写我们自定的webhook
SkyWalking在触发告警之后可以发送一个POST请求的webHook给我们的服务,我们的服务可以通过获取的他告警的message信息调用自己的短信服务 Wechat DingDing之类的服务通知对应的人员进行故障的处理
下面以简单的webhook为例
首先编写一个javabean来接受post发送过来的数据
@Data
public class SkyWalkingAlarmMessage {<span class="token keyword">private</span> <span class="token keyword">int</span> scopeId<span class="token punctuation">;</span>
<span class="token keyword">private</span> String scope<span class="token punctuation">;</span>
<span class="token keyword">private</span> String name<span class="token punctuation">;</span>
<span class="token keyword">private</span> String id0<span class="token punctuation">;</span>
<span class="token keyword">private</span> String id1<span class="token punctuation">;</span>
<span class="token keyword">private</span> String ruleName<span class="token punctuation">;</span>
<span class="token keyword">private</span> String alarmMessage<span class="token punctuation">;</span>
<span class="token keyword">private</span> <span class="token keyword">long</span> startTime<span class="token punctuation">;</span>
}
添加一个controller接口
@GetMapping("slow")
public String slow() throws InterruptedException {
TimeUnit.SECONDS.sleep(2);
return "slow";
}<span class="token annotation punctuation">@PostMapping</span><span class="token punctuation">(</span><span class="token string">"webhook"</span><span class="token punctuation">)</span>
<span class="token keyword">public</span> <span class="token keyword">void</span> <span class="token function">webhook</span><span class="token punctuation">(</span><span class="token annotation punctuation">@RequestBody</span> List<span class="token generics function"><span class="token punctuation"><</span>SkyWalkingAlarmMessage<span class="token punctuation">></span></span> messages<span class="token punctuation">)</span> <span class="token punctuation">{<!-- --></span>
messages<span class="token punctuation">.</span><span class="token function">forEach</span><span class="token punctuation">(</span>System<span class="token punctuation">.</span>out<span class="token operator">:</span><span class="token operator">:</span>println<span class="token punctuation">)</span><span class="token punctuation">;</span>
<span class="token punctuation">}</span>
修改alarm-settings.yml配置文件
webhooks:
- http://127.0.0.1:9090/webhook #指定回调地址
# - http://127.0.0.1/go-wechat/然后多次请求 /slow接口造成响应时长慢的问题
最终/webhook收到Skywalking的告警信息

然后我们就可以拿到SkyWalking提供的告警信息来子定制自己的告警逻辑
使用nacos动态配置告警
安装nacos并启动 参考nacos官网文档略过
修改SkyWalking的application.yml配置文件中的configuration标签从none改为nacos
configuration:
selector: ${SW_CONFIGURATION:nacos}修改nacos的相关配置 主要需要修改nacos的地址 端口 账号密码 namespace 和 group
nacos:
# Nacos Server Host
serverAddr: ${SW_CONFIG_NACOS_SERVER_ADDR:127.0.0.1}
# Nacos Server Port
port: ${SW_CONFIG_NACOS_SERVER_PORT:8848}
# Nacos Configuration Group
group: ${SW_CONFIG_NACOS_SERVER_GROUP:skywalking}
# Nacos Configuration namespace
namespace: ${SW_CONFIG_NACOS_SERVER_NAMESPACE:test}
# Unit seconds, sync period. Default fetch every 60 seconds.
period: ${SW_CONFIG_NACOS_PERIOD:60}
# Nacos auth username
username: ${SW_CONFIG_NACOS_USERNAME:"nacos"}
password: ${SW_CONFIG_NACOS_PASSWORD:"nacos"}
# Nacos auth accessKey
accessKey: ${SW_CONFIG_NACOS_ACCESSKEY:""}
secretKey: ${SW_CONFIG_NACOS_SECRETKEY:""}默认Skywalking 在nacos上的namespace为 test group为skywalking
在nacos上创建test的namespace 和 添加group 为skywalking的告警配置

添加告警配置

注意 在nacos的dataId必须跟skywalking官网里面的Dynamic Configuration的key一致 参考官网https://skywalking.apache.org/docs/main/latest/en/setup/backend/dynamic-config/

此时skywalking就会监听到nacos上的动态配置的修改

注意 Skywalking只有部分配置支持动态配置 具体参考官方文档里面Dynamic Configuration 中支持的Conig Key
[转帖]SkyWalking告警使用的更多相关文章
- Apache SkyWalking 告警配置指南
Apache SkyWalking Apache SkyWalking是分布式系统的应用程序性能监视工具(Application Performance Management,APM),专为微服务.云 ...
- 全链路跟踪skywalking简介
该文章主要包括以下内容: skywalking的简介 skywalking的使用,支持多种调用中间件(httpclent,springmvc,dubbo,mysql等等) skywalking的tra ...
- Spring Cloud Alibaba - SkyWalking
SkyWalking 简介 分布式链路跟踪是分布式系统的应用程序性能监视工具,专为微服务.云原生架构和基于容器(Docker.K8s)架构而设计: 也就是说Skywalking是用于微服务的" ...
- .NET6接入Skywalking链路追踪完整流程
一.Skywalking介绍 Skywalking是一款分布式链路追踪组件,什么是链路追踪? 随着微服务架构的流行,服务按照不同的维度进行拆分,一次请求往往需要涉及到多个服务.互联网应用构建在不同的软 ...
- 基于SkyWalking的分布式跟踪系统 - 异常告警
通过前面2篇文章我们搭建了SW的基础环境,监控了微服务,能了解所有服务的运行情况.但是当出现服务响应慢,接口耗时严重时我们需要立即定位到问题,这就需要我们今天的主角--监控告警,同时此篇也是SW系列的 ...
- SkyWalking配上告警更优秀
前言 对于监控系统来说,不可能让人一直盯着监控看板,而更多的是以自动提醒的方式,比如邮件.短信或微信推送等,当达到或超出预设的告警指标时,就自动发送消息提醒,下面就来说说如何配置SkyWalking的 ...
- python实现skywalking邮件告警webhook接口
1.介绍 Skywalking可以对链路追踪到数据进行告警规则配置,例如响应时间.响应百分比等.发送警告通过调用webhook接口完成.webhook接口用户可以自定义. 2.默认告警规则 告警配置文 ...
- 开源APM系统skywalking介绍与使用
介绍 SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performance Management系统.他被用于追踪.监控和诊 ...
- Skywalking部署常见问题以及注意事项
Skywalking部署常见问题以及注意事项 Intro SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performanc ...
- SkyWalking
介绍 SkyWalking 创建与2015年,提供分布式追踪功能.从5.x开始,项目进化为一个完成功能的Application Performance Management系统.他被用于追踪.监控和诊 ...
随机推荐
- k8s~动态生成pvc和pv
有时,我们不想手动建立pv和pvc,这时,我们可以通过strongClass存储类来帮我们实现,动态建立pvc,并动态为它分配pv存储空间,我们以nfs为例,说一下动态分配在nfs存储截至上建立pv的 ...
- C++ 动态库热加载
C++ 动态库热加载 本文参考自 project-based-learning 中的 Build a Live Code-reloader Library for C++,主要内容都来自于其中,但是对 ...
- libGDX游戏开发之打包游戏(十二)
libGDX游戏开发之打包游戏(十二) libGDX系列,游戏开发有unity3D巴拉巴拉的,为啥还用java开发?因为我是Java程序员emm-国内用libgdx比较少,多数情况需要去官网和goog ...
- Word2Vec模型总结
1.Huffman树的构造 解析:给定n个权值作为n个叶子节点,构造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称Huffman树.数的带权路径长度规定为所有叶子节点的带权 ...
- 基于RNN和CTC的语音识别模型,探索语境偏移解决之道
摘要:在本文介绍的工作中,我们展示了一个基于RNN和CTC的语音识别模型,在这个模型中,基于WFST的解码能够有效地融合词典和语言模型. 本文分享自华为云社区<语境偏移如何解决?专有领域端到端A ...
- TICS端到端实践:企业积分查询作业开发
摘要:本次TICS端到端体验,将以一个"小微企业信用评分"的场景为例. 本文分享自华为云社区<基于华为隐私计算产品TICS实现端到端的企业积分查询作业[玩转华为云]>, ...
- 1ms的时延,10Gbps速率…5G通信技术解读
摘要:5G通信的关键技术有哪些呢?5G对于移动互联网场景和物联网场景又带来了哪些新的技术和变革? 本文分享自华为云社区<5G通信关键技术解读>,作者:Super.雯 . 5G作为目前最新一 ...
- 实用教程|手把手带你离线部署Walrus
Walrus 0.4 已于近日发布,新版本中采用的应用模型可以让运维团队仅需配置1次,即可在多模态的基础设施及环境中运行包括应用服务及周边依赖资源在内的全套应用系统.这极大减少了运维人员的工作量,同时 ...
- 企业需要知道的5个 IAM 最佳实践
在之前的文章中,我们了解了在代码发布到 GitHub 之前如何管理用户权限.但你知道吗?人为错误竟然是迄今为止数据泄露的主要原因!根据统计,高达95%的数据泄露是由配置错误和不良网络环境引起的.黑客通 ...
- SBOM落地的关键一步——漏洞可利用性交流(VEX)
SolarWinds 网络安全事件的影响,加上 Log4j 漏洞对众多知名企业产生难以估量的后果,使软件供应链安全成为安全领域的热门话题,并且SBOM现在成为网络安全漏洞计划的一个重要组成部分. SB ...