Grafana 系列文章(二):使用 Grafana Agent 和 Grafana Tempo 进行 Tracing
️URL: https://grafana.com/blog/2020/11/17/tracing-with-the-grafana-cloud-agent-and-grafana-tempo/
✍Author: Robert Fratto • 17 Nov 2020
Description:
Here's your starter guide to configuring the Grafana Agent to collect traces and ship them to Tempo, our new distributed tracing system.
编者注:代码片段已于 2021-06-23 更新。
早在 3 月份,我们 介绍 了 Grafana Agent,这是 Prometheus 的一个子集,为托管指标而建。它使用了很多与 Prometheus 相同的经过实战检验的代码,可以节省 40%的内存使用。
自推出以来,我们一直在为 Agent 添加功能。现在,新增功能有:集群机制,额外的 Prometheus exporters,以及对 Loki 的支持。
我们的最新功能。Grafana Tempo! 这是一个易于操作、规模大、成本低的分布式追踪系统。
在这篇文章中,我们将探讨如何配置 Agent 来收集跟踪,并将其发送到 Tempo。
配置 Tempo 支持
在你现有的 Agent 配置文件中添加 trace 支持很简单。你所需要做的就是添加一个tempo 块。熟悉 OpenTelemetry Collector 的人可能会认出以下代码块中的一些设置。
# other Agent settings
tempo:
configs:
- name: default
receivers:
jaeger:
protocols:
thrift_compact:
attributes:
actions:
- action: upsert
key: env
value: prod
remote_write:
- endpoint: tempo-us-central1.grafana.net:443
basic_auth:
username: 12345
# Replace <Grafana API Key> below with an API key that
# has the "Metrics Publisher" role
password: <Grafana API Key>
接收器允许 Grafana Agent 接受来自众多系统的追踪数据。我们目前支持从 Jaeger、Kafka、OpenCensus、OTLP 和 Zipkin 接收跨度。
虽然 OpenTelemetry Collector 允许你配置指标和日志接收器,但我们目前只公开了与追踪有关的接收器。我们相信 Agent 内现有的 Prometheus 和 Loki 支持将满足其他支柱观察能力的需要。
如果你愿意,你可以将代理配置为接受每一个接收器的数据。
tempo:
# 键,配置启用一个接收器或其协议。
# 把它设置为空值可以启用该接收器或协议的默认配置。
receivers:
# 支持 grpc14250 端口的 spans,
# 6832 端口的 thrift_binary,
# 6831 端口的 thrift_compact,
# 以及 14268 端口的 thrift_http。
# 具体的端口号可以 特定的端口号可以在协议的配置中自定义。
jaeger:
protocols:
grpc:
thrift_binary:
thrift_compact:
thrift_http:
# 配置 opencensus 支持。span 可以通过端口 55678 发送,
# 这是默认的。
opencensus:
# 配置 otlp 支持。Spans 可以被发送到 55680 端口,
# 这是默认的。
otlp:
protocols:
grpc:
http:
# 配置 zipkin 支持。Spans 可以被发送到 9411 端口,
# 这是默认的。
zipkin:
另一方面,属性使操作者能够操作发送到 Grafana Agent 的传入 span 上的标签。当你想添加一组固定的元数据时,这真的很有用,比如备注一个环境。
attributes:
actions:
- action: upsert
key: env
value: prod
上面的配置例子为所有收到的 span 设置了一个 env标签,其值为prod。upsert动作意味着具有现有 env标签的span将被覆盖。这对于保证你知道哪个 Agent 收到了 span 以及它在哪个环境下运行是很有用的。
属性 (Attributes ) 真的很强大,并且支持超出这里的例子的使用情况。请查看 OpenTelemetry 关于它们的文档 以了解更多信息。
但在 Grafana Labs,我们并没有仅仅使用 OpenTelemetry Collector 的一个子集就了事;我们增加了对 Prometheus 风格的scrape_configs的支持,可以用来根据发现目标的元数据自动标记传入的 span。
用 Prometheus 服务发现附加元数据
Promtail 是一个日志客户端,用于收集日志并将其发送到 Loki。它最强大的功能之一是支持使用 Prometheus 的服务发现机制。这些服务发现机制使你能够将相同的元数据附加到你的日志和你的指标上。
当你的指标和日志有相同的元数据时,你就可以降低在系统之间切换的认知开销,并且让有一种你的所有数据都储存在一个系统中的 "感觉"。我们希望这种能力也能扩展到追踪方面。
Joe Elliott 在 Agent 的追踪子系统中增加了相同的 Prometheus 服务发现机制。它的工作原理是将发送 span 的系统的 IP 地址与发现的服务发现目标的地址相匹配。
对于 Kubernetes 用户来说,这意味着你可以动态地附加发送 span 的容器的命名空间、pod 和 container 名称的元数据。
tempo:
configs:
- name: default
receivers:
jaeger:
protocols:
thrift_compact:
scrape_configs:
- bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
job_name: kubernetes-pods
kubernetes_sd_configs:
- role: pod
relabel_configs:
- source_labels: [__meta_kubernetes_namespace]
target_label: namespace
- source_labels: [__meta_kubernetes_pod_name]
target_label: pod
- source_labels: [__meta_kubernetes_pod_container_name]
target_label: container
tls_config:
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
insecure_skip_verify: false
# remote_write, etc

不过,这个功能不仅仅对 Kubernetes 用户有用。这里支持 Prometheus 的所有 各种服务发现机制。这意味着你可以在你的度量、日志和追踪之间使用相同的scrape_configs来获得相同的标签集,当从你的度量、日志和追踪中切换时,可以轻松地在你的可观察性数据之间转换。
配置 Span 的推送方式
当然,仅仅收集 span 并不十分有用!配置 Tempo 支持的最后部分是通过remote_write部分。remote_write描述了一个类似于 Prometheus 的配置块,用来控制收集的 span 被发送到哪里。
对于好奇的人来说,这是对 OpenTelemetry Collector 的 OTLP exporter 的一个封装。由于 Agent 导出 OTLP 格式的 span,这意味着你可以将 span 发送到任何支持 OTLP 数据的系统。我们今天的重点是 Tempo,但你甚至可以让 Agent 发送跨度到另一个 OpenTelemetry 采集器。
除了端点和认证,remote_write允许你控制 span 的排队和重试功能。批处理 (Batching)是在remote_write之外管理的,可以更好地压缩 span,减少用于向 Tempo 传输数据的出站连接数。和前面一样,OpenTelemetry 在这方面有一些 相当好的文档。
tempo:
configs:
- name: default
# span 的批处理设置。在收集 10,000 个跨度后
# 或 10s 后(以先到者为准)完成一个批次。
batch:
send_batch_size: 10000
timeout: 10s
# remote_write, etc
在 remote_write方面,queues和retries允许你配置在内存中保留多少个批次,以及如果一个批次碰巧失败了,你将重试多长时间。这些设置与 OpenTelemetry's OTLP exporter 的retry_on_failure和sending_queue设置相同。
tempo:
configs:
- name: default
remote_write:
- endpoint: tempo-us-central1.grafana.net:443
basic_auth:
username: 12345
password: api_key
# 将默认的队列大小增加一倍,以便在内存中保留更多的批次,
# 但在 5 秒后放弃重试失败的 span。
sending_queue:
queue_size: 10000
retry_on_failure:
max_elapsed_time: 5s
虽然把最大重试时间设置得很高很诱人,但它很快就会变得很危险。重试会增加从 Agent 到 Tempo 的网络流量总量,与其不断重试,不如放弃 span 。另一个风险是内存的使用。如果你的后端发生故障,高重试时间将迅速填满 span 队列,并可能以 Out Of Memory 错误使 Agent 宕机。
因为对于一个有大量 span 吞吐量的系统来说,100%的 span 被存储是不现实的,控制批处理、队列和重试逻辑以满足你的特定网络使用,对于有效追踪是至关重要的。
下回见
我们已经谈到了如何手动配置 Grafana Agent 以获得 tracing 支持,但要想了解一个实际的例子,请查看 production-ready tracing Kubernetes manifest。这个清单附带的配置涉及到这里的所有内容,包括服务发现机制,以自动将 Kubernetes 元数据附加到传入的 span 上。
我非常感谢 Joe 从他繁忙的 Tempo 工作中抽出时间,在 Agent 中添加跟踪支持。我很高兴 Grafana Agent 现在支持大部分的 Grafana 堆栈,而且我对接下来的产品更感兴趣
原文内置:
开始使用 Tempo 的最简单方法是在 Grafana Cloud。我们有免费的(包括 50GB 的痕迹)和付费的 Grafana Cloud 计划,以满足各种使用情况 - 现在注册免费。
词汇表
| 英文 | 中文 | 备注 |
|---|---|---|
| Receivers | 接收器 | Grafana Agent 组件 |
| Trace | 追踪 | |
| span | 跨度 | Tracing 专有名词 |
Grafana 系列文章
三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.
Grafana 系列文章(二):使用 Grafana Agent 和 Grafana Tempo 进行 Tracing的更多相关文章
- Redis变慢?深入浅出Redis性能诊断系列文章(二)
(本文首发于"数据库架构师"公号,订阅"数据库架构师"公号,一起学习数据库技术) 本篇为Redis性能问题诊断系列的第二篇,本文主要从应用发起的典型命令使用上进 ...
- jmeter入门系列文章二 版本号介绍
转载时请标注源自:http://blog.csdn.net/musen518 jmeter版本号公布频率一般为1年,每年会有一个版本号升级 截止2015年底,最新版本号为2.13,最新最全的更新信息一 ...
- .NET性能系列文章二:Newtonsoft.Json vs. System.Text.Json
微软终于追上了? 图片来自 Glenn Carstens-Peters Unsplash 欢迎来到.NET性能系列的另一章.这个系列的特点是对.NET世界中许多不同的主题进行研究.基准和比较.正如标题 ...
- NHibernate系列文章二十八:NHibernate Mapping之Auto Mapping(附程序下载)
摘要 上一篇文章介绍了Fluent NHibernate基础知识.但是,Fluent NHibernate提供了一种更方便的Mapping方法称为Auto Mapping.只需在代码中定义一些Conv ...
- NHibernate系列文章二十七:NHibernate Mapping之Fluent Mapping基础(附程序下载)
摘要 从这一节起,介绍NHibernate Mapping的内容.前面文章都是使用的NHibernate XML Mapping.NHibernate XML Mapping是NHibernate最早 ...
- NHibernate系列文章二十五:NHibernate查询之Query Over查询(附程序下载)
摘要 这一篇文章介绍在NHibernate 3.2里引入的Query Over查询,Query Over查询跟Criteria查询类似.首先创建IQueryOver对象,然后通过调用该对象的API函数 ...
- NHibernate系列文章二十四:NHibernate查询之Linq查询(附程序下载)
摘要 NHibernate从3.0开始支持Linq查询.写Linq to NHibernate查询就跟写.net linq代码一样,非常灵活,可以很容易实现复杂的查询.这篇文章使用Linq to NH ...
- NHibernate系列文章二十三:NHibernate查询之Criteria查询(附程序下载)
摘要 上一篇文章介绍了NHibernate HQL,他的缺点是不能够在编译时发现问题.如果数据库表结构有改动引起了实体关系映射的类有改动,要同时修改这些HQL字符串.这篇文章介绍NHibernate面 ...
- NHibernate系列文章二十二:NHibernate查询之HQL查询(附程序下载)
摘要 NHibernate提供了多种查询方式,最早的HQL语言查询.Criteria查询和SQL Query,到NHibernate 3.0的Linq NHibernate,NHIbernate 4. ...
- NHibernate系列文章二十:NHibernate关系之一对一(附程序下载)
摘要 NHibernate一对一关系虽然不经常碰到,但是在对于数据库结构优化的时候,经常会碰到一对一关系.比如,产品详细信息比较多的时候,可以把产品详细信息放到另一张表里面,Product主表只记录产 ...
随机推荐
- SpringCloud(二) - Eureka注册中心,feign远程调用,hystrix降级和熔断
1.项目模块介绍 2. 父项目 主要依赖 spring-cloud 的 版本控制 <properties> <!-- springCloud 版本 --> <scd.ve ...
- 云原生之旅 - 5)Kubernetes时代的包管理工具 Helm
前言 上一篇文章 [基础设施即代码 使用 Terraform 创建 Kubernetes] 教会了你如何在Cloud上面建Kubernetes资源,那么本篇来讲一下如何在Kubernetes上面部署应 ...
- 46.drf过滤、搜索、排序
DRF的过滤类 drf过滤器在filters模块中,主要有四个类 BaseFilterBackend:过滤基类,留好占位方法待后续继承 SearchFilter:继承BaseFilterBackend ...
- 使用DOS命令运行JAVA项目
使用DOS命令运行JAVA项目 找到生成项目的文件夹: 在地址前加上cmd+空格,进入命令窗口: 输入javac 类的名称.java,生成class文件: 输入java 类的名称: 运行成功:
- K8s 生产最佳实践-限制 NameSpace 资源用量
前言 想象一下这个场景:多个系统运行在同一套 K8s 集群上,有重要系统,也有不太重要的系统.但是某一天,某个不重要的系统突然占用了该 K8s 集群的所有资源,导致该集群上的其他系统的正常运行受到影响 ...
- 【云原生 · Kubernetes】KubeVirt热迁移
[云原生 · Kubernetes]KubeVirt热迁移 检查节点和kubevirt状态 启用热迁移 创建虚拟机 在虚拟机上启动一个服务 迁移虚拟机 热迁移是KubeVirt支持的一个常见虚拟化特性 ...
- 【云原生 · Kubernetes】部署 kube-proxy 组件
个人名片: 因为云计算成为了监控工程师 个人博客:念舒_C.ying CSDN主页️:念舒_C.ying kube-proxy 运行在所有 worker 节点上,它监听 apiserver 中 se ...
- 【云原生 · Kubernetes】kubernetes v1.23.3 二进制部署(一)
kubernetes v1.23.3 二进制部署 1. 组件版本和配置策略 1.1 主要组件版本 1.2 主要配置策略 2. 初始化系统和全局变量 2.1 集群规划 2.2 kubelet cri-o ...
- Kettle基础及快速入门
(一)概述 1.ETL ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程) ETL工具:Sqoop,DataX,Kettle,Talend等 2.Kettle介 ...
- Flaks框架(Flask请求响应,session,闪现,请求扩展,中间件,蓝图)
目录 一:Flask请求响应 1.请求相关信息 2.flask新手四件套 3.响应相关信息(响应response增加数据返回) 二:session 1.session与cookie简介 2.在使用se ...