Vector + ClickHouse 收集日志
目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse。至于日志的可视化,后面再单独介绍,后面夜莺会把日志可视化能力下放到开源版本,之前跟映客的兄弟们交流准备一起搞,可惜迟迟没有抽出时间。别急,会有的,本文先把前半段完成,即日志的收集 + 传输 + 清洗 + 存储。存储显然是 ClickHouse,前面三个环节,使用 Vector 来完成。之前有一篇文章对 Vector 做过简单介绍,大家可以参考:《可观测性数据收集集大成者:Vector》。
配置 Nginx log
我们可以直接采集默认的 Nginx access log,不过我们可以走的更远一点,使用我们自定义的日志格式:
log_format track '$remote_addr - $time_iso8601 "$request_uri" '
'$status $body_bytes_sent "$http_user_agent"';
server {
location / {
access_log /var/log/track.log track;
return 200 'ok';
}
}
这个配置会把所有请求记录到 /var/log/track.log
文件中,样例如下:
127.0.0.1 - 2022-08-01T17:19:38+03:00 "/?test=1" 200 2 "curl/7.81.0"
这个日志是因为使用 curl 发起了一个如下请求:
curl "http://127.0.0.1/?test=1"
ClickHouse 表结构
下面我们创建一个 ClickHouse 表结构,用于存储 Nginx 日志,一般生产环境下,都是每个应用单独一个表,这样可以让不同的应用使用不同的日志字段,同时做了纵向切分,避免所有的日志存在一个表中导致表过大,影响查询性能。
CREATE TABLE log
(
`ip` String,
`time` Datetime,
`url` String,
`status` UInt8,
`size` UInt32,
`agent` String
)
ENGINE = MergeTree
ORDER BY date(time)
这个表基本够演示所用了。
安装 Vector
Vector 是一个用于构建数据传输 pipeline 的工具。它开箱即用支持 ClickHouse。使用 Vector Remap Language (VRL) 可以对日志进行清洗,把非结构化的数据清洗成结构化数据。
安装 Vector 较为简单,在 Ubuntu 上,可以使用如下命令:
curl -1sLf 'https://repositories.timber.io/public/vector/cfg/setup/bash.deb.sh' | sudo -E bash
sudo apt install vector
完事使用如下命令检查版本,如果正常输出,表示安装成功:
root@desktop:~# vector --version
vector 0.23.0 (x86_64-unknown-linux-gnu 38c2435 2022-07-11)
配置 pipeline
使用 Vector 配置日志流水线非常容易。整体上就是三步:采集 -> 处理 -> 输出,每个阶段都对应 Vector 配置中的 section,当然,采集可以有很多来源,处理也可以分多个环节,输出也可以有很多目的地。
配置文件:/etc/vector/vector.toml
,基础步骤包括:
- 1.
[sources.***]
配置数据从哪里采集 - 2.
[transforms.***]
配置数据如何清洗处理 - 3.
[sinks.***]
配置数据输出到哪里
***
的位置,是一个自定义的名字,可以随便取,但是要保证唯一。无论是 sources、transforms 还是 sinks,都可以有多个。
采集数据
我们故意修改了 Nginx 的日志格式,我们需要手工配置 pipeline。/var/log/track.log
日志文件内容现在是非结构化的,首先我们要用 Vector 读取它。
[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"
这里我们让 Vector 读取指定的日志文件,从文件末尾读取,只要 Nginx 有新的日志写入,Vector 就会读取到。
清洗数据
为了得到结构化的数据,我们在 VRL 中使用带有捕获组的正则表达式来处理每一行日志,这部分配置到 transforms
中。
[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P<ip>\d+\.\d+\.\d+\.\d+) \- (?P<date>\d+\-\d+\-\d+)T(?P<time>\d+:\d+:\d+).+?"(?P<url>.+?)" (?P<status>\d+) (?P<size>\d+) "(?P<agent>.+?)"$')
'''
Transform 部分的代码在 source
字段中,这段代码会解析日志并且把正则捕获组得到的信息放到对应的字段中。这些字段最终会被发给 ClickHouse。transform 有多种不同的类型,这里我们使用了 remap
类型,inputs 字段指定了输入源,这里是 track
,即我们之前定义的源,inputs 是个数组,所以 transform
可以同时对接到多个 source
上。
存储数据
在把数据存到 ClickHouse 之前,让我们来检查一下数据是否正确。我们可以使用 console
sink 来输出到控制台,这样我们可以看到 Vector 处理后的数据。
[sinks.print]
type = "console"
inputs = ["process"]
encoding.codec = "json"
这里定义了一个 sink:print
,它的输入是 process
,即我们之前定义的 transform。console
sink 会把数据输出到控制台,encoding.codec
字段指定了输出的格式,这里是 json
。如上配置都保存在 /etc/vector/vector.toml
,然后使用交互模式运行 vector:
root@desktop:~# vector
使用 url 发起一个请求:127.0.0.1/?test=3
,然后查看控制台输出:
root@desktop:~# vector
...
2022-08-01T14:52:54.545197Z INFO source{component_kind="source" component_id=track component_type=file component_name=track}:file_server: vector::internal_events::file::source: Resuming to watch file. file=/var/log/track.log file_position=497
{"agent":"curl/7.81.0","date":"2022-08-01","file":"/var/log/track.log","host":"desktop","ip":"127.0.0.1","message":"127.0.0.1 - 2022-08-01T17:52:58+03:00 \"/?test=3\" 200 2 \"curl/7.81.0\"","size":"2","source_type":"file","status":"200","time":"17:52:58","timestamp":"2022-08-01T14:53:04.803689692Z","url":"/?test=3"}
我们可以看到,除了解析出的字段之外,还有一些额外的字段,比如 timestamp
、host
、message
等,这些字段是 Vector 自动添加的。在数据最终发给 ClickHouse 之前,我们还需要在 transform
过程做一些额外的处理:
- 1.基于解析出的
date
和time
字段创建一个单独的datetime
字段 - 2.把
status
和size
字段转换成整型
这两个改动都可以在 transforms
部分完成。
[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P<ip>\d+\.\d+\.\d+\.\d+) \- (?P<date>\d+\-\d+\-\d+)T(?P<time>\d+:\d+:\d+).+?"(?P<url>.+?)" (?P<status>\d+) (?P<size>\d+) "(?P<agent>.+?)"$')
.status = to_int!(.status)
.size = to_int!(.size)
.time = .date + " " + .time
'''
.
就相当于当前这条日志记录,.status
就是当前这条日志记录的 status
字段,to_int!
就是把 status
字符串转换成整型,+
就是字符串拼接,最终把 date
和 time
字段拼接成 datetime
字段。这样我们就完成了数据的清洗。再次发起请求,查看控制台输出:
{"agent":"curl/7.81.0","date":"2022-08-01","file":"/var/log/track.log","host":"desktop","ip":"127.0.0.1","message":"127.0.0.1 - 2022-08-01T18:05:44+03:00 \"/?test=3\" 200 2 \"curl/7.81.0\"","size":2,"source_type":"file","status":200,"time":"2022-08-01 18:05:44","timestamp":"2022-08-01T15:05:45.314800884Z","url":"/?test=3"}
一切如预想。最终,我们可以配置数据存储到 ClickHouse,增加一个 sink 配置段,之前那个输出到 console 的 sink 可以删除了。
[sinks.clickhouse]
type = "clickhouse"
inputs = ["process"]
endpoint = "http://127.0.0.1:8123"
database = "default"
table = "log"
skip_unknown_fields = true
这里我们让 Vector 读取 process
这个 transform 环节产生的数据,然后发给 ClickHouse 中的 default
数据库中的 log
表。另外,我们增加了 skip_unknown_fields 配置项来跳过未知字段,这样即使我们的日志格式发生了变化,也不会影响数据的写入。
OK,保存配置文件,重启 Vector,向 Nginx 发一些测试数据,然后,我们就可以在 ClickHouse 中看到相关日志数据了。
推到生产环境
vector 要在生产环境运行,就不要使用交互模式启动前台进程了,使用 systemd 或者 supervisord 之类的做进程托管。
性能考虑
我的电脑是 16C32G,可以轻松处理 2 万个请求每秒。需要几秒钟数据才能进入 ClickHouse,或许我们需要考虑使用 ClickHouse Buffer 表来优化插入性能。
小结
Vector 是一个很不错的工具,很方便的把 Nginx 日志采集、清洗、传输到 ClickHouse,Vector 提供强大的数据清洗能力,可以处理任何类型的非结构化数据。Cool。
下面是整个 vector.toml 的内容:
[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"
[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P<ip>\d+\.\d+\.\d+\.\d+) \- (?P<date>\d+\-\d+\-\d+)T(?P<time>\d+:\d+:\d+).+?"(?P<url>.+?)" (?P<status>\d+) (?P<size>\d+) "(?P<agent>.+?)"$')
.status = to_int!(.status)
.size = to_int!(.size)
.time = .date + " " + .time
'''
[sinks.clickhouse]
type = "clickhouse"
inputs = ["process"]
endpoint = "http://127.0.0.1:8123"
database = "default"
table = "log"
skip_unknown_fields = true
本文翻译自:https://medium.com/datadenys/using-vector-to-feed-nginx-logs-to-clickhouse-in-real-time-197745d9e88b ,感谢作者的分享。
本公众号主理人:秦晓辉,极客时间《运维监控系统实战笔记》作者,Open-Falcon、夜莺、Categraf、Cprobe 等开源项目的创始人,当前在创业,为客户提供可观测性相关的产品。如下是我们两款核心产品,欢迎访问我们的官网了解详情:
我们主要提供两款产品:
欢迎加我好友,交流可观测性相关话题或了解我们的商业产品,如下是我的联系方式,加好友请备注您的公司、姓名、来意
扩展阅读:
Vector + ClickHouse 收集日志的更多相关文章
- nginx日志切割并使用flume-ng收集日志
nginx的日志文件没有rotate功能.如果你不处理,日志文件将变得越来越大,还好我们可以写一个nginx日志切割脚本来自动切割日志文件.第一步就是重命名日志文件,不用担心重命名后nginx找不到日 ...
- 使用开源软件sentry来收集日志
原文地址:http://luxuryzh.iteye.com/blog/1980364 对于一个已经上线的系统,存在未知的bug或者运行时发生异常是很常见的事情,随之而来的几点需求产生了: 1.系统发 ...
- ELK收集日志到mysql
场景需求 在使用ELK对日志进行收集的时候,如果需要对数据进行存档,可以考虑使用数据库的方式.为了便于查询,可以同时写一份数据到Elasticsearch 中. 环境准备 CentOS7系统: 192 ...
- 通过 Systemd Journal 收集日志
随着 systemd 成了主流的 init 系统,systemd 的功能也在不断的增加,比如对系统日志的管理.Systemd 设计的日志系统好处多多,这里笔者就不再赘述了,本文笔者主要介绍 syste ...
- nswl 收集日志
nswl 收集日志 参考链接:https://docs.citrix.com/en-us/citrix-adc/12-1/system/web-server-logging.html PS C:\Us ...
- rancher使用fluentd-pilot收集日志分享
fluentd-pilot简介 fluentd-pilot是阿里开源的docker日志收集工具,Github项目地址:https://github.com/AliyunContainerService ...
- ELK之使用kafka作为消息队列收集日志
参考:https://www.cnblogs.com/fengjian2016/p/5841556.html https://www.cnblogs.com/hei12138/p/7805475 ...
- 配置好Nginx后,通过flume收集日志到hdfs(记得生成本地log时,不要生成一个文件,)
生成本地log最好生成多个文件放在一个文件夹里,特别多的时候一个小时一个文件 配置好Nginx后,通过flume收集日志到hdfs 可参考flume的文件 用flume的案例二 执行的注意点 avro ...
- ELKStack入门篇(二)之Nginx、Tomcat、Java日志收集以及TCP收集日志使用
1.收集Nginx的json格式日志 1.1.Nginx安装 [root@linux-node1 ~]# yum install nginx -y [root@linux-node1 ~]# vim ...
- ELK之收集日志到mysql数据库
写入数据库的目的是持久化保存重要数据,比如状态码.客户端浏览器版本等,用于后期按月做数据统计等. 环境准备 linux-elk1:10.0.0.22,Kibana ES Logstash Nginx ...
随机推荐
- HarmonyOS NEXT应用开发案例—使用弹簧曲线实现抖动动画及手机振动效果案例
介绍 本示例介绍使用vibrator.startVibration方法实现手机振动效果,用animateTo显示动画实现点击后的抖动动画. 效果图预览 使用说明 加载完成后显示登录界面,未勾选协议时点 ...
- 我们为什么要做 SoloPi
SoloPi现状 去年(2019年)7月份,蚂蚁集团正式对外开源了客户端自动化测试工具 SoloPi ,其主要包括三大模块:录制回放(用于功能测试).性能工具(用于性能测试)以及一机多控(服务于兼容性 ...
- 阿里云荣获可信云容器安全能力先进级认证, ACK/ACR为企业级安全护航
阿里云关注企业级用户的Kubernetes生产落地痛点,结合企业生产环境的大量实践,全面帮助企业真正落地云原生架构.安全侧问题,是众多大中型或金融领域企业的核心关注点. 端到端云原生安全架构 早在20 ...
- 基于 EventBridge 构建数据库应用集成
简介:本文重点介绍 EventBridge 的新特性:数据库 Sink 事件目标. 作者:赵海 引言 事件总线 EventBridge 是阿里云提供的一款无服务器事件总线服务,支持将阿里云服务.自定 ...
- WPF 如何获取有哪些 VisualBrush 用了某个控件
我写了一个特殊的控件,我期望了解到有哪些 VisualBrush 捕获了此控件,或者说有哪些 VisualBrush 用了此控件的界面 本文的方法需要用到反射,需要使用 WPF 框架里面没有公开的字段 ...
- 第8讲 browse命令的使用技巧
第8讲 browse命令的使用技巧 1.浏览所有parts,使用技巧 选中工程文件*.dsn/Edit/Browse/Parts.列出工程中用到的所有元件,方便在画完原理图后,查看哪些元件没有编号或数 ...
- 习题8 #第8章 Verilog有限状态机设计-1 #Verilog #Quartus #modelsim
1. 设计一个"111"串行数据检测器.要求是:当检测到连续3个或3个以上的"1"时输出为1,其他输入情况下输出为0. (1)思路分析:参照本章前文的范例,如第 ...
- ThreadLocal 的原理讲述 + 基于ThreadLocal实现MVC中的M层的事务控制
ThreadLocal 的原理讲述 + 基于ThreadLocal实现MVC中的M层的事务控制 目录 ThreadLocal 的原理讲述 + 基于ThreadLocal实现MVC中的M层的事务控制 每 ...
- Blazor流程编排的艺术:深入Z.Blazor.Diagrams库的使用与实践
为现代网页应用开发提供动力的其中一个重要方面就是前端框架的强大功能与灵活性.而在.NET生态中,Blazor以其独特的工作方式和优势逐渐获得了开发者们的青睐.今天,在这篇文章中,我将带你深入探索一个基 ...
- 使用NSSM将.exe程序安装成windows服务
1.下载NSSM:NSSM - the Non-Sucking Service Manager 2.cmd方式安装服务 将下载的压缩包解压,找到nssm.exe,以管理员身份打开cmd,在cmd中定位 ...