使用Fluentd进行简单流处理

在某些日志采集场景中，我们需要对数据流进行一些转换。比如，我们可能需要从日志记录中提取某些字段以进行错误告警，或向日志记录中插入新的字段用以后续的分析。

本文简单介绍一下使用Fluentd进行数据操作的技术细节。

根据日志字段取值来过滤事件

谈到过滤，我们通常会想到正则表达式，在linux中通常使用grep来进行文本查找和过滤。Fluentd内置了filter_grep过滤插件，可对数据流进行正则过滤。

假设我们正在使用一个web服务，比如Apache，我们需要对其访问日志进行监控。由输入插件产生的事件类似如下结构：

{

  "host": "192.168.1.1",

  "method": "GET",

  "path": "/index.html",

  "code": 200,

  "size": 2344,

  "referer": null

}

这其中的code字段表示用户请求状态，我们可能对状态为2xx的请求不太关心，这样就可以将这类事件过滤掉，专门处理用户请求可能发生的异常情况。

我们可以通过在Fluentd中增加如下<filter>配置来实现事件过滤。

<filter apache.**>

  @type grep

  <exclude>

    key code

    pattern ^2\d\d$

  </exclude>

</filter>

使用grep过滤插件，通过key指定code字段为过滤字段，通过pattern匹配code值为2xx的事件，将这些事件排除（exclude）掉。

filter_grep还可以对多个字段进行过滤。比如，保留状态码为5xx的事件，但过滤掉url中以/test/开头的请求。如下所示：

<filter apache.**>

  @type grep

  <regexp>

    key code

    pattern ^5\d\d$

  </regexp>

  <exclude>

    key path

    pattern ^/test/

  </exclude>

</filter>

向事件中插入定制字段

我们可以在某个处理阶段向日志记录中插入一些字段，供后续使用。这可以通过Fluentd内置的filter_record_transformer过滤器插件来实现。

假设我们是以集群的方式来部署web服务的，我们可能需要标记用户请求是由哪台服务器来处理的。

在Fluentd中进行如下配置即可实现此类需求：

<filter apache.**>

  @type record_transformer

  <record>

    server "${hostname}"

  </record>

</filter>

这里，record_transformer插件向事件record中插入了一个server字段，其值为web服务器的主机名。新的日志record就更新为如下格式：

{

  "host": "192.168.1.1",

  "method": "GET",

  "path": "/index.html",

  "code": 200,

  "size": 2344,

  "referer": null,

  "server": "app1"

}

filter_record_transformer除了可以直接插入预定义的一些变量，如${hostname}，还可以插入其他变量或者使用ruby表达式来计算字段值。

使用Fluentd进行简单流处理的更多相关文章

kubernetes部署Fluentd+Elasticsearch+kibana 日志收集系统
一.介绍 1. Fluentd 是一个开源收集事件和日志系统,用与各node节点日志数据的收集.处理等等.详细介绍移步-->官方地址:http://fluentd.org/ 2. Elastic ...
Fluentd安装——通过rpm方式
0. td-agent是何物为了灵活性,fluentd用Ruby写的,其中一些性能敏感的部件使用c写的.普通的用户直接安装和使用Ruby进程可能有困难,这样就把它封装成Fluentd的稳定版本——t ...
fluentd结合kibana、elasticsearch实时搜索分析hadoop集群日志<转>
转自 http://blog.csdn.net/jiedushi/article/details/12003171 Fluentd是一个开源收集事件和日志系统,它目前提供150+扩展插件让你存储大数据 ...
Fluentd: Open Source Log Management
Fluentd: Open Source Log Management "Fluentd" is an open-source tool to collect events and ...
ELK系列~NLog.Targets.Fluentd到达如何通过tcp发到fluentd
最近火的不能再火的日志框架就是ELK,其中E(Elasticsearch)表示日志存储,L(Logstash)表示日志收集,K(kibana)表示日志的UI界面,用来查询和分析,而其中的L可以使用Fl ...
ELK系列~对fluentd参数的理解
这段时候一直在研究ELK框架,主要集成在对fluentd和nxlog的研究上,国内文章不多,主要看了一下官方的API,配合自己的理解,总结了一下,希望可以帮到刚入行的朋友们! Fluentd(日志收集 ...
万能日志数据收集器 Fluentd - 每天5分钟玩转 Docker 容器技术（91）
前面的 ELK 中我们是用 Filebeat 收集 Docker 容器的日志,利用的是 Docker 默认的 logging driver json-file,本节我们将使用 fluentd 来收集容 ...
istio添加Fluentd
这个教程展示了istio如何自定义日志格式,并且将其发送给fluent.Fluentd 是一个开源的日志收集器,支持多种数据输出并且有一个可插拔架构.Elasticsearch是一个流行的后端日志记录 ...
Kubernetes fluentd+elasticsearch+kibana
前提:dns服务,k8s集群下载kubernetes,并解压 https://github.com/kubernetes/kubernetes/releases tar zxvf kubernete ...

随机推荐

HCNP Routing&Switching之DHCP中继
前文我们聊了下BFD相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/16487842.html:今天来聊一聊DHCP中继相关话题: DHCP的作用 DH ...
【Azure 应用服务】PHP应用部署在App Service for Linux环境中，上传文件大于1MB时，遇见了413 Request Entity Too Large 错误的解决方法
问题描述在PHP项目部署在App Service后,上传文件如果大于1MB就会遇见 413 Request Entity Too Large 的问题. 问题解决目前这个问题,首先需要分析应用所在的 ...
Junit使用步骤和junit_@Before&@After
测试: 1.定义一个测试类(测试用例) 建议: 测试类名:被测试的类型Test CalculatorTest 包名:xxx.xxx.xx.test com.li.Test 2.定义测试方法:可以独立运 ...
Clickhouse 实现 MaterializedPostgreSQL
Clickhouse 实现 MaterializedPostgreSQL 开发环境:macOS 12.4 + docker 一.环境搭建 docker-compose.yml services: po ...
python 可变、不可变类型、深拷贝、浅拷贝理解
简介 python中数据分为可变类型,不可变类型.不同的数据类型影响着不同情况下的深浅拷贝. 下面则将简要介绍一下可变类型当某个数据的值发生改变时,它对应的内存地址不发生改变,常见的有列表.字典. ...
浅谈 exgcd
众所周知欧几里得算法是: \[\gcd(a,b)=\gcd(b,a\bmod \,b) \] 也叫辗转相除法. 拓展欧几里得算法(exgcd),可以用来找到形如 $ax+by=\gcd(a,b)$ ...
技术分享|MySQL caching_sha2_password认证异常问题分析
欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答 0. 导读相同的账号.密码,手动客户端连接可以成功,通过MySQL Conne ...
BTDetect用户手册和技术支持
BTDetect用户手册和技术支持 1. 程序主要功能 BTDetect是BT(BioTechnology) Detect 生物科技检测的缩写.本程序将根据用户的回答推断其两大基因类型.以及具体的小分 ...
vue项目打包后使用reverse-sourcemap反编译到源码（详解版）
首先得说一下,vue项目中productionSourceMap这个属性.该属性对应的值为true|false. 当productionSourceMap: true,时: 1.打包后能看到xxx ...
想学渗透测试，应该考CISP-PTE还是NISP-PT？|网安伴nisp和cisp
其实两者都可,但要看考生的实际需求! 为什么说两者都可以? 两个证书都由中国信息安全测评中心颁发,CISP-PTE全称国家注册渗透测试工程师,NISP-PT全称国家信息安全水平考试-渗透测试工程师专项 ...

使用Fluentd进行简单流处理

使用Fluentd进行简单流处理的更多相关文章

随机推荐

热门专题