使用Logstash filter grok过滤日志文件

Logstash提供了一系列filter过滤plugin来处理收集到的log event，根据log event的特征去切分所需要的字段，方便kibana做visualize和dashboard的data analysis。所有logstash支持的event切分插件查看这里。下面我们主要讲grok切分。

Grok基本介绍

Grok 使用文本片段切分的方式来切分日志事件，语法如下:

%{SYNTAX:SEMANTIC}

* `SYNTAX`代表匹配值的类型，例如，`0.11`可以`NUMBER`类型所匹配，`10.222.22.25`可以使用`IP`匹配。

* `SEMANTIC`表示存储该值的一个变量声明，它会存储在`elasticsearch`当中方便`kibana`做字段搜索和统计，你可以将一个`IP`定义为客户端IP地址`client_ip_address`，eg:`%{IP:client_ip_address}`，所匹配到的值就会存储到`client_ip_address`这个字段里边，类似数据库的列名，也可以把event log中的数字当成数字类型存储在一个指定的变量当中，比如响应时间`http_response_time`，假设event log record如下:

55.3.244.1 GET /index.html 15824 0.043

可以使用如下grok pattern来匹配这种记录

%{IP:client_id_address} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:http_response_time}

在logstash conf.d文件夹下面创建filter conf文件，内容如下

# /etc/logstash/conf.d/01-filter.conf

filter {

  grok {

    match => { "message" => "%{IP:client_id_address} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:http_response_time}" }

  }

}

以下是filter结果

client_id_address: 55.3.244.1

method: GET

request: /index.html

bytes: 15824

http_response_time: 0.043

grok内置的默认类型有很多种，查看所有默认类型 Grok模式库。

使用自定义类型
更多时候logstash grok没办法提供你所需要的匹配类型，这个时候我们可以使用自定义
- 第一种，直接使用oniguruma语法去匹配文本片段，语法如下
```
(?<field_name>the pattern here)
```
  假设你需要匹配的文本片段为一个长度为10或11的十六进制的值，使用下列语法可以获取该片段，并把值赋予queue_id
```
(?<queue_id>[0-9A-F]{10,11})
```
- 第二种，创建自定义pattern文件
  - 创建文件夹patterns，在此文件夹下面创建一个文件，文件名随意，eg: postfix
```
# contents of ./patterns/postfix:

POSTFIX_QUEUEID [0-9A-F]{10,11}
```
  - 然后将patterns file引入，告诉logstash你的自定义类型文件，以下面的event log record为例子：
```
55.3.244.1 GET /index.html 15824 0.043 ABC24C98567
```
  在logstash conf.d文件夹下面创建filter conf文件，内容如下
```
filter {

grok {

 patterns_dir => ["./patterns"]

 match => { "message" => "%{IP:client_id_address} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:http_response_time} %{POSTFIX_QUEUEID:queue_id}" }

}

}
```

匹配结果如下：

client_id_address: 55.3.244.1

method: GET

request: /index.html

bytes: 15824

http_response_time: 0.043

queue_id: ABC24C98567

推荐使用grokdebugger来写匹配模式，输入event log record，再逐步使用pattern微调切分，下方会根据你所写的模式将输入切分字段。

其他常用内置方法
- add_field: 当pattern匹配切分成功之后，可以动态的对某些字段进行特定的修改或者添加新的字段，使用%{fieldName}来获取字段的值
  Exmaple:

filter {

  grok{

    add_field => { "foo_%{somefield}" => "Hello world, %{somefield}" }

  }

}

# You can also add multiple fields at once:

filter {

  grok {

    add_field => {

      "foo_%{somefield}" => "Hello world, %{somefield}"

      "new_field" => "new_static_value"

    }

  }

}

如果somefield=dad，logstash会将foo_dad新字段加入elasticsearch，并将值Hello world, dad赋予该字段

add_tag: 为经过filter或者匹配成功的event添加标签
Example:

filter {

  grok {

    add_tag => [ "foo_%{somefield}" ]

  }

}

# You can also add multiple tags at once:

filter {

  grok {

    add_tag => [ "foo_%{somefield}", "taggedy_tag"]

  }

}

更多内置方法在这里

作者：eason02
链接：https://www.jianshu.com/p/d46b911fb83e
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

使用Logstash filter grok过滤日志文件的更多相关文章

logstash filter grok 用法
在elk+filebeat都安装好,且明白了基本流程后,主要的就是写logstash的filter了,以此来解析特定格式的日志 logstash的filter是用插件实现的,grok是其中一个,用来解 ...
logstash 抓取IIS日志文件写入Elasticsearch
如果需要对IIS日志进行分析可以使用logstash从文件中抓取出来进行分析: 输入部分: input { file { type => "iis_log_monitor" ...
Logstash处理json格式日志文件的三种方法
假设日志文件中的每一行记录格式为json的,如: {"Method":"JSAPI.JSTicket","Message":"JS ...
Logstash使用grok过滤nginx日志（二）
在生产环境中,nginx日志格式往往使用的是自定义的格式,我们需要把logstash中的message结构化后再存储,方便kibana的搜索和统计,因此需要对message进行解析. 本文采用grok ...
用Kibana和logstash快速搭建实时日志查询、收集与分析系统
Logstash是一个完全开源的工具,他可以对你的日志进行收集.分析,并将其存储供以后使用(如,搜索),您可以使用它.说到搜索,logstash带有一个web界面,搜索和展示所有日志. kibana ...
用ElasticSearch,LogStash,Kibana搭建实时日志收集系统
用ElasticSearch,LogStash,Kibana搭建实时日志收集系统介绍这套系统,logstash负责收集处理日志文件内容存储到elasticsearch搜索引擎数据库中.kibana ...
Logstash收集nginx日志之使用grok过滤插件解析日志
grok作为一个logstash的过滤插件,支持根据模式解析文本日志行,拆成字段. nginx日志的配置: log_format main '$remote_addr - $remote_user [ ...
使用logstash的input file filter收集日志文件
使用logstash的input file filter收集日志文件一.需求二.实现步骤 1.前置知识 2.编写pipeline文件 3.Input 中 file 插件的部分参数解释: 4.启动l ...
Logstash filter 插件之 grok
本文简单介绍一下 Logstash 的过滤插件 grok. Grok 的主要功能 Grok 是 Logstash 最重要的插件.它可以解析任意文本并把它结构化.因此 Grok 是将非结构化的日志数据解 ...

随机推荐

python--使用队列结构来模拟烫手山芋的游戏
基本功,磨起来. # coding = utf-8 class Queue: def __init__(self): self.items = [] def is_empty(self): retur ...
java 使用jdbc连接Greenplum数据库和Postgresql数据库
1.公司使用的Greenplum和Postgresql,确实让我学到不少东西.简单将使用jdbc连接Greenplum和Postgresql数据库.由于使用maven仓库,不能下载Greenplum的 ...
使用JDBC连接ElasticSearch6.3（ElasticSearch SQL JDBC）
使用JDBC连接ElasticSearch6.3(ElasticSearch SQL JDBC) https://blog.csdn.net/scgaliguodong123_/article/det ...
zookeeper 学习状态机复制的共识算法
https://www.youtube.com/watch?v=BhosKsE8up8 state machine replication 的共识(consensus) 算法根据CAP理论,一个分 ...
盘点那些Vs中常用到的Tab快捷编码
1.快速声明for循环:for+Tab 2.快速声明Foreach遍历:foreach+Tab 3.快速定义属性:prop+Tab 4.
php BCMath高精度计算
Php: BCMath bc是Binary Calculator的缩写.bc*函数的参数都是操作数加上一个可选的 [int scale],比如string bcadd(string right_ ...
开源堡垒机Gateone 安装过程记录及报错处理
1.下载git源码或者zip包都可以,下载到我们制定部署目录. git地址:https://github.com/liftoff/GateOne.git 2.检查tornado 版本,安装tornad ...
net core体系-web应用程序-4net core2.0大白话带你入门-9asp.net core服务的生命周期
asp.net core服务的生命周期 Transient:每一次GetService都会创建一个新的实例 Scoped:在同一个Scope内只初始化一个实例 ,可以理解为( 每一个request ...
Codeforces 596D Wilbur and Trees dp (看题解)
一直在考虑, 每一段的贡献, 没想到这个东西能直接dp..因为所有的h都是一样的. #include<bits/stdc++.h> #define LL long long #define ...
Codeforces 873F Forbidden Indices 字符串 SAM/(SA+单调栈)
原文链接https://www.cnblogs.com/zhouzhendong/p/9256033.html 题目传送门 - CF873F 题意给定长度为 $n$ 的字符串 $s$,以及给定这个字 ...

使用Logstash filter grok过滤日志文件

Grok基本介绍

使用Logstash filter grok过滤日志文件的更多相关文章

随机推荐

热门专题