概述

logstash 之所以强大和流行，与其丰富的过滤器插件是分不开的

过滤器提供的并不单单是过滤的功能，还可以对进入过滤器的原始数据进行复杂的逻辑处理，甚至添加独特的新事件到后续流程中

强大的文本解析工具 -- Grok

grok 是一个十分强大的 logstash filter 插件，他可以解析任何格式的文本，他是目前 logstash 中解析非结构化日志数据最好的方式

基本用法

Grok 的语法规则是：

%{语法 : 语义}

“语法”指的就是匹配的模式，例如使用 NUMBER 模式可以匹配出数字，IP 则会匹配出 127.0.0.1 这样的 IP 地址：

%{NUMBER:lasttime}%{IP:client}

默认情况下，所有“语义”都被保存成字符串，你也可以添加转换到的数据类型

%{NUMBER:lasttime:int}%{IP:client}

目前转换类型只支持 int 和 float

覆盖 -- overwrite

使用 Grok 的 overwrite 参数也可以覆盖日志中的信息

filter {

    grok {

        match => { "message" => "%{SYSLOGBASE} %{DATA:message}" }

        overwrite => [ "message" ]

    }

}

日志中的 message 字段将会被覆盖

示例

对于下面的log，事实上是一个 HTTP 请求行：

55.3.244.1 GET /index.html 15824 0.043

我们可以使用下面的 logstash 配置：

input {

file {

path => "/var/log/http.log"

}

}

filter {

grok {

match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }

}

}

可以看到收集结果：

client: 55.3.244.1

method: GET

request: /index.html

bytes: 15824

duration: 0.043

将无结构的数据通过这样的方式实现了结构化输出

Grok 使用正则表达式

grok 是在正则表达式的基础上实现的（使用 Oniguruma 库），因此他可以解析任何正则表达式

创建模式

提取日志字段和正则表达式提取字段的规则一样：

(?<field_name>the pattern here)

首先，创建一个模式文件，写入你需要的正则表达式：

# contents of ./patterns/postfix:

POSTFIX_QUEUEID [0-9A-F]{10,11}

然后配置你的 Logstash：

filter {

    grok {

        patterns_dir => "./patterns"

            match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }

    }

}

针对日志：

Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>

可以匹配出：

timestamp: Jan 1 06:25:43

logsource: mailserver14

program: postfix/cleanup

pid: 21403

queue_id: BEF25A72965

syslog_message: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>

IP 位置插件 -- Geoip

Logstash 1.3.0 以上可以使用 geoip 插件获取 IP 对应的地理位置，对于 accesslog 等的统计来说，IP 来源是非常有用的一个信息

使用方法

geoip {

    source => ...

}

示例

filter {

    geoip {

        source => "message"

    }

}

运行结果：

{

    "message" => "183.60.92.253",

    "@version" => "1",

    "@timestamp" => "2014-08-07T10:32:55.610Z",

    "host" => "raochenlindeMacBook-Air.local",

    "geoip" => {

        "ip" => "183.60.92.253",

        "country_code2" => "CN",

        "country_code3" => "CHN",

        "country_name" => "China",

        "continent_code" => "AS",

        "region_name" => "30",

        "city_name" => "Guangzhou",

        "latitude" => 23.11670000000001,

        "longitude" => 113.25,

        "timezone" => "Asia/Chongqing",

        "real_region_name" => "Guangdong",

        "location" => [

            [0] 113.25,

            [1] 23.11670000000001

        ]

    }

}

可以看到，logstash 通过提取到的 message 字段中的 IP，解析到了地理位置相关的一系列信息

当然，对于解析出的众多数据，你也可以通过 fields 选项进行筛选

filter {

    geoip {

        fields => ["city_name", "continent_code", "country_code2", "country_code3", "country_name", "dma_code", "ip", "latitude", "longitude", "postal_code", "region_name", "timezone"]

    }

}

选项

上面我们看到了 source 和 fields 两个选项，geoip 还提供了下列选项：

geoip 提供的可选选项
选项	类型	是否必须	默认值	意义
add_field	hash	否	{}	为当前事件增加一个字段
add_tag	array	否	[]	为当前事件增加一个用于标识的tag
database	path	否	无	位置信息库所在文件
fields	array	否	无	在 geoip 的返回结果中筛选部分字段
lru_cashe_size	int	1000	geoip 占用的缓存大小
periodic_flush	bool	否	false	是否定期调用刷新方e
remove_field	array	否	[]	从结果集中删除字段
remove_tag	array	否	[]	从结果集中删除tag
source	string	是	无	需要解析的存有 IP 的字段名称
target	string	否	"geoip"	返回的结果中保存 geoip 解析结果的字段名

json

对于 json 格式的 log，可以通过 codec 的 json 编码进行解析，但是如果记录中只有一部分是 json，这时候就需要在 filter 中使用 json 解码插件

示例

filter {

    json {

        source => "message"

        target => "jsoncontent"

    }

}

运行结果：

{

    "@version": "1",

    "@timestamp": "2014-11-18T08:11:33.000Z",

    "host": "web121.mweibo.tc.sinanode.com",

    "message": "{\"uid\":3081609001,\"type\":\"signal\"}",

    "jsoncontent": {

        "uid": 3081609001,

        "type": "signal"

    }

}

上面的例子中，解析结果被放到了 target 所指向的节点下，如果希望将解析结果与 log 中其他字段保持在同一层级输出，那么只需要去掉 target 即可：

{

    "@version": "1",

    "@timestamp": "2014-11-18T08:11:33.000Z",

    "host": "web121.mweibo.tc.sinanode.com",

    "message": "{\"uid\":3081609001,\"type\":\"signal\"}",

    "uid": 3081609001,

    "type": "signal"

}

时间分割 -- split

mutiline 让 logstash 将多行数据变成一个事件，当然了，logstash 同样支持将一行数据变成多个事件

logstash 提供了 split 插件，用来把一行数据拆分成多个事件

示例：

filter {

    split {

        field => "message"

        terminator => "#"

    }

}

运行结果：

对于 "test1#test2"，上述 logstash 配置将其变成了下面两个事件：

{

    "@version": "1",

    "@timestamp": "2014-11-18T08:11:33.000Z",

    "host": "web121.mweibo.tc.sinanode.com",

    "message": "test1"

}

{

    "@version": "1",

    "@timestamp": "2014-11-18T08:11:33.000Z",

    "host": "web121.mweibo.tc.sinanode.com",

    "message": "test2"

}

需要注意的是，当 split 插件执行结束后，会直接进入 output 阶段，其后的所有 filter 都将不会被执行

数据修改 -- mutate

logstash 还支持在 filter 中对事件中的数据进行修改

重命名 -- rename

对于已经存在的字段，重命名其字段名称

filter {

    mutate {

        rename => ["syslog_host", "host"]

    }

}

更新字段内容 -- update

更新字段内容，如果字段不存在，不会新建

filter {

    mutate {

        update => { "sample" => "My new message" }

    }

}

替换字段内容 -- replace

与 update 功能相同，区别在于如果字段不存在则会新建字段

filter {

    mutate {

        replace => { "message" => "%{source_host}: My new message" }

    }

}

数据类型转换 -- convert

filter {

    mutate {

        convert => ["request_time", "float"]

    }

}

文本替换 -- gsub

gsub 提供了通过正则表达式实现文本替换的功能

filter {

    mutate {

        gsub => [

            # replace all forward slashes with underscore

            "fieldname", "/", "_",

            # replace backslashes, question marks, hashes, and minuses

            # with a dot "."

            "fieldname2", "[\\?#-]", "."

        ]

    }

}

大小写转换 -- uppercase、lowercase

filter {

    mutate {

        uppercase => [ "fieldname" ]

    }

}

去除空白字符 -- strip

类似 php 中的 trim，只去除首尾的空白字符

filter {

    mutate {

        strip => ["field1", "field2"]

    }

}

删除字段 -- remove、remove_field

remove 不推荐使用，推荐使用 remove_field

filter {

    mutate {

        remove_field => [ "foo_%{somefield}" ]

    }

}

删除字段 -- remove、remove_field

remove 不推荐使用，推荐使用 remove_field

filter {

    mutate {

        remove_field => [ "foo_%{somefield}" ]

    }

}

分割字段 -- split

将提取到的某个字段按照某个字符分割

filter {

    mutate {

        split => ["message", "|"]

    }

}

针对字符串 "123|321|adfd|dfjld*=123"，可以看到输出结果：

{

    "message" => [

        [0] "123",

        [1] "321",

        [2] "adfd",

        [3] "dfjld*=123"

    ],

    "@version" => "1",

    "@timestamp" => "2014-08-20T15:58:23.120Z",

    "host" => "raochenlindeMacBook-Air.local"

}

聚合数组 -- join

将类型为 array 的字段中的 array 元素使用指定字符为分隔符聚合成一个字符串

如我们可以将 split 分割的结果再重新聚合起来：

filter {

    mutate {

        split => ["message", "|"]

    }

    mutate {

        join => ["message", ","]

    }

}

输出：

{

    "message" => "123,321,adfd,dfjld*=123",

    "@version" => "1",

    "@timestamp" => "2014-08-20T16:01:33.972Z",

    "host" => "raochenlindeMacBook-Air.local"

}

合并数组 -- merge

对于几个类型为 array 或 hash 或 string 的字段，我们可以使用 merge 合并

filter {

    mutate {

        merge => [ "dest_field", "added_field" ]

    }

}

需要注意的是，array 和 hash 两个字段是不能 merge 的

原文地址;https://www.cnblogs.com/dyh004/p/9699813.html

【记录】logstash 的filter 使用的更多相关文章

Logstash的filter插件介绍
一官网说明过滤器插件对事件执行中介处理.通常根据事件的特征有条件地应用过滤器. 以下过滤器插件在下面可用. Plugin Description Github repository aggrega ...
logstash之filter处理中括号包围的内容
如题,logstash之filter处理中括号包围的内容: $grep -v "#" config/logstash-nlp.yml input { kafka { bootstr ...
ELK 学习笔记之 Logstash之filter配置
Logstash之filter: json filter: input{ stdin{ } } filter{ json{ source => "message" } } o ...
小姐姐教你定制一个Logstash Java Filter
Logstash是用来收集数据,解析处理数据,最终输出数据到存储组件的处理引擎.数据处理流程为: Logstash Java Filter 就是基于Logstash的Filter扩展API开发一个用J ...
logstash的filter之grok
logstash的filter之grokLogstash中的filter可以支持对数据进行解析过滤. grok:支持120多种内置的表达式,有一些简单常用的内容就可以使用内置的表达式进行解析 http ...
logstash 过滤filter
logstash过滤器插件filter详解及实例 1.logstash过滤器插件filter 1.1.grok正则捕获 grok是一个十分强大的logstash filter插件,他可以通过正则解 ...
LogStash的Filter的使用
最近在项目中使用LogStash做日志的采集和过滤,感觉LogStash还是很强大的. input { file{ path => "/XXX/syslog.txt" sta ...
logstash实战filter插件之grok（收集apache日志）
有些日志(比如apache)不像nginx那样支持json可以使用grok插件 grok利用正则表达式就行匹配拆分预定义的位置在 /opt/logstash/vendor/bundle/jruby/ ...
logstash之Filter插件
Logstash之所以强悍的主要原因是filter插件:通过过滤器的各种组合可以得到我们想要的结构化数据 1:grok正则表达式 grok**正则表达式是logstash非常重要的一个环节**:可以通 ...

随机推荐

Linux g++ 编译添加 pthread
If you are going to compile a C program with pthread.h in LINUX using GCC or G++ you will have to us ...
[洛谷P3205] HNOI2010 合唱队
问题描述为了在即将到来的晚会上有更好的演出效果,作为AAA合唱队负责人的小A需要将合唱队的人根据他们的身高排出一个队形.假定合唱队一共N个人,第i个人的身高为Hi米(1000<=Hi<= ...
对webpack的初步研究5
Loaders 加载器是应用于模块源代码的转换.它们允许您在处理import或“加载” 文件时预处理文件.因此,加载器有点像其他构建工具中的“任务”,并提供了处理前端构建步骤的强大方法.加载器可以将文 ...
20180705-Java对象和类
Java对象和类 Java作为一种面向对象语言.支持以下基本概念: 多态继承封装抽象类对象实例方法消息解析本节我们重点研究对象和类的概念. 对象:对象是类的一个实例,有状态和行为.例如,一条狗是一个 ...
银联高校极客挑战赛初赛第一场 B
自学图论的码队弟弟试图写非递归求解,然后TLE了一下午==,全程找不到bug,换成递归,一发AC 判断环写得很丑== #include<bits/stdc++.h> using name ...
（转）Servlet 3.0/3.1 中的异步处理学习
转:https://www.cnblogs.com/davenkin/p/async-servlet.html 在Servlet 3.0之前,Servlet采用Thread-Per-Request的方 ...
Dpr ppi 适配等概念弹性属性的讲解
Dpr: Dpr的全称(Device pixel ratio)像素设备比例:就是说每个设备像素上占有的css位像素的个数苹果手机常见的设备像素比:1.0安卓 iPhone2.0 3.0 如果是1. ...
TP5内部异常API数据输出的自定义方法编写
需求:利用postman进行请求api接口过程中关于一些数据输出异常的情况下我们希望通过自己编写一些类和方法实现便于后端人员进行根据提示进行调试处理! 以下测试的时候请设置 app_debug ...
理解JavaScript中的this
在JavaScript中,this关键字是用来引用调用该函数的那个对象的.看几个栗子: var name="Window"; var obj={ name:"Obje ...
instanceof关键字用于判断一个引用类型变量所指向的对象是否是一个类（或接口、抽象类、父类）的实例。
http://lavasoft.blog.51cto.com/62575/79864/ 深入Java关键字instanceof 2008-06-02 07:50:43 标签:Java 关键字休 ...

【记录】logstash 的filter 使用

概述

强大的文本解析工具 -- Grok

基本用法

覆盖 -- overwrite

示例

Grok 使用正则表达式

创建模式

IP 位置插件 -- Geoip

使用方法

示例

选项

json

示例

时间分割 -- split

数据修改 -- mutate

重命名 -- rename

更新字段内容 -- update

替换字段内容 -- replace

数据类型转换 -- convert

文本替换 -- gsub

大小写转换 -- uppercase、lowercase

去除空白字符 -- strip

删除字段 -- remove、remove_field

删除字段 -- remove、remove_field

分割字段 -- split

聚合数组 -- join

合并数组 -- merge

【记录】logstash 的filter 使用的更多相关文章

随机推荐

热门专题