（四）ELK Logstash filter

filter 官方详解
https://www.elastic.co/guide/en/logstash/current/filter-plugins.html

apache 日志实例：

input {

    # access日志

    file {

        type => "apache_access"

        tag => "apache_access"

        path => ["/var/log/apache/access.log"]

        start_position => beginning

    }

    # error日志

    file {

        type => "apache_error"

        tag => "apache_error"

        path => ["/var/log/apache/error.log"]

        start_position => beginning

    }

}

filter {

    # 根据 input 添加的 type 来区分, 实现同时读取两种日志, 也可以用 tag 来区分 (例如 if [tag] in "apache_access")

    if [type] == "apache_access"{

        # 文本片段切分的方式来切分日志事件

        # 推荐使用grokdebugger来写匹配模式: http://grokdebug.herokuapp.com/

        # grok官方详解: https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html

        grok {

            match => { "message" => "%{COMBINEDAPACHELOG}"}

        }

        # data插件可以用来转换你的日志记录中的时间字符串, 然后转存到 @timestamp 字段里

        date {

            match => [ "timestamp" , "dd/MMM/YYYY:HH:mm:ss Z" ]

        }

        # 通过geoip能获取到很多的信息，包括经纬度，国家，城市，地区等信息

        geoip {

            # 来源于apache日志中的clientip

            source => "clientip"

        }

        # useragent插件可以帮助我们过滤出浏览器版本、型号以及系统版本

        useragent {

            source => "agent"

            target => "useragent"

        }

    } else if [type] == "apache_error"{

        grok {

            match => { "message" => "\[(?<mytimestamp>%{DAY:day} %{MONTH:month} %{MONTHDAY} %{TIME} %{YEAR})\] \[%{WORD:module}:%{LOGLEVEL:loglevel}\] \[pid %{NUMBER:pid}:tid %{NUMBER:tid}\]( \(%{POSINT:proxy_errorcode}\)%{DATA:proxy_errormessage}:)?( \[client %{IPORHOST:client}:%{POSINT:clientport}\])? %{DATA:errorcode}: %{GREEDYDATA:message}" }

        }

        date {

            match => [ "mytimestamp" , "EEE MMM dd HH:mm:ss.SSSSSS yyyy" ]

        }

    }

    #转换类型 (integer, float, integer_eu, float_eu, string, boolean)

    #mutate {

    #    convert => ["ctime", "integer"]

    #    convert => ["lat", "float"]

    #}

    #当某条日志信息符合if规则时

    #if [field_name] == "value" {

    #    #drop可以跳过某些不想统计的日志信息

    #    drop {}

    #}

    #create_at为时间戳时需要转换为0时区(UTC), 然后放入@timestamp字段里

    #date {

    #   match => ["create_at", "yyyy-MM-dd HH:mm:ss,SSS", "UNIX"]

    #   #match => ["create_at", "UNIX"]

    #   target => "@timestamp"

    #   locale => "cn"

    #   #remove_field => 'create_at' #删除字段

    #}

    # 执行ruby代码

    #ruby {

    #    code => "event.set('timestamp', event.get('@timestamp').time.localtime + 8*60*60)"

    #}

    #ruby {

    #    code => "event.set('@timestamp',event.get('timestamp'))"

    #}

}

# 输出插件将数据发送到一个特定的目的地, 除了elasticsearch还有好多可输出的地方, 例如file, csv, mongodb, redis, syslog等

output {

    if [type] == "apache_access"{

        elasticsearch {

            hosts => [ "localhost:9200" ]

            # 记录的index索引名称格式

            index => "apache-access-log-%{+YYYY.MM}"

        }

    } else if [type] == "apache_error"{

        elasticsearch {

            hosts => [ "localhost:9200" ]

            index => "apache-error-log"

        }

    }

}

1、grok插件

grok插件有非常强大的功能，他能匹配一切数据，但是他的性能和对资源的损耗同样让人诟病。

filter{

    grok{

        #只说一个match属性，他的作用是从message 字段中吧时间给抠出来，并且赋值给另个一个字段logdate。

        #首先要说明的是，所有文本数据都是在Logstash的message字段中中的，我们要在过滤器里操作的数据就是message。

        #第二点需要明白的是grok插件是一个十分耗费资源的插件，这也是为什么我只打算讲解一个TIMESTAMP_ISO8601正则表达式的原因。

        #第三点需要明白的是，grok有超级多的预装正则表达式，这里是没办法完全搞定的，也许你可以从这个大神的文章中找到你需要的表达式

        #http://blog.csdn.net/liukuan73/article/details/52318243

        #但是，我还是不建议使用它，因为他完全可以用别的插件代替，当然，对于时间这个属性来说，grok是非常便利的。

        match => ['message','%{TIMESTAMP_ISO8601:logdate}']

    }

}

2、mutate插件

mutate插件是用来处理数据的格式的，你可以选择处理你的时间格式，或者你想把一个字符串变为数字类型（当然需要合法），同样的你也可以返回去做。可以设置的转换类型包括： "integer"， "float" 和 "string"。

filter {

    mutate {

        #接收一个数组，其形式为value，type

        #需要注意的是，你的数据在转型的时候要合法，你总是不能把一个‘abc’的字符串转换为123的。

        convert => [

                    #把request_time的值装换为浮点型

                    "request_time", "float"，

                    #costTime的值转换为整型

                    "costTime", "integer"

                    ]

    }

}

3、ruby插件

ruby插件可以使用任何的ruby语法，无论是逻辑判断，条件语句，循环语句，还是对字符串的操作，对EVENT对象的操作，都是极其得心应手的。

filter {

    ruby {

        #ruby插件有两个属性，一个init 还有一个code

        #init属性是用来初始化字段的，你可以在这里初始化一个字段，无论是什么类型的都可以，这个字段只是在ruby{}作用域里面生效。

        #这里我初始化了一个名为field的hash字段。可以在下面的coed属性里面使用。

        init => [field={}]

        #code属性使用两个冒号进行标识，你的所有ruby语法都可以在里面进行。

        #下面我对一段数据进行处理。

        #首先，我需要在把message字段里面的值拿到，并且对值进行分割按照“|”。这样分割出来的是一个数组（ruby的字符创处理）。

        #第二步，我需要循环数组判断其值是否是我需要的数据（ruby条件语法、循环结构）

        #第三步，我需要吧我需要的字段添加进入EVEVT对象。

        #第四步，选取一个值，进行MD5加密

        #什么是event对象？event就是Logstash对象，你可以在ruby插件的code属性里面操作他，可以添加属性字段，可以删除，可以修改，同样可以进行树脂运算。

        #进行MD5加密的时候，需要引入对应的包。

        #最后把冗余的message字段去除。

        code => "

            array=event。get('message').split('|')

            array.each do |value|

                if value.include? 'MD5_VALUE'

                    then

                        require 'digest/md5'

                        md5=Digest::MD5.hexdigest(value)

                        event.set('md5',md5)

                end

                if value.include? 'DEFAULT_VALUE'

                    then

                        event.set('value',value)

                end

            end

             remove_field=>"message"

        "

    }

}

4、date插件

这里需要合前面的grok插件剥离出来的值logdate配合使用（当然也许你不是用grok去做）。

filter{

    date{

        #还记得grok插件剥离出来的字段logdate吗？就是在这里使用的。你可以格式化为你需要的样子，至于是什么样子。就得你自己取看啦。

        #为什什么要格式化？

        #对于老数据来说这非常重要，应为你需要修改@timestamp字段的值，如果你不修改，你保存进ES的时间就是系统但前时间（+0时区）

        #单你格式化以后，就可以通过target属性来指定到@timestamp，这样你的数据的时间就会是准确的，这对以你以后图表的建设来说万分重要。

        #最后，logdate这个字段，已经没有任何价值了，所以我们顺手可以吧这个字段从event对象中移除。

        match=>["logdate","dd/MMM/yyyy:HH:mm:ss Z"]

        target=>"@timestamp"

        remove_field => 'logdate'

        #还需要强调的是，@timestamp字段的值，你是不可以随便修改的，最好就按照你数据的某一个时间点来使用，

        #如果是日志，就使用grok把时间抠出来，如果是数据库，就指定一个字段的值来格式化，比如说："timeat", "%{TIMESTAMP_ISO8601:logdate}"

        #timeat就是我的数据库的一个关于时间的字段。

        #如果没有这个字段的话，千万不要试着去修改它。

    }

}

5、json插件

这个插件也是极其好用的一个插件，现在我们的日志信息，基本都是由固定的样式组成的，我们可以使用json插件对其进行解析，并且得到每个字段对应的值。

filter{

    #source指定你的哪个值是json数据。

    json {

         source => "value"

    }

    #注意：如果你的json数据是多层的，那么解析出来的数据在多层结里是一个数组，你可以使用ruby语法对他进行操作，最终把所有数据都装换为平级的。

}

json插件还是需要注意一下使用的方法的，下图就是多层结构的弊端：

对应的解决方案为：

ruby{

    code=>"

    kv=event.get('content')[0]

    kv.each do |k,v|

    event.set(k,v)

    end"

    remove_field => ['content','value','receiptNo','channelId','status']

}

（四）ELK Logstash filter的更多相关文章

ELK——Logstash 2.2 date 插件【翻译+实践】
官网地址本文内容语法测试数据可配置选项参考资料 date 插件是日期插件,这个插件,常用而重要. 如果不用 date 插件,那么 Logstash 将处理时间作为时间戳.时间戳字段是 Log ...
ELK logstash 处理MySQL慢查询日志（初步）
写在前面:在做ELK logstash 处理MySQL慢查询日志的时候出现的问题: 1.测试数据库没有慢日志,所以没有日志信息,导致 IP:9200/_plugin/head/界面异常(忽然出现日志数 ...
[elk]logstash的最佳实战-项目实战
重点参考: http://blog.csdn.net/qq1032355091/article/details/52953837 不得不说这是一个伟大的项目实战,是正式踏入logstash门槛的捷径 ...
logstash filter plugin
1. 基本语法%{NUMBER:duration} %{IP:client} 2. 支持的数据类型默认会把所有的匹配都当作字符串,比如0.043, 想要转成浮点数,可以%{NUMBER:num:flo ...
logstash filter 处理json
根据输入的json字段,分别建立索引.循环生成注册log和登录log保存到testlog文件中,结果如下: {"method":"register"," ...
Logstash filter 的使用
原文地址:http://techlog.cn/article/list/10182917 概述 logstash 之所以强大和流行,与其丰富的过滤器插件是分不开的过滤器提供的并不单单是过滤的功能,还 ...
net MVC 四种基本 Filter
四种基本 Filter 概述 MVC框架支持的Filter可以归为四类,每一类都可以对处理请求的不同时间点引入额外的逻辑处理.这四类Filter如下表: 使用内置的Authorization Fi ...
ELK系列四：Logstash的在ELK架构中的使用和简单的输入
1.ELK架构中Logstash的位置: 1.1.小规模集群部署(学习者适用的架构) 简单的只有Logstash.Elasticsearch.Kibana,由Logstash收集日志或者流量信息,过滤 ...
ELK学习笔记之F5-HTTP-requesting-logging logstash filter
input { tcp { port => 514 type => 'f5-request' } } filter { if [type] == "f5-request" ...

随机推荐

java实现第七届蓝桥杯方格填数
方格填数题目描述如下的10个格子 +--+--+--+ | | | | +--+--+--+--+ | | | | | +--+--+--+--+ | | | | +--+--+--+ (如果显示 ...
java实现第六届蓝桥杯生命之树
生命之树生命之树在X森林里,上帝创建了生命之树. 他给每棵树的每个节点(叶子也称为一个节点)上,都标了一个整数,代表这个点的和谐值. 上帝要在这棵树内选出一个非空节点集S,使得对于S中的任意两个点 ...
曹工说JDK源码（1）--ConcurrentHashMap，扩容前大家同在一个哈希桶，为啥扩容后，你去新数组的高位，我只能去低位？
如何计算,一对key/value应该放在哪个哈希桶大家都知道,hashmap底层是数组+链表(不讨论红黑树的情况),其中,这个数组,我们一般叫做哈希桶,大家如果去看jdk的源码,会发现里面有一些变量 ...
传递函数-微分方程-差分方程-Matlab阶跃响应曲线
Transfer function: 1 ------- 5 s + 1 写成微分方程: 5y'(t)+y(t)=u(t) 向前差分: 5y(k+1)+(T-5)y(k)=Tu(k) T:Sample ...
如何在微信小程序中使用骨架屏
先上效果图
Laravel中Homestead添加多站点时遇到问题
Homestead做Laravel的开发还是很方便的,但是在添加多站点的时候,发现几个坑,来做个记录. 首先,官方文档给了修改homestead.yaml文件的方式,只需要在sites字节下添加一个新 ...
521.最长特殊序列 I
2020-05-14 最长特殊序列 I 给你两个字符串,请你从这两个字符串中找出最长的特殊序列. 「最长特殊序列」定义如下:该序列为某字符串独有的最长子序列(即不能是其他字符串的子序列). 子序列可 ...
通过Nginx、Consul、Upsync实现动态负载均衡和服务平滑发布
前提前段时间顺利地把整个服务集群和中间件全部从UCloud迁移到阿里云,笔者担任了架构和半个运维的角色.这里详细记录一下通过Nginx.Consul.Upsync实现动态负载均衡和服务平滑发布的核心 ...
@loj - 3046@「ZJOI2019」语言
目录 @description@ @solution@ @accepted code@ @details@ @description@ 九条可怜是一个喜欢规律的女孩子.按照规律,第二题应该是一道和数据 ...
MSSQL（DAC环境一下一些特殊的访问方式）
MSSQL(在DAC环境下访问: 存储过程) Server name: admin:计算机名\实例名 or admin:IP地址\实例名 ...

（四）ELK Logstash filter

1、grok插件

2、mutate插件

（四）ELK Logstash filter的更多相关文章

随机推荐

热门专题