logstash的grok插件的用途是提取字段,将非格式的内容进行格式化,

input {
file {
path => "/var/log/http.log"
}
}
filter {
grok {
match => { "message" => "%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}" }
}
}

  匹配字段如下:

client: 55.3.244.1

method: GET

request: /index.html

bytes: 15824

duration: 0.043

  更加震撼的是logstash内置很多的正则表达式,参见参考部分的链接。

  例如:对于字符串:

Jan 1 06:25:43 mailserver14 postfix/cleanup[21403]: BEF25A72965: message-id=<20130101142543.5828399CCAF@mailserver14.example.com>

  可以用如下的解析

 filter {
grok {
patterns_dir => ["./patterns"]
match => { "message" => "%{SYSLOGBASE} %{POSTFIX_QUEUEID:queue_id}: %{GREEDYDATA:syslog_message}" }
}
}

  其中SYSLOGBASE以及GREEDYDATA都是logstash里面内置好的解析规则,可以再上面提供的github中找到,是不是很省劲?

  对于POSTFIX_QUEUEID而言,是一个我们自己定制的一个解析,放在根目录的patterns路径下,那么需要前面的patterns_dir参数中指定一下路径即可。文件的内容如下:

  # contents of ./patterns/postfix:

  POSTFIX_QUEUEID [0-9A-F]{10,11}

  我们来看一下grok里面令人兴奋的几个例子:

  1. override:

  消息:

May 29 16:37:11 sadness logger: hello world

  grok规则:

 filter {
grok {
match => { "message" => "%{SYSLOGBASE} %{DATA:message}" }
overwrite => [ "message" ]
}
}

  解析结果:

  hello world

  2. addtag,addfield

  处于测试目的,你能希望添加一些字段来辅助跟踪,或者增强表达内容可以通过addtag以及addfield来进行统一设置。tag表达式有一个点,就是可以一次性添加多个,因为这些options的类型都是array,如果是多个,需要用"[... ...]"来包裹。

filter {
  grok {
    add_field => { "foo_%{somefield}" => "Hello world, from %{host}" }
  }
}
# You can also add multiple fields at once:
filter {
  grok {
    add_field => {
"foo_%{somefield}" => "Hello world, from %{host}"
"new_field" => "new_static_value"
    }
  }
}
filter {
grok {
  add_tag => [ "foo_%{somefield}" ]
}
}
# You can also add multiple tags at once:
filter {
grok {
add_tag => [ "foo_%{somefield}", "taggedy_tag"]
}
}

  3. 多个规则匹配

 filter {
grok {
match => { "message" => [ "%{NUMBER:duration}", "%{NUMBER:speed}" ] } }
}

  关于Grok解析

  想要测试我们的grok而是解析正确可以通过下面的网站进行测试:

http://grokdebug.herokuapp.com/

  例如,

  1. 匹配名字
 Demo:Lorry -- ::

 模式:^%{USERNAME:name}$

 匹配结果:

 { "name": [ [ "Lorry" ] ] }

  2.匹配时间

 Demo:--8T11::57.333
模式:%{TIMESTAMP_ISO8601 :lorry}
匹配结果
{ "TIMESTAMP_ISO8601": [ [ "2018-9-8T11:19:57.333" ] ], "YEAR": [ [ "" ] ], "MONTHNUM": [ [ "" ] ], "MONTHDAY": [ [ "" ] ], "HOUR": [ [ "", null ] ], "MINUTE": [ [ "", null ] ], "SECOND": [ [ "57.333" ] ], "ISO8601_TIMEZONE": [ [ null ] ] }

  3.下面是一个比较复杂的demo,就是匹配多部分:

 DemoLorry --8T11::57.333
%{USERNAME:Lorry}%{SPACE}%{TIMESTAMP_ISO8601:time}

Ruby

最后是关于ruby,下面链接中就是一个比较好的Ruby教程,就ruby的语法以及日期等处理方式都有说明。

参考:

  1. 关于grok内置好的正则表达式

https://github.com/elastic/logstash/blob/v1.4.2/patterns/grok-patterns

  2. 下面是一篇很好的介绍logstash的文章(唉,只有google可以搜得到)

https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html

  3. Ruby教程

https://code.ziqiangxuetang.com/ruby/ruby-tutorial.html

Logstash的grok以及Ruby的更多相关文章

  1. Logstash使用grok解析IIS日志

    Logstash使用grok解析IIS日志 1. 安装配置 安装Logstash前请确认Elasticsearch已经安装正确,参见RedHat6.4安装Elasticsearch5.2.0. 下载链 ...

  2. 使用logstash的grok插件解析springboot日志

    使用logstash的grok插件解析springboot日志 一.背景 二.解决思路 三.前置知识 四.实现步骤 1.准备测试数据 2.编写`grok`表达式 3.编写 logstash pipel ...

  3. logstash filter grok 用法

    在elk+filebeat都安装好,且明白了基本流程后,主要的就是写logstash的filter了,以此来解析特定格式的日志 logstash的filter是用插件实现的,grok是其中一个,用来解 ...

  4. logstash 使用grok正则解析日志

    http://xiaorui.cc/2015/01/27/logstash%E4%BD%BF%E7%94%A8grok%E6%AD%A3%E5%88%99%E8%A7%A3%E6%9E%90%E6%9 ...

  5. Logstash使用grok过滤nginx日志(二)

    在生产环境中,nginx日志格式往往使用的是自定义的格式,我们需要把logstash中的message结构化后再存储,方便kibana的搜索和统计,因此需要对message进行解析. 本文采用grok ...

  6. 使用Logstash filter grok过滤日志文件

    Logstash提供了一系列filter过滤plugin来处理收集到的log event,根据log event的特征去切分所需要的字段,方便kibana做visualize和dashboard的da ...

  7. Logstash使用grok插件解析Nginx日志

    grok表达式的打印复制格式的完整语法是下面这样的: %{PATTERN_NAME:capture_name:data_type}data_type 目前只支持两个值:int 和 float. 在线g ...

  8. 关于Logstash中grok插件的正则表达式例子

    一.前言 近期需要对Nginx产生的日志进行采集,问了下度娘,业内最著名的解决方案非ELK(Elasticsearch, Logstash, Kibana)莫属. Logstash负责采集日志,Ela ...

  9. logstash的grok正则匹配规则文件

    文件路径:logstash/vendor/bundle/jruby/1.9/gems/logstash-patterns-core-4.1.0/patterns/grok-patterns 在线调试g ...

随机推荐

  1. 20165214 2017-2018-2 《Java程序设计》课程总结

    20165214 2017-2018-2 <Java程序设计>课程总结 每周任务链接 预备作业1:我期望的师生关系 预备作业2:C语言基础调查和java学习展望 预备作业3:Linux安装 ...

  2. centos6.6安装hadoop-2.5.0(一、本地模式安装)

    操作系统:centos6.6(一台服务器) 环境:selinux disabled:iptables off:java 1.8.0_131 安装包:hadoop-2.5.0.tar.gz hadoop ...

  3. (Object String 类中的方法练习)

    package com.zs.demo1; public class Demo1 { public static void main(String[] args) { fun1(); fun2(); ...

  4. Python eval,exac,compile

    # eval 是把字符串类型的数据作为代码进行执行 s = "18+2" ret = eval(s) # 执行字符串类型的代码 print(ret) code = input(&q ...

  5. python 应用 pyamg

    paper idea要用到pyamg,虽然这个包只有几行代码,但是还是折磨了我挺久,配置环境什么的就废了挺多时间. 好久没用pyamg了,然后又换了电脑,突然感觉有点方,,都忘了之前怎么弄的,今天运行 ...

  6. SQL注入之Sqli-labs系列第二十关(基于头部的cookie POST报错注入)

    开始挑战第十八关(Cookie Injection-Error Based- string) 前言: 通常开发人员在开发过程中会特别注意到防止恶意用户进行恶意的注入操作,因此会对传入的参数进行适当的过 ...

  7. Oracle自我补充之trunc()函数使用介绍

    oracle trunc函数使用介绍 核心提示:oracle trunc函数使用介绍 1.TRUNC(for dates) TRUNC函数为指定元素而截去的日期值. 其具体的语法格式如下: TRUNC ...

  8. ORA-00600: internal error code, arguments: [kole_t2u], [34]

    数据库版本10.2.0.5,Alert 日志存在ORA-600报错 ORA-00600: internal error code, arguments: [kole_t2u], [34], [] -- ...

  9. pytorch使用tensorboardX进行loss可视化

    最近pytorch出了visdom,也没有怎么去研究它,主要是觉得tensorboardX已经够用,而且用起来也十分的简单 pip install tensorboardX 然后在代码里导入 from ...

  10. C++ 中时钟函数的使用

    头文件: #incllude <time.h> 定义: clock_t var1, var2; 获取时间: var1 = clock(); 每过千分之一秒(1毫秒),调用clock()函数 ...