一、前言

近期需要对Nginx产生的日志进行采集,问了下度娘,业内最著名的解决方案非ELK(Elasticsearch, Logstash, Kibana)莫属。

Logstash负责采集日志,Elasticsearch负责存储、索引日志,Kibana则负责通过Web形式展现日志。

今天,我要说的是Logstash,它可以从多种渠道采集数据,包括控制台标准输入、日志文件、队列等等,只要你能想到,都可以通过插件的方式实现。

其中,日志源提供的日志格式可能并不是我们想要插入存储介质里的格式,所以,Logstash里提供了一系列的filter来让我们转换日志

Grok就是这些filters里最重要的一个插件,下面我就说说它。

二、Grok提供的常用Patterns说明及举例

大多数Linux使用人员都有过用正则表达式来查询机器中相关文件或文件里内容的经历,在Grok里,我们也是使用正则表达式来识别日志里的相关数据块。

有两种方式来使用正则表达式:

  1. 直接写正则来匹配
  2. 用Grok表达式映射正则来匹配

在我看来,每次重新写正则是一件很痛苦的事情,为什么不用表达式来一劳永逸呢?

特别提示:Grok表达式很像C语言里的宏定义

要学习Grok的默认表达式,我们就要找到它的具体配置路径,路径如下:

# Windows下路径
[你的logstash安装路径]\vendor\bundle\jruby\x.x\gems\logstash-patterns-core-x.x.x\patterns\grok-patterns

现在对常用的表达式进行说明:

常用表达式

  • USERNAME 或 USER

    用户名,由数字、大小写及特殊字符(._-)组成的字符串

比如:1234BobAlex.Wong

  • EMAILLOCALPART

    电子邮件用户名部分,首位由大小写字母组成,其他位由数字、大小写及特殊字符(_.+-=:)组成的字符串。注意,国内的QQ纯数字邮箱账号是无法匹配的,需要修改正则

比如:stoneGary_Luabc-123

  • EMAILADDRESS

    电子邮件

比如:stone@abc.comGary_Lu@gmail.comabc-123@163.com

  • HTTPDUSER

    Apache服务器的用户,可以是EMAILADDRESSUSERNAME
  • INT

    整数,包括0和正负整数

比如:0-12343987

  • BASE10NUM 或 NUMBER

    十进制数字,包括整数和小数

比如:0185.23

  • BASE16NUM

    十六进制数字,整数

比如:0x0045fa2d-0x3F8709

  • BASE16FLOAT

    十六进制数字,整数和小数
  • WORD

    字符串,包括数字和大小写字母

比如:String3529345ILoveYou

  • NOTSPACE

    不带任何空格的字符串
  • SPACE

    空格字符串
  • QUOTEDSTRING 或 QS

    带引号的字符串

比如:"This is an apple"'What is your name?'

  • UUID

    标准UUID

比如:550E8400-E29B-11D4-A716-446655440000

  • MAC

    MAC地址,可以是Cisco设备里的MAC地址,也可以是通用或者Windows系统的MAC地址
  • IP

    IP地址,IPv4或IPv6地址

比如:127.0.0.1FE80:0000:0000:0000:AAAA:0000:00C2:0002

  • HOSTNAME

    主机名称
  • IPORHOST

    IP或者主机名称
  • HOSTPORT

    主机名(IP)+端口

比如:127.0.0.1:3306api.stozen.net:8000

  • PATH

    路径,Unix系统或者Windows系统里的路径格式

比如:/usr/local/nginx/sbin/nginxc:\windows\system32\clr.exe

  • URIPROTO

    URI协议

比如:httpftp

  • URIHOST

    URI主机

比如:www.stozen.net10.0.0.1:22

  • URIPATH

    URI路径

比如://www.stozen.net/abc//api.php

  • URIPARAM

    URI里的GET参数

比如:?a=1&b=2&c=3

  • URIPATHPARAM

    URI路径+GET参数

比如://www.stozen.net/abc/api.php?a=1&b=2&c=3

  • URI

    完整的URI

比如:http://www.stozen.net/abc/api.php?a=1&b=2&c=3

日期时间表达式

  • MONTH

    月份名称

比如:JanJanuary

  • MONTHNUM

    月份数字

比如:03912

  • MONTHDAY

    日期数字

比如:03931

  • DAY

    星期几名称

比如:MonMonday

  • YEAR

    年份数字
  • HOUR

    小时数字
  • MINUTE

    分钟数字
  • SECOND

    秒数字
  • TIME

    时间

比如:00:01:23

  • DATE_US

    美国日期格式

比如:10-15-198210/15/1982

  • DATE_EU

    欧洲日期格式

比如:15-10-198215/10/198215.10.1982

  • ISO8601_TIMEZONE

    ISO8601时间格式

比如:+10:23-1023

  • TIMESTAMP_ISO8601

    ISO8601时间戳格式

比如:2016-07-03T00:34:06+08:00

  • DATE

    日期,美国日期%{DATE_US}或者欧洲日期%{DATE_EU}
  • DATESTAMP

    完整日期+时间

比如:07-03-2016 00:34:06

  • HTTPDATE

    http默认日期格式

比如:03/Jul/2016:00:36:53 +0800

Log表达式

  • LOGLEVEL

    日志等级

比如:AlertalertALERTError

三、创建自己的Grok表达式

在业务领域中,可能会有越来越多的日志格式出现在我们眼前,而Grok的默认表达式显然已无法满足我们的需求(比如用户身份证号、手机号等信息),所以,我们需要自己动手添加些表达式。

表达式 正则表达式 说明
DATE_CHS %{YEAR}[./-]%{MONTHNUM}[./-]%{MONTHDAY} 中国人习惯的日期格式
ZIPCODE_CHS [1-9]\d{5} 国内邮政编码
GAME_ACCOUNT [a-zA-Z][a-zA-Z0-9_]{4,15} 游戏账号,首字符为字母,4-15位字母、数字、下划线组成

还有很多,需要您在业务中灵活运用!

关于Logstash中grok插件的正则表达式例子的更多相关文章

  1. 使用logstash的grok插件解析springboot日志

    使用logstash的grok插件解析springboot日志 一.背景 二.解决思路 三.前置知识 四.实现步骤 1.准备测试数据 2.编写`grok`表达式 3.编写 logstash pipel ...

  2. Logstash使用grok插件解析Nginx日志

    grok表达式的打印复制格式的完整语法是下面这样的: %{PATTERN_NAME:capture_name:data_type}data_type 目前只支持两个值:int 和 float. 在线g ...

  3. logstash 中multiline插件的用法

    input { stdin { codec =>multiline { charset=>... #可选 字符编码 max_bytes=>... #可选 bytes类型 设置最大的字 ...

  4. Logstash的grok以及Ruby

    logstash的grok插件的用途是提取字段,将非格式的内容进行格式化, input { file { path => "/var/log/http.log" } } fi ...

  5. Logstash详解之——filter模块-grok插件

    1. grok插件:能匹配一切数据,但是性能和对资源的损耗也很大. grok内置字段类型参见: https://blog.csdn.net/cui929434/article/details/9439 ...

  6. logstash -grok插件语法介绍

      介绍 logstash拥有丰富的filter插件,它们扩展了进入过滤器的原始数据,进行复杂的逻辑处理,甚至可以无中生有的添加新的 logstash 事件到后续的流程中去!Grok 是 Logsta ...

  7. logstash实战filter插件之grok(收集apache日志)

    有些日志(比如apache)不像nginx那样支持json可以使用grok插件 grok利用正则表达式就行匹配拆分 预定义的位置在 /opt/logstash/vendor/bundle/jruby/ ...

  8. logstash中的redis插件

    redis作为logstash中的官方broker,既有input插件,还有output插件. redis input插件 data_type属性: 有三种类型, list -> BLPOP - ...

  9. logstash之Filter插件

    Logstash之所以强悍的主要原因是filter插件:通过过滤器的各种组合可以得到我们想要的结构化数据 1:grok正则表达式 grok**正则表达式是logstash非常重要的一个环节**:可以通 ...

随机推荐

  1. google 浏览器的调试模式

    1.电脑模式: 而在手机模式下的调试是:

  2. CentOS 下安装Mplayer播放器(转载)

    一.准备工作 需要的安装包及下载地址:1.mplayer源代码包(MPlayer-1.0rc4.tar.bz2)下载:http://www.mplayerhq.hu/MPlayer/releases/ ...

  3. RabbitMQ 作用

    1.RabbitMQ 作用 同步变异步 解耦 削峰 2.

  4. mysql连接时权限问题 用户问题

    启动工程时会连接mysql数据库,此时报错: ERROR 1044 (42000): Access denied for user 'pay'@'localhost' to database 'pay ...

  5. 【C++ STL】容器概要

    1.容器的共通能力 1.  所有的容器都是“value”语意,而不是“reference”语意.容器进行元素的安插操作时,内部实施的都是拷贝操作,置于容器内.因此STL容器的每个元素都必须能被拷贝.如 ...

  6. 使用MyBatis查询 返回类型为int,但是当查询结果为空NULL,报异常的解决方法

    使用MyBatis查询 返回类型为int,但是当查询结果为空NULL,会报异常. 例如: <select id="getPersonRecordId" parameterTy ...

  7. 【51NOD】1096 距离之和最小

    [算法]数学 [题解] 其实就是求中位数,奇数个点就是最中间的点,偶数个点就是最中间两个点和它们之间的区域皆可(所以偶数不必取到两点正中央,取两点任意一点即可). 我们可以想象现在x轴上有n个点,我们 ...

  8. Intersecting Lines (计算几何基础+判断两直线的位置关系)

    题目链接:http://poj.org/problem?id=1269 题面: Description We all know that a pair of distinct points on a ...

  9. 20、redis和memcached比较?

    1.Redis和Memcache都是将数据存放在内存中,都是内存数据库.不过memcache还可用于缓存其他东西,例如图片.视频等等: 2.Redis不仅仅支持简单的k/v类型的数据,同时还提供lis ...

  10. [Leetcode Week12]Unique Paths

    Unique Paths 题解 原创文章,拒绝转载 题目来源:https://leetcode.com/problems/unique-paths/description/ Description A ...