如果不进行过滤,ES中存储的Nginx的日志是整行日志,在Kibana页面中只能查看到整行的日志,并没有其他太多的价值,所以我们需要对日志进行分割过滤,更有利于进行日志的分析。

学习本章需要具备一定的正则表达式知识

正则表达式

普通正则表达
表达式 含义
. 任意一个字符
* 前面一个字符出现0次或者多次
[abc] 中括号内任意一个字符
[^adc] 非中括号内的字符
[0-9] 数字
[a-z] 小写字母
[A-Z] 大写字母
[a-zA-Z0-9] 所有的字母和数字
^xx 以xx开头
xx$ 以xx结尾
\d 数字
\s 空白字符
扩展正则表达式
表达式 含义
? 前面的字符出现0或者1次
+ 前面的字符出现1或者多次
{n} 前面的字符匹配n次
{a,b} 前面的字符匹配a到b次
{,b} 前面的字符匹配0到b次
{a,} 前面的字符出现a到a+次
(string1 | string2) string1 或者 string2

这里只是简单的列举了一些正则表达式,如果想要详细学习正则表达式的可以百度,有很多文档都写的很详细。

分享一个工具,平时自己写完正则表达式可以作为测试使用  http://tool.oschina.net/regex/

Nginx日志分析

Nginx日志说明

'$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';

  该日志未做任何修改,为Nginx默认的main日志的格式。接下来我们简单的看一下各个字段的含义

$1  访问的IP(如果经过反向代理,则该IP为反向代理服务器的IP地址)
$3 远端访问的用户
$4 访问时间
$6 请求方式
$7 访问的URL
$9 状态码
$10 请求的文件大小
$11 从哪个URL跳转过来
$12 客户端信息
$13 反向代理时获取真实IP

  参考下面一个日志

45.251.100.145 - - [20/Sep/2019:19:33:33 +0800] "GET /index.html HTTP/1.1" 200 78905343 "-" "AndroidDownloadManager/8.1.0 (Linux; U; Android 8.1.0; PACT00 Build/O11019)" "120.163.153.183"

利用Logstash去提取Nginx的日志

  1. Grok使用(?<xxx>提取内容) 来提取xxx字段
  2. 提取客户端IP:(?<clientip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}))    # 因为nginx日志中的IP一般都是正常的IP。所以简单的匹配即可
  3. 提取时间: \[(?<requesttime>[^]+ \+[0-9]+)\]
  4. 提取请求方式:   "(?<requesttype>[A-Z]+)
  5. 提取请求的内容:(?<requesturl>[^ ]+)
  6. 提取ua:"(?<ua>[^"])"
  7. 提取真实IP: (?<realip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}))# 该形式只能匹配一个ip,如果有多个IP会报错,目前还未找到其他形式,,暂时作为一个问题放在这里。

利用Kibana的Dev tools工具,对一个日志进行一个匹配

得出如下匹配表达式

(?<clientip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}) - - \[(?<requesttime>[^ ]+ \+[0-9]+)\] "(?<requesttype>[A-Z]+) (?<requesturl>[^ ]+) HTTP/\d\.\d" (?<status>[0-9]+) [0-9]+ "[^"]+" "(?<ua>[^"]+)" "(?<realip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})"

修改logstash配置文件

input {
file {
path => /var/log/nginx/access.log
}
}
filter {
grok {
match => {
"message" => '(?<clientip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}) - - \[(?<requesttime>[^ ]+ \+[0-9]+)\] "(?<requesttype>[A-Z]+) (?<requesturl>[^ ]+) HTTP/\d\.\d" (?<status>[0-9]+) [0-9]+ "[^"]+" "(?<ua>[^"]+)" "(?<realip>[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3})'
}
}
}
output {
elasticsearch {
hosts => ["http://172.16.142.141:9200"]
}
}

  

此时在去kibana面板中查看时,可以看到过滤出来的内容,但是如果正则表达式匹配的有问题的话,则显示为 - ,点开查看详细内容,在tag中可以看到_grokparsefailure(正则解析失败)

如果正则表达式没有问题,只是个别这样的情况,可以选择在logstash的输出中配置,不将这样的信息输出到es中,这样也就不会再kibana中看到。

output {
if "_grokparsefailure" not in [tags] and "_dateparsefailure" not in [tags]{
elasticsearch {
hosts => ["http://172.16.142.141:9200"]
}
}
}

当然如果这样配置之后,一些正则不能匹配的则不会发送的ES,可能会错过一些信息,所以,最好还是全部都发送到ES中,可以根据错误去修改正则表达式等

05_Nginx日志分析的更多相关文章

  1. 【转】gc日志分析工具

    性能测试排查定位问题,分析调优过程中,会遇到要分析gc日志,人肉分析gc日志有时比较困难,相关图形化或命令行工具可以有效地帮助辅助分析. Gc日志参数 通过在tomcat启动脚本中添加相关参数生成gc ...

  2. 海量日志分析方案--logstash+kibnana+kafka

    下图为唯品会在qcon上面公开的日志处理平台架构图.听后觉得有些意思,好像也可以很容易的copy一个,就动手尝试了一下. 目前只对flume===>kafka===>elacsticSea ...

  3. ELK+Kafka集群日志分析系统

    ELK+Kafka集群分析系统部署 因为是自己本地写好的word文档复制进来的.格式有些出入还望体谅.如有错误请回复.谢谢! 一. 系统介绍 2 二. 版本说明 3 三. 服务部署 3 1) JDK部 ...

  4. Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍

    网站日志分析项目案例(一)项目介绍:当前页面 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例 ...

  5. Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...

  6. Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析

    网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnbl ...

  7. MyCAT日志分析

    MyCAT日志对于了解MyCAT的运行信息不可获取,譬如MyCAT是否采用读写分离,对于一个查询语句,MyCAT是怎样执行的,每个分片会分发到哪个节点上等等. 默认是info级别,通过log4j.xm ...

  8. ELK+redis搭建nginx日志分析平台

    ELK+redis搭建nginx日志分析平台发表于 2015-08-19   |   分类于 Linux/Unix   |  ELK简介ELKStack即Elasticsearch + Logstas ...

  9. Mysql慢查询和慢查询日志分析

     Mysql慢查询和慢查询日志分析   众所周知,大访问量的情况下,可添加节点或改变架构可有效的缓解数据库压力,不过一切的原点,都是从单台mysql开始的.下面总结一些使用过或者研究过的经验,从配置以 ...

随机推荐

  1. 设计基于HTML5的APP登录功能及安全调用接口的方式(原理篇)

    登录 保存密码 安全 加密 最近发现群内大伙对用Hbuilder做的APP怎么做登录功能以及维护登录状态非常困惑,而我前一段时间正好稍微研究了一下,所以把我知道的告诉大家,节约大家查找资料的时间. 你 ...

  2. 刷新ip地址 windows linux系统

    linux:使用dhcp去更新ip与释放ip 释放ip: dhclient -r eth0 (释放eth0的ip) 更新ip : dhclient eth0 (针对eth0,请求新的ip) windo ...

  3. NOPI 读与写

    Excel读取和写入的完整代码using NPOI.HSSF.UserModel;using NPOI.SS.UserModel;using NPOI.XSSF.UserModel;using Sys ...

  4. Ubuntu install android studio

    Ubuntu install android studio 1. 安装 openjdk8,并在配置文件 /etc/profile 中,追加如下内容: sudo aptitude install ope ...

  5. vue动态绘制四分之三圆环

    参照网上的一个案例“参照的为绘制的是一个动态的圆环”,现在我的需求是改编成四分之三的圆环实现效果: 样式展示 canvas绘图基本操作设置就可以参考源代码链接:原文:https://blog.csdn ...

  6. Authorization Bypass in RSA NetWitness

    https://www.cnblogs.com/iAmSoScArEd/ SEC Consult Vulnerability Lab Security Advisory < 20190515-0 ...

  7. FreeRTOS 任务挂起和恢复

    在使用RTOS的时候一个实时应用可以作为一个独立的任务.每个任务都有自己的运行环境, 不依赖于系统中其他的任务或者RTOS调度器. 任何一个时间点只能有一个任务运行,具体运行哪个任务是由RTOS调度器 ...

  8. RuntimeWarning: DateTimeField AppToken.expire_date received a naive datetime (2019-05-16 16:54:01.144582) while time zone support is active. RuntimeWarning)

    数据库存储当前时间操作: datetime.datetime.now() 更改为: from django.utils import timezone timezone.now()

  9. soapUI与post测试soap webservice接口

    之前装了SoapUI,最近装了Postman,分别用它们测试了WebService,下面为用法. 测试的在线WebService(数据来源于中国气象局)Endpoint: http://www.web ...

  10. GitLab初识以及代码迁移

    目录 一.理论概述 1.什么是gitlib 2.GitLab服务构成 3.Git对比SVN 二.部署 1.简单操作GitLab 三.项目实践:SVN代码迁移至GitLab 环境 1.Linux下部署S ...