通过logstash过滤、分析日志数据

logstash是怎么工作的呢？

　　Logstash是一个开源的、服务端的数据处理pipeline（管道），它可以接收多个源的数据、然后对它们进行转换、最终将它们发送到指定类型的目的地。Logstash是通过插件机制实现各种功能的，读者可以在https://github.com/logstash-plugins 下载各种功能的插件，也可以自行编写插件。

　　Logstash实现的功能主要分为接收数据、解析过滤并转换数据、输出数据三个部分，对应的插件依次是input插件、filter插件、output插件，其中，filter插件是可选的，其它两个是必须插件。也就是说在一个完整的Logstash配置文件中，必须有input插件和output插件。

常用的input插件

-file:读取一个文件，这个读取功能有点类似于linux下面的tail命令，一行一行的实时读取。
-syslog: 监听系统514端口的syslog messages，并使用RFC3164格式进行解析。
-redis: Logstash可以从redis服务器读取数据，此时redis类似于一个消息缓存组件。
-kafka：Logstash也可以从kafka集群中读取数据，kafka加Logstash的架构一般用在数据量较大的业务场景，kafka可用作数据的缓冲和存储。
-filebeat：filebeat是一个文本日志收集器，性能稳定，并且占用系统资源很少，Logstash可以接收filebeat发送过来的数据。

常见的filter插件

filter插件主要用于数据的过滤、解析和格式化、也就是将非结构化的数据解析成结构化的、可查询的标准化数据。常见的filter插件有如下几个：
-grok：grok是logstash最重要的插件，可解析并结构化任意数据，支持正则表达式，并提供了很多内置的规则和模板可供使用，
-mutate：此插件提供了丰富的基础类型数据处理能力，包括类型转换，字符串处理和字段处理。
-date：此插件可以用来转换你的日志记录中的时间字符串。
-GeoIP：此插件可以根据IP地址提供对用的地域信息，包括国别，省市，经纬度等，对于可视化地图和区域统计非常有用。

常用的output：

-elasticsearch：发送数据到elasticsearch

-file：发送数据到文件中

-redis：发送数据到redis中，从这里可以看出redis插件既可以用在input插件中，也可以用在output插件中。

-kafka：发送数据到kafka中，与redis插件类似，此插件也可以用在logstash的输入和输出插件中。

如果使用rpm包安装软件，那么logstash的配置文件是/etc/logstah目录下。其中，jvm.options是设置JVM内存资源的配置文件，logstash.yml是logstash全局属性配置文件，一般无需修改，此外还有一个pipelines.yml文件，这个文件在logstash启动的时候进程也会去读取，这个文件的内容实际上指向的是当前目录下的conf.d这个子目录里面的配置文件，conf.d目录下的文件要以.conf结尾，里面配置了input插件、filter插件、output插件信息。

我们先来认识一下logstash是如何实现输入输出的，这里我们不添加filter插件。

（使用rpm包安装的话，logstash可执行文件在/usr/share/logstash/bin/目录下。）

[root@:172.31.22.29 /etc/logstash/conf.d]#/usr/share/logstash/bin/logstash -e ""

Sending Logstash logs to /var/log/logstash which is now configured via log4j2.properties

`date` this timestamp is OK                    #输入此信息。然后按enter键

{

       "message" => "·`date` this timestamp is OK",

          "host" => "ip-172-31-22-29.ec2.internal",

    "@timestamp" => 2019-01-22T02:59:01.422Z,

          "type" => "stdin",

      "@version" => "1"

}

有一点大家要记住：

/usr/share/logstash/bin/logstash -e "input {stdin{}} output{stdout{codec=>rubydebug}}"
等价于：

/usr/share/logstash/bin/logstash -e ""

我们这里就是进入了一个简单的交互式命令界面，当我输入信息时，logstash服务会反馈给我信息。我们来解释一下命令含义：

-e代表执行的意思。

input即输入的意思，input里面即是输入的方式，这里选择了stdin，就是标准输入（从终端输入）。

output即输出的意思，output里面是输出的方式，这里选择了stdout，就是标准输出（输出到终端）。

这里的codec是个插件，表明格式。这里放在stdout中，表示输出的格式，

rubydebug是专门用来做测试的格式，一般用来在终端输出JSON格式。

logstash的output输出的是JSON格式的内容：

Logstash在输出内容中会给事件添加一些额外信息。比如@version、host、@timestamp都是新增的字段，而最重要的是@timestamp，用来标记事件的发生时间。由于这个字段涉及到Logstash内部流转，如果给一个字符串字段重命名为@timestamp的话，Logstash就会直接报错。另外，也不能删除这个字段。还有一个字段type，表示事件的唯一类型。tags，表示事件的某方面属性。

我们上面的例子中是最简单的logstash例子。不过生产环境中大多使用-f参数去读配置文件。我们在上面提到过，配置文件一般在/etc/logstash/conf.d目录下，必须以.conf结尾才是logstash服务读取的配置文件。

那这次我们以配置文件为例进行介绍：

1）首先是我们进入到conf.d目录，然后创建配置文件l1.conf并输入如下内容：

input {

        file {

                path => "/var/log/haha.txt"

        }

}

output {

                stdout {

                        codec => rubydebug

                }

}

保存退出。这里的意思就是说我们创建个配置文件去读取/var/log/haha.txt这个日志文件，此文件里面一旦有数据，就立马读取出来。

接下来进行启动logstash服务：

[root@: /etc/logstash/conf.d]#/usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/l1.conf

Sending Logstash logs to /var/log/logstash which is now configured via log4j2.properties

[--22T03::,][WARN ][logstash.config.source.multilocal] Ignoring the 'pipelines.yml' file because modules or command line options are specified

[--22T03::,][INFO ][logstash.runner          ] Starting Logstash {"logstash.version"=>"6.5.4"}

[--22T03::,][INFO ][logstash.pipeline        ] Starting pipeline {:pipeline_id=>"main", "pipeline.workers"=>4, "pipeline.batch.size"=>125, "pipeline.batch.delay"=>50}

[--22T03::,][INFO ][logstash.inputs.file     ] No sincedb_path set, generating one based on the "path" setting {:sincedb_path=>"/var/lib/logstash/plugins/inputs/file/.sincedb_0d6c5b209e03529a50b2eca9300b7d96", :path=>["/var/log/haha.txt"]}

[--22T03::,][INFO ][logstash.pipeline        ] Pipeline started successfully {:pipeline_id=>"main", :thread=>"#<Thread:0x27274b73 run>"}

[--22T03::,][INFO ][logstash.agent           ] Pipelines running {:count=>, :running_pipelines=>[:main], :non_running_pipelines=>[]}

[--22T03::,][INFO ][filewatch.observingtail  ] START, creating Discoverer, Watch with file and sincedb collections

[--22T03::,][INFO ][logstash.agent           ] Successfully started Logstash API endpoint {:port=>}

会出现一堆启动信息，不妨碍实验。

接下来在另一终端向/var/log/haha.txt输入一行内容：

[root@::172.31.22.29 /etc/logstash]#echo "`date`+ timestamp is OK" >> /var/log/haha.txt

然后回到原来的那个终端去查看内容：

{

       "message" => "Tue Jan 22 03:21:32 UTC 2019+ timestamp is OK",

      "@version" => "1",

    "@timestamp" => 2019-01-22T03:21:33.843Z,

          "path" => "/var/log/haha.txt",

          "host" => "ip-172-31-22-29.ec2.internal"

}

logstash服务会去读取/var/log/haha.txt文件并采集数据进行展示。

接下来我们对配置文件l1.conf进行解读：

　　首先看input插件，这里定义了input的输入源为file，然后指定了文件的路径为/var/log/haha.txt，也就是将此文件的内容作为输入源，这里的path属性是必填配置，后面的路径必须是绝对路径，不能是相对路径。如果需要监控多个文件，可以通过逗号分隔即可。如下所示：

path => ["PATH1","PATH2","PATH3"]

这里的output插件，仍然采用rubydebug的JSON输出格式。

通过logstash过滤、分析日志数据的更多相关文章

Logstash过滤分析日志数据/kibanaGUI调试（四）
[Logstash] [root@localhost ~]# wget https://artifacts.elastic.co/downloads/logstash/logstash-6.3.2.t ...
MongoDB应用案例：使用 MongoDB 存储日志数据
线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误.警告.及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖 ...
利用WebLog Experet分析日志获取性能需求
一.下载WebLog Expert日志分析工具官网下载地址:http://www.weblogexpert.com/download.htm 二.安装安装很简单,点击“下一步”默认安装即可三.配 ...
使用 MongoDB 存储日志数据
使用 MongoDB 存储日志数据线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误.警告.及用户行为等信息.通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题 ...
MongoDB 存储日志数据
MongoDB 存储日志数据 https://www.cnblogs.com/nongchaoer/archive/2017/01/11/6274242.html 线上运行的服务会产生大量的运行及访问 ...
Centos6.5使用ELK(Elasticsearch + Logstash + Kibana) 搭建日志集中分析平台实践
Centos6.5安装Logstash ELK stack 日志管理系统概述: 日志主要包括系统日志.应用程序日志和安全日志.系统运维和开发人员可以通过日志了解服务器软硬件信息.检查配置过程中的 ...
使用ELK(Elasticsearch + Logstash + Kibana) 搭建日志集中分析平台实践--转载
原文地址:https://wsgzao.github.io/post/elk/ 另外可以参考:https://www.digitalocean.com/community/tutorials/how- ...
Elastic Stack（ElasticSearch 、 Kibana 和 Logstash）实现日志的自动采集、搜索和分析
Elastic Stack 包括 Elasticsearch.Kibana.Beats 和 Logstash(也称为 ELK Stack).能够安全可靠地获取任何来源.任何格式的数据,然后实时地对数据 ...
Filebeat+Kafka+Logstash+ElasticSearch+Kibana 日志采集方案
前言 Elastic Stack 提供 Beats 和 Logstash 套件来采集任何来源.任何格式的数据.其实Beats 和 Logstash的功能差不多,都能够与 Elasticsearch 产 ...

随机推荐

h5端呼起摄像头扫描二维码并解析
2016年6月29日补充: 最近做了一些与表单相关的项目,使用了h5的input控件,在使用过程中遇到了很多的坑.也包括与这篇文章相关的. 首先我们应该知道使用h5新提供的属性getUserMedia ...
六:理解控件的运行机制(例:基于WebControl命名空间的控件)
Control类的Render方法在WebControl类中被被分成三部分1:RenderBeginTag,呈现标签的开始2:RenderContents,呈现标签的内容3:RenderEndTag, ...
MySQL数据库设计规范
1. 规范背景与目的 MySQL数据库与 Oracle. SQL Server 等数据库相比,有其内核上的优势与劣势.我们在使用MySQL数据库的时候需要遵循一定规范,扬长避短.本规范旨在帮助或指导R ...
Spring Cloud Ribbon入门
一.简介 Spring Cloud Ribbon是一个基于Http和TCP的客户端负载均衡工具,它是基于Netflix Ribbon实现的.它不像服务注册中心.配置中心.API网关那样独立部署,但是它 ...
pythonic(fork)
转载 https://wuzhiwei.net/be_pythonic/
java高级工程师开放面试题集<二>
临近年关,不少人蠢蠢欲动,有童鞋问我java后端面试会面试什么? 作为一个java后端老鸟,跌打滚爬多次被面试和面试别人,总结了一些经验,希望对大家有所帮助. 特别说明,仅仅针对工作两年以上的java ...
一个简单的特效引发的大战之移动开发中我为什么放弃jquery mobile
我本想安静的做一个美男子,可是,老板不涨工资,反而,一月不如一月. 我为什么放弃jquery mobile插件选择自己写特效? 在开发中大家都知道效率很重要,一个好的工具可以在开发中大大提升效率,工作 ...
ZooKeeper 分布式锁
在Redis分布式锁一文中, 作者介绍了如何使用Redis开发分布式锁. Redis分布式锁具有轻量高吞吐量的特点,但是一致性保证较弱.我们可以使用Zookeeper开发分布式锁,来满足对高一致性的要 ...
Vim 匹配相同的单词并高亮
将光标移动到要匹配的单词处: "g + d" :高亮显示所有相同的单词 shift + "*" :向下查找相同单词并高亮显示 shift + "#&q ...
MVC 【ASPX视图引擎】
新建项目----ASP.NET MVC 4 Web 应用程序------选择模板(空).视图引擎(ASPX) 1.认识控制器Controller using System; using System. ...

通过logstash过滤、分析日志数据

通过logstash过滤、分析日志数据的更多相关文章

随机推荐

热门专题