logstash是怎么工作的呢?

  Logstash是一个开源的、服务端的数据处理pipeline(管道),它可以接收多个源的数据、然后对它们进行转换、最终将它们发送到指定类型的目的地。Logstash是通过插件机制实现各种功能的,读者可以在https://github.com/logstash-plugins 下载各种功能的插件,也可以自行编写插件。

  Logstash实现的功能主要分为接收数据、解析过滤并转换数据、输出数据三个部分,对应的插件依次是input插件、filter插件、output插件,其中,filter插件是可选的,其它两个是必须插件。也就是说在一个完整的Logstash配置文件中,必须有input插件和output插件。

常用的input插件

-file:读取一个文件,这个读取功能有点类似于linux下面的tail命令,一行一行的实时读取。
-syslog: 监听系统514端口的syslog messages,并使用RFC3164格式进行解析。
-redis: Logstash可以从redis服务器读取数据,此时redis类似于一个消息缓存组件。
-kafka:Logstash也可以从kafka集群中读取数据,kafka加Logstash的架构一般用在数据量较大的业务场景,kafka可用作数据的缓冲和存储。
-filebeat:filebeat是一个文本日志收集器,性能稳定,并且占用系统资源很少,Logstash可以接收filebeat发送过来的数据。

常见的filter插件

filter插件主要用于数据的过滤、解析和格式化、也就是将非结构化的数据解析成结构化的、可查询的标准化数据。常见的filter插件有如下几个:
-grok:grok是logstash最重要的插件,可解析并结构化任意数据,支持正则表达式,并提供了很多内置的规则和模板可供使用,
-mutate:此插件提供了丰富的基础类型数据处理能力,包括类型转换,字符串处理和字段处理。
-date:此插件可以用来转换你的日志记录中的时间字符串。
-GeoIP:此插件可以根据IP地址提供对用的地域信息,包括国别,省市,经纬度等,对于可视化地图和区域统计非常有用。

常用的output:

-elasticsearch:发送数据到elasticsearch
-file:发送数据到文件中
-redis:发送数据到redis中,从这里可以看出redis插件既可以用在input插件中,也可以用在output插件中。
-kafka:发送数据到kafka中,与redis插件类似,此插件也可以用在logstash的输入和输出插件中。

如果使用rpm包安装软件,那么logstash的配置文件是/etc/logstah目录下。其中,jvm.options是设置JVM内存资源的配置文件,logstash.yml是logstash全局属性配置文件,一般无需修改,此外还有一个pipelines.yml文件,这个文件在logstash启动的时候进程也会去读取,这个文件的内容实际上指向的是当前目录下的conf.d这个子目录里面的配置文件,conf.d目录下的文件要以.conf结尾,里面配置了input插件、filter插件、output插件信息。

我们先来认识一下logstash是如何实现输入输出的,这里我们不添加filter插件。

(使用rpm包安装的话,logstash可执行文件在/usr/share/logstash/bin/目录下。)

[root@:172.31.22.29 /etc/logstash/conf.d]#/usr/share/logstash/bin/logstash -e ""
Sending Logstash logs to /var/log/logstash which is now configured via log4j2.properties
`date` this timestamp is OK #输入此信息。然后按enter键
{
"message" => "·`date` this timestamp is OK",
"host" => "ip-172-31-22-29.ec2.internal",
"@timestamp" => 2019-01-22T02:59:01.422Z,
"type" => "stdin",
"@version" => "1"
}

有一点大家要记住:

/usr/share/logstash/bin/logstash -e "input {stdin{}} output{stdout{codec=>rubydebug}}"
等价于:
/usr/share/logstash/bin/logstash -e ""

我们这里就是进入了一个简单的交互式命令界面,当我输入信息时,logstash服务会反馈给我信息。我们来解释一下命令含义:

-e代表执行的意思。
input即输入的意思,input里面即是输入的方式,这里选择了stdin,就是标准输入(从终端输入)。
output即输出的意思,output里面是输出的方式,这里选择了stdout,就是标准输出(输出到终端)。
这里的codec是个插件,表明格式。这里放在stdout中,表示输出的格式,
rubydebug是专门用来做测试的格式,一般用来在终端输出JSON格式。

logstash的output输出的是JSON格式的内容:

Logstash在输出内容中会给事件添加一些额外信息。比如@version、host、@timestamp都是新增的字段,而最重要的是@timestamp,用来标记事件的发生时间。由于这个字段涉及到Logstash内部流转,如果给一个字符串字段重命名为@timestamp的话,Logstash就会直接报错。另外,也不能删除这个字段。还有一个字段type,表示事件的唯一类型。tags,表示事件的某方面属性。

我们上面的例子中是最简单的logstash例子。不过生产环境中大多使用-f参数去读配置文件。我们在上面提到过,配置文件一般在/etc/logstash/conf.d目录下,必须以.conf结尾才是logstash服务读取的配置文件。

那这次我们以配置文件为例进行介绍:

1)首先是我们进入到conf.d目录,然后创建配置文件l1.conf并输入如下内容:

input {
file {
path => "/var/log/haha.txt"
}
} output {
stdout {
codec => rubydebug
}
}

保存退出。这里的意思就是说我们创建个配置文件去读取/var/log/haha.txt这个日志文件,此文件里面一旦有数据,就立马读取出来。

接下来进行启动logstash服务:

[root@: /etc/logstash/conf.d]#/usr/share/logstash/bin/logstash -f /etc/logstash/conf.d/l1.conf
Sending Logstash logs to /var/log/logstash which is now configured via log4j2.properties
[--22T03::,][WARN ][logstash.config.source.multilocal] Ignoring the 'pipelines.yml' file because modules or command line options are specified
[--22T03::,][INFO ][logstash.runner ] Starting Logstash {"logstash.version"=>"6.5.4"}
[--22T03::,][INFO ][logstash.pipeline ] Starting pipeline {:pipeline_id=>"main", "pipeline.workers"=>4, "pipeline.batch.size"=>125, "pipeline.batch.delay"=>50}
[--22T03::,][INFO ][logstash.inputs.file ] No sincedb_path set, generating one based on the "path" setting {:sincedb_path=>"/var/lib/logstash/plugins/inputs/file/.sincedb_0d6c5b209e03529a50b2eca9300b7d96", :path=>["/var/log/haha.txt"]}
[--22T03::,][INFO ][logstash.pipeline ] Pipeline started successfully {:pipeline_id=>"main", :thread=>"#<Thread:0x27274b73 run>"}
[--22T03::,][INFO ][logstash.agent ] Pipelines running {:count=>, :running_pipelines=>[:main], :non_running_pipelines=>[]}
[--22T03::,][INFO ][filewatch.observingtail ] START, creating Discoverer, Watch with file and sincedb collections
[--22T03::,][INFO ][logstash.agent ] Successfully started Logstash API endpoint {:port=>}

会出现一堆启动信息,不妨碍实验。

接下来在另一终端向/var/log/haha.txt输入一行内容:

[root@::172.31.22.29 /etc/logstash]#echo "`date`+ timestamp is OK" >> /var/log/haha.txt

然后回到原来的那个终端去查看内容:

{
"message" => "Tue Jan 22 03:21:32 UTC 2019+ timestamp is OK",
"@version" => "1",
"@timestamp" => 2019-01-22T03:21:33.843Z,
"path" => "/var/log/haha.txt",
"host" => "ip-172-31-22-29.ec2.internal"
}

logstash服务会去读取/var/log/haha.txt文件并采集数据进行展示。

接下来我们对配置文件l1.conf进行解读:

  首先看input插件,这里定义了input的输入源为file,然后指定了文件的路径为/var/log/haha.txt,也就是将此文件的内容作为输入源,这里的path属性是必填配置,后面的路径必须是绝对路径,不能是相对路径。如果需要监控多个文件,可以通过逗号分隔即可。如下所示:

path => ["PATH1","PATH2","PATH3"]

这里的output插件,仍然采用rubydebug的JSON输出格式。

通过logstash过滤、分析日志数据的更多相关文章

  1. Logstash过滤分析日志数据/kibanaGUI调试(四)

    [Logstash] [root@localhost ~]# wget https://artifacts.elastic.co/downloads/logstash/logstash-6.3.2.t ...

  2. MongoDB应用案例:使用 MongoDB 存储日志数据

    线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误.警告.及用户行为等信息,通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题,但当产生大量的日志之后,要想从大量日志里挖 ...

  3. 利用WebLog Experet分析日志获取性能需求

    一.下载WebLog Expert日志分析工具 官网下载地址:http://www.weblogexpert.com/download.htm 二.安装 安装很简单,点击“下一步”默认安装即可 三.配 ...

  4. 使用 MongoDB 存储日志数据

    使用 MongoDB 存储日志数据     线上运行的服务会产生大量的运行及访问日志,日志里会包含一些错误.警告.及用户行为等信息.通常服务会以文本的形式记录日志信息,这样可读性强,方便于日常定位问题 ...

  5. MongoDB 存储日志数据

    MongoDB 存储日志数据 https://www.cnblogs.com/nongchaoer/archive/2017/01/11/6274242.html 线上运行的服务会产生大量的运行及访问 ...

  6. Centos6.5使用ELK(Elasticsearch + Logstash + Kibana) 搭建日志集中分析平台实践

    Centos6.5安装Logstash ELK stack 日志管理系统 概述:   日志主要包括系统日志.应用程序日志和安全日志.系统运维和开发人员可以通过日志了解服务器软硬件信息.检查配置过程中的 ...

  7. 使用ELK(Elasticsearch + Logstash + Kibana) 搭建日志集中分析平台实践--转载

    原文地址:https://wsgzao.github.io/post/elk/ 另外可以参考:https://www.digitalocean.com/community/tutorials/how- ...

  8. Elastic Stack(ElasticSearch 、 Kibana 和 Logstash) 实现日志的自动采集、搜索和分析

    Elastic Stack 包括 Elasticsearch.Kibana.Beats 和 Logstash(也称为 ELK Stack).能够安全可靠地获取任何来源.任何格式的数据,然后实时地对数据 ...

  9. Filebeat+Kafka+Logstash+ElasticSearch+Kibana 日志采集方案

    前言 Elastic Stack 提供 Beats 和 Logstash 套件来采集任何来源.任何格式的数据.其实Beats 和 Logstash的功能差不多,都能够与 Elasticsearch 产 ...

随机推荐

  1. Spring Cloud 微服务中搭建 OAuth2.0 认证授权服务

    在使用 Spring Cloud 体系来构建微服务的过程中,用户请求是通过网关(ZUUL 或 Spring APIGateway)以 HTTP 协议来传输信息,API 网关将自己注册为 Eureka ...

  2. TensorFlow学习笔记(1):variable与get_variable, name_scope()和variable_scope()

    Variable tensorflow中有两个关于variable的op,tf.Variable()与tf.get_variable()下面介绍这两个的区别 使用tf.Variable时,如果检测到命 ...

  3. PHP四大基本排序算法实例

    PHP四大基本排序算法包括:冒泡排序法,快速排序法,选择排序法,插入排序法. 1. 冒泡排序 思路分析:在要排序的一组数中,对当前还未排好的序列,从前往后对相邻的两个数依次进行比较和调整,让较大的数往 ...

  4. 【SQLite】简单的基本使用步骤

    SQLite介绍SQLite is a software library that implements a self-contained, serverless, zero-configuratio ...

  5. 以前没有写笔记的习惯,现在慢慢的发现及时总结是多么的重要。 这一篇文章主要关于java多线程一些常见的疑惑点。因为讲解多线程的书籍和文章已经很多了,所以我也不好意思多说,嘻嘻嘻、大家可以去参考一些那些书籍。我这个文章主要关于实际的一些问题。同时也算是我以后复习的资料吧,。还请大家多多指教。 同时希望多结交一些技术上的朋友。谢谢。

    在java中要想实现多线程,有两种手段,一种是继续Thread类,另外一种是实现Runable接口. 以下就是我们常见的问题了: 1. 为什么我们不能直接调用run()方法呢? 我的理解是:线程的运行 ...

  6. failed to install tomcat6 service ,check your setting and permissions

    出现的问题: 刚刚重新装了tomcat7,出现提示:Tomcat安装不成功.提示是:failed to install tomcat6 service ,check your setting and ...

  7. Java 图形化界面设计(GUI)实战练习(代码)

    关于Java图形化界面设计,基础知识网上可搜,下面简单介绍一下重点概念,然后就由浅入深代码实例. 程序是为了方便用户使用的,Java引入图形化界面编程. 1.JFrame 是容器类 2.AWT 是抽象 ...

  8. elasticsearch6.7 05. Document APIs(5)Delete By Query API

    4.Delete By Query API _delete_by_query API可以删除某个匹配条件的文档: POST twitter/_delete_by_query { "query ...

  9. One Person Game(zoj3593+扩展欧几里德)

    One Person Game Time Limit:2000MS Memory Limit:65536KB 64bit IO Format:%lld & %llu Submit Status ...

  10. Windows 10 将MySQL5.5升级为MySQL5.7

    最近想学习一下java.找到一个开源项目需要mysql5.7.11+ 升级 电脑上装的是MySQL 5.5,准备直接升级到最新版本的5.7,对于MySQL好像并没有直接升级到最新版本的功能,下载了Wi ...