Logstash
1.功能:数据输入,数据筛选,数据输出
2.特性:数据来源中立性,支持众多数据源:如文件log file,指标,网站服务日志,关系型数据库,redis,mq等产生的数据
3.beats:分布式收集日志、指标--->到logstash集中式收集--->到elasticsearch -->kibana展示

4.数据收集Data Collection:
1.inputs
通过input插件收集和反序列化(数据采集) 支持的协议:http,tcp,udp,jdbc...
Codecs用来设置解码器
2.Filters
使用filter插件来结构化,转换和充实你的数据,如
1.将不同来源的时间转成统一的格式,
2.或将ip解析出地理位置坐标,
3.或者将一个订单号id,通过Lookups来查询数据库中的完整信息
3.outputs
使用output插件将数据发送到elasticsearch或者其他目的地 (通过http接口:mongodb或者mq或者hadoop)
Codecs用来进行编码

5.数据传输可靠性
At-least-once交付保障和基于持久化队列的自适应缓冲
将错误时间发送到死信队列中(自己处理不了),用于离线处理离和重放
6.管道
带条件和多管道的直接数据流(apache pipeline,jdbc pipeline,netflow pipeline),可以动态的新增和修改管道而不用重启logstash
使用身份验证和加密来确保传输安全
使用modules来一键交付
可轻松构建自定义插件集成和处理器
7.原理剖析
input{
beats{port => 5403} //配置数据源beats 端口为5403
}
filter{
mutate{lowercase => {"message"}} //将message字段的内容转成小写
}
output{
elasticsearch{}
}
8.事件
logstash主要的数据单元就是事件
他们是问的类型和json文档类型很相似,支持任意层次和类型
如:
{
"@timestamp" => 2019-05-24T01-01-01,
"message" => "bar",
"some_other_field" => {
"has_complex_values" => 123
}
}
一个logstash可以有多个管道。pipelines管道可以伸缩,也就是支持多个inputs,支持多个workers来处理filter/outputs部分

queue 分为:in memory queue在内存中(默认),persistent queue持久化队列

9.demo
下载一个filebeat:https://www.elastic.co/cn/downloads/beats/filebeat
文档:https://www.elastic.co/guide/index.html 选中logstash reference

1.构建第一个消息:
cd logstash-7.1.0
bin/logstash -e 'input { stdin { } } output { stdout {} }'

启动之后输入 helloworld 就会有输出

2.处理apache的log
从github上下载日志文件apache_log:https://github.com/elastic/examples/tree/master/Common%20Data%20Formats/apache_logs
对应的logstash配置文件apache_logstash.conf:https://github.com/elastic/examples/blob/master/Common%20Data%20Formats/apache_logs/logstash/apache_logstash.conf
对应input,filter,output有哪些插件,如filter的grok可以参考官网:https://www.elastic.co/guide/en/logstash/current/filter-plugins.html
启动logstash 可以指定配置文件 ./bin/logstash -f apache.conf

启动filebeat ./filebeat -c filebeat.new.yml 会将数据从文件apache_log中读取,并放到logstash中,最终输出到elasticsearch里

进入kibana ,打开devtools
GET _cat/indices 查看索引信息,其中有一个就是刚刚新建的output中的 index => "apache_elastic_example"
GET apache_elastic_example/_search 查看数据

10.logstash的modules模块
使用定制好的模块如netflow,只要输入数据就行了
可用的模块参考官网:https://www.elastic.co/guide/en/logstash/current/logstash-modules.html

11.Codecs与序列化
input{
file{path => "/some/json.log",codec => json_lines} //从日志文件输入,每行是json数据
}
output{
redis{codec => msgpack} //输出到redis中
}

如:{"foo":"bar"}经过input的codec变为:
{
"foo":"bar",
"@timestamp" => 2019-05-24
}
}
再经过output输出为redis的msgpack

经常使用的codecs
line:每行作为一个消息
multiline:多行作为一个消息,如java中的堆栈信息
json_lines:一行作为一个json信息
json:一个大的json对象,可以将消息进一步解析

12.核心操作
1.支持条件if/else,如
filter{
mutate{lowercase => "account"}
if[type] == "batch"{
split{field => actions target => action} //如果type为batch,就将消息拆分
}
if{"action" =~ /special/}{ //如果是以special开头的就删除
drop{}
}
}

2.geoip filter, 如:
filter{
geoip{ //geoip就是lookup的一个类型
fields => "my_geoip_field"
}
}
3.use agent filter,如:
filter{
useragent{
source => "useagent"
}
}
4.将词典做一个翻译,如将一个数字转为一个字符串,如
filter{
translate{
dictionary => [
"101","sz",
"102","bj",
"103","sh"
]
}
}
5.elasticsearch filter,通过elasticsearch拿数据如:
elasticsearch{
hosts => [es-server]
query => "type:start AND operation%{[opid]}"
fields => {"@timestamp" => "started"}
}
6.jdbc streaming filter,通过jdbc拿数据
filter {
jdbc_streaming {
jdbc_driver_library => "/path/to/mysql-connector-java-5.1.34-bin.jar"
jdbc_driver_class => "com.mysql.jdbc.Driver"
jdbc_connection_string => "jdbc:mysql://localhost:3306/mydatabase"
jdbc_user => "me"
jdbc_password => "secret"
statement => "select * from WORLD.COUNTRY WHERE Code = :code"
parameters => { "code" => "country_code"}
target => "country_details"
}
}
7.jdbc static filter,数据会存在logstash本地,不用从数据库中去拿,节省了时间
这些操作可以参考官网:https://www.elastic.co/guide/en/logstash/current/plugins-filters-elasticsearch.html

--------------------------------------------------------------------------实战----------------------------------------------------------------------------
启动脚本(自动刷新配置文件):nohup /usr/local/soft/elk/install/logstash-7.1.0/bin/logstash -f /usr/local/soft/elk/install/logstash-7.1.0/config/demo/fileLog2.conf --config.reload.automatic >/usr/local/soft/elk/install/logstash.log 2>&1 &

1.读取本地的文件到es中,如/usr/local/soft/elk/install/logstash-7.1.0/config/demo/crm_sql.log ,这种情况只有每次内容变化的时候才会动态添加到elasticsearch中
input{
file{
path => ["/usr/local/soft/elk/install/logstash-7.1.0/config/demo/crm_sql.log"]
# path => ["/usr/local/soft/elk/install/logstash-7.1.0/config/demo/1.log"]
# type => "elasticsearch"
}
}

output{
elasticsearch{
hosts => ["127.0.0.1:9200"]
index => "logtest"
}
stdout{codec => rubydebug}
}

2.如果要读取文件中的历史内容,从第一行开始读取,增加配置:
start_position => "beginning"
sincedb_path => "/dev/null"
如:
input{
file{
path => ["/usr/local/soft/elk/install/logstash-7.1.0/config/demo/crm_sql.log"]
start_position => "beginning"
sincedb_path => "/dev/null"
}
}
output{
elasticsearch{
hosts => ["127.0.0.1:9200"]
index => "logtest"
}
stdout{codec => rubydebug}
}

3.如何将log中的内容打散,变成json串,增加配置:
codec => "json"
如:
input{
file{
path => ["/usr/local/soft/elk/install/logstash-7.1.0/config/demo/crm_sql.log"]
start_position => "beginning"
sincedb_path => "/dev/null"
codec => "json"
}
}
output{
elasticsearch{
hosts => ["127.0.0.1:9200"]
index => "logtest"
}
stdout{codec => rubydebug}
}

4.读取其他服务器的文件到logstash中,再将logstash中的内容输出到es中 (有个坑,logstash目前不支持监听其他的ip地址)

input {
file{
path => ["/usr/local/soft/elk/install/logstash-7.1.0/config/demo/crm_sql.log"]
start_position => beginning
sincedb_path => "/dev/null"
codec => "json"
type => "crm_sql"
}

beats {
port => 5046
ssl => false
codec => json
type => "filebeat"
}
}

output {
if "_grokparsefailure" in [tags] {

}else{
if [type] == "crm_sql"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "crm_sql-%{+YYYY.MM.dd}"
}
}
if [type] == "filebeat"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "filebeat-%{+YYYY.MM.dd}"
}
}
}

}

output {
stdout{codec => rubydebug}
}

5.读取redis到logstash(首先从filebeat将本地文件放入到redis)
input {
redis {
type => "myredis"
host => "192.168.1.134"
password => 'RedisNodeDev@cnhis.com'
port => "6379"
db => "0"
data_type => "list"
key => "myredis"
}
}

output {
if "_grokparsefailure" in [tags] {

}else{
if [type] == "crm_sql"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "crm_sql-%{+YYYY.MM.dd}"
}
}
if [type] == "filebeat"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "filebeat-%{+YYYY.MM.dd}"
}
}
if [type] == "myredis"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "myredis-%{+YYYY.MM.dd}"
}
}
}

}

5.读取kafka到logstash(首先从filebeat将本地文件放入到kafka)

input {
kafka {
type => "kafka"
enable_auto_commit => true
auto_commit_interval_ms => "1000"
codec => "json"
bootstrap_servers => "47.107.146.57:9092"
topics => ["test"]
}
}

output {
if "_grokparsefailure" in [tags] {

}else{
if [type] == "crm_sql"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "crm_sql-%{+YYYY.MM.dd}"
}
}
if [type] == "filebeat"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "filebeat-%{+YYYY.MM.dd}"
}
}
if [type] == "myredis"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "myredis-%{+YYYY.MM.dd}"
}
}
if [type] == "kafka"{
elasticsearch {
hosts => ["http://127.0.0.1:9200"]
index => "kafka-%{+YYYY.MM.dd}"
}
}

}

}

elk快速入门-Logstash的更多相关文章

  1. ELK快速入门(二)通过logstash收集日志

    ELK快速入门二-通过logstash收集日志 说明 这里的环境接着上面的ELK快速入门-基本部署文章继续下面的操作. 收集多个日志文件 1)logstash配置文件编写 [root@linux-el ...

  2. ELK快速入门(三)logstash收集日志写入redis

    ELK快速入门三-logstash收集日志写入redis 用一台服务器部署redis服务,专门用于日志缓存使用,一般用于web服务器产生大量日志的场景. 这里是使用一台专门用于部署redis ,一台专 ...

  3. ELK快速入门(四)filebeat替代logstash收集日志

    ELK快速入门四-filebeat替代logstash收集日志 filebeat简介 Filebeat是轻量级单用途的日志收集工具,用于在没有安装java的服务器上专门收集日志,可以将日志转发到log ...

  4. ELK快速入门(一)基本部署

    ELK快速入门一-基本部署 ELK简介 什么是ELK?通俗来讲,ELK是由Elasticsearch.Logstash.Kibana 三个开源软件组成的一个组合体,这三个软件当中,每个软件用于完成不同 ...

  5. ELK快速入门(五)配置nginx代理kibana

    ELK快速入门五-配置nginx代理kibana 由于kibana界面默认没有安全认证界面,为了保证安全,通过nginx进行代理并设置访问认证. 配置kibana [root@linux-elk1 ~ ...

  6. elk快速入门-filebeat

    filebeatFilebeat是一个日志文件托运工具,在你的服务器上安装客户端后,filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并且转发这些信息到e ...

  7. elk快速入门-在kibana中如何使用devtools操作elasticsearch

    在kibana中如何使用devtools操作elasticsearch:前言: 首先需要安装elasticsearch,kibana ,下载地址 https://www.elastic.co/cn/d ...

  8. logstash快速入门实战指南-Logstash简介

    作者其他ELK快速入门系列文章 Elasticsearch从入门到精通 Kibana从入门到精通 Logstash是一个具有实时流水线功能的开源数据收集引擎.Logstash可以动态统一来自不同来源的 ...

  9. 一文快速上手Logstash

    原文地址:https://cloud.tencent.com/developer/article/1353068 Elasticsearch是当前主流的分布式大数据存储和搜索引擎,可以为用户提供强大的 ...

随机推荐

  1. Win10编译Mingw

    准备工具 Windows平台 cmake mingw-x64 Linux平台(Ubuntu) sudo apt-get install git cmake cmake-gui -y 下载源码 建议直接 ...

  2. centos7搭建伪分布式集群

    centos7搭建伪分布式集群 需要 centos7虚拟机一台: jdk-linux安装包一个 hadoop-2.x安装包1个(推荐2.7.x) 一.设置虚拟机网络为静态IP(最好设成静态,为之后编程 ...

  3. python之pip使用技巧

    pip 镜像临时使用:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider永久:直接在user目录中创建一个pip目录:C: ...

  4. ubuntu下不能访问docker中的rabbitmq服务端口

    主要原因是防火墙屏蔽了15672端口,宿主机就不能直接通过 ip:port的形式访问rabbitmq的管理界面了. 解决方法很简单: 设置防火墙规则,使外部主机能够访问虚拟机的15672端口. 启动i ...

  5. oracle -- 查询执行计划,判读查询语句优劣

    以oracle的scott账户:找到员工表中薪水大于本部门平均薪水的员工为例 多表查询方式: select e.empno, e.ename, e.sal, d.avgsal from emp e, ...

  6. 基于Centos 搭建Jenkins环境

    ⒈简介 Jenkins 是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能. ⒉Java安装 首先我们需要准备 ...

  7. Linux系列(10):入门之bash基础与bash环境设置

    了解什么是shell吗? 知道如何查询当前系统支持的shell版本吗? 了解如何判断某个指令是否是bash的内置指令吗? 了解Linux的变量吗,知道如何定义与删除变量吗,知道如何赋值吗,知道如何获取 ...

  8. Elasticsearch多集群数据同步

    有时多个Elasticsearch集群避免不了要同步数据,网上查找了下数据同步工具还挺多,比较常用的有:elasticserach-dump.elasticsearch-exporter.logsta ...

  9. linux lkm rootkit常用技巧

    简介 搜集一下linux lkm rootkit中常用的一些技巧 1.劫持系统调用 遍历地址空间 根据系统调用中的一些导出函数,比如sys_close的地址来寻找 unsigned long ** g ...

  10. MySQL 存储引擎的类型以及选择

    针对MySQL,数据最终以什么样的形式保存?以及数据保存在硬盘的什么位置? 1.MySQL的存储引擎 MySQL属于数据管理系统(DBMS),其中包括数据库,负责存储数据:还有数据库访问管理的接口系统 ...