Logstash：解析 JSON 文件并导入到 Elasticsearch 中

转载自：https://elasticstack.blog.csdn.net/article/details/114383426

在今天的文章中，我们将详述如何使用 Logstash 来解析 JSON 文件的日志，并把它导入到 Elasticsearch 中。在之前的文章 “Logstash：Data转换，分析，提取，丰富及核心操作” 也有提到过，但是没有具体的例子。总体说来解析 JSON 文件的日志有两种方法：

    在 file input 里使用 JSON codec

    在 file input 里不使用 JSON codec，但是在 filter 的部分使用 JSON filter

我们把 JSON 格式的数据解析并导入到 Elasticsearch 的流程如下：

准备数据

我们准备了如下的数据：

sample.json

    {"id": 4,"timestamp":"2019-06-10T18:01:32Z","paymentType":"Visa","name":"Cary Boyes","gender":"Male","ip_address":"223.113.73.232","purpose":"Grocery","country":"Pakistan","pastEvents":[{"eventId":7,"transactionId":"63941-950"},{"eventId":8,"transactionId":"55926-0011"}],"age":46}

    {"id": 5,"timestamp":"2020-02-18T12:27:35Z","paymentType":"Visa","name":"Betteanne Diament","gender":"Female","ip_address":"159.148.102.98","purpose":"Computers","country":"Brazil","pastEvents":[{"eventId":9,"transactionId":"76436-101"},{"eventId":10,"transactionId":"55154-3330"}],"age":41}

构建 Logstash 配置文件

使用 json codec

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

        codec   => "json"

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

我们运行 Logstash:

sudo ./bin/logstash -f logstash_json.conf 

上面的命令输出的结果为：

从上面的结果中，我们可以看出来文档被正确地解析。

使用 JSON filter

我们可以在 file input 中不使用任何的 code，但是我们可以可以使用 JSON filter 来完成解析的工作：

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

在上面，我们添加了 filter 这个部分。我们使用了 json 这个过滤器来完成对 JSON 格式的解析。重新运行我们的 Logstash。我们可以看到如下的输出：

在上面，我们可以看到一个叫做 message 的字段。这个字段显然它会占存储空间。我们可以把它删除掉。同时，我们也可以去掉那些不需要的元字段以节省空间。

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      mutate {

        remove_field => ["message", "path", "host", "@version"]

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

在上面，我们检查 paymentType 是否为 Mastercard，如果是的话，我们把整个事件丢弃。同时我们删除不需要的字段，比如 message, path 等。重新运行 Logstash。我们可以看到如下的输出：

显然这次的输出比刚才的要干净很多。你可能已经注意到 @timestamp 的值和 timestamp 的值不太一样。在 Kibana 中，我们经常会使用 @timestamp 作为事件的时间标签。我们可以做如下的处理：

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      date {

        match => [ "timestamp", "ISO8601" ]

        locale => en

      }

      mutate {

        remove_field => ["message", "path", "host", "@version", "timestamp"]

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

在上面，我们添加了 date 过滤器来解析时间。同时我们也删除 timestamp 这个字段。我们得到的结果是：

从上面我们可以看出来 @timestamp 的时间现在是时间的 timestamp 字段的时间。

在上面，我们看到 postEvent 是一个数组。如果我们想把这个数组拆分，并把其中的每一个事件作为一个分别的事件。我们可以使用 split 过滤器来完成。

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      date {

        match => [ "timestamp", "ISO8601" ]

        locale => en

      }

      mutate {

        remove_field => ["message", "path", "host", "@version", "timestamp"]

      }

      split {

        field => "[pastEvents]"

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

从上面我们可以看出来 postEvents 数组被拆分，并形成多个文档。上面的最终文档还是有些美中不足：eventId 及 transactionId 还是处于 pastEvents 对象之下。我们想把它移到和 id 同一级的位置。为此，我们做如下的修改：

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      date {

        match => [ "timestamp", "ISO8601" ]

        locale => en

      }

      split {

        field => "[pastEvents]"

      }

      mutate {

        add_field => {

          "eventId" => "%{[pastEvents][eventId]}"

          "transactionId" => "%{[pastEvents][transactionId]}"

        }

        remove_field => ["message", "path", "host", "@version", "timestamp", "pastEvents"]

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

      elasticsearch {

        index => "logstash_json"

      }

    }

重新运行 Logstash。我们可以看到如下的输出：

在上面，我们把 eventId 及 transactionId 移到文档的根下面，并删除 pastEvents 这个字段。我们同时也把文档导入到 Elasticsearch 中。

我们可以在 Elasticsearch 中对文档进行搜索：

GET logstash_json/_search

    {

      "took" : 1,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 4,

          "relation" : "eq"

        },

        "max_score" : 1.0,

        "hits" : [

          {

            "_index" : "logstash_json",

            "_type" : "_doc",

            "_id" : "JXZRAHgBoLC90rTy6jNl",

            "_score" : 1.0,

            "_source" : {

              "gender" : "Female",

              "@timestamp" : "2020-02-18T12:27:35.000Z",

              "id" : 5,

              "country" : "Brazil",

              "name" : "Betteanne Diament",

              "paymentType" : "Visa",

              "transactionId" : "76436-101",

              "eventId" : "9",

              "ip_address" : "159.148.102.98",

              "age" : 41,

              "purpose" : "Computers"

            }

          },

          {

            "_index" : "logstash_json",

            "_type" : "_doc",

            "_id" : "KHZRAHgBoLC90rTy6jNl",

            "_score" : 1.0,

            "_source" : {

              "gender" : "Male",

              "@timestamp" : "2019-06-10T18:01:32.000Z",

              "id" : 4,

              "country" : "Pakistan",

              "name" : "Cary Boyes",

              "paymentType" : "Visa",

              "transactionId" : "55926-0011",

              "eventId" : "8",

              "ip_address" : "223.113.73.232",

              "age" : 46,

              "purpose" : "Grocery"

            }

          },

      ...

Logstash：解析 JSON 文件并导入到 Elasticsearch 中的更多相关文章

Logstash：把MySQL数据导入到Elasticsearch中
Logstash:把MySQL数据导入到Elasticsearch中前提条件需要安装好Elasticsearch及Kibana. MySQL安装根据不同的操作系统我们分别对MySQL进行安装.我 ...
使用Logstash把MySQL数据导入到Elasticsearch中
总结:这种适合把已有的MySQL数据导入到Elasticsearch中有一个csv文件,把里面的数据通过Navicat Premium 软件导入到数据表中,共有998条数据文件下载地址:https ...
Android--------使用gson解析json文件
##使用gson解析json文件 **json的格式有两种:** **1. {}类型,及数据用{}包含:** **2. []类型,即数据用[]包含:** 下面用个例子,简单的介绍gson如何解析jso ...
JAVA简便解析json文件
JAVA简便解析json文件首先放上我要解析的json文件: { "resultcode":"200", "reason":"S ...
Logstash解析Json array
logstash解析json数组是一种常见的需求,我以网上一组数据为例来描述我们的数据test.json内容如下:(此处我linux上的json文本需要是compact的) {"type& ...
python脚本解析json文件
python脚本解析json文件没写完.但是有效果.初次尝试,写的比较不简洁... 比较烦的地方在于: 1,中文编码: pSpecs.decode('raw_unicode_escape') 2,花 ...
使用google-gson类库解析json文件
使用google-gson类库解析json文件使用JsonParser解析器来解析字符串和输入流,变成json对象代码如下: public class Readjson { public stat ...
安卓解析JSON文件
安卓解析JSON文件根据JOSN文件的格式,文件只有两种数据,一是对象数据,以 {}为分隔,二是数组,以[]分隔以下介绍安卓如何解析一个JSON文件,该文件存放在assets目录下,即:asset ...
Java解析JSON文件的方法
http://blog.sina.com.cn/s/blog_628cc2b70101dydc.html java读取文件的方法 http://www.cnblogs.com/lovebread/ar ...

随机推荐

BufferedImage类
BufferedImage类(BufferedImage,是一个带缓冲区图像类,主要作用是将一副图片加载到内存中) BufferedImage类是lmage的一个子类,BufferedImage 生 ...
近期碰到的一些面试题--WPF、C#、数据库
最近想换工作的念头特别强烈,面了几家公司没有拿到满意的offer,心仪的公司面完锁HC,有点无奈,感觉今年有点卷,把碰到过的面试题总结下. WPF相关: 1.定义依赖属性需要注意哪些地方? (1)依赖 ...
02 MySQL_数据库相关的SQL
数据库相关的SQL 1. 查看所有数据库 show databases; 2. 创建数据库格式:create database 数据库名称: 示例: create database db1; 3. ...
CF1706A Another String Minimization Problem 题解
题意给定一个长度为 \(n\) 的序列 \(a\) 以及一个长度为 \(m\) 的字符串 \(s\),初始 \(s\) 均为 \(\text{B}\),第 \(i\) 次操作可以把 \(s_{a_i ...
零基础学Java（10）面向对象-使用LocalDate类完成日历设计
前言在我们完成这个日历设计前,需要了解Java中的预定义类LocalDate的一些用法语法 LocalDate.now() // 2022-07-01 会构造一个新对象,表示构造这个对象时的日期. ...
SpringBoot定时任务 - 经典定时任务设计：时间轮(Timing Wheel)案例和原理
Timer和ScheduledExecutorService是JDK内置的定时任务方案,而业内还有一个经典的定时任务的设计叫时间轮(Timing Wheel), Netty内部基于时间轮实现了一个Ha ...
EPLAN部件库共享方法
EPLAN部件库共享方法关键词: EPLAN部件库共享 EPLAN 摘要:在使用EPLAN时经常会碰到自己电脑里的部件库和公司里其他同事的部件库存在差异,如果不是很平凡的同步所有使用的部 ...
Vim基础用法，最常用、最实用的命令介绍（保姆级教程）
配置文件设置 set number (设置行号) set nocompatible (设置不兼容vi模式,不设置会导致许多vim特性被禁用) set clipboard=unnamed (设置普通的复 ...
ASP.NET Core 5.0中的Host.CreateDefaultBuilder执行过程
通过Rider调试的方式看了下ASP.NET Core 5.0的Web API默认项目,重点关注Host.CreateDefaultBuilder(args)中的执行过程,主要包括主机配置.应用程 ...
SvelteUI：运用svelte3构建的网页版UI组件库(升级版)
距离上次分享的svelte-ui 1.0已经一月有余,这次带来全新升级完整版svelte-ui 2.0. 这次优化并新增15+个组件.在开发之初借鉴了element-ui组件库,所以在组件结构及语法上 ...

Logstash：解析 JSON 文件并导入到 Elasticsearch 中

Logstash：解析 JSON 文件并导入到 Elasticsearch 中的更多相关文章

随机推荐

热门专题