Logstash：解析 JSON 文件并导入到 Elasticsearch 中

转载自：https://elasticstack.blog.csdn.net/article/details/114383426

在今天的文章中，我们将详述如何使用 Logstash 来解析 JSON 文件的日志，并把它导入到 Elasticsearch 中。在之前的文章 “Logstash：Data转换，分析，提取，丰富及核心操作” 也有提到过，但是没有具体的例子。总体说来解析 JSON 文件的日志有两种方法：

    在 file input 里使用 JSON codec

    在 file input 里不使用 JSON codec，但是在 filter 的部分使用 JSON filter

我们把 JSON 格式的数据解析并导入到 Elasticsearch 的流程如下：

准备数据

我们准备了如下的数据：

sample.json

    {"id": 4,"timestamp":"2019-06-10T18:01:32Z","paymentType":"Visa","name":"Cary Boyes","gender":"Male","ip_address":"223.113.73.232","purpose":"Grocery","country":"Pakistan","pastEvents":[{"eventId":7,"transactionId":"63941-950"},{"eventId":8,"transactionId":"55926-0011"}],"age":46}

    {"id": 5,"timestamp":"2020-02-18T12:27:35Z","paymentType":"Visa","name":"Betteanne Diament","gender":"Female","ip_address":"159.148.102.98","purpose":"Computers","country":"Brazil","pastEvents":[{"eventId":9,"transactionId":"76436-101"},{"eventId":10,"transactionId":"55154-3330"}],"age":41}

构建 Logstash 配置文件

使用 json codec

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

        codec   => "json"

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

我们运行 Logstash:

sudo ./bin/logstash -f logstash_json.conf 

上面的命令输出的结果为：

从上面的结果中，我们可以看出来文档被正确地解析。

使用 JSON filter

我们可以在 file input 中不使用任何的 code，但是我们可以可以使用 JSON filter 来完成解析的工作：

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

在上面，我们添加了 filter 这个部分。我们使用了 json 这个过滤器来完成对 JSON 格式的解析。重新运行我们的 Logstash。我们可以看到如下的输出：

在上面，我们可以看到一个叫做 message 的字段。这个字段显然它会占存储空间。我们可以把它删除掉。同时，我们也可以去掉那些不需要的元字段以节省空间。

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      mutate {

        remove_field => ["message", "path", "host", "@version"]

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

在上面，我们检查 paymentType 是否为 Mastercard，如果是的话，我们把整个事件丢弃。同时我们删除不需要的字段，比如 message, path 等。重新运行 Logstash。我们可以看到如下的输出：

显然这次的输出比刚才的要干净很多。你可能已经注意到 @timestamp 的值和 timestamp 的值不太一样。在 Kibana 中，我们经常会使用 @timestamp 作为事件的时间标签。我们可以做如下的处理：

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      date {

        match => [ "timestamp", "ISO8601" ]

        locale => en

      }

      mutate {

        remove_field => ["message", "path", "host", "@version", "timestamp"]

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

在上面，我们添加了 date 过滤器来解析时间。同时我们也删除 timestamp 这个字段。我们得到的结果是：

从上面我们可以看出来 @timestamp 的时间现在是时间的 timestamp 字段的时间。

在上面，我们看到 postEvent 是一个数组。如果我们想把这个数组拆分，并把其中的每一个事件作为一个分别的事件。我们可以使用 split 过滤器来完成。

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      date {

        match => [ "timestamp", "ISO8601" ]

        locale => en

      }

      mutate {

        remove_field => ["message", "path", "host", "@version", "timestamp"]

      }

      split {

        field => "[pastEvents]"

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

    }

从上面我们可以看出来 postEvents 数组被拆分，并形成多个文档。上面的最终文档还是有些美中不足：eventId 及 transactionId 还是处于 pastEvents 对象之下。我们想把它移到和 id 同一级的位置。为此，我们做如下的修改：

logstash_json_fileter.conf

    input {

      file {

        path => [ "/Users/liuxg/data/logstash_json/sample.json" ]

        start_position => "beginning"

        sincedb_path => "/dev/null"

      }

    }

    filter {

      json {

        source => "message"

      }

      if [paymentType] == "Mastercard" {

        drop{}

      }

      date {

        match => [ "timestamp", "ISO8601" ]

        locale => en

      }

      split {

        field => "[pastEvents]"

      }

      mutate {

        add_field => {

          "eventId" => "%{[pastEvents][eventId]}"

          "transactionId" => "%{[pastEvents][transactionId]}"

        }

        remove_field => ["message", "path", "host", "@version", "timestamp", "pastEvents"]

      }

    }

    output {

      stdout {

        codec => rubydebug

      }

      elasticsearch {

        index => "logstash_json"

      }

    }

重新运行 Logstash。我们可以看到如下的输出：

在上面，我们把 eventId 及 transactionId 移到文档的根下面，并删除 pastEvents 这个字段。我们同时也把文档导入到 Elasticsearch 中。

我们可以在 Elasticsearch 中对文档进行搜索：

GET logstash_json/_search

    {

      "took" : 1,

      "timed_out" : false,

      "_shards" : {

        "total" : 1,

        "successful" : 1,

        "skipped" : 0,

        "failed" : 0

      },

      "hits" : {

        "total" : {

          "value" : 4,

          "relation" : "eq"

        },

        "max_score" : 1.0,

        "hits" : [

          {

            "_index" : "logstash_json",

            "_type" : "_doc",

            "_id" : "JXZRAHgBoLC90rTy6jNl",

            "_score" : 1.0,

            "_source" : {

              "gender" : "Female",

              "@timestamp" : "2020-02-18T12:27:35.000Z",

              "id" : 5,

              "country" : "Brazil",

              "name" : "Betteanne Diament",

              "paymentType" : "Visa",

              "transactionId" : "76436-101",

              "eventId" : "9",

              "ip_address" : "159.148.102.98",

              "age" : 41,

              "purpose" : "Computers"

            }

          },

          {

            "_index" : "logstash_json",

            "_type" : "_doc",

            "_id" : "KHZRAHgBoLC90rTy6jNl",

            "_score" : 1.0,

            "_source" : {

              "gender" : "Male",

              "@timestamp" : "2019-06-10T18:01:32.000Z",

              "id" : 4,

              "country" : "Pakistan",

              "name" : "Cary Boyes",

              "paymentType" : "Visa",

              "transactionId" : "55926-0011",

              "eventId" : "8",

              "ip_address" : "223.113.73.232",

              "age" : 46,

              "purpose" : "Grocery"

            }

          },

      ...

Logstash：解析 JSON 文件并导入到 Elasticsearch 中的更多相关文章

Logstash：把MySQL数据导入到Elasticsearch中
Logstash:把MySQL数据导入到Elasticsearch中前提条件需要安装好Elasticsearch及Kibana. MySQL安装根据不同的操作系统我们分别对MySQL进行安装.我 ...
使用Logstash把MySQL数据导入到Elasticsearch中
总结:这种适合把已有的MySQL数据导入到Elasticsearch中有一个csv文件,把里面的数据通过Navicat Premium 软件导入到数据表中,共有998条数据文件下载地址:https ...
Android--------使用gson解析json文件
##使用gson解析json文件 **json的格式有两种:** **1. {}类型,及数据用{}包含:** **2. []类型,即数据用[]包含:** 下面用个例子,简单的介绍gson如何解析jso ...
JAVA简便解析json文件
JAVA简便解析json文件首先放上我要解析的json文件: { "resultcode":"200", "reason":"S ...
Logstash解析Json array
logstash解析json数组是一种常见的需求,我以网上一组数据为例来描述我们的数据test.json内容如下:(此处我linux上的json文本需要是compact的) {"type& ...
python脚本解析json文件
python脚本解析json文件没写完.但是有效果.初次尝试,写的比较不简洁... 比较烦的地方在于: 1,中文编码: pSpecs.decode('raw_unicode_escape') 2,花 ...
使用google-gson类库解析json文件
使用google-gson类库解析json文件使用JsonParser解析器来解析字符串和输入流,变成json对象代码如下: public class Readjson { public stat ...
安卓解析JSON文件
安卓解析JSON文件根据JOSN文件的格式,文件只有两种数据,一是对象数据,以 {}为分隔,二是数组,以[]分隔以下介绍安卓如何解析一个JSON文件,该文件存放在assets目录下,即:asset ...
Java解析JSON文件的方法
http://blog.sina.com.cn/s/blog_628cc2b70101dydc.html java读取文件的方法 http://www.cnblogs.com/lovebread/ar ...

随机推荐

Spring基础入门
一.Spring了解 Spring:程序员们的春天 Spring主要技术是IOC.AOP两个大概念它是轻量级的,每个jar包就1M ~ 3M 左右,所以速度快面向接口编程:降低了耦合度面向切面编 ...
透过Redis源码探究Hash表的实现
转载请声明出处哦~,本篇文章发布于luozhiyun的博客:https://www.luozhiyun.com/archives/667 本文使用的Redis 5.0源码概述我们在学习 Redis ...
Java开发学习(十八)----AOP通知获取数据（参数、返回值、异常）
前面的博客我们写AOP仅仅是在原始方法前后追加一些操作,接下来我们要说说AOP中数据相关的内容,我们将从获取参数.获取返回值和获取异常三个方面来研究切入点的相关信息. 前面我们介绍通知类型的时候总共讲 ...
丽泽普及2022交流赛day15 社论
前言 link 太牛逼了,补完我一定放代码 . orz 越看越牛逼 orz . 时间复杂度都是口胡,不要信 . 以下是目录目录目录前言 A 题面题解代码 B 题面题解代码 C 题面题解 ...
Visual Studio Code 中文设置教程
本文仅供学习交流使用,如侵立删!demo下载见文末 Pycharm中文设置教程 1.首先打开VisualStudioCode,点击扩展:extensions. 2.搜索chinese. 3.选择需要的 ...
Prometheus完整安装
官方组件: prometheus node_exporter blackbox_exporter alertmanager VictoriaMetrics 第三方开源软件: ConsulManager ...
AtCoder Educational DP Contest 总结
前言感觉都初一升初二了,再做这个题是不是有点太菜了啊-- 里面大概都是些 DP 板子题(确信,题目质量还挺高的,不过不涉及太难的优化(实际上只有最后一题是斜率优化). 不管了,还是写个 blog 来 ...
前端必备的 HTTP 知识
HTTP 起源 HTTP 是由蒂姆·伯纳斯-李(TimBerners-Lee)于1989年在欧洲核子研究组织(CERN)所发起其中最著名的是 1999 年 6 月公布的 RFC 2616,定义了 H ...
4步教你学会使用Linux-Audit工具
摘要:简单来讲audit是Linux上的审计工具,可以用来记录和监控对文件.目录.系统资源的更改:Audit无法直接增强系统的安全性,但是它可以用于发现违反系统安全政策的行为. 本文分享自华为云社区& ...
HDFS的读写流程——宏观与微观
HDFS的读写流程--宏观与微观 HDFS:分布式文件系统,负责存放数据分布式文件系统:就是将我们的数据放到多台电脑上存储. 写数据:就是将客户端上的数据上传到HDFS 宏观过程客户端向HDFS发 ...

Logstash：解析 JSON 文件并导入到 Elasticsearch 中

Logstash：解析 JSON 文件并导入到 Elasticsearch 中的更多相关文章

随机推荐

热门专题