Logstash：运用 fingerprint 过滤器处理重复的文档

文章转载自：https://blog.csdn.net/UbuntuTouch/article/details/106639848

背景：Elasticsearch 索引

在介绍重复数据删除解决方案之前，让我们简要介绍一下 Elasticsearch 的索引编制过程。 Elasticsearch 提供了一个 REST API 来为你的文档建立索引。你可以选择提供唯一代表您的文档的 ID，也可以让 Elasticsearch 为你生成ID。如果您将 HTTP PUT 与索引API 一起使用，Elasticsearch 希望您提供一个ID。如果已经存在具有相同 ID 的文档，Elasticsearch 将用你刚才提供的文档替换现有内容-最后索引的文档将获胜。如果使用 POST 动词，则即使语料库中已经存在内容，Elasticsearch 也会生成具有新ID的新文档。例如，假设你刚在一秒钟之前为博客文章建立了索引，并使用 POST 动词重新发送了同一篇博客文章，Elasticsearch 创建了另一个具有相同内容但新具有 ID 的文档。

虽然 Elasticsearch 提供了一个显式的 _update API，可以将其用作潜在的解决方法，但我们将把本文重点放在索引 API 上。

Logstash 的 Elasticsearch 输出使用索引API，并且默认情况下不希望提供 ID。因此，它将每个单个事件视为单独的文档。但是，有一个选项可让你轻松为 Logstash 中的每个事件设置唯一的 ID。

删除重复的相似内容

如前所述，在你的用例中，重复的内容可能是不可接受的。使用称为指纹的概念和 Logstash 指纹过滤器（fingerprint），您可以创建一个称为指纹的新字符串字段，以唯一地标识原始事件。指纹过滤器可以将原始事件中的一个或多个字段（默认为消息字段）作为源来创建一致的哈希值 (hash)。一旦创建了这些指纹，你就可以将其用作下游Elasticsearch输出中的文档ID。这样，Elasticsearch 将仅在比较指纹后更新或覆盖现有文档内容，但绝不会复制它们。如果你想考虑更多字段以进行删除重复数据，则可以使用 concatenate_sources 选项。

指纹过滤器具有多种算法，您可以选择创建此一致的哈希（hash）。请参阅文档，因为每个函数的哈希强度不同，可能需要其他选项。在下面的示例中，我们使用 MURMUR3 方法从消息字段创建哈希并将其设置在元数据字段中。元数据字段不会发送到输出，因此它们提供了一种在处理管道中的事件时临时存储数据的有效方法。

filter {

  fingerprint {

    source => "message"

    target => "[@metadata][fingerprint]"

    method => "MURMUR3"

  }

}

output {

  elasticsearch {

    hosts => "example.com"

    document_id => "%{[@metadata][fingerprint]}"

  }

}

如果使用任何加密哈希函数算法（例如SHA1，MD5），则需要提供密钥选项。密钥可以是用于计算 HMAC 的任意字符串。

filter {

  fingerprint {

    source => "message"

    target => "[@metadata][fingerprint]"

    method => "SHA1",

    key => "Log analytics",

    base64encode => true

  }

}

output {

  elasticsearch {

    hosts => "example.com"

    document_id => "%{[@metadata][fingerprint]}"

  }

}

密钥的其他示例可以是 departmentID，组织 ID 等。

意外重复：从 Logstash 生成 UUID

先前的用例涉及内容的有意识地删除重复数据。在某些部署中，尤其是 Logstash 与可确保至少交付一次的持久性队列或其他排队系统一起使用时，Elasticsearch 中可能存在重复项。如果 Logstash 在处理过程中崩溃，则重新启动时将重播队列中的数据-这可能导致重复。为了减少这种情况造成的重复，可以对每个事件使用 UUID。这里的重点是，在将数据序列化到消息队列之前，需要在生产方（即发布到排队系统的 Logstash 实例）上生成UUID。这样，Logstash使用者在从崩溃还原或重新启动时需要重新处理事件时，将保留相同的事件ID。

如果你的源数据没有唯一标识符，则可以使用同一指纹过滤器来生成 UUID。请记住，此方法不考虑事件本身的内容，而是为每个事件生成 version 4 UUID。

filter {

  fingerprint {

    target => "%{[@metadata][uuid]}"

    method => "UUID"

  }

}

output {

  elasticsearch {

    hosts => "example.com"

    document_id => "%{[@metadata][uuid]}"

  }

}

如果在 Logstash 生产者和使用者之间使用队列，则必须显式复制@metadata字段，因为它们不会持久化到输出中。另外，你可以使用以下常规字段：

filter {

  fingerprint {

    target => "generated_id"

    method => "UUID"

  }

}

output {

  kafka {

    brokers => "example.com"

    ...

  }

}

从消费者方面，您可以只使用：

input {

  kafka {

    brokers => "example.com"

  }

}

output {

  elasticsearch {

    hosts => "example.com"

    document_id => "%{[generated_id]}"

  }

}

例子

在下面，我们用一个实际的例子来展示，这个是如工作的。首先让我们先创建一个叫做 logstash_fingerprint.conf 的 Logstash 配置文件：

logstash_fingerprint.conf

input {

    http {

        id => "data_http_input"

    }

}

filter {

    fingerprint {

        source => [ "sensor_id", "date"]

        target => "[@metadata][fingerprint]"

        method => "SHA1"

        key => "liuxg"

        concatenate_sources => true

        base64encode => true

    }

}

output {

    stdout {

     codec => rubydebug

    }

  elasticsearch {

    manage_template => "false"

    index => "fingerprint"

    hosts => "localhost:9200"

    document_id => "%{[@metadata][fingerprint]}"

    }

}

在这里，我们使用 http input 来收集数据。使用 sensor_id 及 date 这两个字段来生成一个 fingerprint。也就是说，只有这两个字段是一样的，那么无论我们输入多少次数据，那么在 Elasticsearch 中将不会有新的数据生成，因为它们的 ID 都是一样的。我们启动 Logstash：

sudo ./bin/logstash -f ~/data/fingerprint/logstash_fingerprint.conf

我们可以在另外一个 console 中打入如下的命令：

curl -XPOST --header "Content-Type:application/json"http://localhost:8080/" -d '{"sensor_id":1, "date": "2015-01-01", "reading":16.24}'

我们发现，只要是 sensor_id 和 date 的值都是一样的，那么 fingerprint 的文档数永远是 1。当然你也可以更新其它字段的值，比如 reading 字段的值为20，那么新的值将会在里面得以体现。这个操作相当于更新的操作。

也就是说，在索引 fingerprint 中，只要是 sensor_id 及 date 的数值是一样的，那么我们将永远只有一个文档，而且是永远不会重复的。

Logstash：运用 fingerprint 过滤器处理重复的文档的更多相关文章

ELK（ ElasticSearch+ Logstash+ Kibana）分布式日志系统部署文档
开始在公司实施的小应用,慢慢完善之~~~~~~~~文档制作了好作运维同事之间的前期普及.. ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 软件下载地址: https://www.e ...
13.Django1.11.6文档
第一步入门检查版本 python -m django --version 创建第一个项目 django-admin startproject mysite 运行 python manage.py ...
mongoDB 文档操作_增
增加 / 插入 /保存单文档插入命令 db.collection.insertOne(doc) 功能向被 use 的数据库中插入数据实例 db.class.insertOne({"n ...
day56 文件文档处理,事件
前情回顾: 1. 前情回顾 0. 选择器补充 - 属性选择器 - $("[egon]") - $("[type='text']") - $("inpu ...
jQuery 选择器筛选器样式操作文本操作属性操作文档处理事件动画效果插件 each、data、Ajax
jQuery jQuery介绍 1.jQuery是一个轻量级的.兼容多浏览器的JavaScript库. 2.jQuery使用户能够更方便地处理HTML Document.Events.实现动画效果.方 ...
jQuery文档节点处理，克隆，each循环，动画效果，插件
文档节点处理 //创建一个标签对象 $("<p>") //内部插入 $("").append(content|fn) ----->$(&quo ...
写文档太麻烦，试试这款 IDEA 插件吧！
前言每次开发完新项目或者新接口功能等,第一件事就是提供接口文档.说到接口文档,当然是用 Markdown 了.各种复制粘贴字段,必填非必填,字段备注,请求返回示例等等.简直是浪费时间哇.所以想到了开 ...
logstash的mutate过滤器的使用
logstash的mutate过滤器的使用一.背景二.需求三.实现步骤 1.安装 `csv codec` 插件 2.准备需要读取的文件数据 3.编写 pipeline ,读取和输出数据 4.mu ...
XML文档形式&JAVA抽象类和接口的区别&拦截器过滤器区别
XML文档定义有几种形式?它们之间有何本质区别?解析XML文档有哪几种方式? a: 两种形式 dtd schemab: 本质区别:schema本身是xml的,可以被XML解析器解析(这也是从DTD上发 ...

随机推荐

DTCC 干货分享：Real Time DaaS - 面向TP+AP业务的数据平台架构
2021年10月20日,Tapdata 创始人唐建法(TJ)受邀出席 DTCC 2021(中国数据库技术大会),并在企业数据中台设计与实践专场上,发表主旨演讲"Real Time Daa ...
基于.NetCore开发博客项目 StarBlog - (15) 生成随机尺寸图片
系列文章基于.NetCore开发博客项目 StarBlog - (1) 为什么需要自己写一个博客? 基于.NetCore开发博客项目 StarBlog - (2) 环境准备和创建项目基于.NetC ...
Windows对拍系统
有个东西可以帮助对拍,告诉你两个程序的输出哪不一样(但是无法得知错误位置,聊胜于无吧) 一.打开计算机二.在上方输入$cmd$,摁下回车三.弹出对话窗如下,输入$fc +$空格,输入两个需要比较 ...
k8s+crio+podman搭建集群
前言在传统的k8s集群中,我们都是使用docker engine做为底层的容器管理软件的,而docker engine因为不是k8s亲生的解决方案,所以实际使用中会有更多的分层.之前我们也讲过,k8 ...
从零开始制作【立体键盘】，画UI免写CSS，【盲打练习】的交互逻辑只用了10来行表达式！
手把手教你从空白页面开始通过拖拉拽可视化的方式制作[立体键盘]的静态页面,不用手写一行CSS代码,全程只用10来行表达式就完成了[盲打练习]的交互逻辑. 整个过程在众触应用平台进行,快速直观. 最终U ...
day11 Java反射机制
java反射机制反射是java中的动态机制,它允许我们在程序运行期间再确定类的实例化,方法的调用,属性的调用等,而不是传统意义上的在编码期间确定. 因此,反射可以大大的提高代码的灵活度,但是随之而来 ...
Hadoop - MapReduce 过程
Hadoop - MapReduce 一.MapReduce设计理念 map--->映射 reduce--->归纳 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线: ...
9.2 DAG上的动态规划
在有向无环图上的动态规划是学习动态规划的基础,很多问题都可以转化为DAG上的最长路,最短路或路径计数问题 9.2.1 DAG模型嵌套矩形问题: 矩形之间的可嵌套关系是一种典型的二元关系,二元关系可以 ...
2507-AOP- springboot中使用-使用注解方式
Springboot中使用aop,与SSM中使用AOP,整体配置与编写方式都是类似的.但是Springboot简化了很多xml配置,切点的表达式可以直接进行javaconfig. 记录一些示例 spr ...
从RabbitMQ平滑迁移到RocketMQ技术实战
作者:vivo 互联网中间件团队- Liu Runyun 大量业务使用消息中间件进行系统间的解耦.异步化.削峰填谷设计实现.公司内部前期基于RabbitMQ实现了一套高可用的消息中间件平台.随着业务的 ...

Logstash：运用 fingerprint 过滤器处理重复的文档

Logstash：运用 fingerprint 过滤器处理重复的文档的更多相关文章

随机推荐

热门专题