基于go语言的声明式流式ETL,高性能和弹性流处理器
简要介绍Benthos,并给出若干示例,指导如何安装和运行。
Benthos
Benthos 是一个开源的、高性能和弹性的数据流处理器,能够以各种代理模式连接各种源和汇,可以帮助用户在不同的消息流之间进行路由,转换和聚合数据,并对有效载荷执行水合、富集、转换和过滤。
它使用 Go 语言编写,并且可以通过配置文件进行配置,使得它可以轻松地集成到各种系统中。它带有强大的映射语言,易于部署和监控,并可以作为静态二进制文件、docker 映像或无服务器函数放入管道中,使其成为云原生的。
Benthos 的功能包括:
- 从多种消息流输入数据,包括 HTTP,Kafka,AMQP 等
- 将数据转换为各种格式,包括 JSON,XML,CSV 等
- 将数据聚合为单个消息
- 将数据路由到多个输出流,包括 HTTP,Kafka,AMQP 等
Benthos 的主要优点在于它可以轻松集成到现有的系统中,并且可以使用配置文件进行定制。这使得它非常适合用于数据流处理和转换的场景。
如果你想了解更多关于 Benthos 的信息,可以访问它的官方文档:https://www.benthos.dev/docs/getting_started/overview
完全声明性
Benthos 是完全声明性的,在单个配置文件中定义了流管道,允许您指定连接器和处理阶段列表:
input:
kafka:
brokers:
- localhost:9092
topics:
- my_topic
pipeline:
processors:
- json:
target: payload
output:
http:
url: http://localhost:8080/
Benthos 还提供了许多其他功能,例如:
- 支持多种消息流协议,包括 HTTP,Kafka,AMQP 等
- 支持许多不同的数据格式,包括 JSON,XML,CSV 等
- 支持许多不同的聚合器,包括按时间聚合,按字段聚合等
- 支持自定义转换器,可以使用 Go 代码编写转换器
交货保证
Benthos 提供了交货保证功能,可以帮助用户确保数据不会丢失。Benthos 通过背压实现基于事务的弹性。当连接到至少一次源和接收器时,它保证至少一次传递,而无需在传输过程中保留消息。
交货保证可以通过在 Benthos 的配置文件中设置以下选项来实现:
batch: 在批量模式下工作。在批量模式下,Benthos 将等待一定数量的消息到达后再将这些消息发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。buffer: 在缓冲模式下工作。在缓冲模式下,Benthos 会将消息缓存在内存中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。queue: 在队列模式下工作。在队列模式下,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为即使 Benthos 关闭,消息也会保留在队列中。
这些选项可以结合使用,例如,你可以使用缓冲模式和队列模式来确保消息不会丢失:
input:
kafka:
brokers:
- localhost:9092
topics:
- my_topic
pipeline:
buffer:
count: 100
period: 1s
output:
file:
path: /tmp/messages
delivery_guarantee: at_least_once
queue:
type: file
file:
path: /tmp/queue
delivery_guarantee: at_least_once
在这个配置文件中,Benthos 会从 Kafka 中读取消息,然后将消息缓存在内存中。每当 Benthos 收到 100 条消息或者超过 1 秒钟后,它会将消息发送到两个输出流:文件输出流和文件队列输出流。
对于文件输出流,Benthos 会在输出流失败时缓存消息。对于文件队列输出流,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到文件输出流。这样,即使 Benthos 关闭,消息也会保留在队列中。
通过使用缓冲模式和队列模式,你可以确保消息不会丢失,并在输出流失败时缓存消息。你也可以根据你的需要自定义配置文件,以便更好地管理数据流并确保数据不会丢失。
在这个文档中,你可以找到有关交货保证的概述,以及如何在 Benthos 中使用交货保证的详细信息。你还可以了解有关 Benthos 中的交货保证级别(如至少一次、最多一次和严格一次)的信息:
https://benthos.dev/docs/guides/delivery_guarantee
去重
Benthos 的交货保证功能可以帮助用户确保数据不会丢失,但是也要注意,它并不能保证数据不会被重复发送。如果你希望避免重复发送,可以使用 Benthos 的去重功能。
去重功能可以通过在 Benthos 的配置文件中添加以下选项来实现:
pipeline:
processors:
- dedupe:
field: my_field
cache_size: 1000
在上面的配置中,Benthos 会将数据流中的每条消息的 my_field 字段的值作为唯一标识符,并将这些标识符存储在缓存中。如果 Benthos 收到的消息的 my_field 字段的值在缓存中已经存在,则 Benthos 会丢弃这条消息。
你也可以使用以下选项来自定义去重功能的行为:
- field: 指定用于去重的字段。
- cache_size: 指定缓存的大小。
- ttl: 指定缓存中条目的生存期。
通过使用 Benthos 的交货保证和去重功能,你可以更方便地管理数据流,并确保数据不会丢失或重复发送。
在这个文档中,你可以找到有关去重处理器的概述,以及如何在 Benthos 中使用去重处理器的详细信息。你还可以了解有关去重处理器的配置选项,包括如何指定去重窗口大小、如何通过使用键提取器来定义要去重的消息和如何通过使用消息分组来控制去重处理器的行为:
https://benthos.dev/docs/components/processors/dedup
支持自定义转换器
Benthos 提供了很多功能,可以帮助用户更方便地处理数据流。其中一个功能是支持自定义转换器。
自定义转换器允许用户使用 Go 代码编写转换器,以便在 Benthos 的数据流管道中进行转换。这使得用户可以使用 Benthos 的配置文件来定义一个自定义转换器,并将其指向 Go 代码文件。
例如,假设你有一个 Go 代码文件,其中包含了一个转换器函数,可以将输入数据转换为大写:
package main
import (
"github.com/Jeffail/benthos/v3/lib/processor"
"github.com/Jeffail/benthos/v3/lib/types"
"strings"
)
func main() {}
func ToUpper(input *types.Message) (*types.Message, error) {
input.Iter(func(i int, p types.Part) error {
p.Set(strings.ToUpper(p.Get()))
return nil
})
return input, nil
}
你可以使用以下配置文件来将这个转换器包含到 Benthos 的数据流管道中:
input:
kafka:
brokers:
- localhost:9092
topics:
- my_topic
pipeline:
processors:
- custom:
path: /path/to/my/converter.go
function: ToUpper
output:
http:
url: http://localhost:8080/
这样,当 Benthos 从 Kafka 中读取数据时,它会使用函数转换器插件将消息转换为大写。函数转换器插件会读取 Go 代码文件 /path/to/my_converter.go,并将数据传递给自定义转换器函数 ToUpper,该函数会将输入数据转换为大写。
你可以在 Benthos 的文档中了解有关函数转换器插件的更多信息:https://benthos.dev/docs/components/processors/function
安装
Benthos 是一个开源的数据流管理工具,可以在 Linux、macOS 和 Windows 系统上运行。要安装 Benthos,你可以使用以下方法之一:
- 使用包管理器安装:Benthos 提供了在许多平台上使用包管理器安装的选项。例如,你可以在 Ubuntu 系统上使用 apt 安装 Benthos,或者在 CentOS 系统上使用 yum 安装 Benthos。
# 在 Ubuntu 系统上使用 apt 安装 Benthos:
sudo apt update
sudo apt install benthos
# 在 CentOS 系统上使用 yum 安装 Benthos:
sudo yum update
sudo yum install benthos
- 使用二进制文件安装:Benthos 提供了预编译的二进制文件,可以在任何支持的平台上使用这些文件安装 Benthos。
curl -Lsf https://sh.benthos.dev | bash
- 使用源代码安装:如果你想从 Benthos 的源代码安装,你可以从 GitHub 上下载 Benthos 的源代码,然后在本地编译它。
# 1. 从 GitHub 上下载 Benthos 的源代码
git clone https://github.com/Jeffail/benthos.git
cd benthos
# 2. 安装 Benthos 所需的依赖项:
make deps
# 3. 编译 Benthos:
make build
# 4. 安装 Benthos:
make install
- 使用 Docker 安装:Benthos 提供了一个 Docker 镜像,你可以使用 Docker 安装 Benthos。这是一种快速、简单的安装方法,适用于在各种平台上使用 Benthos 的场景。
# 1. 从 Docker Hub 上下载 Benthos 的镜像:
docker pull jeffail/benthos:latest
# 2. 运行 Benthos 容器:
docker run -d --name benthos jeffail/benthos:latest
- 使用 Helm 安装:如果你使用 Kubernetes 管理应用程序,你可以使用 Helm 安装 Benthos。Helm 是一个用于在 Kubernetes 中部署应用程序的工具,可以让你快速、简单地将 Benthos 部署到 Kubernetes 集群中。
# 1. 安装 Helm(如果你的系统上尚未安装 Helm)。
# 2. 为 Benthos 创建一个新的 Helm 配置文件,例如 benthos-values.yaml。
# 3. 在 Helm 配置文件中指定 Benthos 的配置选项(包括输入、输出和处理器的配置)。
# 4. 在 Kubernetes 集群中部署 Benthos:
helm install benthos . -f benthos-values.yaml
运行
运行 Benthos 有许多方法,具体取决于你如何安装 Benthos。
二进制文件或源代码
如果你使用二进制文件或源代码安装 Benthos,你可以使用以下方法之一运行 Benthos:
- 在命令行中运行 Benthos:
在安装 Benthos 后,你可以在命令行中使用 benthos 命令运行 Benthos。例如,你可以运行以下命令:
benthos -c /path/to/config.yaml
在这个命令中,/path/to/config.yaml 是 Benthos 的配置文件的路径。你可以在 Benthos 的文档中了解有关配置文件的更多信息:https://benthos.dev/docs/configuration
- 在后台运行 Benthos:
如果你希望 Benthos 在后台运行,你可以使用 benthos -d 命令启动 Benthos。例如:
benthos -d -c /path/to/config.yaml
这样,Benthos 就会在后台运行,你就可以继续使用命令行进行其他操作了。你也可以使用 benthos -h 命令查看有关 Benthos 命令行选项的更多信息。
Docker
如果你使用 Docker 安装 Benthos,你可以使用以下方法之一运行 Benthos:
- 在命令行中运行 Benthos:
你可以使用 docker run 命令在命令行中运行 Benthos。例如,你可以运行以下命令:
docker run -d --name benthos jeffail/benthos:latest -c /path/to/config.yaml
- 使用 Docker Compose 运行 Benthos:
如果你使用 Docker Compose 运行 Benthos,你可以在 docker-compose.yml 文件中指定 Benthos 的配置选项。例如,你可以在 docker-compose.yml 文件中指定 Benthos 的输入、输出和处理器,然后使用 docker-compose up 命令启动 Benthos。
例如,你可以在 docker-compose.yml 文件中使用以下内容启动 Benthos:
version: "3"
services:
benthos:
image: jeffail/benthos:latest
environment:
BENTHOS_CONFIG: |
inputs:
- type: stdin
outputs:
- type: stdout
processors:
- type: json_parser
parse_json_fields: []
output_fields: []
remove_on_fail: true
remove_keys: []
然后,你可以使用以下命令启动 Benthos:
docker-compose up
与文无关
我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=x1clkq2m1kq4
基于go语言的声明式流式ETL,高性能和弹性流处理器的更多相关文章
- java struts2入门学习--基于xml文件的声明式验证
一.知识点总结 后台验证有两种实现方式: 1 手工验证顺序:validateXxx(针对Action中某个业务方法验证)--> validate(针对Action中所有的业务方法验证) 2 声明 ...
- Spring事务的介绍,以及基于注解@Transactional的声明式事务
前言 事务是一个非常重要的知识点,前面的文章已经有介绍了关于SpringAOP代理的实现过程:事务管理也是AOP的一个重要的功能. 事务的基本介绍 数据库事务特性: 原子性 一致性 隔离性 持久性 事 ...
- Spring入门6事务管理2 基于Annotation方式的声明式事务管理机制
Spring入门6事务管理2 基于Annotation方式的声明式事务管理机制 201311.27 代码下载 链接: http://pan.baidu.com/s/1kYc6c 密码: 233t 前言 ...
- 27Spring_的事务管理_银行转账业务加上事务控制_基于tx.aop进行声明式事务管理
上一篇文章中,银行转账业务没有使用事务,会出现问题,所以这篇文章对上篇文章出现的问题进行修改. 事务 依赖 AOP , AOP需要定义切面, 切面由Advice(通知) 和 PointCut(切点) ...
- 阶段3 2.Spring_10.Spring中事务控制_8 spring基于纯注解的声明式事务控制
新建项目 把之前项目src下的内容全部复制过来 pom.xml内复制过来 开始配置 新建一个config的包,然后再新建配置文件类SpringConfiguration @Configuration这 ...
- 【Spring】Spring的事务管理 - 2、声明式事务管理(实现基于XML、Annotation的方式。)
声明式事务管理 文章目录 声明式事务管理 基于XML方式的声明式事务 基于Annotation方式的声明式事务 简单记录 - 简单记录-Java EE企业级应用开发教程(Spring+Spring M ...
- 基于grpc的流式方式实现双向通讯(python)
grpc介绍 grpc是谷歌开源的一套基于rpc实现的通讯框架(官网有更完整的定义).在搞懂grpc之前,首先要弄懂rpc是什么.下面是自己理解的rpc定义,若有不对,望指出: rpc官方称为 远程过 ...
- 全面分析 Spring 的编程式事务管理及声明式事务管理
开始之前 关于本教程 本教程将深入讲解 Spring 简单而强大的事务管理功能,包括编程式事务和声明式事务.通过对本教程的学习,您将能够理解 Spring 事务管理的本质,并灵活运用之. 先决条件 本 ...
- 全面分析 Spring 的编程式事务管理及声明式事务管理--转
开始之前 关于本教程 本教程将深入讲解 Spring 简单而强大的事务管理功能,包括编程式事务和声明式事务.通过对本教程的学习,您将能够理解 Spring 事务管理的本质,并灵活运用之. 先决条件 本 ...
- Apple公司Darwin流式服务器源代码分析
当前,伴随着Internet的飞速发展,计算机网络已经进入到每一个普通人的家庭.在这个过程中,一个值得我们关注的现象是:Internet中存储和传输内容的构成已经发生了本质的改变,从传统的基于文本或少 ...
随机推荐
- centOS7 + MongoDB 3.6.22 集群搭建 - 切片+副本集 - 个人学习
因为我是学习这个,所以是安装成功之后自己再记录一下过程,mongodb是重新安装的,参考博客:MongoDB 3.6.9 集群搭建 - 切片+副本集 1. 服务结构介绍 结构图: 结构图解: 1. S ...
- JDK 7 HashMap 并发情况下的死锁问题
目录 问题描述 详细解释 问题描述 JDK7的 HashMap 解决冲突用的是链表,在插入链表的时候用的是头插法,每次在链表的头部插入新元素.resize() 的时候用的依然是头插,头插的话,如果某个 ...
- celery 使用
celery 1.celery介绍 celery能用来做什么: 1.异步任务 2.定时任务 3.延迟任务 1.1 理解celery的运行原理 1.可以不依赖任何服务器 通过自身命令 启动服务 2.ce ...
- Winhex 恢复三个分区
通过之前的博客WinHex恢复分区,我们知道 在MBR中,一共有四行是我们分区的引导,所以,我们手动只能创建三个主分区,通过工具软件,我们最多可以创建四个主分区 那么测试:如何创建四个主分区? 首先, ...
- Spring--事务案例的实现
案例实现(主要是想用Spring实现一下MyBatis的相关内容) JDBCConfig.java MyBatisConfig.java SpringConfig.java accountDao.ja ...
- 一文带你了解 JS Module 的始末
写在前面 模块化开发是我们日常工作潜移默化中用到的基本技能,发展至今非常地简洁方便,但开发者们(指我自己)却很少能清晰透彻地说出它的发展背景, 发展过程以及各个规范之间的区别.故笔者决定一探乾坤,深入 ...
- consumer goods cloud 之后续慢慢看系列
继之前的内容和帮助文档之外,整理一些其他有用的CG资源,有时间可以深入学习一下. 零售执行: https://rise.articulate.com/share/R9_PIF3mcNMuAi4iUtA ...
- flutter widget---->FloatingActionButton
在Flutter中说起Button,floatingActionButton用的也非常的多.今天我们就来学习一下. Simple Example import 'package:flutter/mat ...
- 如何单机部署多个 MySQL 8.0 实例 ?
在服务器资源有限的情况下,可利用该方案快速搭建各类 mysql 架构方案.各 MySQL 实例共享一个 mysqld 主程序,但各实例数据目录是独立的,存放在不同的文件夹中:好了.废话不多说,直接上干 ...
- ACM-NEFUOJ-最小树-Prim算法
最小树1 Description 某省长调查交通情况,发现本省交通事故发生不断,于是决定在本省内全部修建地铁. 该省长得到的统计表中列出了任意两市之间的距离,为了确保任何两个市都可以直接 或者间接实现 ...