简要介绍Benthos,并给出若干示例,指导如何安装和运行。

Benthos


Benthos 是一个开源的、高性能和弹性的数据流处理器,能够以各种代理模式连接各种源和汇,可以帮助用户在不同的消息流之间进行路由,转换和聚合数据,并对有效载荷执行水合、富集、转换和过滤。

它使用 Go 语言编写,并且可以通过配置文件进行配置,使得它可以轻松地集成到各种系统中。它带有强大的映射语言,易于部署和监控,并可以作为静态二进制文件、docker 映像或无服务器函数放入管道中,使其成为云原生的。

Benthos 的功能包括:

  • 从多种消息流输入数据,包括 HTTP,Kafka,AMQP 等
  • 将数据转换为各种格式,包括 JSON,XML,CSV 等
  • 将数据聚合为单个消息
  • 将数据路由到多个输出流,包括 HTTP,Kafka,AMQP 等

Benthos 的主要优点在于它可以轻松集成到现有的系统中,并且可以使用配置文件进行定制。这使得它非常适合用于数据流处理和转换的场景。

如果你想了解更多关于 Benthos 的信息,可以访问它的官方文档:https://www.benthos.dev/docs/getting_started/overview

完全声明性

Benthos 是完全声明性的,在单个配置文件中定义了流管道,允许您指定连接器和处理阶段列表:

input:
kafka:
brokers:
- localhost:9092
topics:
- my_topic pipeline:
processors:
- json:
target: payload output:
http:
url: http://localhost:8080/

Benthos 还提供了许多其他功能,例如:

  • 支持多种消息流协议,包括 HTTP,Kafka,AMQP 等
  • 支持许多不同的数据格式,包括 JSON,XML,CSV 等
  • 支持许多不同的聚合器,包括按时间聚合,按字段聚合等
  • 支持自定义转换器,可以使用 Go 代码编写转换器

交货保证

Benthos 提供了交货保证功能,可以帮助用户确保数据不会丢失。Benthos 通过背压实现基于事务的弹性。当连接到至少一次源和接收器时,它保证至少一次传递,而无需在传输过程中保留消息。

交货保证可以通过在 Benthos 的配置文件中设置以下选项来实现:

  • batch: 在批量模式下工作。在批量模式下,Benthos 将等待一定数量的消息到达后再将这些消息发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。

  • buffer: 在缓冲模式下工作。在缓冲模式下,Benthos 会将消息缓存在内存中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为 Benthos 会在输出流失败时缓存消息。

  • queue: 在队列模式下工作。在队列模式下,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到输出流。这可以帮助确保消息不会丢失,因为即使 Benthos 关闭,消息也会保留在队列中。

这些选项可以结合使用,例如,你可以使用缓冲模式和队列模式来确保消息不会丢失:

input:
kafka:
brokers:
- localhost:9092
topics:
- my_topic pipeline:
buffer:
count: 100
period: 1s output:
file:
path: /tmp/messages
delivery_guarantee: at_least_once
queue:
type: file
file:
path: /tmp/queue
delivery_guarantee: at_least_once

在这个配置文件中,Benthos 会从 Kafka 中读取消息,然后将消息缓存在内存中。每当 Benthos 收到 100 条消息或者超过 1 秒钟后,它会将消息发送到两个输出流:文件输出流和文件队列输出流。

对于文件输出流,Benthos 会在输出流失败时缓存消息。对于文件队列输出流,Benthos 会将消息放入一个持久化队列中,直到可以将其发送到文件输出流。这样,即使 Benthos 关闭,消息也会保留在队列中。

通过使用缓冲模式和队列模式,你可以确保消息不会丢失,并在输出流失败时缓存消息。你也可以根据你的需要自定义配置文件,以便更好地管理数据流并确保数据不会丢失。

在这个文档中,你可以找到有关交货保证的概述,以及如何在 Benthos 中使用交货保证的详细信息。你还可以了解有关 Benthos 中的交货保证级别(如至少一次、最多一次和严格一次)的信息:

https://benthos.dev/docs/guides/delivery_guarantee

去重

Benthos 的交货保证功能可以帮助用户确保数据不会丢失,但是也要注意,它并不能保证数据不会被重复发送。如果你希望避免重复发送,可以使用 Benthos 的去重功能。

去重功能可以通过在 Benthos 的配置文件中添加以下选项来实现:

pipeline:
processors:
- dedupe:
field: my_field
cache_size: 1000

在上面的配置中,Benthos 会将数据流中的每条消息的 my_field 字段的值作为唯一标识符,并将这些标识符存储在缓存中。如果 Benthos 收到的消息的 my_field 字段的值在缓存中已经存在,则 Benthos 会丢弃这条消息。

你也可以使用以下选项来自定义去重功能的行为:

  • field: 指定用于去重的字段。
  • cache_size: 指定缓存的大小。
  • ttl: 指定缓存中条目的生存期。

通过使用 Benthos 的交货保证和去重功能,你可以更方便地管理数据流,并确保数据不会丢失或重复发送。

在这个文档中,你可以找到有关去重处理器的概述,以及如何在 Benthos 中使用去重处理器的详细信息。你还可以了解有关去重处理器的配置选项,包括如何指定去重窗口大小、如何通过使用键提取器来定义要去重的消息和如何通过使用消息分组来控制去重处理器的行为:

https://benthos.dev/docs/components/processors/dedup

支持自定义转换器

Benthos 提供了很多功能,可以帮助用户更方便地处理数据流。其中一个功能是支持自定义转换器。

自定义转换器允许用户使用 Go 代码编写转换器,以便在 Benthos 的数据流管道中进行转换。这使得用户可以使用 Benthos 的配置文件来定义一个自定义转换器,并将其指向 Go 代码文件。

例如,假设你有一个 Go 代码文件,其中包含了一个转换器函数,可以将输入数据转换为大写:

package main

import (
"github.com/Jeffail/benthos/v3/lib/processor"
"github.com/Jeffail/benthos/v3/lib/types"
"strings"
) func main() {} func ToUpper(input *types.Message) (*types.Message, error) {
input.Iter(func(i int, p types.Part) error {
p.Set(strings.ToUpper(p.Get()))
return nil
})
return input, nil
}

你可以使用以下配置文件来将这个转换器包含到 Benthos 的数据流管道中:

input:
kafka:
brokers:
- localhost:9092
topics:
- my_topic pipeline:
processors:
- custom:
path: /path/to/my/converter.go
function: ToUpper output:
http:
url: http://localhost:8080/

这样,当 Benthos 从 Kafka 中读取数据时,它会使用函数转换器插件将消息转换为大写。函数转换器插件会读取 Go 代码文件 /path/to/my_converter.go,并将数据传递给自定义转换器函数 ToUpper,该函数会将输入数据转换为大写。

你可以在 Benthos 的文档中了解有关函数转换器插件的更多信息:https://benthos.dev/docs/components/processors/function

安装


Benthos 是一个开源的数据流管理工具,可以在 Linux、macOS 和 Windows 系统上运行。要安装 Benthos,你可以使用以下方法之一:

  • 使用包管理器安装:Benthos 提供了在许多平台上使用包管理器安装的选项。例如,你可以在 Ubuntu 系统上使用 apt 安装 Benthos,或者在 CentOS 系统上使用 yum 安装 Benthos。
# 在 Ubuntu 系统上使用 apt 安装 Benthos:
sudo apt update
sudo apt install benthos # 在 CentOS 系统上使用 yum 安装 Benthos:
sudo yum update
sudo yum install benthos
  • 使用二进制文件安装:Benthos 提供了预编译的二进制文件,可以在任何支持的平台上使用这些文件安装 Benthos。
curl -Lsf https://sh.benthos.dev | bash
  • 使用源代码安装:如果你想从 Benthos 的源代码安装,你可以从 GitHub 上下载 Benthos 的源代码,然后在本地编译它。
# 1. 从 GitHub 上下载 Benthos 的源代码
git clone https://github.com/Jeffail/benthos.git
cd benthos # 2. 安装 Benthos 所需的依赖项:
make deps # 3. 编译 Benthos:
make build # 4. 安装 Benthos:
make install
  • 使用 Docker 安装:Benthos 提供了一个 Docker 镜像,你可以使用 Docker 安装 Benthos。这是一种快速、简单的安装方法,适用于在各种平台上使用 Benthos 的场景。
# 1. 从 Docker Hub 上下载 Benthos 的镜像:
docker pull jeffail/benthos:latest # 2. 运行 Benthos 容器:
docker run -d --name benthos jeffail/benthos:latest
  • 使用 Helm 安装:如果你使用 Kubernetes 管理应用程序,你可以使用 Helm 安装 Benthos。Helm 是一个用于在 Kubernetes 中部署应用程序的工具,可以让你快速、简单地将 Benthos 部署到 Kubernetes 集群中。
# 1. 安装 Helm(如果你的系统上尚未安装 Helm)。
# 2. 为 Benthos 创建一个新的 Helm 配置文件,例如 benthos-values.yaml。
# 3. 在 Helm 配置文件中指定 Benthos 的配置选项(包括输入、输出和处理器的配置)。
# 4. 在 Kubernetes 集群中部署 Benthos:
helm install benthos . -f benthos-values.yaml

运行


运行 Benthos 有许多方法,具体取决于你如何安装 Benthos。

二进制文件或源代码

如果你使用二进制文件或源代码安装 Benthos,你可以使用以下方法之一运行 Benthos:

  • 在命令行中运行 Benthos:

在安装 Benthos 后,你可以在命令行中使用 benthos 命令运行 Benthos。例如,你可以运行以下命令:

benthos -c /path/to/config.yaml

在这个命令中,/path/to/config.yaml 是 Benthos 的配置文件的路径。你可以在 Benthos 的文档中了解有关配置文件的更多信息:https://benthos.dev/docs/configuration

  • 在后台运行 Benthos:

    如果你希望 Benthos 在后台运行,你可以使用 benthos -d 命令启动 Benthos。例如:
benthos -d -c /path/to/config.yaml

这样,Benthos 就会在后台运行,你就可以继续使用命令行进行其他操作了。你也可以使用 benthos -h 命令查看有关 Benthos 命令行选项的更多信息。

Docker

如果你使用 Docker 安装 Benthos,你可以使用以下方法之一运行 Benthos:

  • 在命令行中运行 Benthos:

    你可以使用 docker run 命令在命令行中运行 Benthos。例如,你可以运行以下命令:
docker run -d --name benthos jeffail/benthos:latest -c /path/to/config.yaml
  • 使用 Docker Compose 运行 Benthos:

    如果你使用 Docker Compose 运行 Benthos,你可以在 docker-compose.yml 文件中指定 Benthos 的配置选项。例如,你可以在 docker-compose.yml 文件中指定 Benthos 的输入、输出和处理器,然后使用 docker-compose up 命令启动 Benthos。

例如,你可以在 docker-compose.yml 文件中使用以下内容启动 Benthos:

version: "3"

services:
benthos:
image: jeffail/benthos:latest
environment:
BENTHOS_CONFIG: |
inputs:
- type: stdin
outputs:
- type: stdout
processors:
- type: json_parser
parse_json_fields: []
output_fields: []
remove_on_fail: true
remove_keys: []

然后,你可以使用以下命令启动 Benthos:

docker-compose up
与文无关

我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=x1clkq2m1kq4

基于go语言的声明式流式ETL,高性能和弹性流处理器的更多相关文章

  1. java struts2入门学习--基于xml文件的声明式验证

    一.知识点总结 后台验证有两种实现方式: 1 手工验证顺序:validateXxx(针对Action中某个业务方法验证)--> validate(针对Action中所有的业务方法验证) 2 声明 ...

  2. Spring事务的介绍,以及基于注解@Transactional的声明式事务

    前言 事务是一个非常重要的知识点,前面的文章已经有介绍了关于SpringAOP代理的实现过程:事务管理也是AOP的一个重要的功能. 事务的基本介绍 数据库事务特性: 原子性 一致性 隔离性 持久性 事 ...

  3. Spring入门6事务管理2 基于Annotation方式的声明式事务管理机制

    Spring入门6事务管理2 基于Annotation方式的声明式事务管理机制 201311.27 代码下载 链接: http://pan.baidu.com/s/1kYc6c 密码: 233t 前言 ...

  4. 27Spring_的事务管理_银行转账业务加上事务控制_基于tx.aop进行声明式事务管理

    上一篇文章中,银行转账业务没有使用事务,会出现问题,所以这篇文章对上篇文章出现的问题进行修改. 事务 依赖 AOP , AOP需要定义切面, 切面由Advice(通知) 和 PointCut(切点) ...

  5. 阶段3 2.Spring_10.Spring中事务控制_8 spring基于纯注解的声明式事务控制

    新建项目 把之前项目src下的内容全部复制过来 pom.xml内复制过来 开始配置 新建一个config的包,然后再新建配置文件类SpringConfiguration @Configuration这 ...

  6. 【Spring】Spring的事务管理 - 2、声明式事务管理(实现基于XML、Annotation的方式。)

    声明式事务管理 文章目录 声明式事务管理 基于XML方式的声明式事务 基于Annotation方式的声明式事务 简单记录 - 简单记录-Java EE企业级应用开发教程(Spring+Spring M ...

  7. 基于grpc的流式方式实现双向通讯(python)

    grpc介绍 grpc是谷歌开源的一套基于rpc实现的通讯框架(官网有更完整的定义).在搞懂grpc之前,首先要弄懂rpc是什么.下面是自己理解的rpc定义,若有不对,望指出: rpc官方称为 远程过 ...

  8. 全面分析 Spring 的编程式事务管理及声明式事务管理

    开始之前 关于本教程 本教程将深入讲解 Spring 简单而强大的事务管理功能,包括编程式事务和声明式事务.通过对本教程的学习,您将能够理解 Spring 事务管理的本质,并灵活运用之. 先决条件 本 ...

  9. 全面分析 Spring 的编程式事务管理及声明式事务管理--转

    开始之前 关于本教程 本教程将深入讲解 Spring 简单而强大的事务管理功能,包括编程式事务和声明式事务.通过对本教程的学习,您将能够理解 Spring 事务管理的本质,并灵活运用之. 先决条件 本 ...

  10. Apple公司Darwin流式服务器源代码分析

    当前,伴随着Internet的飞速发展,计算机网络已经进入到每一个普通人的家庭.在这个过程中,一个值得我们关注的现象是:Internet中存储和传输内容的构成已经发生了本质的改变,从传统的基于文本或少 ...

随机推荐

  1. vue树形结构图

    1.下载插件:cnpm i vue2-org-tree 2.下载less-loader不然报错(this.getOptions is not a function):npm install less- ...

  2. mysql zip安装步骤

    1. 官网下载社区版 https://dev.mysql.com/downloads/mysql/ 版本5.7或者8.0 2. 解压到指定的目录. 3.创建my.ini文件,编辑内容: [mysqld ...

  3. 声网发布教育新品:灵动课堂全球覆盖学生超400万,互动白板首创H5课件

    3月31日,全球实时互动云服务商声网Agora在北京举行教育产品发布会,正式发布教育行业首款aPaaS产品"灵动课堂",和首个支持H5课件的白板PaaS产品"互动白板&q ...

  4. CSS 基础属性篇组成及作用

    #### 学习目标- css属性和属性值的定义- css文本属性- css列表属性- css背景属性- css边框属性- css浮动属性##### 一.css属性和属性值的定义>属性:属性是指定 ...

  5. Java并发夺命50问

    本文已经收录到Github仓库,该仓库包含计算机基础.Java基础.多线程.JVM.数据库.Redis.Spring.Mybatis.SpringMVC.SpringBoot.分布式.微服务.设计模式 ...

  6. 递推求解DAG最长路径长度及最长路径条数

    说明 在一般图中,求解最长路或最短路只能通过最短路算法解决 但是在DAG中,由于不存在环,因此可以通过递推,以线性复杂度计算处最长路或最短路.当然需要首先对有向图进行Tarjan缩点转化为DAG 例题 ...

  7. flask基本项目结构

    |-- myproject |-- config.py |-- flask-env.yml |-- manage.py |-- app | |-- models.py | |-- __init__.p ...

  8. pandas之excel操作

    Excel 是由微软公司开发的办公软件之一,它在日常工作中得到了广泛的应用.在数据量较少的情况下,Excel 对于数据的处理.分析.可视化有其独特的优势,因此可以显著提升您的工作效率.但是,当数据量非 ...

  9. [数据库]Ubuntu Linux/Kylin: 安装MySQL

    1 文由 由于安装环境较为特殊,实在折煞人也.而此环境的网络博客/教程偏少,觉得有必要记录一下. 2 环境 安装主机不支持联网 即 不支持APT/APT-GET等傻瓜式的在线安装方式. 硬件架构: A ...

  10. 五月十三号Java基础知识点

    1.getFields()和getMethods()方法获得权限为public的本类的以及父类继承的成员变量和成员方法2.getDeclaredFields()和getDeclaredMethods( ...