1. 概述

在本教程中,我们将介绍 Apache Beam 并探讨其基本概念。

我们将首先演示使用 Apache Beam 的用例和好处,然后介绍基本概念和术语。之后,我们将通过一个简单的例子来说明 Apache Beam 的所有重要方面。

2. Apache Beam是个啥?

Apache Beam(Batch+strEAM)是一个用于批处理和流式数据处理作业的统一编程模型。它提供了一个软件开发工具包,用于定义和构建数据处理管道以及执行这些管道的运行程序。

Apache Beam旨在提供一个可移植的编程层。事实上,Beam管道运行程序将数据处理管道转换为与用户选择的后端兼容的API。目前,支持这些分布式处理后端有:

  • Apache Apex
  • Apache Flink
  • Apache Gearpump (incubating)
  • Apache Samza
  • Apache Spark
  • Google Cloud Dataflow
  • Hazelcast Jet

3. 为啥选择 Apache Beam

Apache Beam 将批处理和流式数据处理融合在一起,而其他组件通常通过单独的 API 来实现这一点。因此,很容易将流式处理更改为批处理,反之亦然,例如,随着需求的变化。

Apache Beam 提高了可移植性和灵活性。我们关注的是逻辑,而不是底层的细节。此外,我们可以随时更改数据处理后端。

Apache Beam 可以使用 Java、Python、Go和 Scala等SDK。事实上,团队中的每个人都可以使用他们选择的语言。

4. 基本概念

使用 Apache Beam,我们可以构建工作流图(管道)并执行它们。编程模型中的关键概念是:

  • PCollection–表示可以是固定批处理或数据流的数据集

  • PTransform–一种数据处理操作,它接受一个或多个 PCollections 并输出零个或多个 PCollections。

  • Pipeline–表示 PCollection 和 PTransform 的有向无环图,因此封装了整个数据处理作业。

  • PipelineRunner–在指定的分布式处理后端上执行管道。

简单地说,PipelineRunner 执行一个管道,管道由 PCollection 和 PTransform 组成。

5. 字数统计示例

现在我们已经学习了 Apache Beam 的基本概念,让我们设计并测试一个单词计数任务。

5.1 建造梁式管道

设计工作流图是每个 Apache Beam 作业的第一步,单词计数任务的步骤定义如下:

1.从原文中读课文。

2.把课文分成单词表。

3.所有单词都小写。

4.删去标点符号。

5.过滤停止语。

6.统计唯一单词数量。

为了实现这一点,我们需要使用 PCollectionPTransform 抽象将上述步骤转换为 管道

5.2. 依赖

在实现工作流图之前,先添加 Apache Beam的依赖项 到我们的项目:

<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>${beam.version}</version>
</dependency>

Beam管道运行程序依赖于分布式处理后端来执行任务。我们添加 DirectRunner 作为运行时依赖项:

<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-direct-java</artifactId>
<version>${beam.version}</version>
<scope>runtime</scope>
</dependency>

与其他管道运行程序不同,DirectRunner 不需要任何额外的设置,这对初学者来说是个不错的选择。

5.3. 实现

Apache Beam 使用 Map-Reduce 编程范式 ( 类似 Java Stream)。讲下面内容之前,最好 对 reduce(), filter(), count(), map(), 和 flatMap() 有个基础概念和认识。

首先要做的事情就是 创建管道

PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p = Pipeline.create(options);

六步单词计数任务:

PCollection<KV<String, Long>> wordCount = p
.apply("(1) Read all lines",
TextIO.read().from(inputFilePath))
.apply("(2) Flatmap to a list of words",
FlatMapElements.into(TypeDescriptors.strings())
.via(line -> Arrays.asList(line.split("\\s"))))
.apply("(3) Lowercase all",
MapElements.into(TypeDescriptors.strings())
.via(word -> word.toLowerCase()))
.apply("(4) Trim punctuations",
MapElements.into(TypeDescriptors.strings())
.via(word -> trim(word)))
.apply("(5) Filter stopwords",
Filter.by(word -> !isStopWord(word)))
.apply("(6) Count words",
Count.perElement());

apply() 的第一个(可选)参数是一个String,它只是为了提高代码的可读性。下面是上述代码中每个 apply() 的作用:

  1. 首先,我们使用 TextIO 逐行读取输入文本文件。
  2. 将每一行按空格分开,把它映射到一个单词表上。
  3. 单词计数不区分大小写,所以我们将所有单词都小写。
  4. 之前,我们用空格分隔行,但是像“word!“和”word?"这样的,就需要删除标点符号。
  5. 像“is”和“by”这样的停止词在几乎每一篇英语文章中都很常见,所以我们将它们删除。
  6. 最后,我们使用内置函数 Count.perElement() 计算唯一单词数量。

如前所述,管道是在分布式后端处理的。不可能在内存中的PCollection上迭代,因为它分布在多个后端。相反,我们将结果写入外部数据库或文件。

首先,我们将PCollection转换为String。然后,使用TextIO编写输出:

wordCount.apply(MapElements.into(TypeDescriptors.strings())
.via(count -> count.getKey() + " --> " + count.getValue()))
.apply(TextIO.write().to(outputFilePath));

现在管道 已经定义好了,接下来做个简单的测试。

5.4. 运行测试

到目前为止,我们已为单词计数任务定义了管道,现在运行管道

p.run().waitUntilFinish();

在这行代码中,Apache Beam 将把我们的任务发送到多个 DirectRunner 实例。因此,最后将生成几个输出文件。它们将包含以下内容:

...
apache --> 3
beam --> 5
rocks --> 2
...

在 Apache Beam 中定义和运行分布式作业是如此地简单。为了进行比较,单词计数实现在 Apache Spark, Apache Flink 和 Hazelcast-Jet 上也有

6. 结语

在本教程中,我们了解了 Apache Beam 是什么,以及它为什么比其他选择更受欢迎。我们还通过一个单词计数示例演示了 Apache Beam 的基本概念。

如果你觉得文章还不错,记得关注公众号: 锅外的大佬

锅外的大佬博客

Apache Beam,批处理和流式处理的融合!的更多相关文章

  1. Spark SQL - 对大规模的结构化数据进行批处理和流式处理

    Spark SQL - 对大规模的结构化数据进行批处理和流式处理 大体翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/con ...

  2. Apache beam中的便携式有状态大数据处理

    Apache beam中的便携式有状态大数据处理 目标: 什么是 apache beam? 状态 计时器 例子&小demo 一.什么是 apache beam? 上面两个图片一个是正面切图,一 ...

  3. Apache Beam编程指南

    术语 Apache Beam:谷歌开源的统一批处理和流处理的编程模型和SDK. Beam: Apache Beam开源工程的简写 Beam SDK: Beam开发工具包 **Beam Java SDK ...

  4. Apache Beam是什么?

    Apache Beam 的前世今生 1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源. 2003年,谷歌发布了著 ...

  5. Spark之 Spark Streaming流式处理

    SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理.Spark Streaming有高吞吐量和容错能力强等特点.Spark Streamin ...

  6. 深入浅出时序数据库之预处理篇——批处理和流处理,用户可定制,但目前流行influxdb没有做

    时序数据是一个写多读少的场景,对时序数据库以及数据存储方面做了论述,数据查询和聚合运算同样是时序数据库必不可少的功能之一.如何支持在秒级对上亿数据的查询分组聚合运算成为了时序数据库产品必须要面对的挑战 ...

  7. Apache Beam—透视Google统一流式计算的野心

    Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部分都要归功于Google最早的几篇论文,这几篇论文早就了以Hadoop为开端的整个开源大数据生态,但是很可惜的是Google内部的这些系 ...

  8. Apache Flink流式处理

    花了四小时,看完Flink的内容,基本了解了原理. 挖个坑,待总结后填一下. 2019-06-02 01:22:57等欧冠决赛中,填坑. 一.概述 storm最大的特点是快,它的实时性非常好(毫秒级延 ...

  9. Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink

    https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247492538&idx=2&sn=9a2bd9fe2d7fd6 ...

随机推荐

  1. [Luogu P3455] [POI2007]ZAP-Queries (莫比乌斯反演 )

    题面 传送门:洛咕 Solution 这题比这题不懂简单到哪里去了 好吧,我们来颓柿子. 为了防止重名,以下所有柿子中的\(x\)既是题目中的\(d\) 为了方便讨论,以下柿子均假设\(b>=a ...

  2. (模板)graham扫描法、andrew算法求凸包

    凸包算法讲解:Click Here 题目链接:https://vjudge.net/problem/POJ-1113 题意:简化下题意即求凸包的周长+2×PI×r. 思路:用graham求凸包,模板是 ...

  3. 测试流程规范--测试准入、准出、停止标准、bug优先级定义

    一.背景 最近在推进组内流程规范专项建设,从"研发测试流程"."提测规范"."测试准入标准"."bug优先级标准".&q ...

  4. Pycharm激活码,2020年9月29日最新激活码

    分享一个Pycharm激活码给大家: 5MJ8MJ2T1Q-eyJsaWNlbnNlSWQiOiI1TUo4TUoyVDFRIiwibGljZW5zZWVOYW1lIjoi6I635Y+W77yaIG ...

  5. Linux C Socket 编程

    1 Socket 是什么 Socket(套接字),就是对 网络上进程通信 的 端点 的 抽象.一个 Socket 就是网络上进程通信的一端,提供了应用层进程利用网络协议交换数据的机制. 从所处的位置来 ...

  6. 【python】将变量保存在本地及读取

    在用jupyter notebook写python代码的过程中会产生很多变量,而关闭后或者restart jupyter kernel后所有变量均会消失,想要查看变量就必须将代码重新再运行一遍,而想在 ...

  7. Statistical physics approaches to the complex Earth system(相关系统建模理念方法的摘要)

    本文翻译自"Statistical physics approaches to the complex Earth system",其虽然是针对复杂地球系统的统计物理方法的综述,但 ...

  8. python_端口扫描

    client.py import socket def get_ip_status(ip, port): sk= socket.socket(socket.AF_INET, socket.SOCK_S ...

  9. 经典c程序100例==11--20

    [程序11] 题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月 后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少? 1.程序分析: 兔子的规律为数列1 ...

  10. linux c语言 哲学家进餐---信号量PV方法一

    1.实验原理   由Dijkstra提出并解决的哲学家进餐问题(The Dinning Philosophers Problem)是典型的同步问题.该问题是描述有五个哲学家共用一张圆桌,分别坐在周围的 ...