Apache Beam,批处理和流式处理的融合!
1. 概述
在本教程中,我们将介绍 Apache Beam
并探讨其基本概念。
我们将首先演示使用 Apache Beam
的用例和好处,然后介绍基本概念和术语。之后,我们将通过一个简单的例子来说明 Apache Beam
的所有重要方面。
2. Apache Beam是个啥?
Apache Beam(Batch+strEAM)是一个用于批处理和流式数据处理作业的统一编程模型。它提供了一个软件开发工具包,用于定义和构建数据处理管道以及执行这些管道的运行程序。
Apache Beam旨在提供一个可移植的编程层。事实上,Beam管道运行程序将数据处理管道转换为与用户选择的后端兼容的API。目前,支持这些分布式处理后端有:
- Apache Apex
- Apache Flink
- Apache Gearpump (incubating)
- Apache Samza
- Apache Spark
- Google Cloud Dataflow
- Hazelcast Jet
3. 为啥选择 Apache Beam
Apache Beam 将批处理和流式数据处理融合在一起,而其他组件通常通过单独的 API 来实现这一点。因此,很容易将流式处理更改为批处理,反之亦然,例如,随着需求的变化。
Apache Beam 提高了可移植性和灵活性。我们关注的是逻辑,而不是底层的细节。此外,我们可以随时更改数据处理后端。
Apache Beam 可以使用 Java、Python、Go和 Scala等SDK。事实上,团队中的每个人都可以使用他们选择的语言。
4. 基本概念
使用 Apache Beam,我们可以构建工作流图(管道)并执行它们。编程模型中的关键概念是:
PCollection–表示可以是固定批处理或数据流的数据集
PTransform–一种数据处理操作,它接受一个或多个 PCollections 并输出零个或多个 PCollections。
Pipeline–表示 PCollection 和 PTransform 的有向无环图,因此封装了整个数据处理作业。
PipelineRunner–在指定的分布式处理后端上执行管道。
简单地说,PipelineRunner 执行一个管道,管道由 PCollection 和 PTransform 组成。
5. 字数统计示例
现在我们已经学习了 Apache Beam 的基本概念,让我们设计并测试一个单词计数任务。
5.1 建造梁式管道
设计工作流图是每个 Apache Beam 作业的第一步,单词计数任务的步骤定义如下:
1.从原文中读课文。
2.把课文分成单词表。
3.所有单词都小写。
4.删去标点符号。
5.过滤停止语。
6.统计唯一单词数量。
为了实现这一点,我们需要使用 PCollection 和 PTransform 抽象将上述步骤转换为 管道 。
5.2. 依赖
在实现工作流图之前,先添加 Apache Beam的依赖项 到我们的项目:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-sdks-java-core</artifactId>
<version>${beam.version}</version>
</dependency>
Beam管道运行程序依赖于分布式处理后端来执行任务。我们添加 DirectRunner 作为运行时依赖项:
<dependency>
<groupId>org.apache.beam</groupId>
<artifactId>beam-runners-direct-java</artifactId>
<version>${beam.version}</version>
<scope>runtime</scope>
</dependency>
与其他管道运行程序不同,DirectRunner 不需要任何额外的设置,这对初学者来说是个不错的选择。
5.3. 实现
Apache Beam
使用 Map-Reduce
编程范式 ( 类似 Java Stream)。讲下面内容之前,最好 对 reduce(), filter(), count(), map(), 和 flatMap() 有个基础概念和认识。
首先要做的事情就是 创建管道:
PipelineOptions options = PipelineOptionsFactory.create();
Pipeline p = Pipeline.create(options);
六步单词计数任务:
PCollection<KV<String, Long>> wordCount = p
.apply("(1) Read all lines",
TextIO.read().from(inputFilePath))
.apply("(2) Flatmap to a list of words",
FlatMapElements.into(TypeDescriptors.strings())
.via(line -> Arrays.asList(line.split("\\s"))))
.apply("(3) Lowercase all",
MapElements.into(TypeDescriptors.strings())
.via(word -> word.toLowerCase()))
.apply("(4) Trim punctuations",
MapElements.into(TypeDescriptors.strings())
.via(word -> trim(word)))
.apply("(5) Filter stopwords",
Filter.by(word -> !isStopWord(word)))
.apply("(6) Count words",
Count.perElement());
apply() 的第一个(可选)参数是一个String,它只是为了提高代码的可读性。下面是上述代码中每个 apply() 的作用:
- 首先,我们使用 TextIO 逐行读取输入文本文件。
- 将每一行按空格分开,把它映射到一个单词表上。
- 单词计数不区分大小写,所以我们将所有单词都小写。
- 之前,我们用空格分隔行,但是像“word!“和”word?"这样的,就需要删除标点符号。
- 像“is”和“by”这样的停止词在几乎每一篇英语文章中都很常见,所以我们将它们删除。
- 最后,我们使用内置函数 Count.perElement() 计算唯一单词数量。
如前所述,管道是在分布式后端处理的。不可能在内存中的PCollection上迭代,因为它分布在多个后端。相反,我们将结果写入外部数据库或文件。
首先,我们将PCollection转换为String。然后,使用TextIO编写输出:
wordCount.apply(MapElements.into(TypeDescriptors.strings())
.via(count -> count.getKey() + " --> " + count.getValue()))
.apply(TextIO.write().to(outputFilePath));
现在管道 已经定义好了,接下来做个简单的测试。
5.4. 运行测试
到目前为止,我们已为单词计数任务定义了管道,现在运行管道:
p.run().waitUntilFinish();
在这行代码中,Apache Beam 将把我们的任务发送到多个 DirectRunner 实例。因此,最后将生成几个输出文件。它们将包含以下内容:
...
apache --> 3
beam --> 5
rocks --> 2
...
在 Apache Beam 中定义和运行分布式作业是如此地简单。为了进行比较,单词计数实现在 Apache Spark, Apache Flink 和 Hazelcast-Jet 上也有
6. 结语
在本教程中,我们了解了 Apache Beam 是什么,以及它为什么比其他选择更受欢迎。我们还通过一个单词计数示例演示了 Apache Beam 的基本概念。
如果你觉得文章还不错,记得关注公众号: 锅外的大佬
锅外的大佬博客
Apache Beam,批处理和流式处理的融合!的更多相关文章
- Spark SQL - 对大规模的结构化数据进行批处理和流式处理
Spark SQL - 对大规模的结构化数据进行批处理和流式处理 大体翻译自:https://jaceklaskowski.gitbooks.io/mastering-apache-spark/con ...
- Apache beam中的便携式有状态大数据处理
Apache beam中的便携式有状态大数据处理 目标: 什么是 apache beam? 状态 计时器 例子&小demo 一.什么是 apache beam? 上面两个图片一个是正面切图,一 ...
- Apache Beam编程指南
术语 Apache Beam:谷歌开源的统一批处理和流处理的编程模型和SDK. Beam: Apache Beam开源工程的简写 Beam SDK: Beam开发工具包 **Beam Java SDK ...
- Apache Beam是什么?
Apache Beam 的前世今生 1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源. 2003年,谷歌发布了著 ...
- Spark之 Spark Streaming流式处理
SparkStreaming Spark Streaming类似于Apache Storm,用于流式数据的处理.Spark Streaming有高吞吐量和容错能力强等特点.Spark Streamin ...
- 深入浅出时序数据库之预处理篇——批处理和流处理,用户可定制,但目前流行influxdb没有做
时序数据是一个写多读少的场景,对时序数据库以及数据存储方面做了论述,数据查询和聚合运算同样是时序数据库必不可少的功能之一.如何支持在秒级对上亿数据的查询分组聚合运算成为了时序数据库产品必须要面对的挑战 ...
- Apache Beam—透视Google统一流式计算的野心
Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部分都要归功于Google最早的几篇论文,这几篇论文早就了以Hadoop为开端的整个开源大数据生态,但是很可惜的是Google内部的这些系 ...
- Apache Flink流式处理
花了四小时,看完Flink的内容,基本了解了原理. 挖个坑,待总结后填一下. 2019-06-02 01:22:57等欧冠决赛中,填坑. 一.概述 storm最大的特点是快,它的实时性非常好(毫秒级延 ...
- Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink
https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247492538&idx=2&sn=9a2bd9fe2d7fd6 ...
随机推荐
- 常用数据结构-namedtuple(命名元祖)
namedtuple从根本上来说是一个带有数据名称的元祖.它包含元祖的所有特性,但也有一些元祖没有的额外特性.使用namedtuple可以很容易创建轻量级对象类型. namedtuple将是你的代码更 ...
- php 计算2点之间的距离
//获取该点周围的4个点 $distance = 1;//范围(单位千米) $lat = 113.873643; $lng = 22.573969; define('EARTH_RADIUS', 63 ...
- 快速傅里叶变换学习笔记(FFT)
什么是FFT FFT是用来快速计算两个多项式相乘的一种算法. 如果我们暴力计算两个多项式相乘,复杂度必然是\(O(n^2)\)的,而FFT可以将复杂度降至\(O(nlogn)\) 如何FFT 要学习F ...
- AtCoder Beginner Contest 181 题解
总结 第一次 \(AK\ ABC\) 的比赛,发一个截图纪念一下 A - Heavy Rotation 题目大意 一个人一开始穿白衣服,一天后换成黑衣服,再过一天又换成白衣服,问第 \(n(n \le ...
- 17、ContentType组件
一 项目背景 路飞学成项目,有课程,学位课(不同的课程字段不一样),价格策略 问题: 1 如何设计表结构,来表示这种规则 2 为专题课,添加三个价格策略 3 查询所有价格策略,并且显示对应 ...
- Manacher (马拉车) 算法:解决最长回文子串的利器
最长回文子串 回文串就是原串和反转字符串相同的字符串.比如 aba,acca.前一个是奇数长度的回文串,后一个是偶数长度的回文串. 最长回文子串就是一个字符串的所有子串中,是回文串且长度最长的子串. ...
- Spring笔记(7) - Spring的事件和监听机制
一.背景 事件机制作为一种编程机制,在很多开发语言中都提供了支持,同时许多开源框架的设计中都使用了事件机制,比如SpringFramework. 在 Java 语言中,Java 的事件机制参与者有3种 ...
- JS函数命名规范
语法规范: 任何合法的javascript标识符都可以作为函数的名称. 约定俗成的内容:(非ECMAScript语法,但是为了便于开发者理解和识别,约定的函数命名规范.) 命名方法: 小驼峰式命名法 ...
- binary hacks读数笔记(objdump命令)
一.首先看一下几个常用参数的基本含义: objdump命令是Linux下的反汇编目标文件或者可执行文件的命令,它还有其他作用,下面以ELF格式可执行文件test为例详细介绍: 1.objdump -f ...
- 开发工具之Git(二)
目录 四.Git安装与配置 (一)安装 (二)配置 (三)创建仓库 五.Git基本命令 六.Git分支 上一篇讲了Git的基本原理,建议没看过的同学先看看,然后这次我们来讲Git的具体操作和指令. 四 ...