1.概述

　　在大数据的浪潮之下，技术的更新迭代十分频繁。受技术开源的影响，大数据开发者提供了十分丰富的工具。但也因为如此，增加了开发者选择合适工具的难度。在大数据处理一些问题的时候，往往使用的技术是多样化的。这完全取决于业务需求，比如进行批处理的MapReduce，实时流处理的Flink，以及SQL交互的Spark SQL等等。而把这些开源框架，工具，类库，平台整合到一起，所需要的工作量以及复杂度，可想而知。这也是大数据开发者比较头疼的问题。而今天要分享的就是整合这些资源的一个解决方案，它就是 Apache Beam。

2.内容

　　Apache Beam 最初叫 Apache Dataflow，由谷歌和其合作伙伴向Apache捐赠了大量的核心代码，并创立孵化了该项目。该项目的大部分大码来自于 Cloud Dataflow SDK，其特点有以下几点：

统一数据批处理（Batch）和流处理（Stream）编程的范式
能运行在任何可执行的引擎之上

　　那 Apache Beam到底能解决哪些问题，它的应用场景是什么，下面我们可以通过一张图来说明，如下图所示：

　　通过改图，我们可以很清晰的看到整个技术的发展流向；一部分是谷歌派系，另一部分则是Apache派系。在开发大数据应用时，我们有时候使用谷歌的框架，API，类库，平台等，而有时候我们则使用Apache的，比如：HBase，Flink，Spark等。而我们要整合这些资源则是一个比较头疼的问题，Apache Beam 的问世，整合这些资源提供了很方便的解决方案。

2.1 Vision

　　下面，我们通过一张流程图来看Beam的运行流程，如下图所示：

　　通过上图，我们可以清楚的知道，执行一个流程分以下步骤：

End Users：选择一种你熟悉的编程语言提交应用
SDK Writers：该编程语言必须是 Beam 模型支持的
Library Writers：转换成Beam模型的格式
Runner Writers：在分布式环境下处理并支持Beam的数据处理管道
IO Providers：在Beam的数据处理管道上运行所有的应用
DSL Writers：创建一个高阶的数据处理管道

2.2 SDK

　　Beam SDK 提供了一个统一的编程模型，来处理任意规模的数据集，其中包括有限的数据集，无限的流数据。Apache Beam SDK 使用相同的类来表达有限和无限的数据，同样使用相同的转换方法对数据进行操作。Beam 提供了多种 SDK，你可以选择一种你熟悉的来建立数据处理管道，如上述的 2.1 中的图，我们可以知道，目前 Beam 支持 Java，Python 以及其他待开发的语言。

2.3 Pipeline Runners

　　在 Beam 管道上运行引擎会根据你选择的分布式处理引擎，其中兼容的 API 转换你的 Beam 程序应用，让你的 Beam 应用程序可以有效的运行在指定的分布式处理引擎上。因而，当运行 Beam 程序的时候，你可以按照自己的需求选择一种分布式处理引擎。当前 Beam 支持的管道运行引擎有以下几种：

Apache Apex
Apache Flink
Apache Spark
Google Cloud Dataflow

3.示例

　　本示例通过使用 Java SDK 来完成，你可以尝试运行在不同的执行引擎上。

3.1 开发环境

下载安装 JDK 7 或更新的版本，检测 JAVA_HOME环境变量
下载 Maven 打包环境。

　　关于上述的安装步骤，并不是本篇博客的重点，这里笔者就不多赘述了，不明白的可以到官网翻阅文档进行安装。

3.2 下载示例代码

　　Apache Beam 的源代码在 Github 有托管，可以到 Github 下载对应的源码，下载地址：https://github.com/apache/beam

　　然后，将其中的示例代码进行打包，命令如下所示：

$ mvn archetype:generate \

      -DarchetypeRepository=https://repository.apache.org/content/groups/snapshots \

      -DarchetypeGroupId=org.apache.beam \

      -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \

      -DarchetypeVersion=LATEST \

      -DgroupId=org.example \

      -DartifactId=word-count-beam \

      -Dversion="0.1" \

      -Dpackage=org.apache.beam.examples \

      -DinteractiveMode=false

　　此时，命令会创建一个文件夹 word-count-beam，里面包含一个 pom.xml 和相关的代码文件。命令如下所示：

$ cd word-count-beam/

$ ls

pom.xml    src

$ ls src/main/java/org/apache/beam/examples/

DebuggingWordCount.java    WindowedWordCount.java    common

MinimalWordCount.java    WordCount.java

3.3 运行 WordCount 示例代码

　　一个 Beam 程序可以运行在多个 Beam 的可执行引擎上，包括 ApexRunner，FlinkRunner，SparkRunner 或者 DataflowRunner。另外还有 DirectRunner。不需要特殊的配置就可以在本地执行，方便测试使用。

　　下面，你可以按需选择你想执行程序的引擎：

对引擎进行相关配置
使用不同的命令：通过 --runner=<runner>参数指明引擎类型，默认是 DirectRunner；添加引擎相关的参数；指定输出文件和输出目录，当然这里需要保证文件目录是执行引擎可以访问到的，比如本地文件目录是不能被外部集群访问的。
运行示例程序

3.3.1 Direct

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--inputFile=pom.xml --output=counts" -Pdirect-runner

3.3.2 Apex

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--inputFile=pom.xml --output=counts --runner=ApexRunner" -Papex-runner

3.3.3 Flink-Local

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--runner=FlinkRunner --inputFile=pom.xml --output=counts" -Pflink-runner

3.3.4 Flink-Cluster

$ mvn package exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--runner=FlinkRunner --flinkMaster=<flink master> --filesToStage=target/word-count-beam-bundled-0.1.jar \

                  --inputFile=/path/to/quickstart/pom.xml --output=/tmp/counts" -Pflink-runner

　　然后，你可以通过访问 http://<flink master>:8081 来监测运行的应用程序。

3.3.5 Spark

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--runner=SparkRunner --inputFile=pom.xml --output=counts" -Pspark-runner

3.3.6 Dataflow

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--runner=DataflowRunner --gcpTempLocation=gs://<your-gcs-bucket>/tmp \

                  --inputFile=gs://apache-beam-samples/shakespeare/* --output=gs://<your-gcs-bucket>/counts" \

     -Pdataflow-runner

3.4 运行结果

　　当程序运行完成后，你可以看到有多个文件以 count 开头，个数取决于执行引擎的类型。当你查看文件的内容的时候，每个唯一的单词后面会显示其出现次数，但是前后顺序是不固定的，也是分布式引擎为了提高效率的一种常用方式。

3.4.1 Direct

$ ls counts*

$ more counts*

api:

bundled:

old:

Apache:

The:

limitations:

Foundation:

...

3.4.2 Apex

$ cat counts*

BEAM:

have:

simple:

skip:

PAssert:

...

3.4.3 Flink-Local

$ ls counts*

$ more counts*

The:

api:

old:

Apache:

limitations:

bundled:

Foundation:

...

3.4.4 Flink-Cluster

$ ls /tmp/counts*

$ more /tmp/counts*

The:

api:

old:

Apache:

limitations:

bundled:

Foundation:

...

3.4.5 Spark

$ ls counts*

$ more counts*

beam:

SF:

fat:

job:

limitations:

require:

of:

profile:

...

3.4.6 Dataflow

$ gsutil ls gs://<your-gcs-bucket>/counts*

$ gsutil cat gs://<your-gcs-bucket>/counts*

feature:

smother'st: 1

revelry:

bashfulness:

Bashful:

Below:

deserves:

barrenly:

...

4.总结

　　Apache Beam 主要针对理想并行的数据处理任务，并通过把数据集拆分多个子数据集，让每个子数据集能够被单独处理，从而实现整体数据集的并行化处理。当然，也可以用 Beam 来处理抽取，转换和加载任务和数据集成任务（一个ETL过程）。进一步将数据从不同的存储介质中或者数据源中读取，转换数据格式，最后加载到新的系统中。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Apache Beam 剖析的更多相关文章

Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink
https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247492538&idx=2&sn=9a2bd9fe2d7fd6 ...
Apache Beam实战指南 | 大数据管道（pipeline）设计及实践
Apache Beam实战指南 | 大数据管道(pipeline)设计及实践 mp.weixin.qq.com 策划 & 审校 | Natalie作者 | 张海涛编辑 | LindaAI 前 ...
Why Apache Beam? A data Artisans perspective
https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison https://github.com/apache/ ...
Apache Beam—透视Google统一流式计算的野心
Google是最早实践大数据的公司,目前大数据繁荣的生态很大一部分都要归功于Google最早的几篇论文,这几篇论文早就了以Hadoop为开端的整个开源大数据生态,但是很可惜的是Google内部的这些系 ...
初探Apache Beam
文章作者:luxianghao 文章来源:http://www.cnblogs.com/luxianghao/p/9010748.html 转载请注明,谢谢合作. 免责声明:文章内容仅代表个人观点, ...
beam 的异常处理 Error Handling Elements in Apache Beam Pipelines
Error Handling Elements in Apache Beam Pipelines Vallery LanceyFollow Mar 15 I have noticed a defici ...
Apache Beam WordCount编程实战及源码解读
概述:Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序,Apache Beam对大数据的批处理和流 ...
Apache beam中的便携式有状态大数据处理
Apache beam中的便携式有状态大数据处理目标: 什么是 apache beam? 状态计时器例子&小demo 一.什么是 apache beam? 上面两个图片一个是正面切图,一 ...
Apache Beam编程指南
术语 Apache Beam:谷歌开源的统一批处理和流处理的编程模型和SDK. Beam: Apache Beam开源工程的简写 Beam SDK: Beam开发工具包 **Beam Java SDK ...

随机推荐

基于Bootstrap设计网页
<%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding= ...
每天一个linux命令(38)--lsof命令
lsof (list open files )是一个列出当前系统打开文件的工具,在Linux 环境下,任何事情都以文件的形式存在,通过文件不仅仅可以访问常规数据,还可以访问网络连接和硬件.所以如传输控 ...
每天一个Linux命令（20）--find命令之exec
find 是我们很常用的一个Linux命令,但是我们一般查找出来的额并不仅仅是看看而已,还会有进一步的操作,这个时候exec的作用就显现出来了. exec解释: -exec 参数后面跟的是 comm ...
C#-MVC开发微信应用(1)--开始使用微信接口
1.微信账号要开发使用微信的平台API,就需要到微信的公众平台(https://mp.weixin.qq.com/)去注册,拥有一个服务号或者订阅号,服务号主要面对企业和组织,订阅号主要面向组织和个 ...
Flume-ng源码解析之启动流程
今天我们通过阅读Flume-NG的源码来看看Flume的整个启动流程,废话不多说,翠花,上源码!! 1 主类也是启动类在这里我贴出Application中跟启动有关的方法,其他你们可以自己看源码,毕 ...
Git基础教程（一）
本教程为学习笔记,github作为最受欢迎的资源库,不可不学!详细教程参见:廖雪峰的官方网站Git教程系列.准备花两篇幅搞定实战总结,闲言碎语少说,脚踏实地求真! 1,Git入门 Git是 ...
C++ protected访问权限思考
看了云风关于protected的思考,自己也总结了下. C++的访问权限有三个 private.protected.public. 如果不包括继承的话,比较好理解,可以分为类外和类内两部分.类外不能访 ...
Ajax写分页查询（实现不刷新页面）
获取数据库中大量的信息显示在页面上,必然要使用到分页查询: 若不使用Ajax,而是用其他的方法,肯定是要刷新页面的,用户体检很不好, 所以最好使用Ajax的方法写分页查询: 1.先来找一张数据很多的表 ...
javascript中常用的
1.javascript中构造equals().trim()方法并应用 String.prototype.Trim = function() { return this.replace(/(^\s*) ...
IE6 margin 双倍边距解决方案
一.什么是双边距Bug? 先来看图: 我们要让绿色盒模型在蓝色盒模型之内向左浮动,并且距蓝色盒模型左侧100像素.这个例子很常见,比如在网页布局中,侧边栏靠左侧内容栏浮动,并且要留出内容栏的宽度.要实 ...

Apache Beam 剖析