简介

在文章《Apache Beam入门及Java SDK开发初体验》中大概讲了Apapche Beam的简单概念和本地运行，本文将讲解如何把代码运行在GCP Cloud Dataflow上。

本地运行

通过maven命令来创建项目：

mvn archetype:generate \

    -DarchetypeGroupId=org.apache.beam \

    -DarchetypeArtifactId=beam-sdks-java-maven-archetypes-examples \

    -DarchetypeVersion=2.37.0 \

    -DgroupId=org.example \

    -DartifactId=word-count-beam \

    -Dversion="0.1" \

    -Dpackage=org.apache.beam.examples \

    -DinteractiveMode=false

上面会创建一个目录word-count-beam，里面是一个例子项目。做一些简单修改就可以使用了。

先build一次，保证依赖下载成功：

$ mvn clean package

通过IDEA本地运行一下，添加入参如下：

--output=pkslow-beam-counts --inputFile=/Users/larry/IdeaProjects/pkslow-samples/README.md

处理的文件是README.md，输出结果前缀为pkslow-beam-counts：

或者通过命令行来运行也可以：

mvn compile exec:java \

    -Dexec.mainClass=org.apache.beam.examples.WordCount \

    -Dexec.args="--output=pkslow-beam-counts --inputFile=/Users/larry/IdeaProjects/pkslow-samples/README.md"

在GCP Cloud Dataflow上运行

准备环境

要有对应的Service Account和key，当然还要有权限；

要打开对应的Service；

创建好对应的Bucket，上传要处理的文件。

运行

然后在本地执行命令如下：

$ mvn compile exec:java -Dexec.mainClass=org.apache.beam.examples.WordCount \

     -Dexec.args="--runner=DataflowRunner --gcpTempLocation=gs://pkslow-dataflow/temp \

                  --project=pkslow --region=us-east1 \

                  --inputFile=gs://pkslow-dataflow/input/README.md --output=gs://pkslow-dataflow//pkslow-counts" \

     -Pdataflow-runner

日志比较长，它大概做的事情就是把相关Jar包上传到temp目录下，因为执行的时候要引用。如：

Nov 03, 2022 8:41:48 PM org.apache.beam.runners.dataflow.util.PackageUtil tryStagePackage

INFO: Uploading /Users/larry/.m2/repository/org/apache/commons/commons-compress/1.8.1/commons-compress-1.8.1.jar to gs://pkslow-dataflow/temp/staging/commons-compress-1.8.1-X8oTZQP4bsxsth-9F7E31Z5WtFx6VJTmuP08q9Rpf70.jar

Nov 03, 2022 8:41:48 PM org.apache.beam.runners.dataflow.util.PackageUtil tryStagePackage

INFO: Uploading /Users/larry/.m2/repository/org/codehaus/jackson/jackson-mapper-asl/1.9.13/jackson-mapper-asl-1.9.13.jar to gs://pkslow-dataflow/temp/staging/jackson-mapper-asl-1.9.13-dOegenby7breKTEqWi68z6AZEovAIezjhW12GX6b4MI.jar

查看Bucket，确实有一堆jar包：

接着会创建dataflow jobs开始工作了。可以查看界面的Jobs如下：

点进去可以看到流程和更多细节：

最后到Bucket查看结果也出来了：

代码

代码请看GitHub: https://github.com/LarryDpk/pkslow-samples

让Apache Beam在GCP Cloud Dataflow上跑起来的更多相关文章

初探Apache Beam
文章作者:luxianghao 文章来源:http://www.cnblogs.com/luxianghao/p/9010748.html 转载请注明,谢谢合作. 免责声明:文章内容仅代表个人观点, ...
Apache Beam WordCount编程实战及源码解读
概述:Apache Beam WordCount编程实战及源码解读,并通过intellij IDEA和terminal两种方式调试运行WordCount程序,Apache Beam对大数据的批处理和流 ...
Apache Beam实战指南 | 手把手教你玩转KafkaIO与Flink
https://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247492538&idx=2&sn=9a2bd9fe2d7fd6 ...
Apache beam中的便携式有状态大数据处理
Apache beam中的便携式有状态大数据处理目标: 什么是 apache beam? 状态计时器例子&小demo 一.什么是 apache beam? 上面两个图片一个是正面切图,一 ...
Apache Beam是什么？
Apache Beam 的前世今生 1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源. 2003年,谷歌发布了著 ...
Apache Beam: 下一代的大数据处理标准
Apache Beam(原名Google DataFlow)是Google在2016年2月份贡献给Apache基金会的Apache孵化项目,被认为是继MapReduce,GFS和BigQuery等之后 ...
Apache Beam的目标
不多说,直接上干货! Apache Beam的目标统一(UNIFIED) 基于单一的编程模型,能够实现批处理(Batch processing).流处理(Streaming Processing), ...
Apache Beam WordCount编程实战及源代码解读
概述:Apache Beam WordCount编程实战及源代码解读,并通过intellij IDEA和terminal两种方式调试执行WordCount程序,Apache Beam对大数据的批处理和 ...
Apache Beam 传大数据杂谈
1月10日,Apache软件基金会宣布,Apache Beam成功孵化,成为该基金会的一个新的顶级项目,基于Apache V2许可证开源. 2003年,谷歌发布了著名的大数据三篇论文,史称三驾马车:G ...
Apache Beam 剖析
1.概述在大数据的浪潮之下,技术的更新迭代十分频繁.受技术开源的影响,大数据开发者提供了十分丰富的工具.但也因为如此,增加了开发者选择合适工具的难度.在大数据处理一些问题的时候,往往使用的技术是多样 ...

随机推荐

[Pyhton] SimPy 离散事件模拟框架详解 —— 以一个简单的汽车充电排队模拟为例
目录一.背景知识二.SimPy 讲解 2.1 SimPy 概述 2.2 基本概念 2.3 一个汽车开开停停的例子 2.4 在走走停停过程中增加充电过程(过程交互) 2.5 共享资源三.后续参考 ...
20_Vue如何监测数组类型数据发生改变的？
通过上一节,我们知道了vue检测对象数据发生改变的原理但是还有个api我们没有讲解,Vue.set(): 这个API比较适合在理解了对象检测的原理后进行讲解案例准备 html <!-- 创建 ...
用map来统计数组中各个字符串的数量
1.背景想要统计这一个字符串数组中每一个非重复字符串的数量,使用map来保存其key和value.这个需求在实际开发中经常使用到,我以前总是新建一个空数组来记录不重复字符串,并使用计数器计数,效率低 ...
Vue3组件间传值
12种方式 1. 父组件 ./father.vue 点击查看代码 <template> <h1>father:</h1> <h3>子组件传过来的:{{ ...
sql-lab 通关笔记
sql-lab less1-4 加单引号报错得到报错信息根据报错信息判断闭合条件 order by找字段数 union select找回显位置找到回显位置正常爆数据相同类型其他关卡后端代码分析 ...
【JVM调优】Day01：Garbage的概念、垃圾回收的算法（标记清除、拷贝、标记压缩）、各种垃圾回收器（Serial、Parallel、CMS并发）及存在的问题
〇.前言简历写上:熟悉GC常用算法,熟悉常见垃圾回收器.具有实际JVM调优实战经验瞬间涨3k 一.什么是garbage Java中垃圾回收器自动进行垃圾回收,不用自己回收 new 对象在内存中,c ...
MSTN CE和MSTN SDK安装经验及技巧
MSTN CE和MSTN SDK安装经验及技巧本文介绍了MSTN CE及MSTN CE SDK安装的流程以及在安装时可能会遇到的问题一.MSTN CE安装 1.MSTN CE即Microstati ...
Mybatis源码解析之执行SQL语句
作者:郑志杰 mybatis 操作数据库的过程 // 第一步:读取mybatis-config.xml配置文件 InputStream inputStream = Resources.getResou ...
推荐8个提高工作效率的IntelliJ插件
前言欢迎关注微信公众号「JAVA旭阳」交流和学习 IntelliJ目前已经成为市面上最受欢迎的Java开发工具,这得益于里面非常丰富的插件机制.本文我将分享在日常开发中我经常使用的5个插件,它们可以 ...
JS切换图片
用js,做图片切换 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> < ...

让Apache Beam在GCP Cloud Dataflow上跑起来

简介

本地运行

在GCP Cloud Dataflow上运行

准备环境

运行

代码

让Apache Beam在GCP Cloud Dataflow上跑起来的更多相关文章

随机推荐

热门专题