1.概述

　　Flink 1.1.0 版本已经在官方发布了，官方博客于 2016-08-08 更新了 Flink 1.1.0 的变动。在这 Flink 版本的发布，添加了 SQL 语法这一特性。这对于业务场景复杂，依赖于 SQL 来分析统计数据，算得上是一个不错的福利。加上之前有同学和朋友邮件中提到，Flink 官方给的示例运行有困难，能否整合一下 Flink 的案例。笔者通过本篇博客来解答一下相关疑问。

2.内容

2.1 集群部署

　　首先，集群的部署需要 JDK 环境。下载 JDK 以及配置 JAVA_HOME 环境，这里就不详述了，比较简单。然后，我们去下载 Flink 1.1.0 的安装包，进入到下载页面，如下图所示：

　　这里需要注意的是，Flink 集群的部署，本身不依赖 Hadoop 集群，如果用到 HDFS 或是 HBase 中的存储数据，就需要选择对应的 Hadoop 版本。大家可以根据 Hadoop 集群的版本，选择相应的 Flink 版本下载。

　　下载好 Flink 1.1.0 后，按以下步骤进行：

解压 Flink 安装包到 Master 节点

tar xzf flink-*.tgz

cd flink-*

配置 Master 和 Slaves

vi $FLINK_HOME/conf/master

vi $FLINK_HOME/conf/slaves

分发

scp -r flink-1.1. hadoop@dn2:/opt/soft/flink

scp -r flink-1.1. hadoop@dn3:/opt/soft/flink

　　这里只用了2个 slave 节点。另外，在 flink-conf.yaml 文件中，可以按需配置，较为简单。就不多赘述了。

启动集群

bin/start-cluster.sh

　　注意，这里没有使用 YARN 来启动集群，若是需要使用 YARN 启动集群，可以参考官方文档进行启动。地址

　　Flink 集群启动后，系统有一个 WebUI 监控界面，如下图所示：

2.2 案例

　　这里，我们使用 Flink SQL 的 API 来运行一个场景，对一个销售表做一个聚合计算。这里，笔者将实现代码进行了分解，首先是获取操作 Flink 系统的对象，如下所示：

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

BatchTableEnvironment tableEnv = TableEnvironment.getTableEnvironment(env);

　　接着是读取数据源，并注册为表，如下所示：

CsvTableSource csvTableSource = new CsvTableSource(inPath, new String[] { "trans_id", "part_dt", "lstg_format_name", "leaf_categ_id", "lstg_site_id", "slr_segment_cd", "price", "item_count", "seller_id" },

                    new TypeInformation<?>[] { Types.LONG(), Types.STRING(), Types.STRING(), Types.LONG(), Types.INT(), Types.INT(), Types.FLOAT(), Types.LONG(), Types.LONG() });

tableEnv.registerTableSource("user", csvTableSource);

Table tab = tableEnv.scan("user");

　　这里 inPath 使用了 HDFS 上的数据路径。类型可以在 Hive 中使用 desc 命令查看该表的类型。然后，将“表”转化为数据集，如下所示：

DataSet<KylinSalesDomain> ds = tableEnv.toDataSet(tab, KylinSalesDomain.class);

tableEnv.registerDataSet("user2", ds, "trans_id,part_dt,lstg_format_name,leaf_categ_id,lstg_site_id,slr_segment_cd,price,item_count,seller_id");

Table result = tableEnv.sql("SELECT lstg_format_name as username,SUM(FLOOR(price)) as total FROM user2 group by lstg_format_name");

　　最后，对结果进行存储，这里笔者将结果存在了 HDFS 上。如下所示：

TableSink<?> sink = new CsvTableSink(outPath, "|");

result.writeToSink(sink);

env.setParallelism(1);

env.execute("Flink Sales SUM");

　　注意，这里并发数是可以设置的，通过 setParallelism 方法来设置并发数。

　　完整示例，如下所示：

try {

            ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

            BatchTableEnvironment tableEnv = TableEnvironment.getTableEnvironment(env);

            CsvTableSource csvTableSource = new CsvTableSource(args[0], new String[] { "trans_id", "part_dt", "lstg_format_name", "leaf_categ_id", "lstg_site_id", "slr_segment_cd", "price", "item_count", "seller_id" },

                    new TypeInformation<?>[] { Types.LONG(), Types.STRING(), Types.STRING(), Types.LONG(), Types.INT(), Types.INT(), Types.FLOAT(), Types.LONG(), Types.LONG() });

            tableEnv.registerTableSource("user", csvTableSource);

            Table tab = tableEnv.scan("user");

            DataSet<KylinSalesDomain> ds = tableEnv.toDataSet(tab, KylinSalesDomain.class);

            tableEnv.registerDataSet("user2", ds, "trans_id,part_dt,lstg_format_name,leaf_categ_id,lstg_site_id,slr_segment_cd,price,item_count,seller_id");

            Table result = tableEnv.sql("SELECT lstg_format_name as username,SUM(FLOOR(price)) as total FROM user2 group by lstg_format_name");

            TableSink<?> sink = new CsvTableSink(args[1], "|");

            // write the result Table to the TableSink

            result.writeToSink(sink);

            // execute the program

            env.setParallelism(1);

            env.execute("Flink Sales SUM");

        } catch (Exception e) {

            e.printStackTrace();

        }

　　最后，我们将应用提交到 Flink 集群。如下所示：

flink run flink_sales_sum.jar hdfs://master:8020/user/hive/warehouse/kylin_sales/DEFAULT.KYLIN_SALES.csv hdfs://master:8020/tmp/result3

3.Hive 对比

　　同样的语句，在 Hive 下运行之后，与在 Flink 集群下运行之后，结果如下所示：

Hive 运行结果：

Flink 运行结果：

　　通过 WebUI 监控界面观察，任务在 Flink 集群中运行所花费的时间在 2s 以内。其运行速度是比较具有诱惑力的。

4.总结

　　总体来说，Flink 集群的部署较为简单，其 SQL 的 API 编写需要对官方的文档比较熟悉，需要注意的是，在本地运行 Flink 代码，若是要读取远程 HDFS 文件，那么获取 Flink 对象操作环境，需要采用远程接口（HOST & PORT），或者在本地部署一个开发集群环境，将远程数据源提交到本地 Flink 集群环境运行。若是，读取本地文件，则不需要。其中的原因是当你以集群的方式运行，Flink 会检查本地是否有 Flink 集群环境存在，如若不存在，则会出现远程数据源（如：HDFS 路径地址无法解析等错误）。

5.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

Flink 案例整合的更多相关文章

《实战突击：PHP项目开发案例整合(第2版)(含DVD光盘1张)》
<实战突击:PHP项目开发案例整合(第2版)(含DVD光盘1张)> 基本信息作者: 徐康明辛洪郁出版社:电子工业出版社 ISBN:9787121221378 上架时间:2014 ...
Flink+Kafka整合的实例
Flink+Kafka整合实例 1.使用工具Intellig IDEA新建一个maven项目,为项目命名为kafka01. 2.我的pom.xml文件配置如下. <?xml version=&q ...
FLINK 案例分析
基于Flink流处理的动态实时超大规模用户行为分析 https://zhuanlan.zhihu.com/p/31548501 基于Flink流处理的动态实时超大规模用户行为分析 https://zh ...
Vue（二十二）vuex小案例（官网计数案例整合）
1.使用 vue-cli 创建项目(具体操作可以参考前面的文章) ... 2.下载 vuex - npm install vuex -S 3.将 vuex 添加到项目中 (1)在项目中创建store文 ...
SSM案例整合踩的一些坑
一.出现错误:Cannot convert value of type [java.lang.String] to required type [javax.sql.DataSource] for p ...
Flink articles
http://ictlabs-summer-school.sics.se/2015/slides/flink-advanced.pdf http://henning.kropponline.de/20 ...
Flink集群模式部署及案例执行
一.软件要求 Flink在所有类UNIX的环境[例如linux,mac os x和cygwin]上运行,并期望集群由一个主节点和一个或多个工作节点组成.在开始设置系统之前,确保在每个节点上都安装了一 ...
flink实时数仓从入门到实战
第一章.flink实时数仓入门一.依赖 <!--Licensed to the Apache Software Foundation (ASF) under oneor more contri ...
基于docker构建flink大数据处理平台
https://www.cnblogs.com/1ssqq1lxr/p/10417005.html 由于公司业务需求,需要搭建一套实时处理数据平台,基于多方面调研选择了Flink. 初始化Swarm环 ...

随机推荐

【原创】-- uboot,kennel,fs,rootfs 编译制作
环境:ubuntu14.04 内核版本 linux 3.13.0 OK6410 内核编译环境 linux 3.0.1 uboot版本 1.1.6 交叉编译工具链 arm-lin ...
Hibernate SQL 方言（hibernate.dialect）
RDBMS Dialect DB2 org.hibernate.dialect.DB2Dialect DB2 AS/400 org.hibernate.dialect.DB2400Dialect DB ...
qooxdoo 3.0 发布，JavaScript 的 GUI 框架
qooxdoo 3.0 是一个主要的版本,包含很多新特性和内部的改动,qooxdoo 3.0 是一个通用的 JS 框架,主要改进体现在 qx.Desktop, qx.Mobile, 和 qx.Webs ...
做梦想起来的C#简单实现贪吃蛇程序（LinQ + Entity）
最近一直在忙着单位核心开发组件的版本更新,前天加了一个通宵,昨天晚上却睡不着,脑子里面突然不知怎的一直在想贪吃蛇的实现方法.以往也有类似的情况,白天一直想不通的问题,晚上做梦有时会想到更好的版本,于是 ...
Android开发笔记
Android 中国SDK: http://wear.techbrood.com/ Android SDK Manager 代理设置: http://www.cnblogs.com/sunzn/p/4 ...
webpy使用笔记(二) session/sessionid的使用
webpy使用笔记(二) session的使用 webpy使用系列之session的使用,虽然工作中使用的是django,但是自己并不喜欢那种大而全的东西~什么都给你准备好了,自己好像一个机器人一样赶 ...
[ACM_其他] Square Ice (poj1099 规律）
Description Square Ice is a two-dimensional arrangement of water molecules H2O, with oxygen at the v ...
深入浅出OOP（一）: 多态和继承(早期绑定/编译时多态)
在本系列中,我们以CodeProject上比较火的OOP系列博客为主,进行OOP深入浅出展现. 无论作为软件设计的高手.或者菜鸟,对于架构设计而言,均需要多次重构.取舍,以有利于整个软件项目的健康构建 ...
Ubuntu SVN客户端安装
查看系统版本: uname -a (Linux查看版本当前操作系统内核信息) cat /proc/version (Linux查看当前操作系统版本信息) 1.首先需要安装Ubuntu SVN.Ubun ...
java集合——题4,6
4.(List)写一个函数reverseList,该函数能够接受一个List,然后把该List 倒序排列. 例如: List list = new ArrayList(); list.add(“Hel ...

Flink 案例整合