目录 一.介绍 Spark | Flink 二.快速入门:WC案例 pom依赖 批处理 流处理 有界流 无界流(重要) 三.Yarn模式部署 安装 打包测试,命令行(无界流) Flink on Yarn Per-Job-Cluster Session-Cluster HA高可用 五.Linux本地模式 1.安装 2.启动 3.案例 4.关闭 一.介绍 Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算. Spark | Flink spark 处理方式:批处…
一.前言 个人感觉学习Flink其实最不应该错过的博文是Flink社区的博文系列,里面的文章是不会让人失望的.强烈安利:https://ververica.cn/developers-resources/. 本文是自己第一次尝试写源码阅读的文章,会努力将原理和源码实现流程结合起来.文中有几个点目前也是没有弄清楚,若是写在一篇博客里,时间跨度太大,但又怕后期遗忘,所以先记下来,后期进一步阅读源码后再添上,若是看到不完整版博文的看官,对不住! 文中若是写的不准确的地方欢迎留言指出. 源码系列基于Fl…
1 意义 1.1 分层的 APIs & 抽象层次 Flink提供三层API. 每个API在简洁性和表达性之间提供不同的权衡,并针对不同的用例. 而且Flink提供不同级别的抽象来开发流/批处理应用程序 最低级抽象只提供有状态流.它通过Process Function嵌入到DataStream API中.它允许用户自由处理来自一个或多个流的事件,并使用一致的容错状态.此外,用户可以注册事件时间和处理时间回调,允许程序实现复杂的计算. 实际上,大多数应用程序不需要上述低级抽象,而是针对Core AP…
本文翻译自官网:https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/ Flink Table Api & SQL 翻译目录 一直没有用 flink 的 table 或 sql api,最近开始要使用这部分功能了,先把官网对应的文档翻译一遍,方便自己慢慢查看 ----------------------------------------------- Apache Flink 具有两个关联 API-Table…
本文翻译自官网:Table API  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/tableApi.html Flink Table Api & SQL 翻译目录 Table API是用于流和批处理的统一的关系API. Table API查询可以在批处理或流输入上运行而无需修改. Table API是SQL语言的超集,是专门为与Apache Flink配合使用而设计的. Table API是用于Sca…
本文翻译自官网:Built-In Functions  https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/table/functions.html Flink Table Api & SQL 翻译目录 Flink Table API和SQL为用户提供了一组用于数据转换的内置函数.此页面简要概述了它们.如果尚不支持所需的功能,则可以实现用户定义的功能.如果您认为该功能足够通用,请为此打开Jira问题,并提供详细说明. 标…
Flink部署-standalone模式 2018年11月30日 00:07:41 Xlucas 阅读数:74   版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/paicMis/article/details/84642263 安装环境信息 flink-1.6.2-bin-hadoop27-scala_2.11.tgz hadoop-2.7.5 java 1.8 zookeeper 3.4.6 os:centos 6.4 1 2 3 4 5 1…
参考自:Spark部署三种方式介绍:YARN模式.Standalone模式.HA模式http://www.aboutyun.com/forum.php?mod=viewthread&tid=7115(出处: about云开发) 1.Yarn模式由谁来作为客户端提交作业给YARN? 2.SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly的作用是什么? 3.Standalone 模式dist目录的作用是什么? 4.recover…
参考文章:https://ci.apache.org/projects/flink/flink-docs-release-1.3/setup/jobmanager_high_availability.html#bootstrap-zookeeper Flink典型的任务处理过程如下所示: 很容易发现,JobManager存在单点故障(SPOF:Single Point Of Failure),因此对Flink做HA,主要是对JobManager做HA,根据Flink集群的部署模式不同,分为Sta…
上节中简单的介绍了Spark的一些概念还有Spark生态圈的一些情况,这里主要是介绍Spark运行模式与Spark Standalone模式的部署: Spark运行模式 在Spark中存在着多种运行模式,可使用本地模式运行.可使用伪分布式模式运行.使用分布式模式也存在多种模式如:Spark Mesos模式.Spark YARN模式: Spark Mesos模式:官方推荐模式,通用集群管理,有两种调度模式:粗粒度模式(Coarse-grained Mode)与细粒度模式(Fine-grained…