Apache Flink学习笔记

简介

大数据的计算引擎分为4代

第一代:Hadoop承载的MapReduce。它将计算分为两个阶段,分别为Map和Reduce。对于上层应用来说,就要想办法去拆分算法,在上层应用实现多个Job串联,完成一个完整算法。例如:迭代计算

第二代:支持DAG框架的计算引擎,如Tez以及更上层的Oozie。

第三代:Spark为代表的计算引擎。特点是Job内部的DAG支持(不跨越Job),以及强调的实时计算。

第四代:Flink对流计算的支持,也可以支持Batch任务以及DAG的运算。

需要体会各个框架的差异,以及更适合的场景。并进行理解,没有哪一个框架可以完美的支持所有的场景,也就不可能有任何一个框架能够完全取代另一个。就像Spark没有取代Hadoop,Flink也不可能取代Spark。

Flink是一个针对流数据和批数据的分布式处理引擎。主要是由Java代码实现,目前还依靠开源社区的贡献发展。对Flink而言,所要处理的主要场景就是流数据。会把所有任务当做流来处理,也是最大的特点。

可以支持本地的快速迭代,以及一些环形的迭代任务。并且Flink可以定制化内存管理。就框架本身与应用场景来说,Flink更相似与Storm。

Client用来提交任务给JobManager

JobManager分发任务给TaskManager去执行,然后TaskManager会心跳的汇报任务状态。

Flink调度简述

在Flink集群中,计算资源被定义为Task Slot。每个TaskManager会拥有一个或多个Slots。JobManager会以Slot为单位调度Task。但这里的Task跟我们在Hadoop中的理解是有区别的。对Flink的JobManager来说,其调度的是一个Pipeline的Task,而不是一个点。

在Hadoop中Map和Reduce是两个独立调度的Task,并且都会去占用计算资源。对Flink来说MapReduce是一个Pipeline的Task,只占用一个计算资源。

在TaskManager中,根据其所拥有的Slot个数,同时会拥有多个Pipeline

因为Flink自身也需要简单的管理计算资源(Slot)。当Flink部署在Yarn上面之后,Flink并没有弱化资源管理。也就是说这时候的Flink再做一些Yarn该做的事情。

生态圈

Flink支持Scala和Java的API,Python在测试中。Flink通过Gelly支持了图操作,还有机器学习的FlinkML。Table是一种接口化的SQL支持,也就是API支持,而不是文本化的SQL解析和执行。

部署

Flink有三种部署模型,分别是Local,Standalone Cluster和Yarn Cluster。对于Local模式来说,JobManager和TaskManager会公用一个JVM来完成Workload。如果要验证简单的应用,Local模式是最方便的。实际应用中大多数使用Standalone或者Yarn Cluster

Standalone模式

搭建Standalone模式的Flink集群之前,需要先下载Flink安装包。

需要指定Master和Worker。Master机器会启动JobManager,Worker则会启动TaskManager。

需要修改conf目录中的master和slaves。在配置master文件时,需要指定JobManager的UI监听端口。

JobManager只需配置一个,Worker则需配置一个或多个。

在conf目录中找到文件flink-conf.yaml。文件中定义了Flink各个模块的基本属性,如RPC的端口。JobManager和TaskManager堆的大小等。一般只需要修改taskmanager.numberOfTaskSlots,拥有Slot个数。一般设置成CPU的core数。

Yarn Cluster模式

为了最大化利用集群资源,会在一个集群中同时运行多种类型的Workload。因此Flink也支持在Yarn上面运行。

#

Apache Flink学习笔记的更多相关文章

  1. Flink学习笔记-新一代Flink计算引擎

    说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKh ...

  2. Flink学习笔记:Flink Runtime

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  3. Flink学习笔记:Flink开发环境搭建

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  4. Flink学习笔记:Flink API 通用基本概念

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  5. flink学习笔记:DataSream API

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  6. Flink学习笔记:Operators串烧

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  7. Flink学习笔记:Time的故事

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  8. Flink学习笔记:异步I/O访问外部数据

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

  9. Flink学习笔记:Connectors概述

    本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz ...

随机推荐

  1. Substring Search

    查找子字符串 Introduction 在长度为 N 的文本里寻找长度为 M 的模式(子串),典型情况是 N >> M. 这个应用就很广泛啦,在文本中寻找特定的模式(子串)是很常见的需求. ...

  2. BZOJ2729:[HNOI2012]排队(组合数学)

    Description 某中学有 n 名男同学,m 名女同学和两名老师要排队参加体检.他们排成一条直线,并且任意两名女同学不能相邻,两名老师也不能相邻,那么一共有多少种排法呢?(注意:任意两个人都是不 ...

  3. 1059. [ZJOI2007]矩阵游戏【二分图】

    Description 小Q是一个非常聪明的孩子,除了国际象棋,他还很喜欢玩一个电脑益智游戏——矩阵游戏.矩阵游戏在一个N *N黑白方阵进行(如同国际象棋一般,只是颜色是随意的).每次可以对该矩阵进行 ...

  4. 【bzoj 3252】攻略

    题意 我们想到一个贪心,就是每次找到根路径前缀和最大的一个点,取走这条路径,同时把这条路径上的点权变成\(0\) 正确性显然 进一步发现我们需要从树上选择\(m\)条链使得链的总和最大 于是我们考虑换 ...

  5. SPOJ-SUBSET Balanced Cow Subsets

    嘟嘟嘟spoj 嘟嘟嘟vjudge 嘟嘟嘟luogu 这个数据范围都能想到是折半搜索. 但具体怎么搜呢? 还得扣着方程模型来想:我们把题中的两个相等的集合分别叫做左边和右边,令序列前一半中放到左边的数 ...

  6. ZooKeeper学习之路 (十)Hadoop的HA集群的机架感知

    一.背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中, HDFS 解决数据的存储问题:MapReduce 解决数据的计算问题 Hadoop 的设计考虑:设计 ...

  7. docker 导入导出镜像

    docker容器导入导出有两种方法: 一种是使用save和load命令 使用例子如下: docker save ubuntu:load>/root/ubuntu.tar docker load& ...

  8. ajax跨域调用webservice例子

    [WebMethod(Description = "这是一个描述")] public void GetTIM() { try { SqlDataAdapter da = new S ...

  9. 【CSS3】特殊的属性归纳(一)

    CSS3手册地址速查表 -webkit- 最终要用兼容性写法 (一)-webkit-tap-highlight-color    (mobile移动设备私有属性) 案列: 问题:遇到a链接和butto ...

  10. 1.1《想成为黑客,不知道这些命令行可不行》(Learn Enough Command Line to Be Dangerous)——运行终端

    终端是个允许我们运行命令行的程序,运行命令前,先打开它.在MacOS系统上,可以使用macOS应用 Spotlight来打开终端窗口,Spotlight也有其他两种方式触发,一种是键入⌘␣(comma ...