flink 笔记】的更多相关文章

Flink开发环境部署配置 Flink是一个以Java及Scala作为开发语言的开源大数据项目,代码开源在github上,并使用maven来编译和构建项目.所需工具:Java.maven.Git. 本次操作是在windows环境下. 一.工具安装 Java配置(略) maven配置 下载安装 配置环境变量 修改settings.xml设置 更改本地仓库目录,默认是C:\用户\.m2\Respository,为了避免C盘空间不够,更改到其他盘目录 <localRepository>D:\Resp…
架构图 Job Managers, Task Managers, Clients JobManager(Master) 用于协调分布式执行.它们用来调度task,协调检查点,协调失败时恢复等. Flink运行时至少存在一个JobManager. 一个高可用的运行模式会存在多个JobManager,它们其中有一个是leader,而其他的都是standby. TaskManager(Worker) 用于执行一个dataflow的task(或者特殊的subtask).数据缓冲和data stream的…
DataStream Source 基于文件 readTextFile(path) 读取 text 文件的数据 readFile(fileInputFormat, path) 通过自定义的读取方式, 来读取文件的数据 基于socket socketTextStream 从 socket 端口中读取数据 基于集合 fromCollection(Collection) 从 collection集合中读取数据, 从而形成一个数据流, 集合中的元素类型需要一致 fromElements(T ...) 从…
简介 Flink是一个低延迟.高吞吐.统一的大数据计算引擎, Flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件. 同时Flink提供了一个Exactly-once的一致性语义, 保证了数据的正确性.(对比其他: At most once, At least once) 这样就使得Flink大数据引擎可以提供金融级的数据处理能力(安全). Flink作为主攻流计算的大数据引擎,它区别于Storm,Spark Streaming以及其他流式计算引擎的是: 它不仅是一个高…
高可用(HA):直白来说就是系统不会因为某台机器,或某个实例挂了,就不能提供服务了.高可用需要做到分布式.负载均衡.自动侦查.自动切换.自动恢复等. 高吞吐: 单位时间内,能传输的数据量,对应指标就是TPS…
一.单机安装 1.准备安装包 将源码编译出的安装包拷贝出来(编译请参照上一篇01.Flink笔记-编译.部署)或者在Flink官网下载bin包 2.配置 前置:jdk1.8+ 修改配置文件flink-conf.yaml #Flink的默认WebUI端口号是8081,如果有冲突的服务,可更改rest.port: 18081 其余项选择默认即可 3.启动 Linux: ./bin/start-cluster.sh Win: cd bin start-cluster.bat win本地启动如下(图片模…
Apache Flink学习笔记 简介 大数据的计算引擎分为4代 第一代:Hadoop承载的MapReduce.它将计算分为两个阶段,分别为Map和Reduce.对于上层应用来说,就要想办法去拆分算法,在上层应用实现多个Job串联,完成一个完整算法.例如:迭代计算 第二代:支持DAG框架的计算引擎,如Tez以及更上层的Oozie. 第三代:Spark为代表的计算引擎.特点是Job内部的DAG支持(不跨越Job),以及强调的实时计算. 第四代:Flink对流计算的支持,也可以支持Batch任务以及…
说明:本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz 新一代Flink计算引擎 (1) Flink概述 目前开源大数据计算引擎有很多的选择,比如流处理有Storm.Samza.Flink.Spark等,批处理有Spark.Hive.Pig.Flink等.既支持流处理又支持批处理的计算引擎只有Apache Flink和Apache Spark. 虽然Spar…
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz 1. Flink运行时架构 1.1Flink架构 Flink 运行时架构主要包含几个部分:Client.JobManager(master节点)和TaskManger(slave节点). Client:Flink 作业在哪台机器上面提交,那么当前机器称之为Client.用户开发的Program 代码,它会构建…
本文为<Flink大数据项目实战>学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz 1. 创建Flink项目及依赖管理 1.1创建Flink项目 官网创建Flink项目有两种方式: https://ci.apache.org/projects/flink/flink-docs-release-1.6/quickstart/java_api_quickstart.html 方式一: mvn a…