介绍

大概4月，Flink1.13就发布了，参加了Flink1.13 的Meetup，收获还是挺多，从大的方面讲就是FlingSql的改进和优化，资源调度管理方面的优化，以及流批一体Flink在运行时与DataStream API的优化，另外就是State backend 模块的优化，本篇文章既是当时做的笔记，又是在后续查阅官网等做的补充,

Flink 的一个主要目标取得了重要进展，即让流处理应用的使用像普通应用一样简单和自然。Flink 1.13 新引入的被动扩缩容使得流作业的扩缩容和其它应用一样简单，使用者仅需要修改并行度即可。

这个版本还包括一系列重要改动使使用者可以更好理解流作业的效能。当流作业的效能不及预期的时候，这些改动可以使使用者可以更好的分析原因。这些改动包括用于识别瓶颈节点的负载和反压视觉化、分析运算元热点程式码的 CPU 火焰图和分析 State Backend 状态的 State 存取效能指标

深入解读 Flink SQL 1.13

在刚刚发布的 1.13 版本中，Flink SQL 带来了许多新 feature 和功能提升，在这里围绕 Winddow TVF，时区支持，DataStream & Table API 交互，hive 兼容性提升，SQL Client 改进五个方面

flip-145 window tvf
- 完整关系代数表达
- 输入是一个关系，输出是一个关系
- 每个关系对应一个数据集
- cumulater window eg: 每10分钟一次统计uv,,结果准确，不会有跳变
- window 性能优化
  - 内存，切片，算子，迟到数据
  - benchmark 测试 2x提升
- 多维数据分析：grouping sets ,rollup,cube等
flip-162时区分析
- 时区问题：proctime未考虑时区，timestamp 也没有时区，各种current_time，now未考虑时区
- 时间函数：current_timestamp 返回utc+0
- 支持 tiestamp——ltz类型 timestamp vs timestamp_ltz
- 纠正proctime()函数
- 夏令时支持-同timestamp_ltz
flip-163 改进sql-client，hive兼容性
- 支持更多实用配置
- 支持statement set
flip-136 增强datastrem 和 table的转换
- 支持ds 和table转换时传递 event time 和 watermark
- 支持changelog数据流在table和datastream间相互转换

Flink 1.13: Towards Scalable Cloud Native Application

Flink 1.13 新增了被动资源管理模式与自适应调度模式，具备灵活的伸缩能力，与云原生的自动伸缩技术相结合，能够更好地发挥云环境下弹性计算资源的优势，是 Flink 全面拥抱云原生技术生态的又一重要里程碑。本次议题将对 Flink 1.13 中的被动资源管理、自适应调度、自定义容器模板等新特性，我觉得这个的扩展才是Flink此次版本特别重要的一个feature

云原生时代 flink，k8s,声明api，可弹性扩展
k8s高可用-（zk，k8s可选）
Rescale （reactive mode → adaptive mdoe → autoscaling mode(TBD，还未支持)）https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/elastic_scaling/
Flip-158 generalized incremental checkpoints 让checkpoint更短时间
Pod Template 自定义Pod模板支持
Fine-细粒度资源管理-featrue 大概1.14支持
纵向扩展资源和横向扩展资源，tm cpu → k8s, mem→no

面向流批一体的 Flink 运行时与 DataStream API 优化

在 1.13 中，针对流批一体的目标，Flink 优化了大规模作业调度以及批执行模式下网络 Shuffle 的性能，从而进一步提高了流作业与批作业的执行性能；同时，在 DataStream API 方面，Flink也正在完善有限流作业的退出语义，从而进一步提高不同执行模式下语义与结果的一致性

api下面的shuffle架构实现

有限作业和无限作业，和预期结果一致
大规模作业优化 consumerVetexGroup partitionGroup
有限流作业结束一致性，2pc
流批-数据回流
piplien and block-缓存主要是，离线处理

State backend Flink-1.13 优化及生产实践

统一savepoint 可以切换rocksdb
state-backend 内存管控，
checkpoint save point https://zhuanlan.zhihu.com/p/79526638
更快速的checkpoint & falover

flink1.14 的展望

删除legacy planner
完善window tvf
提升 schema handing
增强cdc

参考

参考部分：https://tw511.com/a/01/34869.html

吴邪，小三爷，混迹于后台，大数据，人工智能领域的小菜鸟。

更多请关注

大数据开发-Flink-1.13新特性的更多相关文章

BAT推荐免费下载JAVA转型大数据开发全链路教程（视频+源码）价值19880元
如今随着环境的改变,物联网.AI.大数据.人工智能等,是未来的大趋势,而大数据是这些基石,万物互联,机器学习都是大数据应用场景! 为什么要学习大数据?我们JAVA到底要不要转型大数据? 好比问一个程序 ...
Java转型大数据开发全套教程，都在这儿！
众所周知,很多语言技术已经在长久的历史发展中掩埋,这期间不同的程序员也走出的自己的发展道路. 有的去了解新的发展趋势的语言,了解新的技术,利用自己原先的思维顺利改变自己的title. 比如我自己,也都 ...
jdk 9 10 11 12 13 新特性
jdk 9 新特性 1.集合加强 jdk9 为所有集合(List/Set/Map)都增加了 of 和 copyOf 方法,用来创建不可变集合,即一旦创建就无法再执行添加.删除.替换.排序等操作,否则将 ...
大数据开发实战：HDFS和MapReduce优缺点分析
一. HDFS和MapReduce优缺点 1.HDFS的优势 HDFS的英文全称是 Hadoop Distributed File System,即Hadoop分布式文件系统,它是Hadoop的核心子 ...
详解Kafka: 大数据开发最火的核心技术
详解Kafka: 大数据开发最火的核心技术架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告大数据时代来临,如果你还不知道Kafka那你就真 ...
大数据开发-Flink-数据流DataStream和DataSet
Flink主要用来处理数据流,所以从抽象上来看就是对数据流的处理,正如前面大数据开发-Flink-体系结构 && 运行架构提到写Flink程序实际上就是在写DataSource.Tra ...
从 Airflow 到 Apache DolphinScheduler，有赞大数据开发平台的调度系统演进
点击上方蓝字关注我们作者 | 宋哲琦 ✎ 编者按在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人宋哲琦带来了平台调度系统 ...
Atitit 数据融合merge功能v3新特性.docx
Atitit 数据融合merge功能v3新特性.docx 1.1. 版本历史1 1.2. 生成sql结果1 1.3. 使用范例1 1.4. 核心代码1 1.1. 版本历史 V2增加了replace部分 ...
大数据开发实战：Stream SQL实时开发三
4.聚合操作 4.1.group by 操作 group by操作是实际业务场景(如实时报表.实时大屏等)中使用最为频繁的操作.通常实时聚合的主要源头数据流不会包含丰富的上下文信息,而是经常需要实时关 ...

随机推荐

kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析
作者:詹雪娇,腾讯云容器产品经理,目前主要负责腾讯云集群运维中心的产品工作. 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云TKE集群和运维中心开发工作. 引言降本增 ...
PAT (Basic Level) Practice （中文）1070 结绳 (25 分) 凌宸1642
PAT (Basic Level) Practice (中文)1070 结绳 (25 分) 凌宸1642 题目描述给定一段一段的绳子,你需要把它们串成一条绳.每次串连的时候,是把两段绳子对折,再如下 ...
Rancher 安装和使用-实践
Rancher 安装和使用 Rancher是一个完整的,开源的平台,用于在生产环境中部署和管理容器.它包括Kubernetes,Mesos和Docker Swarm的商业支持发行版,使得在任何基础架构 ...
Echarts4.x雷达图如何展示一维数据？
最近做的项目其中一个功能是画雷达图,鼠标滑过雷达图的拐点,展示该维相关数据,并且需要显示雷达图的刻度. 但是我发现单纯的雷达图似乎没办法展示一维数据. 我总结了一下,关于画雷达图,我遇到的难点有三个: ...
java io系列
java io系列01之 "目录" java io系列02之 ByteArrayInputStream的简介,源码分析和示例(包括InputStream) java io系列03之 ...
spieces-in-pieces动画编辑器
前言: 制作灵感来源于 http://species-in-pieces.com/ 这个网站,此网站作者是来自阿姆斯特丹的设计师 Bryan James,其借用纯CSS技术表现出30种濒危动物的碎片拼 ...
消息中间件-RabbitMQ持久化机制、内存磁盘控制
RabbitMQ持久化机制 RabbitMQ内存控制 RabbitMQ磁盘控制 RabbitMQ持久化机制重启之后没有持久化的消息会丢失 package com.study.rabbitmq.a13 ...
Spring Security OAuth2 实现登录互踢
背景说明一个账号只能一处登录,类似的业务需求在现有后管类系统是非常常见的. 但在原有的 spring security oauth2 令牌方法流程(所谓的登录)无法满足类似的需求. 我们先来看 To ...
ServletConfig和ServletContext接口
ServletConfig 在web.xml文件中使用一个或多个init-param元素进行配置后,Tomcat初始化Servlet时,都会将该Servlet的配置信息封装到一个ServletConf ...
有了CopyOnWrite为何又要有ReadWriteLock？
引言前文我们有介绍<看了CopyOnWriteArrayList后自己实现了一个CopyOnWriteHashMap> 关于CopyOnWrite容器的,但是它也有一些缺点: 内存占用问 ...

大数据开发-Flink-1.13新特性

介绍